Freitag, 30. November 2012

Regression bei niedriger Korrelation

Gestern stellte mir jemand die Frage, ob es sinnvoll ist, eine Regression zwischen x und y zu berechnen, obwohl der Pearson'sche Korrelationskoeffizient nahezu null ist. Der Fragesteller wollte eigentlich nur eine Bestätigung seiner Ansicht, dass es keinen Sinn macht, in diesem Fall eine Regression zu berechnen.

Meine Antwort gefiel dann weniger, sie hörte sich nämlich ziemlich opportunistisch an: "Es kommt darauf an...".

Also zu den Details: Wenn man davon ausgeht, dass mit Regression die simple Anpassung einer Geraden an die Messpunkte gemeint ist, dann ist die Antwort genau im Sinne des Fragenstellers - also sinnlos sich weiter anzustrengen, die Regression wird einfach abgeblasen.

Manche Zeitgenossen neigen nun dazu (und dazu gehört meine Wenigkeit), sich Gegenargumente zurecht zu legen und womöglich Beispiele zu finden, die eine verallgemeinerte Ansicht widerlegen können; und erst wenn sich auch nach langem und angestrengtem Grübeln kein Gegenbeispiel finden lässt, geht man davon aus, dass "es keinen Grund zur Ablehnung dieser Ansicht gibt" (wem diese Formulierung bekannt vorkommt, der hat schon mal einen Stein im Brett des Statistikers).

Im speziellen Fall ist allerdings das Gegenbeispiel dann auch schnell gefunden. Fasst man nämlich ins Auge, dass mit Regression z.B. auch ein Polynom n-ten Grades an gegebene Daten angepasst werden kann, dann sieht die Situation schon ganz anders aus. Die folgende Abbildung zeigt ein klassisches Beispiel. Der Korrelationskoeffizient für diese Daten ist praktisch null (genau genommen 0.08, was sich aber nicht signifikant von null unterscheidet), und es lässt sich dennoch eine wunderbare Regression berechnen (nämlich eine parabolische, siehe die rote Kurve).

Die Erklärung für das eigentümliche Verhalten - keine Korrelation aber dennoch eine wunderbare Regression - liegt in der simplen Tatsache, dass der Pearson'sche Korrelationskoeffizient einen geradlinigen Zusammenhang voraussetzt.

...also es kommt halt darauf an (sagte ich ja ;-).

Dienstag, 27. November 2012

Reaktionszeit im Alko-Dusel

Haben Sie sich schon einmal gefragt, um wieviel langsamer Sie ein gepflegtes Bier macht? Die Verkehrsauguren meinen ja (völlig zurecht), dass man durch den Genuss von Alkohol fahruntauglich wird.

Da sagte neulich ein Bekannter zu mir (110 kg, ein Hühne), dass er ein Bier überhaupt nicht spüre und ein zweites eher für die innere Schönheit notwendig ist, und natürlich auch nicht wirkt. Mein bescheidener Körper ist da nicht mit solchen inneren Schönheiten ausgestattet - ich merke schon das erste Bier. Allerdings kann ich überhaupt nicht einschätzen, wie stark sich ein Bier tatsächlich auswirkt.

Wie es halt dem Wissenschafter geziemt, lässt sich diese Frage durch ein einfaches Experiment klären. Dazu habe ich ein kleines Programm zur Messung der Reaktionszeit geschrieben, bei dem man auf die Farbveränderung einer Fläche am Bildschirm durch einen Mausklick reagieren muss. Also los geht's mit der Messung, zuerst im nüchternen Zustand, dann - nach einer Flasche Gösser Zwickl - im Zustand innerer Schönheit.

Ergebnis: die Verlangsamung nach einem Bier lässt sich gerade noch nachweisen. Ab dem zweiten Bier wird sich der Effekt vermutlich schon ganz deutlich zeigen; den Test wollt ich dann aber nicht machen, da das dann doch zu viel der inneren Schönheit gewesen wäre.

Für die Statistik-Freaks nun die Details, hier sind die Daten (dabei wurde jeweils 50 bzw. 51 mal die Reaktionszeit auf den Farbumschlag von weiß auf rot gemessen):

Reaktionszeiten nüchtern [msec]
259, 299, 238, 242, 261, 258, 355, 
257, 275, 269, 265, 343, 230, 247, 
290, 287, 230, 245, 267, 348, 287,
287, 318, 249, 279, 273, 278, 233, 
411, 268, 347, 250, 289, 272, 349, 
305, 349, 252, 373, 403, 396, 258, 
300, 293, 258, 446, 288, 304, 272, 
279

Reaktionszeiten nach einem Bier [msec]
375, 324, 268, 512, 233, 274, 358, 
249, 255, 249, 556, 274, 453, 335, 
307, 361, 506, 297, 275, 271, 290, 
328, 279, 267, 351, 246, 263, 282, 
276, 310, 469, 274, 328, 454, 286, 
440, 323, 249, 252, 360, 433, 274, 
421, 419, 387, 248, 272, 289, 290,
311, 241
Was man an den Daten sofort sieht, ist, dass sie ganz offensichtlich nicht normalverteilt sind, der Shapiro-Wilk-Test liefert dann dazu auch noch die handfesten Zahlen - also nichts mit t-Test zum Vergleich der Reaktionszeiten, es drängt sich der Mann-Whitney-U-Test auf. Der Vorteil des U-Tests ist, dass er nahezu keine Voraussetzungen verlangt - ein Test für alle Lebenslagen, aber auch ein wenig geringer in der Trennschärfe.

Die Ergebnisse im Detail sprechen für sich. Der Mittelwert der Reaktionszeiten im nüchternen Zustand ist um rund 33 msec niedriger als nach einem Bier, die Standardabweichung der Reaktionszeiten ist nach einem Bier deutlich höher, was darauf hindeutet, dass man nach einem Bier nicht nur langsamer wird, sondern auch unkonzentrierter (die Ergebnisse schwanken mehr).

Daten des Blocks A (nüchtern):
      Zahl der Daten: 50
          Mittelwert: 292.62000
        Standardabw.: 50.54999

Daten des Blocks B (nach 1 Bier):
      Zahl der Daten: 51
          Mittelwert: 326.35294
        Standardabw.: 80.74003
Wendet man nun den U-Test auf die Daten an, dann kann man auf einem Signifikanzniveau von 0.05 (95%ige Sicherheit) die Nullhypothese, dass sich die beiden Verteilungen nicht unterscheiden, ablehnen. Das Ergebnis ist zwar knapp, aber doch eindeutig (U-Wert 969.5, kritische Grenze für das angegebene Signifikanzniveau 986; die Nullhypothese ist abzulehnen, wenn der U-Wert kleiner als die kritische Grenze ist).

.... bleiben noch ein paar nachdenkliche Fragen: wie weit fährt ein Auto mit 100 km/h in 33 msec? Und wie ist das mit dem vermehrt auftretenden "Sekundenschlaf" unter Alkoholeinfluss? Die Antworten lassen sich wohl so zusammenfassen: don't drink and drive.....

Donnerstag, 15. November 2012

(Un)gleichheit...

Letztens fragte mich eine Studierende wieso in DataLab keine Tests auf Gleichheit von Mittelwerten eingebaut sind - man kann ja mit den üblichen Tests immer nur die Annahme der Gleichheit von Mittelwerten widerlegen, nie aber bestätigen. Sie erkannte darin einen schweren Mangel von DataLab und meinte, dass das Fehlen solch elementarer Tests wohl nicht verkaufsförderlich sei. Nun, statistisch gesehen eine interessante Frage - ob sich daraus allerdings Konsequenzen kommerzieller Natur ableiten lassen, wollen wir lieber den Marketingexperten überlassen (die werden schon einen passenden Spruch finden, damit der Blähbauch nicht zu groß wird).

Ich möchte die Antwort auf den statistischen Teil der Frage durch ein einfaches Beispiel illustrieren: Angenommen, wir möchten mit einem statistischen Test nachweisen, dass ein Mittelwert θ signifikant gleich einem vorgegebenen Wert θ0 ist. Nach der üblichen Vorgangsweise bei statistischen Tests müsste man dazu als Nullhypothese das Gegenteil behaupten (H0: "der Mittelwert ist nicht gleich θ0"). Bei einer Ablehnung dieser H0 wüsste man dann, dass der Mittelwert mit 100*(1-α)%iger Sicherheit gleich dem vorgegebenen Wert ist (wobei α das Signifikanzniveau ist).

So weit so gut. Das Problem ist nur, dass man keinen statistischer Test konstruieren kann, der zu einer direkten Ablehnung dieser Nullhypothese führt, da ja "nicht gleich" bedeuten kann, dass der Mittelwert sich nur ganz wenig unterscheidet (z.B. um ein Prozent abweicht), oder aber ganz enorm abweicht (z.B. um den Faktor 10 größer ist). So lange ich nicht festlege, was ich unter Ungleichheit verstehe, werde ich keine fundierte Entscheidung bzgl. H0 treffen können (= H0 auf einem bestimmten Signifikanzniveau ablehnen).

Um korrekt vorzugehen, muss ich also einen sogenannten Äquivalenzbereich definieren [ε1, ε2], innerhalb dessen ich etwaige Unterschiede als irrelevant betrachte. Für meine Null- bzw. Alternativhypothese gelten somit die Formulierungen:

H0: θ ≤ ε1 oder θ ≥ ε2
H1: ε1 < θ < ε2

Man führt also den Test auf Ungleichheit auf zwei einseitige Tests zurück und lehnt die oben formulierte Nullhypothese ab, falls beide Teiltests zu einer Ablehnung ihrer jeweiligen Nullhypothese führen.

Das bedeutet aber, dass ich (1) ohne vorherige Festlegung des Äquivalenzbereich, also ohne Festlegung, wie Ungleichheit definiert ist, keinen Test auf Gleichheit durchführen kann, und (2) bei zu kleinem Äquivalenzbereich ich nie eine Ablehnung der Nullhypothese bekommen werde. Wie groß der Äquivalenzbereich mindestens sein muss, hängt vom Signifikanzniveau und von der Zahl der Beobachtungen ab.

Zurück zur eingangs erwähnten Studierenden: Abgesehen davon, dass in DataLab natürlich einseitige Tests eingebaut sind und man auf diese Weise den Äquivalenztest durchführen kann - vielleicht sollte ich doch einen direkten Äquivalenztest in DataLab implementieren, mal sehen, ob das dann der Hit des Jahres wird und ich als kommerzielle Konsequenz daraus alle Studierenden des Jahrgangs auf ein Bier einladen kann (;-)

Montag, 12. November 2012

Buchstabensalat

Ich weiß nicht, wie es anderen Leuten geht; aber wenn ich zu viel (öde) Arbeit habe, dann neige ich dazu, mir mal zwischendurch ein "Spielchen" zu genehmigen. Und am Wochenende war's mal wieder soweit. Die Zahl der zu verbessernden Übungen aus dem Biostatistik-Kurs stieg gegen gefühlte Unendlich - ein schier unüberwindlicher Haufen von Protokollen und Emails. Also was liegt näher, als sich mal kurz aus der Schlacht zu nehmen.

Idee zum Spielchen: Ermittle alle Zwei-Buchstaben-Kombinationen in beliebigen Texten und zähle sie. Die Häufigkeiten der Buchstabenkombinationen werden dann zur statistischen Analyse dieser Texte verwendet.... So weit die Idee. Nun zur Verwirklichung: Da ich seit geraumer Zeit an mehreren eBooks schreibe, und zwei davon inhaltlich praktisch ident sind, das eine in Deutsch das andere in Englisch, wollte ich mal wissen, ob man auf diesem sehr banalen Weg die beiden Ebooks unterscheiden kann.

Also schrieb ich ein kleines 100-Zeilen-Programm, das die Seiten der beiden eBooks (je 527 Seiten) in diese Zweier-Kombinationen aufspaltet. Von den so erhaltenen 676 Variablen (26x26 Buchstaben, Ziffern, Sonderzeichen und Umlaute wurden ignoriert) habe ich mit Hilfe von DataLab jene 180 Variablen ausgewählt, die die höchsten Häufigkeiten aufweisen. Der reduzierte Variablensatz wurde dann einer Hauptkomponentenanalyse unterworfen. Das Ergebnis war zwar erwartbar, ist aber doch auch interessant:

Hauptkomponentenanalyse der zwei eBooks. Texte der englischen Ausgabe sind blau, die Texte der deutschen Auflage rot eingefärbt.

Man kann in erster Näherung drei Effekte erkennen: (1) deutsche und englische Texte lassen sich sehr gut unterscheiden, (2) im roten, deutschsprachigen Bereich gibt es rund 15 blaue Markierungen. Das sind deutschsprachige Texte im englischen Buch; diese Texte wurden aus der deutschen Version in die englische Version kopiert aber noch nicht übersetzt. (3) Die beiden kleineren Cluster unterhalb der beiden Hauptcluster rühren von speziellen Seiten her, die sehr stark formalisiert sind und keine freien Formulierungen enthalten (es handelt sich um rund 90 Texte eines Wizzards zur Auswahl geeigneter statistischer Tests).

Wer selber mit dem Datensatz experimentieren möchte, findet den vollständigen Datensatz im DataLab-Repository unter dem Titel "Linguistische Textanalyse" (allerdings kann der Datensatz nur mit der registrierten Version von DataLab geladen werden, für die kostenlose Version ist er zu groß).

Übrigens: Den eingangs erwähnten unüberwindlichen Haufen an Übungsprotokollen habe ich dann natürlich auch noch fertig abgearbeitet - was dem Sonntag einen speziellen Touch gab ("am siebten Tag sollst du ruhen...").

Dienstag, 6. November 2012

US Wahlen und Austrogehirne

Irgendwie drängt sich der Eindruck auf, dass die Hysterie um die US-amerikanische Präsidentschaftswahl, das Gehirn so manchen Redakteurs schwer beeinträchtigt. Wer's nicht glaubt, kann ja mal die Nachrichtenzusammenfassung am Ende des Morgenjournals im österreichischen Rundfunk am 6.11.2012 um ca. 8h12 nachhören (in der ORF-Radiothek). Zitat:
"Bei den heutigen Präsidentenwahlen in den USA zeichnet sich ein Kopf-an-Kopfrennen ab, wie sich auch am Beispiel eines kleinen Dorfes im nordöstlichen New Hampshire zeigt. In Dixville Notch haben etwa die wenigen Einwohner bereits gewählt, dabei hat es erstmals in der Geschichte ein Patt gegeben. 5 Stimmen für Amtsinhaber Barack Obama, und ebenfalls 5 Stimmen für Mitt Romney. 5 zu 5, ein weiterer Indikator für das extrem knappe Rennen bei der diesjährigen Wahl."
Das nenne ich eine valide Vorhersage des Wahlausgangs und einen Super-Indikator! Bravo ORF, für solche Meldungen zahle ich wirklich gerne meine Gebühren. Und damit ich die geringen ORF-Gebühren nicht überstrapaziere, möchte ich eine eingehendere statistische Diskussion dieser genialen Meldung nicht weiter verfolgen.... schade um den Strom, den die Ausstrahlung dieses "Beitrags" verbraucht hat.

P.S.: Frage an die Statistiker: Wie groß ist das Konfidenzintervall für eine Hochrechnung aus diesem Ergebnis, wenn man bedenkt, dass die paar Bewohner sich vielleicht abgesprochen haben???