Statistik mit DataLab: statistische Tests

Posts mit dem Label statistische Tests werden angezeigt. Alle Posts anzeigen

Dienstag, 12. November 2013

Voraussetzungen von Tests

Kürzlich fragten mich einige Studierende, wie man einen Überblick zu den Voraussetzungen von statistischen Tests bekommt. Da dies in den "Grundlagen der Statistik" nirgends zusammengefasst ist, hier eine Liste der Voraussetzungen der wichtigsten stat. Tests:

Test	Voraussetzungen
1-Stichproben χ²-Test	Normalverteilung der Stichprobe
F-Test	Normalverteilung beider Stichproben
1-Stichproben t-Test	Normalverteilung der Stichprobe
2-Stichproben t-Test	Normalverteilung beider Stichproben gleiche Varianz der Stichproben
Differenzen t-Test	Normalverteilung der Differenzen
Mann-Whitney-U-Test	gleiche Verteilungsform der Stichproben
Shapiro-Wilk-Test	i.i.d.⁽¹⁾
Welch-Test	Normalverteilung beider Stichproben
einfaktorielle ANOVA	Normalverteilung aller Gruppen Gleichheit der Varianz aller Gruppen

Ich hoffe, das klärt vorerst die wichtigsten Fragen und ich werde diese Tabelle bei der nächsten Gelegenheit ins Lehrbuch einfügen.

⁽¹⁾i.i.d. = "independent and identically distributed" --> alle Beobachtungen sind unabhängig voneinander und stammen von der gleichen Verteilung

Sonntag, 10. November 2013

Kritische Grenzen

Eine Frage, die immer wieder für Verwirrung sorgt, ist die Art und Weise wie man bei statistischen Tests zu einer Entscheidung findet. Die einen schwören auf den Einsatz kritischer Grenzen, bei deren Über- bzw. Unterschreiten eine Nullhypothese abzulehnen ist, die anderen verwenden lieber den p-Wert, der sich aus der Testgröße ergibt.

Neulich hatte ich allerdings das sonderbare Vergnügen, einen Bericht zu lesen bei dem die Testgröße direkt mit dem Signifikanzniveau verglichen wurde, was dem "Paper" (so heißen Forschungsberichte auf Neuhochdeutsch) eine besondere Note verlieh, und der Erstellerin dank meiner Rückmeldung hoffentlich die Erkenntnis, dass man "größer" und "kleiner"-Zeichen nicht überall zur Anwendung bringen sollte.

Worum ging es: ein simpler Test auf Normalverteilung (Lilliefors) wurde durchgeführt, dabei ergaben sich folgende Werte:

Testgröße	LF = 0.2387
zugeordnete Irrtumswahrscheinlichkeit	p = 0.021
kritische Grenze für ein Signifikanzniveau von 0.05	0.2205

Die Autorin des Papers stellte fest, dass die Normalverteilungshypothese abgelehnt werden muss, da die Testgröße (0.2387) größer als 0.05 (das angenommene Signifikanzniveau) ist.

So was tut natürlich weh, da vergleicht einer Äpfel mit Birnen und zieht daraus dann messerscharf einen (zufällig richtigen) Schluss. Warum Äpfel und Birnen? Naja, die Testgröße ist ein Skalar, eine nichtssagende bloße Nummer, das Signifikanzniveau aber eine Wahrscheinlichkeit....

Also nochmals zum Mitschreiben: Entweder man vergleicht die Testgröße mit der kritischen Grenze, oder aber die errechnete Irrtumswahrscheinlichkeit mit dem Signifikanzniveau.

P.S.: Ich muss zugeben, dass das in DataLab nicht konsistent gelöst ist. Bei den Normalverteilungstests werden zwar die kritischen Grenzen angegeben, in der Handlungsanleitung wird aber der p-Wert verglichen. Bei den anderen Tests bezieht sich die Handlungsanleitung auf die Testgrößen und die zugeordneten kritischen Grenzen. Diese Inkonsistenz in der Handlungsanleitung mag gerade Anfänger verwirren, wir werden das ändern. Versprochen.

Dienstag, 27. November 2012

Reaktionszeit im Alko-Dusel

Haben Sie sich schon einmal gefragt, um wieviel langsamer Sie ein gepflegtes Bier macht? Die Verkehrsauguren meinen ja (völlig zurecht), dass man durch den Genuss von Alkohol fahruntauglich wird.

Da sagte neulich ein Bekannter zu mir (110 kg, ein Hühne), dass er ein Bier überhaupt nicht spüre und ein zweites eher für die innere Schönheit notwendig ist, und natürlich auch nicht wirkt. Mein bescheidener Körper ist da nicht mit solchen inneren Schönheiten ausgestattet - ich merke schon das erste Bier. Allerdings kann ich überhaupt nicht einschätzen, wie stark sich ein Bier tatsächlich auswirkt.

Wie es halt dem Wissenschafter geziemt, lässt sich diese Frage durch ein einfaches Experiment klären. Dazu habe ich ein kleines Programm zur Messung der Reaktionszeit geschrieben, bei dem man auf die Farbveränderung einer Fläche am Bildschirm durch einen Mausklick reagieren muss. Also los geht's mit der Messung, zuerst im nüchternen Zustand, dann - nach einer Flasche Gösser Zwickl - im Zustand innerer Schönheit.

Ergebnis: die Verlangsamung nach einem Bier lässt sich gerade noch nachweisen. Ab dem zweiten Bier wird sich der Effekt vermutlich schon ganz deutlich zeigen; den Test wollt ich dann aber nicht machen, da das dann doch zu viel der inneren Schönheit gewesen wäre.

Für die Statistik-Freaks nun die Details, hier sind die Daten (dabei wurde jeweils 50 bzw. 51 mal die Reaktionszeit auf den Farbumschlag von weiß auf rot gemessen):

Reaktionszeiten nüchtern [msec]
259, 299, 238, 242, 261, 258, 355, 
257, 275, 269, 265, 343, 230, 247, 
290, 287, 230, 245, 267, 348, 287,
287, 318, 249, 279, 273, 278, 233, 
411, 268, 347, 250, 289, 272, 349, 
305, 349, 252, 373, 403, 396, 258, 
300, 293, 258, 446, 288, 304, 272, 
279

Reaktionszeiten nach einem Bier [msec]
375, 324, 268, 512, 233, 274, 358, 
249, 255, 249, 556, 274, 453, 335, 
307, 361, 506, 297, 275, 271, 290, 
328, 279, 267, 351, 246, 263, 282, 
276, 310, 469, 274, 328, 454, 286, 
440, 323, 249, 252, 360, 433, 274, 
421, 419, 387, 248, 272, 289, 290,
311, 241

Was man an den Daten sofort sieht, ist, dass sie ganz offensichtlich nicht normalverteilt sind, der Shapiro-Wilk-Test liefert dann dazu auch noch die handfesten Zahlen - also nichts mit t-Test zum Vergleich der Reaktionszeiten, es drängt sich der Mann-Whitney-U-Test auf. Der Vorteil des U-Tests ist, dass er nahezu keine Voraussetzungen verlangt - ein Test für alle Lebenslagen, aber auch ein wenig geringer in der Trennschärfe.

Die Ergebnisse im Detail sprechen für sich. Der Mittelwert der Reaktionszeiten im nüchternen Zustand ist um rund 33 msec niedriger als nach einem Bier, die Standardabweichung der Reaktionszeiten ist nach einem Bier deutlich höher, was darauf hindeutet, dass man nach einem Bier nicht nur langsamer wird, sondern auch unkonzentrierter (die Ergebnisse schwanken mehr).

Daten des Blocks A (nüchtern):
      Zahl der Daten: 50
          Mittelwert: 292.62000
        Standardabw.: 50.54999

Daten des Blocks B (nach 1 Bier):
      Zahl der Daten: 51
          Mittelwert: 326.35294
        Standardabw.: 80.74003

Wendet man nun den U-Test auf die Daten an, dann kann man auf einem Signifikanzniveau von 0.05 (95%ige Sicherheit) die Nullhypothese, dass sich die beiden Verteilungen nicht unterscheiden, ablehnen. Das Ergebnis ist zwar knapp, aber doch eindeutig (U-Wert 969.5, kritische Grenze für das angegebene Signifikanzniveau 986; die Nullhypothese ist abzulehnen, wenn der U-Wert kleiner als die kritische Grenze ist).

.... bleiben noch ein paar nachdenkliche Fragen: wie weit fährt ein Auto mit 100 km/h in 33 msec? Und wie ist das mit dem vermehrt auftretenden "Sekundenschlaf" unter Alkoholeinfluss? Die Antworten lassen sich wohl so zusammenfassen: don't drink and drive.....

Donnerstag, 15. November 2012

(Un)gleichheit...

Letztens fragte mich eine Studierende wieso in DataLab keine Tests auf Gleichheit von Mittelwerten eingebaut sind - man kann ja mit den üblichen Tests immer nur die Annahme der Gleichheit von Mittelwerten widerlegen, nie aber bestätigen. Sie erkannte darin einen schweren Mangel von DataLab und meinte, dass das Fehlen solch elementarer Tests wohl nicht verkaufsförderlich sei. Nun, statistisch gesehen eine interessante Frage - ob sich daraus allerdings Konsequenzen kommerzieller Natur ableiten lassen, wollen wir lieber den Marketingexperten überlassen (die werden schon einen passenden Spruch finden, damit der Blähbauch nicht zu groß wird).

Ich möchte die Antwort auf den statistischen Teil der Frage durch ein einfaches Beispiel illustrieren: Angenommen, wir möchten mit einem statistischen Test nachweisen, dass ein Mittelwert θ signifikant gleich einem vorgegebenen Wert θ₀ ist. Nach der üblichen Vorgangsweise bei statistischen Tests müsste man dazu als Nullhypothese das Gegenteil behaupten (H₀: "der Mittelwert ist nicht gleich θ₀"). Bei einer Ablehnung dieser H₀ wüsste man dann, dass der Mittelwert mit 100*(1-α)%iger Sicherheit gleich dem vorgegebenen Wert ist (wobei α das Signifikanzniveau ist).

So weit so gut. Das Problem ist nur, dass man keinen statistischer Test konstruieren kann, der zu einer direkten Ablehnung dieser Nullhypothese führt, da ja "nicht gleich" bedeuten kann, dass der Mittelwert sich nur ganz wenig unterscheidet (z.B. um ein Prozent abweicht), oder aber ganz enorm abweicht (z.B. um den Faktor 10 größer ist). So lange ich nicht festlege, was ich unter Ungleichheit verstehe, werde ich keine fundierte Entscheidung bzgl. H₀ treffen können (= H₀ auf einem bestimmten Signifikanzniveau ablehnen).

Um korrekt vorzugehen, muss ich also einen sogenannten Äquivalenzbereich definieren [ε₁, ε₂], innerhalb dessen ich etwaige Unterschiede als irrelevant betrachte. Für meine Null- bzw. Alternativhypothese gelten somit die Formulierungen:

H₀:	θ ≤ ε₁ oder θ ≥ ε₂
H₁:	ε₁ < θ < ε₂

Man führt also den Test auf Ungleichheit auf zwei einseitige Tests zurück und lehnt die oben formulierte Nullhypothese ab, falls beide Teiltests zu einer Ablehnung ihrer jeweiligen Nullhypothese führen.

Das bedeutet aber, dass ich (1) ohne vorherige Festlegung des Äquivalenzbereich, also ohne Festlegung, wie Ungleichheit definiert ist, keinen Test auf Gleichheit durchführen kann, und (2) bei zu kleinem Äquivalenzbereich ich nie eine Ablehnung der Nullhypothese bekommen werde. Wie groß der Äquivalenzbereich mindestens sein muss, hängt vom Signifikanzniveau und von der Zahl der Beobachtungen ab.

Zurück zur eingangs erwähnten Studierenden: Abgesehen davon, dass in DataLab natürlich einseitige Tests eingebaut sind und man auf diese Weise den Äquivalenztest durchführen kann - vielleicht sollte ich doch einen direkten Äquivalenztest in DataLab implementieren, mal sehen, ob das dann der Hit des Jahres wird und ich als kommerzielle Konsequenz daraus alle Studierenden des Jahrgangs auf ein Bier einladen kann (;-)

Donnerstag, 4. Oktober 2012

Raucher bitte tief durchatmen!

Nachdem wir uns bei der ersten Analyse der Staubmessungen in der Wiener U-Bahn über mögliche Ausreißer klar geworden sind und diese aus den Daten entfernt haben, möchte ich noch eine Frage nachschieben, die wir mit statistischen Mitteln beantworten wollen: Ist die Staubbelastung in den Stationsgebäuden U2 und U3 beim Volkstheater tatsächlich unterschiedlich?

Dazu wählen wir mal jeweils eine 5-minütige Phase während des Aufenthalts in den Stationsgebäuden U2 und U3 aus. Die Daten dazu finden sich unten, die Angaben beziehen sich auf den lungengängigen Staub, der in mg/m³ angegeben ist. Die jeweils 11 Messungen wurden mit 30 Sekunden Abstand gemessen.

Nun, bei einem Blick auf die Daten "sieht ja ein Blinder", dass die Werte in der U2 und in der U3 deutlich unterschiedlich sind. Aber lässt sich dieser Standpunkt auch vertreten, wenn z.B. ein Politiker (und davon gibt es in Wien überproportional viele) das genaue Gegenteil behauptet? Könnte es nicht sein, dass die Unterschiede zufälligt bedingt sind?

Um hier eine profunde Antwort zu geben, starten wir DataLab und laden die Daten in das Programm (Anleitung und Daten, siehe unten). Nehmen wir an, dass die Messungen der beiden Stationsgebäude unabhängig voneinander sind (sonst müsste ein kräftiger Wind die Luft von einer Station in die andere transportieren - ein Wind war aber während der Messungen nicht wahrnehmbar). Damit können wir die beiden Stichproben durch einen t-Test vergleichen. Voraussetzung für den 2-Stichproben-t-Test ist aber, dass die Stichproben jeweils normalverteilt und die Varianzen gleich sind.

Also führen wir vor dem t-Test einen Normalverteilungstest durch (z.B. den Shapiro-Wilk-Test). Dazu werden die beiden Stichproben jeweils rot und blau markiert und dann der Test durchgeführt. Für keine der beiden Stichproben wird die Nullhypothese (nämlich, dass sie normalverteilt sind) abgelehnt, also testen wir im nächsten Schritt mit dem F-Test auf Varianzgleichheit. Auch hier gibt es keine Ablehnung der Nullhypothese (p=0.07) also können wir im nächsten und letzten Schritt mit gutem Gewissen den t-Test anwenden.

Der t-Test ergibt nun mit sehr hoher statistischer Sicherheit (p < 10^-4 entspricht einer Sicherheit besser als 99.99%), dass die beiden Stichproben unterschiedlich sind. Wir können also mit Fug und Recht behaupten, dass die Luft in der U3-Station hoch signifikant schlechter ist als in der U2-Station. Also, liebe Wiener Nichtraucher, haltet die Luft an, wenn ihr mit der U3 fährt und in der Station Volkstheater aussteigt; Raucher dagegen dürfen und sollen tief durchatmen, denn so reine Luft bekommen sie nur bis zum Anzünden des nächsten Glimmstengels - alles ist relativ....

Die folgenden Daten können leicht durch "Copy and Paste" in DataLab geladen werden. Dazu kopieren Sie alle Zeilen zwischen den Trennstrichen in die Windows-Zwischenablage, wechseln dann zu DataLab und rufen den Befehl Datei/Laden/ASC Daten in Zwischenablage auf.

Lungenaktive Feinstaubfraktion U2/U3, Werte in mg/m3
2
11
FALSE TRUE FALSE FALSE
RESP-U2  RESP-U3
0.036    0.064
0.040    0.063
0.034    0.064
0.040    0.062
0.038    0.066
0.042    0.054
0.043    0.050
0.039    0.053
0.039    0.056
0.037    0.058
0.046    0.063

Statistik mit DataLab