Statistik mit DataLab

Sonntag, 10. November 2013

Kritische Grenzen

Eine Frage, die immer wieder für Verwirrung sorgt, ist die Art und Weise wie man bei statistischen Tests zu einer Entscheidung findet. Die einen schwören auf den Einsatz kritischer Grenzen, bei deren Über- bzw. Unterschreiten eine Nullhypothese abzulehnen ist, die anderen verwenden lieber den p-Wert, der sich aus der Testgröße ergibt.

Neulich hatte ich allerdings das sonderbare Vergnügen, einen Bericht zu lesen bei dem die Testgröße direkt mit dem Signifikanzniveau verglichen wurde, was dem "Paper" (so heißen Forschungsberichte auf Neuhochdeutsch) eine besondere Note verlieh, und der Erstellerin dank meiner Rückmeldung hoffentlich die Erkenntnis, dass man "größer" und "kleiner"-Zeichen nicht überall zur Anwendung bringen sollte.

Worum ging es: ein simpler Test auf Normalverteilung (Lilliefors) wurde durchgeführt, dabei ergaben sich folgende Werte:

Testgröße	LF = 0.2387
zugeordnete Irrtumswahrscheinlichkeit	p = 0.021
kritische Grenze für ein Signifikanzniveau von 0.05	0.2205

Die Autorin des Papers stellte fest, dass die Normalverteilungshypothese abgelehnt werden muss, da die Testgröße (0.2387) größer als 0.05 (das angenommene Signifikanzniveau) ist.

So was tut natürlich weh, da vergleicht einer Äpfel mit Birnen und zieht daraus dann messerscharf einen (zufällig richtigen) Schluss. Warum Äpfel und Birnen? Naja, die Testgröße ist ein Skalar, eine nichtssagende bloße Nummer, das Signifikanzniveau aber eine Wahrscheinlichkeit....

Also nochmals zum Mitschreiben: Entweder man vergleicht die Testgröße mit der kritischen Grenze, oder aber die errechnete Irrtumswahrscheinlichkeit mit dem Signifikanzniveau.

P.S.: Ich muss zugeben, dass das in DataLab nicht konsistent gelöst ist. Bei den Normalverteilungstests werden zwar die kritischen Grenzen angegeben, in der Handlungsanleitung wird aber der p-Wert verglichen. Bei den anderen Tests bezieht sich die Handlungsanleitung auf die Testgrößen und die zugeordneten kritischen Grenzen. Diese Inkonsistenz in der Handlungsanleitung mag gerade Anfänger verwirren, wir werden das ändern. Versprochen.

Montag, 7. Oktober 2013

Regression und Residuen

Haben Sie schon mal überlegt wie groß der Einfluss nicht normalverteilter Residuen auf das Ergebnis einer linearen Regression ist? Wenn nein, dann sollten Sie weiterlesen....

Um diese Frage auf sehr einfachem Niveau zu untersuchen, machen wir den folgenden experimentellen Ansatz: Man nehme 100 Datenpunkte x_i in regelmäßigem Abstand (z.B. Werte von 1 bis 100), setze diese in eine beliebige lineare Formel y=kx+d ein und addiere normalverteite Zufallszahlen, so dass man y-Werte bekommt, deren Zusammenhang zu x man kennt, die aber "verrauscht" sind, z.B.:

y_i = 5*x_i + 7 + 10*gauss

"gauss" ist eine Funktion die normalverteilte Zufallszahlen mit Mittelwert null und Standardabweichung 1 liefert. Auf die Wertepaare {x_i,y_i} wird nun die lineare Regression angewendet.

Klarerweise sollten sich dann als Parameter der Regression für k etwa 5 und für d etwa 7 ergeben, die Residuen entsprechen dann annähernd der Funktion 10*gauss. Bei diesem Experiment (nennen wir es "ideal") werden die Annahmen der Regression erfüllt, die Ergebnisse sollten sich also den "wirklichen" Werten annähern.

Nun wandeln wir das Experiment ab, in dem wir statt des Terms "10*gauss" einmal den Term "10*abs(gauss)" und einmal den Term 10*sqr(gauss) verwenden. In Worten: Wir erzeugen Residuen, die nicht symmetrisch sind, in dem wir einmal den Absolutwert der normalverteilten Zufallszahlen verwenden, und einmal das Quadrat dieser Zufallszahlen.

Die Ergebnisse der Regression sprechen eine klare Sprache:

Experiment	Steigung k	Offset d
ideal	5.027+/-0.036	6.11+/-2.07
abs	5.054+/-0.024	12.24+/-1.37
sqr	4.979+/-0.043	17.19+/-2.5

Während beim idealen Datensatz die Ergebnisse sehr gut mit der "Wirklichkeit" übereinstimmen, gibt des bei den Datensätzen "abs" und "sqr" deutliche Verschiebungen des Offsets d. Was man auch schön sieht, ist, dass das Vertrauensintervall des geschätzten Offsets nicht mehr den wirklichen Wert enthält. Das Ergebnis ist also tatsächlich falsch und nicht bloß "mit statistischen Abweichungen" behaftet.

Schlussfolgerung: Machen Sie genau das, was ich schon immer predige (Sie können gerne zu mir in die Vorlesung kommen um sich die Predigt anzuhören...): Das Wichtigste bei der Regression ist die Analyse der Residuen.

Sieht man sich die Verteilung der Residuen für die drei Experimente an, so schrillen beim geübten Statistiker sofort die Alarmglocken - die Residuen sind nämlich deutlich sichtbar nicht symmetrisch verteilt:

Die Residuenplots wurden mit DataLab gemacht. Falls Sie das Experiment selber durchführen möchten, können Sie die Daten aus dem Data Repository von DataLab laden (Datensatz "Residuen"). Die erste Spalte des Datensatzes enthält die x-Werte, die restlichen Spalten die jeweiligen y-Werte der drei Modelle.

Donnerstag, 29. August 2013

Standardabweichung der Residuen bei MLR

Haben Sie schon mal die Standardabweichung der Residuen bei einer MLR (multiplen linearen Regression) nachgerechnet? Wenn man das naiv (im besten Sinne des Wortes) macht, so nimmt man einfach die Residuen und berechnet daraus die Standardabweichung - fertig. Oder doch nicht?

Na ja, wenn ich schon so blöd frag, dann wird's wohl doch nicht ganz so einfach sein. Sieht man nämlich die naiv berechnete Standardabweichung der Residuen als Schätzwert für die wirkliche (aber unbekannte) Standardabweichung an, so kann man mit ein paar einfachen Experimenten feststellen, dass der naiv berechnete Wert "viel zu gut" ist; d.h. dieser Wert gaukelt ein Modell vor, das besser zu sein scheint als es tatsächlich ist.

Nun der Grund für die zu guten Werte liegt in der Tatsache, dass die mit dem MLR-Modell geschätzten y-Werte ja zumindest auf zwei (meist aber mehr) Deskriptoren beruhen (sonst wär's ja keine MLR). Und generell gilt, je mehr Deskriptoren ich habe, desto eher wird das MLR-Modell sich an die fehlerbehafteten Daten anpassen - und damit die Residuen künstlich verkleinern.

Möchte man also den "wahren" Wert der Residuen kennen, so ist bei der Berechnung eine Korrektur anzubringen, die die Zahl der Deskriptoren (p) berücksichtigt. Und genau das passiert bei einer korrekt berechneten MLR: Die Standardabweichung der Residuen ist eben nicht der naiv berechnete Wert, sondern einer der um den Faktor

größer ist (mit n = Zahl der Beobachtungen, p = Zahl der Deskriptoren).

Montag, 25. März 2013

"Focus" mag meinen Kommentar nicht

Haha! Die Redaktion von "Focus" ist ja ziemlich fix: Mein Versuch, einen Kommentar zu einem Zypern-Artikel anzubringen, wurde innerhalb weniger Minuten mit folgender Begründung abgelehnt:

Hallo Hans Lohninger,

Ihr Beitrag:

... und schon wieder ein Durchschnitt
Durchschnittliche Sparguthaben anzugeben (Zypern: 85000 EUR) ist aus der Sicht des Statistikers eine mehr als fragwürdige Angelegenheit. Sie erzeugen damit einen grob falschen Eindruck. Besser wäre der Median der Sparguthaben. Mehr dazu ist hier zu lesen: http://developing-datalab.blogspot.co.at/2013/03/durchschnittliches-sparguthaben-in.html

wurde von uns nach Prüfung durch einen Administrator nicht veröffentlicht.

Die Gründe, die zu dieser Entscheidung geführt haben können, entnehmen Sie bitte unserer Netiquette: http://www.focus.de/community/netiquette

Eine Erläuterung der Ablehnung ist aus personellen und zeitlichen Gründen nicht möglich.

Ihr FOCUS-Online-Administrationsteam

Bleibt nur noch die Frage, ob die Focus-Redaktion grundsätzlich nur Jubelmeldungen als Kommentar zulässt....