Statistik mit DataLab: Residuen

Posts mit dem Label Residuen werden angezeigt. Alle Posts anzeigen

Montag, 9. Dezember 2013

Ausreißer bei der Regression, Teil 2

Nach dem ich die Antwort auf die Fragen 2 und 3 noch schuldig geblieben bin, hier nun die weiteren Betrachtungen zum Umgang mit Ausreißern bei der Regression....

Wie war nochmal Frage 2? - Soll man die Residuen auf Ausreißer überprüfen?

Antwort: Ja, unbedingt!!!

Das "ja unbedingt" ist genau so gemeint. Man darf einfach keine Regression berechnen, ohne auf die Residuen zu schauen, und im speziellen Fall auf Ausreißer zu untersuchen.

Wobei, auf Ausreißer untersuchen, nicht unbedingt heißt einen Ausreißertest durchzuführen. Ich persönlich neige eher dazu, den Ausreißertest durch Hinsehen zu machen. Der Hintergedanke dazu ist, dass unser Gehirn extrem gut Muster erkennen kann, und speziell Ausreißer werden sehr gut erkannt. Das mag wohl damit zusammenhängen, dass die Erkennung ungewöhnlicher Umstände überlebenswichtig ist und dadurch die Evolution so gesteuert wurde, dass sich diese Eigenschaft sehr gut entwickeln konnte.

Hinsehen hat aber noch einen anderen Vorteil, der sich erst beim zweiten Nachdenken erschließt. Und damit sind wir schon bei der Frage 3: Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort: Ja, das kann sein.

Nun, dazu ein Beispiel: Nehmen wir an, wir hätten einen Datensatz, der sich gut mit einer linearen Regression modellieren lässt. Allerdings stört ein weit außen liegender Ausreisser durch den Hebeleffelt so stark, dass die Regressionslinie kippt und in die falsche Richtung geht (Abbildng links). Zeichnet man dazu den Residuenplot (Abb. rechts), so sieht man den Ausreißer natürlich ganz klar (was ja nicht verwunderlich ist). Allerdings, wenn man auf die Residuen einen Ausreißertest anwendet, so wird der Ausreisser nicht erkannt. Der Grund dafür ist im Hebeleffekt zu suchen. Durch das Kippen der Regressionskurve, rückt der Ausreißer so nahe an die anderen Punkte heran, dass er nicht mehr erkannt werden kann.

Ein Ausreißertest untersucht die Residuen ja unabhängig von x, so dass man die Residuen, streng genommen, nur als Punkteplot auftragen sollte (rechte Abbildung unten). Aus dem Punkteplot wird auch unmittelbar klar, dass ein Ausreissertest den roten Punkt (der der Ausreisser ist) nicht als Ausreisser erkennen kann.

Montag, 7. Oktober 2013

Regression und Residuen

Haben Sie schon mal überlegt wie groß der Einfluss nicht normalverteilter Residuen auf das Ergebnis einer linearen Regression ist? Wenn nein, dann sollten Sie weiterlesen....

Um diese Frage auf sehr einfachem Niveau zu untersuchen, machen wir den folgenden experimentellen Ansatz: Man nehme 100 Datenpunkte x_i in regelmäßigem Abstand (z.B. Werte von 1 bis 100), setze diese in eine beliebige lineare Formel y=kx+d ein und addiere normalverteite Zufallszahlen, so dass man y-Werte bekommt, deren Zusammenhang zu x man kennt, die aber "verrauscht" sind, z.B.:

y_i = 5*x_i + 7 + 10*gauss

"gauss" ist eine Funktion die normalverteilte Zufallszahlen mit Mittelwert null und Standardabweichung 1 liefert. Auf die Wertepaare {x_i,y_i} wird nun die lineare Regression angewendet.

Klarerweise sollten sich dann als Parameter der Regression für k etwa 5 und für d etwa 7 ergeben, die Residuen entsprechen dann annähernd der Funktion 10*gauss. Bei diesem Experiment (nennen wir es "ideal") werden die Annahmen der Regression erfüllt, die Ergebnisse sollten sich also den "wirklichen" Werten annähern.

Nun wandeln wir das Experiment ab, in dem wir statt des Terms "10*gauss" einmal den Term "10*abs(gauss)" und einmal den Term 10*sqr(gauss) verwenden. In Worten: Wir erzeugen Residuen, die nicht symmetrisch sind, in dem wir einmal den Absolutwert der normalverteilten Zufallszahlen verwenden, und einmal das Quadrat dieser Zufallszahlen.

Die Ergebnisse der Regression sprechen eine klare Sprache:

Experiment	Steigung k	Offset d
ideal	5.027+/-0.036	6.11+/-2.07
abs	5.054+/-0.024	12.24+/-1.37
sqr	4.979+/-0.043	17.19+/-2.5

Während beim idealen Datensatz die Ergebnisse sehr gut mit der "Wirklichkeit" übereinstimmen, gibt des bei den Datensätzen "abs" und "sqr" deutliche Verschiebungen des Offsets d. Was man auch schön sieht, ist, dass das Vertrauensintervall des geschätzten Offsets nicht mehr den wirklichen Wert enthält. Das Ergebnis ist also tatsächlich falsch und nicht bloß "mit statistischen Abweichungen" behaftet.

Schlussfolgerung: Machen Sie genau das, was ich schon immer predige (Sie können gerne zu mir in die Vorlesung kommen um sich die Predigt anzuhören...): Das Wichtigste bei der Regression ist die Analyse der Residuen.

Sieht man sich die Verteilung der Residuen für die drei Experimente an, so schrillen beim geübten Statistiker sofort die Alarmglocken - die Residuen sind nämlich deutlich sichtbar nicht symmetrisch verteilt:

Die Residuenplots wurden mit DataLab gemacht. Falls Sie das Experiment selber durchführen möchten, können Sie die Daten aus dem Data Repository von DataLab laden (Datensatz "Residuen"). Die erste Spalte des Datensatzes enthält die x-Werte, die restlichen Spalten die jeweiligen y-Werte der drei Modelle.

Donnerstag, 29. August 2013

Standardabweichung der Residuen bei MLR

Haben Sie schon mal die Standardabweichung der Residuen bei einer MLR (multiplen linearen Regression) nachgerechnet? Wenn man das naiv (im besten Sinne des Wortes) macht, so nimmt man einfach die Residuen und berechnet daraus die Standardabweichung - fertig. Oder doch nicht?

Na ja, wenn ich schon so blöd frag, dann wird's wohl doch nicht ganz so einfach sein. Sieht man nämlich die naiv berechnete Standardabweichung der Residuen als Schätzwert für die wirkliche (aber unbekannte) Standardabweichung an, so kann man mit ein paar einfachen Experimenten feststellen, dass der naiv berechnete Wert "viel zu gut" ist; d.h. dieser Wert gaukelt ein Modell vor, das besser zu sein scheint als es tatsächlich ist.

Nun der Grund für die zu guten Werte liegt in der Tatsache, dass die mit dem MLR-Modell geschätzten y-Werte ja zumindest auf zwei (meist aber mehr) Deskriptoren beruhen (sonst wär's ja keine MLR). Und generell gilt, je mehr Deskriptoren ich habe, desto eher wird das MLR-Modell sich an die fehlerbehafteten Daten anpassen - und damit die Residuen künstlich verkleinern.

Möchte man also den "wahren" Wert der Residuen kennen, so ist bei der Berechnung eine Korrektur anzubringen, die die Zahl der Deskriptoren (p) berücksichtigt. Und genau das passiert bei einer korrekt berechneten MLR: Die Standardabweichung der Residuen ist eben nicht der naiv berechnete Wert, sondern einer der um den Faktor

größer ist (mit n = Zahl der Beobachtungen, p = Zahl der Deskriptoren).

Statistik mit DataLab