Montag, 7. Oktober 2013

Regression und Residuen

Haben Sie schon mal überlegt wie groß der Einfluss nicht normalverteilter Residuen auf das Ergebnis einer linearen Regression ist? Wenn nein, dann sollten Sie weiterlesen....

Um diese Frage auf sehr einfachem Niveau zu untersuchen, machen wir den folgenden experimentellen Ansatz: Man nehme 100 Datenpunkte xi in regelmäßigem Abstand (z.B. Werte von 1 bis 100), setze diese in eine beliebige lineare Formel y=kx+d ein und addiere normalverteite Zufallszahlen, so dass man y-Werte bekommt, deren Zusammenhang zu x man kennt, die aber "verrauscht" sind, z.B.:

yi = 5*xi + 7 + 10*gauss

"gauss" ist eine Funktion die normalverteilte Zufallszahlen mit Mittelwert null und Standardabweichung 1 liefert. Auf die Wertepaare {xi,yi} wird nun die lineare Regression angewendet.

Klarerweise sollten sich dann als Parameter der Regression für k etwa 5 und für d etwa 7 ergeben, die Residuen entsprechen dann annähernd der Funktion 10*gauss. Bei diesem Experiment (nennen wir es "ideal") werden die Annahmen der Regression erfüllt, die Ergebnisse sollten sich also den "wirklichen" Werten annähern.

Nun wandeln wir das Experiment ab, in dem wir statt des Terms "10*gauss" einmal den Term "10*abs(gauss)" und einmal den Term 10*sqr(gauss) verwenden. In Worten: Wir erzeugen Residuen, die nicht symmetrisch sind, in dem wir einmal den Absolutwert der normalverteilten Zufallszahlen verwenden, und einmal das Quadrat dieser Zufallszahlen.

Die Ergebnisse der Regression sprechen eine klare Sprache:

ExperimentSteigung kOffset d
ideal5.027+/-0.0366.11+/-2.07
abs5.054+/-0.02412.24+/-1.37
sqr4.979+/-0.04317.19+/-2.5

Während beim idealen Datensatz die Ergebnisse sehr gut mit der "Wirklichkeit" übereinstimmen, gibt des bei den Datensätzen "abs" und "sqr" deutliche Verschiebungen des Offsets d. Was man auch schön sieht, ist, dass das Vertrauensintervall des geschätzten Offsets nicht mehr den wirklichen Wert enthält. Das Ergebnis ist also tatsächlich falsch und nicht bloß "mit statistischen Abweichungen" behaftet.

Schlussfolgerung: Machen Sie genau das, was ich schon immer predige (Sie können gerne zu mir in die Vorlesung kommen um sich die Predigt anzuhören...): Das Wichtigste bei der Regression ist die Analyse der Residuen.

Sieht man sich die Verteilung der Residuen für die drei Experimente an, so schrillen beim geübten Statistiker sofort die Alarmglocken - die Residuen sind nämlich deutlich sichtbar nicht symmetrisch verteilt:

Die Residuenplots wurden mit DataLab gemacht. Falls Sie das Experiment selber durchführen möchten, können Sie die Daten aus dem Data Repository von DataLab laden (Datensatz "Residuen"). Die erste Spalte des Datensatzes enthält die x-Werte, die restlichen Spalten die jeweiligen y-Werte der drei Modelle.