Montag, 9. Dezember 2013

Ausreißer bei der Regression, Teil 2

Nach dem ich die Antwort auf die Fragen 2 und 3 noch schuldig geblieben bin, hier nun die weiteren Betrachtungen zum Umgang mit Ausreißern bei der Regression....

Wie war nochmal Frage 2? - Soll man die Residuen auf Ausreißer überprüfen?

Antwort: Ja, unbedingt!!!

Das "ja unbedingt" ist genau so gemeint. Man darf einfach keine Regression berechnen, ohne auf die Residuen zu schauen, und im speziellen Fall auf Ausreißer zu untersuchen.

Wobei, auf Ausreißer untersuchen, nicht unbedingt heißt einen Ausreißertest durchzuführen. Ich persönlich neige eher dazu, den Ausreißertest durch Hinsehen zu machen. Der Hintergedanke dazu ist, dass unser Gehirn extrem gut Muster erkennen kann, und speziell Ausreißer werden sehr gut erkannt. Das mag wohl damit zusammenhängen, dass die Erkennung ungewöhnlicher Umstände überlebenswichtig ist und dadurch die Evolution so gesteuert wurde, dass sich diese Eigenschaft sehr gut entwickeln konnte.

Hinsehen hat aber noch einen anderen Vorteil, der sich erst beim zweiten Nachdenken erschließt. Und damit sind wir schon bei der Frage 3: Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort: Ja, das kann sein.

Nun, dazu ein Beispiel: Nehmen wir an, wir hätten einen Datensatz, der sich gut mit einer linearen Regression modellieren lässt. Allerdings stört ein weit außen liegender Ausreisser durch den Hebeleffelt so stark, dass die Regressionslinie kippt und in die falsche Richtung geht (Abbildng links). Zeichnet man dazu den Residuenplot (Abb. rechts), so sieht man den Ausreißer natürlich ganz klar (was ja nicht verwunderlich ist). Allerdings, wenn man auf die Residuen einen Ausreißertest anwendet, so wird der Ausreisser nicht erkannt. Der Grund dafür ist im Hebeleffekt zu suchen. Durch das Kippen der Regressionskurve, rückt der Ausreißer so nahe an die anderen Punkte heran, dass er nicht mehr erkannt werden kann.

Ein Ausreißertest untersucht die Residuen ja unabhängig von x, so dass man die Residuen, streng genommen, nur als Punkteplot auftragen sollte (rechte Abbildung unten). Aus dem Punkteplot wird auch unmittelbar klar, dass ein Ausreissertest den roten Punkt (der der Ausreisser ist) nicht als Ausreisser erkennen kann.