Statistik mit DataLab: parabolische Regression

Mittwoch, 27. November 2013

Ausreißertests bei der Regression

Momentan bin ich ziemlich eingedeckt mit Korrekturarbeiten einer Lehrveranstaltung zur Biostatistik. Das ist zwar insgesamt eine sehr nervtötende Arbeit, liefert aber dennoch immer wieder nützliche Hinweise, wo Lernende mit einem bestimmten Stoffgebiet Probleme haben. So liefert die Korrekturzeit für mich immer auch Anregungen, bestimmte Aspekte nochmals intensiver oder aus einem anderem Blickwinkel darzustellen.

Diesmal scheint die Regression und in diesem Zusammenhang der Umgang mit Ausreißern ein schwarzes Loch aufgerissen zu haben, das dringend gestopft gehört (im Gegensatz zu schwarzen Löchern irgendwo im Universum, entsteht beim Auffüllen von schwarzen Löchern in den eigenen Grundkenntnissen keine Strahlung, weshalb man beim Lernen nicht leuchtet ;-)

Genug gequatscht, was ist das Thema? Nun das lässt sich am besten durch ein paar Fragen zusammenfassen:

Soll man die Regressionsvariablen auf Ausreißer überprüfen?
Soll man die Residuen auf Ausreißer überprüfen?
Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort zu Frage 1: NEIN!!!

Vielleicht erscheint Ihnen die Frage unsinnig (nach dem Motto: "wie kommt der Lohninger auf diese blöde Idee?"). Wenn das so ist, dann überspringen Sie die folgenden Zeilen und lesen weiter bei der Antwort zur Frage 2.....

Für den Rest des werten Publikums hier eine ausführliche Antwort: Nun, die Regressionsvariablen einzeln auf Ausreißer zu überprüfen, ist deshalb sinnlos, weil es bei der Regression ja darum geht, den Zusammenhang zwischen zwei Variablen zu modellieren, und da macht die Überprüfung der Einzelvariablen wenig (keinen) Sinn. Ein Beispiel soll dies zeigen:

Im linken Diagramm (y₁ aufgetragen gegen x₁) sieht man einen klassischen Zusammenhang, der sich mit simpler parabolischer Regression einfach modellieren lässt; im rechten Diagramm (y₂ gegen x₂) gibt es hingegen ganz offensichtlich einen Ausreißer, der abseits der restlichen Daten liegt (und abseits des eigentlichen Zusammenhangs).

Führt man nun einen Ausreißertest (z.B. den Dean-Dixon-Test) aller Einzelvariablen durch, so findet man nur für die Variable y₁ einen Ausreißer, nämlich den Punkt P₁ - was natürlich im Licht der Regression Blödsinn ist, da gerade dieser Wert im Zusammenhang mit x₁ seine Berechtigung hat und schön brav in der Nähe der Regressionskurve liegt. Andererseits ist der Wert P₂ im rechten Diagram mit Sicherheit ein Ausreißer, wird aber beim Test der Einzelvariablen nicht gefunden, da die jeweiligen Koordinaten ja innerhalb der Verteilung der Koordinaten der anderen Punkte liegen.

Einzig richtige Schlussfolgerung aus dem Experiment: Hände weg von Ausreißertests der Einzelvariablen!! Das heißt aber nicht, dass Ausreißer nicht massive Probleme bei der Regression machen können.

Soweit die erste Teilantwort auf Frage 1, die weiteren Antworten folgen in den nächsten Tagen (so bald ich wieder Luft habe und die Arbeiten aus der Biostatistik-Lehrveranstaltung fertig korrigiert sind).

Freitag, 30. November 2012

Regression bei niedriger Korrelation

Gestern stellte mir jemand die Frage, ob es sinnvoll ist, eine Regression zwischen x und y zu berechnen, obwohl der Pearson'sche Korrelationskoeffizient nahezu null ist. Der Fragesteller wollte eigentlich nur eine Bestätigung seiner Ansicht, dass es keinen Sinn macht, in diesem Fall eine Regression zu berechnen.

Meine Antwort gefiel dann weniger, sie hörte sich nämlich ziemlich opportunistisch an: "Es kommt darauf an...".

Also zu den Details: Wenn man davon ausgeht, dass mit Regression die simple Anpassung einer Geraden an die Messpunkte gemeint ist, dann ist die Antwort genau im Sinne des Fragenstellers - also sinnlos sich weiter anzustrengen, die Regression wird einfach abgeblasen.

Manche Zeitgenossen neigen nun dazu (und dazu gehört meine Wenigkeit), sich Gegenargumente zurecht zu legen und womöglich Beispiele zu finden, die eine verallgemeinerte Ansicht widerlegen können; und erst wenn sich auch nach langem und angestrengtem Grübeln kein Gegenbeispiel finden lässt, geht man davon aus, dass "es keinen Grund zur Ablehnung dieser Ansicht gibt" (wem diese Formulierung bekannt vorkommt, der hat schon mal einen Stein im Brett des Statistikers).

Im speziellen Fall ist allerdings das Gegenbeispiel dann auch schnell gefunden. Fasst man nämlich ins Auge, dass mit Regression z.B. auch ein Polynom n-ten Grades an gegebene Daten angepasst werden kann, dann sieht die Situation schon ganz anders aus. Die folgende Abbildung zeigt ein klassisches Beispiel. Der Korrelationskoeffizient für diese Daten ist praktisch null (genau genommen 0.08, was sich aber nicht signifikant von null unterscheidet), und es lässt sich dennoch eine wunderbare Regression berechnen (nämlich eine parabolische, siehe die rote Kurve).

Die Erklärung für das eigentümliche Verhalten - keine Korrelation aber dennoch eine wunderbare Regression - liegt in der simplen Tatsache, dass der Pearson'sche Korrelationskoeffizient einen geradlinigen Zusammenhang voraussetzt.

...also es kommt halt darauf an (sagte ich ja ;-).

Statistik mit DataLab

Mittwoch, 27. November 2013

Ausreißertests bei der Regression

Antwort zu Frage 1: NEIN!!!

Freitag, 30. November 2012

Regression bei niedriger Korrelation

Blog-Archiv

Index

Dieses Blog durchsuchen