Montag, 9. Dezember 2013

Ausreißer bei der Regression, Teil 2

Nach dem ich die Antwort auf die Fragen 2 und 3 noch schuldig geblieben bin, hier nun die weiteren Betrachtungen zum Umgang mit Ausreißern bei der Regression....

Wie war nochmal Frage 2? - Soll man die Residuen auf Ausreißer überprüfen?

Antwort: Ja, unbedingt!!!

Das "ja unbedingt" ist genau so gemeint. Man darf einfach keine Regression berechnen, ohne auf die Residuen zu schauen, und im speziellen Fall auf Ausreißer zu untersuchen.

Wobei, auf Ausreißer untersuchen, nicht unbedingt heißt einen Ausreißertest durchzuführen. Ich persönlich neige eher dazu, den Ausreißertest durch Hinsehen zu machen. Der Hintergedanke dazu ist, dass unser Gehirn extrem gut Muster erkennen kann, und speziell Ausreißer werden sehr gut erkannt. Das mag wohl damit zusammenhängen, dass die Erkennung ungewöhnlicher Umstände überlebenswichtig ist und dadurch die Evolution so gesteuert wurde, dass sich diese Eigenschaft sehr gut entwickeln konnte.

Hinsehen hat aber noch einen anderen Vorteil, der sich erst beim zweiten Nachdenken erschließt. Und damit sind wir schon bei der Frage 3: Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort: Ja, das kann sein.

Nun, dazu ein Beispiel: Nehmen wir an, wir hätten einen Datensatz, der sich gut mit einer linearen Regression modellieren lässt. Allerdings stört ein weit außen liegender Ausreisser durch den Hebeleffelt so stark, dass die Regressionslinie kippt und in die falsche Richtung geht (Abbildng links). Zeichnet man dazu den Residuenplot (Abb. rechts), so sieht man den Ausreißer natürlich ganz klar (was ja nicht verwunderlich ist). Allerdings, wenn man auf die Residuen einen Ausreißertest anwendet, so wird der Ausreisser nicht erkannt. Der Grund dafür ist im Hebeleffekt zu suchen. Durch das Kippen der Regressionskurve, rückt der Ausreißer so nahe an die anderen Punkte heran, dass er nicht mehr erkannt werden kann.

Ein Ausreißertest untersucht die Residuen ja unabhängig von x, so dass man die Residuen, streng genommen, nur als Punkteplot auftragen sollte (rechte Abbildung unten). Aus dem Punkteplot wird auch unmittelbar klar, dass ein Ausreissertest den roten Punkt (der der Ausreisser ist) nicht als Ausreisser erkennen kann.

Mittwoch, 27. November 2013

Ausreißertests bei der Regression

Momentan bin ich ziemlich eingedeckt mit Korrekturarbeiten einer Lehrveranstaltung zur Biostatistik. Das ist zwar insgesamt eine sehr nervtötende Arbeit, liefert aber dennoch immer wieder nützliche Hinweise, wo Lernende mit einem bestimmten Stoffgebiet Probleme haben. So liefert die Korrekturzeit für mich immer auch Anregungen, bestimmte Aspekte nochmals intensiver oder aus einem anderem Blickwinkel darzustellen.

Diesmal scheint die Regression und in diesem Zusammenhang der Umgang mit Ausreißern ein schwarzes Loch aufgerissen zu haben, das dringend gestopft gehört (im Gegensatz zu schwarzen Löchern irgendwo im Universum, entsteht beim Auffüllen von schwarzen Löchern in den eigenen Grundkenntnissen keine Strahlung, weshalb man beim Lernen nicht leuchtet ;-)

Genug gequatscht, was ist das Thema? Nun das lässt sich am besten durch ein paar Fragen zusammenfassen:

  1. Soll man die Regressionsvariablen auf Ausreißer überprüfen?
  2. Soll man die Residuen auf Ausreißer überprüfen?
  3. Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort zu Frage 1: NEIN!!!

Vielleicht erscheint Ihnen die Frage unsinnig (nach dem Motto: "wie kommt der Lohninger auf diese blöde Idee?"). Wenn das so ist, dann überspringen Sie die folgenden Zeilen und lesen weiter bei der Antwort zur Frage 2.....

Für den Rest des werten Publikums hier eine ausführliche Antwort: Nun, die Regressionsvariablen einzeln auf Ausreißer zu überprüfen, ist deshalb sinnlos, weil es bei der Regression ja darum geht, den Zusammenhang zwischen zwei Variablen zu modellieren, und da macht die Überprüfung der Einzelvariablen wenig (keinen) Sinn. Ein Beispiel soll dies zeigen:

Im linken Diagramm (y1 aufgetragen gegen x1) sieht man einen klassischen Zusammenhang, der sich mit simpler parabolischer Regression einfach modellieren lässt; im rechten Diagramm (y2 gegen x2) gibt es hingegen ganz offensichtlich einen Ausreißer, der abseits der restlichen Daten liegt (und abseits des eigentlichen Zusammenhangs).

Führt man nun einen Ausreißertest (z.B. den Dean-Dixon-Test) aller Einzelvariablen durch, so findet man nur für die Variable y1 einen Ausreißer, nämlich den Punkt P1 - was natürlich im Licht der Regression Blödsinn ist, da gerade dieser Wert im Zusammenhang mit x1 seine Berechtigung hat und schön brav in der Nähe der Regressionskurve liegt. Andererseits ist der Wert P2 im rechten Diagram mit Sicherheit ein Ausreißer, wird aber beim Test der Einzelvariablen nicht gefunden, da die jeweiligen Koordinaten ja innerhalb der Verteilung der Koordinaten der anderen Punkte liegen.

Einzig richtige Schlussfolgerung aus dem Experiment: Hände weg von Ausreißertests der Einzelvariablen!! Das heißt aber nicht, dass Ausreißer nicht massive Probleme bei der Regression machen können.

Soweit die erste Teilantwort auf Frage 1, die weiteren Antworten folgen in den nächsten Tagen (so bald ich wieder Luft habe und die Arbeiten aus der Biostatistik-Lehrveranstaltung fertig korrigiert sind).

Montag, 18. November 2013

DataLab 3.53

Wie heisst es so schön: es kommt erstens anders, und zweitens als man denkt.... So geschehen auch bei der neuen DataLab-Release, die quasi eine ungeplante Frühgeburt ist.

Die Story dahinter ist eigentlich beschämend für einen großen Internet-Konzern: die Firma Yahoo, die irgendwann vor vielen Jahren unseren Provider in Kalifornien aufgekauft hat, hat vor einiger Zeit ohne die Kunden (also uns) zu informieren das http-Protokoll ihrer Server umgestellt, was unmittelbar dazu führte, dass unser Update-Server vergeblich auf Update-Anforderungen von DataLab wartete. Der Effekt ist bekannt - das Update von DataLab funktionierte nicht mehr.

Nach dem die ersten Kunden meckerten, gingen wir der Sache nach. Eine nette Mail an Yahoo brachte ziemlich genau nichts, da dachte sich wohl Goliath, "was will der kleine David, soll er doch ..." Also zogen wir die Notbremse und portierten unseren Update-Server von Kalifornien nach Köln zu Host Europe (eine tolle Hosting-Firma, wir sind sehr zufrieden seit vielen Jahren). Als Konsequenz musste natürlich auch DataLab entsprechend angepasst werden, was dann mitten in den Programmierarbeiten einiger neuer Features zu einer Zwangseinleitung der Geburt der Version 3.53 führte.

Nun das Baby ist da, und kräht.... Als nette Neuerung gibt es "Ridge Regression" mit im Werkzeugkasten, so dass stark korrelierte Deskriptoren auch für MLR verwendet werden können. Leider ist der "Memory Based Learner" immer noch nicht freigegeben, erste interne Tests zeigen aber bereits, wie mächtig diese aufgemöbelte Uralt-Methode ist.

Dienstag, 12. November 2013

Voraussetzungen von Tests

Kürzlich fragten mich einige Studierende, wie man einen Überblick zu den Voraussetzungen von statistischen Tests bekommt. Da dies in den "Grundlagen der Statistik" nirgends zusammengefasst ist, hier eine Liste der Voraussetzungen der wichtigsten stat. Tests:

TestVoraussetzungen
1-Stichproben χ2-TestNormalverteilung der Stichprobe
F-TestNormalverteilung beider Stichproben
1-Stichproben t-TestNormalverteilung der Stichprobe
2-Stichproben t-TestNormalverteilung beider Stichproben
gleiche Varianz der Stichproben
Differenzen t-TestNormalverteilung der Differenzen
Mann-Whitney-U-Testgleiche Verteilungsform der Stichproben
Shapiro-Wilk-Testi.i.d.(1)
Welch-TestNormalverteilung beider Stichproben
einfaktorielle ANOVANormalverteilung aller Gruppen
Gleichheit der Varianz aller Gruppen

Ich hoffe, das klärt vorerst die wichtigsten Fragen und ich werde diese Tabelle bei der nächsten Gelegenheit ins Lehrbuch einfügen.


(1)i.i.d. = "independent and identically distributed" --> alle Beobachtungen sind unabhängig voneinander und stammen von der gleichen Verteilung