Statistik mit DataLab: Regression

Posts mit dem Label Regression werden angezeigt. Alle Posts anzeigen

Montag, 9. Dezember 2013

Ausreißer bei der Regression, Teil 2

Nach dem ich die Antwort auf die Fragen 2 und 3 noch schuldig geblieben bin, hier nun die weiteren Betrachtungen zum Umgang mit Ausreißern bei der Regression....

Wie war nochmal Frage 2? - Soll man die Residuen auf Ausreißer überprüfen?

Antwort: Ja, unbedingt!!!

Das "ja unbedingt" ist genau so gemeint. Man darf einfach keine Regression berechnen, ohne auf die Residuen zu schauen, und im speziellen Fall auf Ausreißer zu untersuchen.

Wobei, auf Ausreißer untersuchen, nicht unbedingt heißt einen Ausreißertest durchzuführen. Ich persönlich neige eher dazu, den Ausreißertest durch Hinsehen zu machen. Der Hintergedanke dazu ist, dass unser Gehirn extrem gut Muster erkennen kann, und speziell Ausreißer werden sehr gut erkannt. Das mag wohl damit zusammenhängen, dass die Erkennung ungewöhnlicher Umstände überlebenswichtig ist und dadurch die Evolution so gesteuert wurde, dass sich diese Eigenschaft sehr gut entwickeln konnte.

Hinsehen hat aber noch einen anderen Vorteil, der sich erst beim zweiten Nachdenken erschließt. Und damit sind wir schon bei der Frage 3: Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort: Ja, das kann sein.

Nun, dazu ein Beispiel: Nehmen wir an, wir hätten einen Datensatz, der sich gut mit einer linearen Regression modellieren lässt. Allerdings stört ein weit außen liegender Ausreisser durch den Hebeleffelt so stark, dass die Regressionslinie kippt und in die falsche Richtung geht (Abbildng links). Zeichnet man dazu den Residuenplot (Abb. rechts), so sieht man den Ausreißer natürlich ganz klar (was ja nicht verwunderlich ist). Allerdings, wenn man auf die Residuen einen Ausreißertest anwendet, so wird der Ausreisser nicht erkannt. Der Grund dafür ist im Hebeleffekt zu suchen. Durch das Kippen der Regressionskurve, rückt der Ausreißer so nahe an die anderen Punkte heran, dass er nicht mehr erkannt werden kann.

Ein Ausreißertest untersucht die Residuen ja unabhängig von x, so dass man die Residuen, streng genommen, nur als Punkteplot auftragen sollte (rechte Abbildung unten). Aus dem Punkteplot wird auch unmittelbar klar, dass ein Ausreissertest den roten Punkt (der der Ausreisser ist) nicht als Ausreisser erkennen kann.

Mittwoch, 27. November 2013

Ausreißertests bei der Regression

Momentan bin ich ziemlich eingedeckt mit Korrekturarbeiten einer Lehrveranstaltung zur Biostatistik. Das ist zwar insgesamt eine sehr nervtötende Arbeit, liefert aber dennoch immer wieder nützliche Hinweise, wo Lernende mit einem bestimmten Stoffgebiet Probleme haben. So liefert die Korrekturzeit für mich immer auch Anregungen, bestimmte Aspekte nochmals intensiver oder aus einem anderem Blickwinkel darzustellen.

Diesmal scheint die Regression und in diesem Zusammenhang der Umgang mit Ausreißern ein schwarzes Loch aufgerissen zu haben, das dringend gestopft gehört (im Gegensatz zu schwarzen Löchern irgendwo im Universum, entsteht beim Auffüllen von schwarzen Löchern in den eigenen Grundkenntnissen keine Strahlung, weshalb man beim Lernen nicht leuchtet ;-)

Genug gequatscht, was ist das Thema? Nun das lässt sich am besten durch ein paar Fragen zusammenfassen:

Soll man die Regressionsvariablen auf Ausreißer überprüfen?
Soll man die Residuen auf Ausreißer überprüfen?
Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort zu Frage 1: NEIN!!!

Vielleicht erscheint Ihnen die Frage unsinnig (nach dem Motto: "wie kommt der Lohninger auf diese blöde Idee?"). Wenn das so ist, dann überspringen Sie die folgenden Zeilen und lesen weiter bei der Antwort zur Frage 2.....

Für den Rest des werten Publikums hier eine ausführliche Antwort: Nun, die Regressionsvariablen einzeln auf Ausreißer zu überprüfen, ist deshalb sinnlos, weil es bei der Regression ja darum geht, den Zusammenhang zwischen zwei Variablen zu modellieren, und da macht die Überprüfung der Einzelvariablen wenig (keinen) Sinn. Ein Beispiel soll dies zeigen:

Im linken Diagramm (y₁ aufgetragen gegen x₁) sieht man einen klassischen Zusammenhang, der sich mit simpler parabolischer Regression einfach modellieren lässt; im rechten Diagramm (y₂ gegen x₂) gibt es hingegen ganz offensichtlich einen Ausreißer, der abseits der restlichen Daten liegt (und abseits des eigentlichen Zusammenhangs).

Führt man nun einen Ausreißertest (z.B. den Dean-Dixon-Test) aller Einzelvariablen durch, so findet man nur für die Variable y₁ einen Ausreißer, nämlich den Punkt P₁ - was natürlich im Licht der Regression Blödsinn ist, da gerade dieser Wert im Zusammenhang mit x₁ seine Berechtigung hat und schön brav in der Nähe der Regressionskurve liegt. Andererseits ist der Wert P₂ im rechten Diagram mit Sicherheit ein Ausreißer, wird aber beim Test der Einzelvariablen nicht gefunden, da die jeweiligen Koordinaten ja innerhalb der Verteilung der Koordinaten der anderen Punkte liegen.

Einzig richtige Schlussfolgerung aus dem Experiment: Hände weg von Ausreißertests der Einzelvariablen!! Das heißt aber nicht, dass Ausreißer nicht massive Probleme bei der Regression machen können.

Soweit die erste Teilantwort auf Frage 1, die weiteren Antworten folgen in den nächsten Tagen (so bald ich wieder Luft habe und die Arbeiten aus der Biostatistik-Lehrveranstaltung fertig korrigiert sind).

Montag, 7. Oktober 2013

Regression und Residuen

Haben Sie schon mal überlegt wie groß der Einfluss nicht normalverteilter Residuen auf das Ergebnis einer linearen Regression ist? Wenn nein, dann sollten Sie weiterlesen....

Um diese Frage auf sehr einfachem Niveau zu untersuchen, machen wir den folgenden experimentellen Ansatz: Man nehme 100 Datenpunkte x_i in regelmäßigem Abstand (z.B. Werte von 1 bis 100), setze diese in eine beliebige lineare Formel y=kx+d ein und addiere normalverteite Zufallszahlen, so dass man y-Werte bekommt, deren Zusammenhang zu x man kennt, die aber "verrauscht" sind, z.B.:

y_i = 5*x_i + 7 + 10*gauss

"gauss" ist eine Funktion die normalverteilte Zufallszahlen mit Mittelwert null und Standardabweichung 1 liefert. Auf die Wertepaare {x_i,y_i} wird nun die lineare Regression angewendet.

Klarerweise sollten sich dann als Parameter der Regression für k etwa 5 und für d etwa 7 ergeben, die Residuen entsprechen dann annähernd der Funktion 10*gauss. Bei diesem Experiment (nennen wir es "ideal") werden die Annahmen der Regression erfüllt, die Ergebnisse sollten sich also den "wirklichen" Werten annähern.

Nun wandeln wir das Experiment ab, in dem wir statt des Terms "10*gauss" einmal den Term "10*abs(gauss)" und einmal den Term 10*sqr(gauss) verwenden. In Worten: Wir erzeugen Residuen, die nicht symmetrisch sind, in dem wir einmal den Absolutwert der normalverteilten Zufallszahlen verwenden, und einmal das Quadrat dieser Zufallszahlen.

Die Ergebnisse der Regression sprechen eine klare Sprache:

Experiment	Steigung k	Offset d
ideal	5.027+/-0.036	6.11+/-2.07
abs	5.054+/-0.024	12.24+/-1.37
sqr	4.979+/-0.043	17.19+/-2.5

Während beim idealen Datensatz die Ergebnisse sehr gut mit der "Wirklichkeit" übereinstimmen, gibt des bei den Datensätzen "abs" und "sqr" deutliche Verschiebungen des Offsets d. Was man auch schön sieht, ist, dass das Vertrauensintervall des geschätzten Offsets nicht mehr den wirklichen Wert enthält. Das Ergebnis ist also tatsächlich falsch und nicht bloß "mit statistischen Abweichungen" behaftet.

Schlussfolgerung: Machen Sie genau das, was ich schon immer predige (Sie können gerne zu mir in die Vorlesung kommen um sich die Predigt anzuhören...): Das Wichtigste bei der Regression ist die Analyse der Residuen.

Sieht man sich die Verteilung der Residuen für die drei Experimente an, so schrillen beim geübten Statistiker sofort die Alarmglocken - die Residuen sind nämlich deutlich sichtbar nicht symmetrisch verteilt:

Die Residuenplots wurden mit DataLab gemacht. Falls Sie das Experiment selber durchführen möchten, können Sie die Daten aus dem Data Repository von DataLab laden (Datensatz "Residuen"). Die erste Spalte des Datensatzes enthält die x-Werte, die restlichen Spalten die jeweiligen y-Werte der drei Modelle.

Freitag, 7. Dezember 2012

vom Vertrauen in Schätzungen...

Ort der Handlung: Das Innenleben eines Studierenden an der chemischen Fakultät. Das Semester läuft nun so richtig auf Hochtouren, alle wuseln herum und sind nur mehr hektisch. Neben Laborübungen gibt es dann noch irgendwelche Zwischenprüfungen zu absolvieren, Proben nochmals zu messen, sich mit abgestürzten Computern herumzuschlagen, vergessene Passwörter wieder zu organisieren, parallel dazu Vorlesungen besuchen, sich für die Übung am nächsten Tag vorbereiten, bei der Abschlussfeier nicht abstürzen, .... und dann soll man all die neuen Dinge auch noch verstehen, oder zumindest soweit inhalieren, dass keiner merkt, dass man es eigentlich doch nicht verstanden hat.

Schnitt - zu Hause am Computer: irgendein Professor behauptet, ich hätte das Konfidenzintervall für die Abschätzung meines Analysenwerts falsch angegeben. Wie ich das hasse, ich will Chemiker werden, nicht Mathe-Fuzzi. Also Max anrufen, der kennt sich aus mit dem Mathe-Zeugs. Max meint, da muss man y-dach nehmen, weil das den Schätzwert mit dem richtigen Konfidenzintervall angibt. Mehr ist auch aus Max nicht herauszubekommen, weil grade Tina bei ihm ist, und Konfidenzintervalle für ihn momentan nicht so arg wichtig sind. Am besten ich suche mir eine Freundin aus der Mathematik, da kann man dann das Angenehme mit dem Nützlichen verbinden. Ah verdammt, das wird sich nicht ausgehen, ich muss die Korrektur bis morgen abgeben.

Also, eine Rauchpause, und dann googeln: "konfidenzintervall regression".... na da kommt ja einiges an Material hoch. Gewohnheitsmäßig klicke ich auf Wikipedia - obwohl in letzter Zeit bin schon oft arg eingefahren, in den Wikipediaeinträgen steht auch nicht immer das Gelbe vom Ei. Oh, Wikipedia bietet ja eine Menge Stoff zum Thema. Verdammt, beim Runterscrollen tauchen da ja Formeln auf, die mir alle spanisch vorkommen, und die Regression wird in diesem Artikel zwar erwähnt, aber in Zusammenhang mit den Koeffizienten, ist wohl nicht mein Problem. Also weiter, zu anderen Google-Ergebnissen, ah ja, da gibt es ja noch einen Wikipedia-Eintrag, explizit zur Regressionsanalyse. Enttäuschung - das einzige was Wikipedia in diesem Artikel dazu anbietet ist folgender geniale Satz: "Häufig wird neben dem prognostizierten Wert von y auch ein Konfidenzintervall angegeben, um so die Unsicherheit der Prognose abzuschätzen." - Ah ja, dacht ich mir's doch, das hilft ja wirklich weiter.

Vielleicht sollte ich es doch zur Abwechslung mit einem Buch probieren - aber mit welchem? Genaugenommen bin ich zu faul, in die Bibliothek zu pilgern, und jetzt ist es ohnehin schon zu spät. Also weiter im Internet stöbern. Ah da! Ein Eintrag in MatheBoard. Na die Damen und Herren kennen sich ja ziemlich aus. Da ist von "deskreptiver Statistik" die Rede (ich dachte das heißt doch "deskriptiv", oder?) und von einem "Bland-Altman-Plot" - was auch immer das ist. Alles Selbstdarsteller, jeder wirft mit Ausdrücken herum, keiner kann's erklären. Ah, da gibt es noch einen Link auf Wikipedia, auch zur Regression, aber ein anderer Artikel als die bisher besuchten. Mal sehen.... Schaut so aus, als ob das genau mein Problem behandelt. Aber schon wieder Formeln - keine Chance, ich bin dabei Chemiker zu werden, nicht Mathematiker.

Na was mache ich nun? Ist irgendwie doof, ich werd einfach y-dach hinschreiben, vielleicht schluckt der Prof. es ja, und morgen bei der Besprechung werde ich um mein Leiberl reden, ein paar Kraftausdrücke, wie "Konfidenzintervall", "Residuum" und "Heteroskedastizität" kann ich ja zumindest schon aussprechen.... (Mann, bin ich froh, wenn endlich Weihnachten ausbricht).

Freitag, 30. November 2012

Regression bei niedriger Korrelation

Gestern stellte mir jemand die Frage, ob es sinnvoll ist, eine Regression zwischen x und y zu berechnen, obwohl der Pearson'sche Korrelationskoeffizient nahezu null ist. Der Fragesteller wollte eigentlich nur eine Bestätigung seiner Ansicht, dass es keinen Sinn macht, in diesem Fall eine Regression zu berechnen.

Meine Antwort gefiel dann weniger, sie hörte sich nämlich ziemlich opportunistisch an: "Es kommt darauf an...".

Also zu den Details: Wenn man davon ausgeht, dass mit Regression die simple Anpassung einer Geraden an die Messpunkte gemeint ist, dann ist die Antwort genau im Sinne des Fragenstellers - also sinnlos sich weiter anzustrengen, die Regression wird einfach abgeblasen.

Manche Zeitgenossen neigen nun dazu (und dazu gehört meine Wenigkeit), sich Gegenargumente zurecht zu legen und womöglich Beispiele zu finden, die eine verallgemeinerte Ansicht widerlegen können; und erst wenn sich auch nach langem und angestrengtem Grübeln kein Gegenbeispiel finden lässt, geht man davon aus, dass "es keinen Grund zur Ablehnung dieser Ansicht gibt" (wem diese Formulierung bekannt vorkommt, der hat schon mal einen Stein im Brett des Statistikers).

Im speziellen Fall ist allerdings das Gegenbeispiel dann auch schnell gefunden. Fasst man nämlich ins Auge, dass mit Regression z.B. auch ein Polynom n-ten Grades an gegebene Daten angepasst werden kann, dann sieht die Situation schon ganz anders aus. Die folgende Abbildung zeigt ein klassisches Beispiel. Der Korrelationskoeffizient für diese Daten ist praktisch null (genau genommen 0.08, was sich aber nicht signifikant von null unterscheidet), und es lässt sich dennoch eine wunderbare Regression berechnen (nämlich eine parabolische, siehe die rote Kurve).

Die Erklärung für das eigentümliche Verhalten - keine Korrelation aber dennoch eine wunderbare Regression - liegt in der simplen Tatsache, dass der Pearson'sche Korrelationskoeffizient einen geradlinigen Zusammenhang voraussetzt.

...also es kommt halt darauf an (sagte ich ja ;-).

Dienstag, 10. August 2010

Versuch am lebenden Objekt...

Seit einigen Wochen versuche ich wieder in Form zu kommen (= Gewichtsabnahme ohne Hungern). Wie das gehen soll? Ganz einfach: das notwendige Kaloriendefizit nicht durch Hungern erzeugen sondern durch Sport.

Also, wer - wie die Gesundheitsapostel empfehlen - ein halbes Kilo pro Woche verlieren möchte, muss ca. 500 Kalorien/Tag Defizit erzeugen. Ich mache das mit Radfahren....

... hier die Ergebnisse des Versuchs am lebenden Objekt (natürlich mit DataLab analysiert):

Wie man aus den Regressionsparametern sieht, nehme ich rund 70 g pro Tag ab, was nach Adam Riese ca. 1/2 Kilo pro Woche macht.... (Zusatzfrage für Streber: Ist die Gewichtsabnahme signifikant?)

Statistik mit DataLab