Statistik mit DataLab

Freitag, 21. Dezember 2012

Singular Value Decomposition

Heute bin ich mehr oder weniger zufällig auf einen interessanten Film aus dem Jahr 1976 gestoßen, der die Singular Value Decomposition (SVD) visualisiert. SVD ist ja inzwischen einer der am meisten eingesetzen Algorithmen in vielen Bereichen der Naturwissenschaften. Die Anwendungen reichen dabei von der Analyse von Schwingungen von Molekülen, über das Verhalten von Brücken im Sturm, bis zu vielen multivariaten Modellierungsverfahren wie z.B. PLS (partial least squares).

1976 war SVD noch relativ wenig bekannt, darum wurde der Film damals auch als eher exotisch angesehen. Der Film wurde durch Abfotographieren der einzelnen Schritte vom Computerbildschirm erzeugt. Man bedenke dabei, dass farbige Computerbildschirme zu dieser Zeit eine absolut seltene (und sehr teure) Angelegenheit waren, und wohl nur in wenigen Forschungsstätten zur Verfügung standen. Ich denke noch immer mit gemischten Gefühlen an eine Äußerung eines Betreuers meiner Diplomarbeit einige Jahre später, der tatsächlich meinte (so um 1980/81), dass Farbbildschirme nicht wirklich einen Gewinn für die Datenanalyse bringen würden.... na ja, so kann man sich irren.

Aber bevor ich mich zu sehr in Nostalgie verfange, hier der Film:

Cool, nicht? Also dann, Frohe Weihnachten!

Freitag, 7. Dezember 2012

vom Vertrauen in Schätzungen...

Ort der Handlung: Das Innenleben eines Studierenden an der chemischen Fakultät. Das Semester läuft nun so richtig auf Hochtouren, alle wuseln herum und sind nur mehr hektisch. Neben Laborübungen gibt es dann noch irgendwelche Zwischenprüfungen zu absolvieren, Proben nochmals zu messen, sich mit abgestürzten Computern herumzuschlagen, vergessene Passwörter wieder zu organisieren, parallel dazu Vorlesungen besuchen, sich für die Übung am nächsten Tag vorbereiten, bei der Abschlussfeier nicht abstürzen, .... und dann soll man all die neuen Dinge auch noch verstehen, oder zumindest soweit inhalieren, dass keiner merkt, dass man es eigentlich doch nicht verstanden hat.

Schnitt - zu Hause am Computer: irgendein Professor behauptet, ich hätte das Konfidenzintervall für die Abschätzung meines Analysenwerts falsch angegeben. Wie ich das hasse, ich will Chemiker werden, nicht Mathe-Fuzzi. Also Max anrufen, der kennt sich aus mit dem Mathe-Zeugs. Max meint, da muss man y-dach nehmen, weil das den Schätzwert mit dem richtigen Konfidenzintervall angibt. Mehr ist auch aus Max nicht herauszubekommen, weil grade Tina bei ihm ist, und Konfidenzintervalle für ihn momentan nicht so arg wichtig sind. Am besten ich suche mir eine Freundin aus der Mathematik, da kann man dann das Angenehme mit dem Nützlichen verbinden. Ah verdammt, das wird sich nicht ausgehen, ich muss die Korrektur bis morgen abgeben.

Also, eine Rauchpause, und dann googeln: "konfidenzintervall regression".... na da kommt ja einiges an Material hoch. Gewohnheitsmäßig klicke ich auf Wikipedia - obwohl in letzter Zeit bin schon oft arg eingefahren, in den Wikipediaeinträgen steht auch nicht immer das Gelbe vom Ei. Oh, Wikipedia bietet ja eine Menge Stoff zum Thema. Verdammt, beim Runterscrollen tauchen da ja Formeln auf, die mir alle spanisch vorkommen, und die Regression wird in diesem Artikel zwar erwähnt, aber in Zusammenhang mit den Koeffizienten, ist wohl nicht mein Problem. Also weiter, zu anderen Google-Ergebnissen, ah ja, da gibt es ja noch einen Wikipedia-Eintrag, explizit zur Regressionsanalyse. Enttäuschung - das einzige was Wikipedia in diesem Artikel dazu anbietet ist folgender geniale Satz: "Häufig wird neben dem prognostizierten Wert von y auch ein Konfidenzintervall angegeben, um so die Unsicherheit der Prognose abzuschätzen." - Ah ja, dacht ich mir's doch, das hilft ja wirklich weiter.

Vielleicht sollte ich es doch zur Abwechslung mit einem Buch probieren - aber mit welchem? Genaugenommen bin ich zu faul, in die Bibliothek zu pilgern, und jetzt ist es ohnehin schon zu spät. Also weiter im Internet stöbern. Ah da! Ein Eintrag in MatheBoard. Na die Damen und Herren kennen sich ja ziemlich aus. Da ist von "deskreptiver Statistik" die Rede (ich dachte das heißt doch "deskriptiv", oder?) und von einem "Bland-Altman-Plot" - was auch immer das ist. Alles Selbstdarsteller, jeder wirft mit Ausdrücken herum, keiner kann's erklären. Ah, da gibt es noch einen Link auf Wikipedia, auch zur Regression, aber ein anderer Artikel als die bisher besuchten. Mal sehen.... Schaut so aus, als ob das genau mein Problem behandelt. Aber schon wieder Formeln - keine Chance, ich bin dabei Chemiker zu werden, nicht Mathematiker.

Na was mache ich nun? Ist irgendwie doof, ich werd einfach y-dach hinschreiben, vielleicht schluckt der Prof. es ja, und morgen bei der Besprechung werde ich um mein Leiberl reden, ein paar Kraftausdrücke, wie "Konfidenzintervall", "Residuum" und "Heteroskedastizität" kann ich ja zumindest schon aussprechen.... (Mann, bin ich froh, wenn endlich Weihnachten ausbricht).

Freitag, 30. November 2012

Regression bei niedriger Korrelation

Gestern stellte mir jemand die Frage, ob es sinnvoll ist, eine Regression zwischen x und y zu berechnen, obwohl der Pearson'sche Korrelationskoeffizient nahezu null ist. Der Fragesteller wollte eigentlich nur eine Bestätigung seiner Ansicht, dass es keinen Sinn macht, in diesem Fall eine Regression zu berechnen.

Meine Antwort gefiel dann weniger, sie hörte sich nämlich ziemlich opportunistisch an: "Es kommt darauf an...".

Also zu den Details: Wenn man davon ausgeht, dass mit Regression die simple Anpassung einer Geraden an die Messpunkte gemeint ist, dann ist die Antwort genau im Sinne des Fragenstellers - also sinnlos sich weiter anzustrengen, die Regression wird einfach abgeblasen.

Manche Zeitgenossen neigen nun dazu (und dazu gehört meine Wenigkeit), sich Gegenargumente zurecht zu legen und womöglich Beispiele zu finden, die eine verallgemeinerte Ansicht widerlegen können; und erst wenn sich auch nach langem und angestrengtem Grübeln kein Gegenbeispiel finden lässt, geht man davon aus, dass "es keinen Grund zur Ablehnung dieser Ansicht gibt" (wem diese Formulierung bekannt vorkommt, der hat schon mal einen Stein im Brett des Statistikers).

Im speziellen Fall ist allerdings das Gegenbeispiel dann auch schnell gefunden. Fasst man nämlich ins Auge, dass mit Regression z.B. auch ein Polynom n-ten Grades an gegebene Daten angepasst werden kann, dann sieht die Situation schon ganz anders aus. Die folgende Abbildung zeigt ein klassisches Beispiel. Der Korrelationskoeffizient für diese Daten ist praktisch null (genau genommen 0.08, was sich aber nicht signifikant von null unterscheidet), und es lässt sich dennoch eine wunderbare Regression berechnen (nämlich eine parabolische, siehe die rote Kurve).

Die Erklärung für das eigentümliche Verhalten - keine Korrelation aber dennoch eine wunderbare Regression - liegt in der simplen Tatsache, dass der Pearson'sche Korrelationskoeffizient einen geradlinigen Zusammenhang voraussetzt.

...also es kommt halt darauf an (sagte ich ja ;-).

Dienstag, 27. November 2012

Reaktionszeit im Alko-Dusel

Haben Sie sich schon einmal gefragt, um wieviel langsamer Sie ein gepflegtes Bier macht? Die Verkehrsauguren meinen ja (völlig zurecht), dass man durch den Genuss von Alkohol fahruntauglich wird.

Da sagte neulich ein Bekannter zu mir (110 kg, ein Hühne), dass er ein Bier überhaupt nicht spüre und ein zweites eher für die innere Schönheit notwendig ist, und natürlich auch nicht wirkt. Mein bescheidener Körper ist da nicht mit solchen inneren Schönheiten ausgestattet - ich merke schon das erste Bier. Allerdings kann ich überhaupt nicht einschätzen, wie stark sich ein Bier tatsächlich auswirkt.

Wie es halt dem Wissenschafter geziemt, lässt sich diese Frage durch ein einfaches Experiment klären. Dazu habe ich ein kleines Programm zur Messung der Reaktionszeit geschrieben, bei dem man auf die Farbveränderung einer Fläche am Bildschirm durch einen Mausklick reagieren muss. Also los geht's mit der Messung, zuerst im nüchternen Zustand, dann - nach einer Flasche Gösser Zwickl - im Zustand innerer Schönheit.

Ergebnis: die Verlangsamung nach einem Bier lässt sich gerade noch nachweisen. Ab dem zweiten Bier wird sich der Effekt vermutlich schon ganz deutlich zeigen; den Test wollt ich dann aber nicht machen, da das dann doch zu viel der inneren Schönheit gewesen wäre.

Für die Statistik-Freaks nun die Details, hier sind die Daten (dabei wurde jeweils 50 bzw. 51 mal die Reaktionszeit auf den Farbumschlag von weiß auf rot gemessen):

Reaktionszeiten nüchtern [msec]
259, 299, 238, 242, 261, 258, 355, 
257, 275, 269, 265, 343, 230, 247, 
290, 287, 230, 245, 267, 348, 287,
287, 318, 249, 279, 273, 278, 233, 
411, 268, 347, 250, 289, 272, 349, 
305, 349, 252, 373, 403, 396, 258, 
300, 293, 258, 446, 288, 304, 272, 
279

Reaktionszeiten nach einem Bier [msec]
375, 324, 268, 512, 233, 274, 358, 
249, 255, 249, 556, 274, 453, 335, 
307, 361, 506, 297, 275, 271, 290, 
328, 279, 267, 351, 246, 263, 282, 
276, 310, 469, 274, 328, 454, 286, 
440, 323, 249, 252, 360, 433, 274, 
421, 419, 387, 248, 272, 289, 290,
311, 241

Was man an den Daten sofort sieht, ist, dass sie ganz offensichtlich nicht normalverteilt sind, der Shapiro-Wilk-Test liefert dann dazu auch noch die handfesten Zahlen - also nichts mit t-Test zum Vergleich der Reaktionszeiten, es drängt sich der Mann-Whitney-U-Test auf. Der Vorteil des U-Tests ist, dass er nahezu keine Voraussetzungen verlangt - ein Test für alle Lebenslagen, aber auch ein wenig geringer in der Trennschärfe.

Die Ergebnisse im Detail sprechen für sich. Der Mittelwert der Reaktionszeiten im nüchternen Zustand ist um rund 33 msec niedriger als nach einem Bier, die Standardabweichung der Reaktionszeiten ist nach einem Bier deutlich höher, was darauf hindeutet, dass man nach einem Bier nicht nur langsamer wird, sondern auch unkonzentrierter (die Ergebnisse schwanken mehr).

Daten des Blocks A (nüchtern):
      Zahl der Daten: 50
          Mittelwert: 292.62000
        Standardabw.: 50.54999

Daten des Blocks B (nach 1 Bier):
      Zahl der Daten: 51
          Mittelwert: 326.35294
        Standardabw.: 80.74003

Wendet man nun den U-Test auf die Daten an, dann kann man auf einem Signifikanzniveau von 0.05 (95%ige Sicherheit) die Nullhypothese, dass sich die beiden Verteilungen nicht unterscheiden, ablehnen. Das Ergebnis ist zwar knapp, aber doch eindeutig (U-Wert 969.5, kritische Grenze für das angegebene Signifikanzniveau 986; die Nullhypothese ist abzulehnen, wenn der U-Wert kleiner als die kritische Grenze ist).

.... bleiben noch ein paar nachdenkliche Fragen: wie weit fährt ein Auto mit 100 km/h in 33 msec? Und wie ist das mit dem vermehrt auftretenden "Sekundenschlaf" unter Alkoholeinfluss? Die Antworten lassen sich wohl so zusammenfassen: don't drink and drive.....