Statistik mit DataLab

Ausreißer bei der Regression, Teil 2

2013-12-09T11:45:00.000+01:00

Nach dem ich die Antwort auf die Fragen 2 und 3 noch schuldig geblieben bin, hier nun die weiteren Betrachtungen zum Umgang mit Ausreißern bei der Regression....

Wie war nochmal Frage 2? - Soll man die Residuen auf Ausreißer überprüfen?

Antwort: Ja, unbedingt!!!

Das "ja unbedingt" ist genau so gemeint. Man darf einfach keine Regression berechnen, ohne auf die Residuen zu schauen, und im speziellen Fall auf Ausreißer zu untersuchen.

Wobei, auf Ausreißer untersuchen, nicht unbedingt heißt einen Ausreißertest durchzuführen. Ich persönlich neige eher dazu, den Ausreißertest durch Hinsehen zu machen. Der Hintergedanke dazu ist, dass unser Gehirn extrem gut Muster erkennen kann, und speziell Ausreißer werden sehr gut erkannt. Das mag wohl damit zusammenhängen, dass die Erkennung ungewöhnlicher Umstände überlebenswichtig ist und dadurch die Evolution so gesteuert wurde, dass sich diese Eigenschaft sehr gut entwickeln konnte.

Hinsehen hat aber noch einen anderen Vorteil, der sich erst beim zweiten Nachdenken erschließt. Und damit sind wir schon bei der Frage 3: Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort: Ja, das kann sein.

Nun, dazu ein Beispiel: Nehmen wir an, wir hätten einen Datensatz, der sich gut mit einer linearen Regression modellieren lässt. Allerdings stört ein weit außen liegender Ausreisser durch den Hebeleffelt so stark, dass die Regressionslinie kippt und in die falsche Richtung geht (Abbildng links). Zeichnet man dazu den Residuenplot (Abb. rechts), so sieht man den Ausreißer natürlich ganz klar (was ja nicht verwunderlich ist). Allerdings, wenn man auf die Residuen einen Ausreißertest anwendet, so wird der Ausreisser nicht erkannt. Der Grund dafür ist im Hebeleffekt zu suchen. Durch das Kippen der Regressionskurve, rückt der Ausreißer so nahe an die anderen Punkte heran, dass er nicht mehr erkannt werden kann.

Ein Ausreißertest untersucht die Residuen ja unabhängig von x, so dass man die Residuen, streng genommen, nur als Punkteplot auftragen sollte (rechte Abbildung unten). Aus dem Punkteplot wird auch unmittelbar klar, dass ein Ausreissertest den roten Punkt (der der Ausreisser ist) nicht als Ausreisser erkennen kann.

Ausreißertests bei der Regression

2013-11-27T11:18:00.000+01:00

Momentan bin ich ziemlich eingedeckt mit Korrekturarbeiten einer Lehrveranstaltung zur Biostatistik. Das ist zwar insgesamt eine sehr nervtötende Arbeit, liefert aber dennoch immer wieder nützliche Hinweise, wo Lernende mit einem bestimmten Stoffgebiet Probleme haben. So liefert die Korrekturzeit für mich immer auch Anregungen, bestimmte Aspekte nochmals intensiver oder aus einem anderem Blickwinkel darzustellen.

Diesmal scheint die Regression und in diesem Zusammenhang der Umgang mit Ausreißern ein schwarzes Loch aufgerissen zu haben, das dringend gestopft gehört (im Gegensatz zu schwarzen Löchern irgendwo im Universum, entsteht beim Auffüllen von schwarzen Löchern in den eigenen Grundkenntnissen keine Strahlung, weshalb man beim Lernen nicht leuchtet ;-)

Genug gequatscht, was ist das Thema? Nun das lässt sich am besten durch ein paar Fragen zusammenfassen:

Soll man die Regressionsvariablen auf Ausreißer überprüfen?
Soll man die Residuen auf Ausreißer überprüfen?
Kann es sein, dass man in den Residuen einen Ausreißer sieht, diesen aber mit einem Test nicht findet?

Antwort zu Frage 1: NEIN!!!

Vielleicht erscheint Ihnen die Frage unsinnig (nach dem Motto: "wie kommt der Lohninger auf diese blöde Idee?"). Wenn das so ist, dann überspringen Sie die folgenden Zeilen und lesen weiter bei der Antwort zur Frage 2.....

Für den Rest des werten Publikums hier eine ausführliche Antwort: Nun, die Regressionsvariablen einzeln auf Ausreißer zu überprüfen, ist deshalb sinnlos, weil es bei der Regression ja darum geht, den Zusammenhang zwischen zwei Variablen zu modellieren, und da macht die Überprüfung der Einzelvariablen wenig (keinen) Sinn. Ein Beispiel soll dies zeigen:

Im linken Diagramm (y₁ aufgetragen gegen x₁) sieht man einen klassischen Zusammenhang, der sich mit simpler parabolischer Regression einfach modellieren lässt; im rechten Diagramm (y₂ gegen x₂) gibt es hingegen ganz offensichtlich einen Ausreißer, der abseits der restlichen Daten liegt (und abseits des eigentlichen Zusammenhangs).

Führt man nun einen Ausreißertest (z.B. den Dean-Dixon-Test) aller Einzelvariablen durch, so findet man nur für die Variable y₁ einen Ausreißer, nämlich den Punkt P₁ - was natürlich im Licht der Regression Blödsinn ist, da gerade dieser Wert im Zusammenhang mit x₁ seine Berechtigung hat und schön brav in der Nähe der Regressionskurve liegt. Andererseits ist der Wert P₂ im rechten Diagram mit Sicherheit ein Ausreißer, wird aber beim Test der Einzelvariablen nicht gefunden, da die jeweiligen Koordinaten ja innerhalb der Verteilung der Koordinaten der anderen Punkte liegen.

Einzig richtige Schlussfolgerung aus dem Experiment: Hände weg von Ausreißertests der Einzelvariablen!! Das heißt aber nicht, dass Ausreißer nicht massive Probleme bei der Regression machen können.

Soweit die erste Teilantwort auf Frage 1, die weiteren Antworten folgen in den nächsten Tagen (so bald ich wieder Luft habe und die Arbeiten aus der Biostatistik-Lehrveranstaltung fertig korrigiert sind).

DataLab 3.53

2013-11-18T20:57:00.001+01:00

Wie heisst es so schön: es kommt erstens anders, und zweitens als man denkt.... So geschehen auch bei der neuen DataLab-Release, die quasi eine ungeplante Frühgeburt ist.

Die Story dahinter ist eigentlich beschämend für einen großen Internet-Konzern: die Firma Yahoo, die irgendwann vor vielen Jahren unseren Provider in Kalifornien aufgekauft hat, hat vor einiger Zeit ohne die Kunden (also uns) zu informieren das http-Protokoll ihrer Server umgestellt, was unmittelbar dazu führte, dass unser Update-Server vergeblich auf Update-Anforderungen von DataLab wartete. Der Effekt ist bekannt - das Update von DataLab funktionierte nicht mehr.

Nach dem die ersten Kunden meckerten, gingen wir der Sache nach. Eine nette Mail an Yahoo brachte ziemlich genau nichts, da dachte sich wohl Goliath, "was will der kleine David, soll er doch ..." Also zogen wir die Notbremse und portierten unseren Update-Server von Kalifornien nach Köln zu Host Europe (eine tolle Hosting-Firma, wir sind sehr zufrieden seit vielen Jahren). Als Konsequenz musste natürlich auch DataLab entsprechend angepasst werden, was dann mitten in den Programmierarbeiten einiger neuer Features zu einer Zwangseinleitung der Geburt der Version 3.53 führte.

Nun das Baby ist da, und kräht.... Als nette Neuerung gibt es "Ridge Regression" mit im Werkzeugkasten, so dass stark korrelierte Deskriptoren auch für MLR verwendet werden können. Leider ist der "Memory Based Learner" immer noch nicht freigegeben, erste interne Tests zeigen aber bereits, wie mächtig diese aufgemöbelte Uralt-Methode ist.

Voraussetzungen von Tests

2013-11-12T11:10:00.001+01:00

Kürzlich fragten mich einige Studierende, wie man einen Überblick zu den Voraussetzungen von statistischen Tests bekommt. Da dies in den "Grundlagen der Statistik" nirgends zusammengefasst ist, hier eine Liste der Voraussetzungen der wichtigsten stat. Tests:

Test	Voraussetzungen
1-Stichproben χ²-Test	Normalverteilung der Stichprobe
F-Test	Normalverteilung beider Stichproben
1-Stichproben t-Test	Normalverteilung der Stichprobe
2-Stichproben t-Test	Normalverteilung beider Stichproben gleiche Varianz der Stichproben
Differenzen t-Test	Normalverteilung der Differenzen
Mann-Whitney-U-Test	gleiche Verteilungsform der Stichproben
Shapiro-Wilk-Test	i.i.d.⁽¹⁾
Welch-Test	Normalverteilung beider Stichproben
einfaktorielle ANOVA	Normalverteilung aller Gruppen Gleichheit der Varianz aller Gruppen

Ich hoffe, das klärt vorerst die wichtigsten Fragen und ich werde diese Tabelle bei der nächsten Gelegenheit ins Lehrbuch einfügen.

⁽¹⁾i.i.d. = "independent and identically distributed" --> alle Beobachtungen sind unabhängig voneinander und stammen von der gleichen Verteilung

Kritische Grenzen

2013-11-10T22:07:00.000+01:00

Eine Frage, die immer wieder für Verwirrung sorgt, ist die Art und Weise wie man bei statistischen Tests zu einer Entscheidung findet. Die einen schwören auf den Einsatz kritischer Grenzen, bei deren Über- bzw. Unterschreiten eine Nullhypothese abzulehnen ist, die anderen verwenden lieber den p-Wert, der sich aus der Testgröße ergibt.

Neulich hatte ich allerdings das sonderbare Vergnügen, einen Bericht zu lesen bei dem die Testgröße direkt mit dem Signifikanzniveau verglichen wurde, was dem "Paper" (so heißen Forschungsberichte auf Neuhochdeutsch) eine besondere Note verlieh, und der Erstellerin dank meiner Rückmeldung hoffentlich die Erkenntnis, dass man "größer" und "kleiner"-Zeichen nicht überall zur Anwendung bringen sollte.

Worum ging es: ein simpler Test auf Normalverteilung (Lilliefors) wurde durchgeführt, dabei ergaben sich folgende Werte:

Testgröße	LF = 0.2387
zugeordnete Irrtumswahrscheinlichkeit	p = 0.021
kritische Grenze für ein Signifikanzniveau von 0.05	0.2205

Die Autorin des Papers stellte fest, dass die Normalverteilungshypothese abgelehnt werden muss, da die Testgröße (0.2387) größer als 0.05 (das angenommene Signifikanzniveau) ist.

So was tut natürlich weh, da vergleicht einer Äpfel mit Birnen und zieht daraus dann messerscharf einen (zufällig richtigen) Schluss. Warum Äpfel und Birnen? Naja, die Testgröße ist ein Skalar, eine nichtssagende bloße Nummer, das Signifikanzniveau aber eine Wahrscheinlichkeit....

Also nochmals zum Mitschreiben: Entweder man vergleicht die Testgröße mit der kritischen Grenze, oder aber die errechnete Irrtumswahrscheinlichkeit mit dem Signifikanzniveau.

P.S.: Ich muss zugeben, dass das in DataLab nicht konsistent gelöst ist. Bei den Normalverteilungstests werden zwar die kritischen Grenzen angegeben, in der Handlungsanleitung wird aber der p-Wert verglichen. Bei den anderen Tests bezieht sich die Handlungsanleitung auf die Testgrößen und die zugeordneten kritischen Grenzen. Diese Inkonsistenz in der Handlungsanleitung mag gerade Anfänger verwirren, wir werden das ändern. Versprochen.

Regression und Residuen

2013-10-07T08:56:00.000+02:00

Haben Sie schon mal überlegt wie groß der Einfluss nicht normalverteilter Residuen auf das Ergebnis einer linearen Regression ist? Wenn nein, dann sollten Sie weiterlesen....

Um diese Frage auf sehr einfachem Niveau zu untersuchen, machen wir den folgenden experimentellen Ansatz: Man nehme 100 Datenpunkte x_i in regelmäßigem Abstand (z.B. Werte von 1 bis 100), setze diese in eine beliebige lineare Formel y=kx+d ein und addiere normalverteite Zufallszahlen, so dass man y-Werte bekommt, deren Zusammenhang zu x man kennt, die aber "verrauscht" sind, z.B.:

y_i = 5*x_i + 7 + 10*gauss

"gauss" ist eine Funktion die normalverteilte Zufallszahlen mit Mittelwert null und Standardabweichung 1 liefert. Auf die Wertepaare {x_i,y_i} wird nun die lineare Regression angewendet.

Klarerweise sollten sich dann als Parameter der Regression für k etwa 5 und für d etwa 7 ergeben, die Residuen entsprechen dann annähernd der Funktion 10*gauss. Bei diesem Experiment (nennen wir es "ideal") werden die Annahmen der Regression erfüllt, die Ergebnisse sollten sich also den "wirklichen" Werten annähern.

Nun wandeln wir das Experiment ab, in dem wir statt des Terms "10*gauss" einmal den Term "10*abs(gauss)" und einmal den Term 10*sqr(gauss) verwenden. In Worten: Wir erzeugen Residuen, die nicht symmetrisch sind, in dem wir einmal den Absolutwert der normalverteilten Zufallszahlen verwenden, und einmal das Quadrat dieser Zufallszahlen.

Die Ergebnisse der Regression sprechen eine klare Sprache:

Experiment	Steigung k	Offset d
ideal	5.027+/-0.036	6.11+/-2.07
abs	5.054+/-0.024	12.24+/-1.37
sqr	4.979+/-0.043	17.19+/-2.5

Während beim idealen Datensatz die Ergebnisse sehr gut mit der "Wirklichkeit" übereinstimmen, gibt des bei den Datensätzen "abs" und "sqr" deutliche Verschiebungen des Offsets d. Was man auch schön sieht, ist, dass das Vertrauensintervall des geschätzten Offsets nicht mehr den wirklichen Wert enthält. Das Ergebnis ist also tatsächlich falsch und nicht bloß "mit statistischen Abweichungen" behaftet.

Schlussfolgerung: Machen Sie genau das, was ich schon immer predige (Sie können gerne zu mir in die Vorlesung kommen um sich die Predigt anzuhören...): Das Wichtigste bei der Regression ist die Analyse der Residuen.

Sieht man sich die Verteilung der Residuen für die drei Experimente an, so schrillen beim geübten Statistiker sofort die Alarmglocken - die Residuen sind nämlich deutlich sichtbar nicht symmetrisch verteilt:

Die Residuenplots wurden mit DataLab gemacht. Falls Sie das Experiment selber durchführen möchten, können Sie die Daten aus dem Data Repository von DataLab laden (Datensatz "Residuen"). Die erste Spalte des Datensatzes enthält die x-Werte, die restlichen Spalten die jeweiligen y-Werte der drei Modelle.

Standardabweichung der Residuen bei MLR

2013-08-29T17:27:00.000+02:00

Haben Sie schon mal die Standardabweichung der Residuen bei einer MLR (multiplen linearen Regression) nachgerechnet? Wenn man das naiv (im besten Sinne des Wortes) macht, so nimmt man einfach die Residuen und berechnet daraus die Standardabweichung - fertig. Oder doch nicht?

Na ja, wenn ich schon so blöd frag, dann wird's wohl doch nicht ganz so einfach sein. Sieht man nämlich die naiv berechnete Standardabweichung der Residuen als Schätzwert für die wirkliche (aber unbekannte) Standardabweichung an, so kann man mit ein paar einfachen Experimenten feststellen, dass der naiv berechnete Wert "viel zu gut" ist; d.h. dieser Wert gaukelt ein Modell vor, das besser zu sein scheint als es tatsächlich ist.

Nun der Grund für die zu guten Werte liegt in der Tatsache, dass die mit dem MLR-Modell geschätzten y-Werte ja zumindest auf zwei (meist aber mehr) Deskriptoren beruhen (sonst wär's ja keine MLR). Und generell gilt, je mehr Deskriptoren ich habe, desto eher wird das MLR-Modell sich an die fehlerbehafteten Daten anpassen - und damit die Residuen künstlich verkleinern.

Möchte man also den "wahren" Wert der Residuen kennen, so ist bei der Berechnung eine Korrektur anzubringen, die die Zahl der Deskriptoren (p) berücksichtigt. Und genau das passiert bei einer korrekt berechneten MLR: Die Standardabweichung der Residuen ist eben nicht der naiv berechnete Wert, sondern einer der um den Faktor

größer ist (mit n = Zahl der Beobachtungen, p = Zahl der Deskriptoren).

"Focus" mag meinen Kommentar nicht

2013-03-25T10:39:00.001+01:00

Haha! Die Redaktion von "Focus" ist ja ziemlich fix: Mein Versuch, einen Kommentar zu einem Zypern-Artikel anzubringen, wurde innerhalb weniger Minuten mit folgender Begründung abgelehnt:

Hallo Hans Lohninger,

Ihr Beitrag:

... und schon wieder ein Durchschnitt
Durchschnittliche Sparguthaben anzugeben (Zypern: 85000 EUR) ist aus der Sicht des Statistikers eine mehr als fragwürdige Angelegenheit. Sie erzeugen damit einen grob falschen Eindruck. Besser wäre der Median der Sparguthaben. Mehr dazu ist hier zu lesen: http://developing-datalab.blogspot.co.at/2013/03/durchschnittliches-sparguthaben-in.html

wurde von uns nach Prüfung durch einen Administrator nicht veröffentlicht.

Die Gründe, die zu dieser Entscheidung geführt haben können, entnehmen Sie bitte unserer Netiquette: http://www.focus.de/community/netiquette

Eine Erläuterung der Ablehnung ist aus personellen und zeitlichen Gründen nicht möglich.

Ihr FOCUS-Online-Administrationsteam

Bleibt nur noch die Frage, ob die Focus-Redaktion grundsätzlich nur Jubelmeldungen als Kommentar zulässt....

Durchschnittliches Sparguthaben in Zypern

2013-03-25T09:38:00.000+01:00

Die dramatischen Ereignisse in Zypern hinterlassen Spuren.... bei mir zwar keine finanziellen Kratzer am Sparbuch, dafür aber einigen Ärger im Gehirn....

So schreibt "Focus", wie viele andere Medien auch, dass das durchschnittliche Sparguthaben in Zypern mit 85000 EUR viermal so hoch ist wie in Deutschland - hm.... - da beginnt auch schon der Ärger:

Wieso lernen Journalisten nicht wenigstens so viel elementare Statistik, um zu wissen, dass der Mittelwert bei schiefen Verteilungen ziemlich weit weg von der "Wahrheit" liegt und dadurch die Berichterstattung total verzerrt wird. Man bekommt da den Eindruck, dass die Zyprioten extrem reich sind (und sich somit den Finanzschnitt ohnehin locker leisten können). Die Wahrheit ist aber, dass das zypriotische Lohnniveau - gemessen an der Kaufkraft - um ca. 30% niedriger als das Lohnniveau in Deutschland ist, und sich somit der "durchschnittliche Zypriote" wohl kaum 85000 EUR ersparen kann.

Gut ausgebildete Journalisten würden an dieser Stelle wohl den Median der Sparguthaben anführen, was nicht nur den Vorteil hätte, dass man diese Zahl wesentlich besser interpretieren könnte (50% aller Sparguthaben liegen unterhalb des Medians, 50% darüber), sondern auch eine weniger verzerrte Berichterstattung ermöglichen würde.

Zur Erklärung ein kleines Experiment, durchgeführt mit dem Zufallszahlengenerator von DataLab: Betrachten wir jeweils 100000 Sparguthaben und füllen sie mit zufälligen virtuellen Guthaben im Bereich zwischen 1000 und 100000 EUR (nehmen wir also die in den letzten Tagen vielbeschriebenen Kleinsparer an), wobei eine leicht rechtsschiefe Verteilung angenommen wird. Beim zweiten Teil des Experiments nehmen wir an, dass 5% der "Sparer" Leute mit viel Geld sind (aus welchen Quellen auch immer). Wir wählen also zufällig 5000 aus den 100000 Sparkonten aus und verpassen diesen Glückspilzen zufällige Beträge zwischen 100000 und 100 Millionen EUR.

So, und nun berechnen wir sowohl den Mittelwert als auch den Median dieser Sparkonten:

                                  95% Kleinsparer
         100% Kleinsparer      5% Leute mit viel Geld
         --------------------------------------------
Mittelw.     52817 EUR               303368 EUR
Median       51734 EUR                52372 EUR
         --------------------------------------------

Wie man leicht erkennen kann, täuscht der Mittelwert eine extrem wohlhabende zypriotische Bevölkerung vor, obwohl grade mal 5% der Sparguthaben "reichen Leuten" gehören (der Mittelwert ist fast 6-mal so hoch wie der Median)....

Da taucht in meinem verärgerten Gehirn ein Satz auf, den manche ältere Semester wohl so ähnlich von prominenter Seite in Erinnerung haben: "Lernen'S a bisserl Statistik, Herr Reporter" (frei nach Bruno Kreisky, 24.2.1981)

DataLab Release 3.51

2013-03-15T18:16:00.000+01:00

Manchmal geht nicht alles nach Plan ... diesmal wollte ich eigentlich, dass der Memory Based Learner (aka KNN) wieder in DataLab zur Verfügung steht - alleine die Programmiergötter waren gegen uns. Also heißt es weiter warten auf der einen Seite des Rubicon und weiter schuften auf der anderen Seite....

Wie auch immer, die neue Release ist sicher einen Versuch Wert. Mehr dazu findet sich auf den DataLab-Seiten.

Nett finde ich den 2D-Datendesigner, mit dem man sich schnell mal zweidimensionale Datensätze "zusammenklicken" kann - was gerade beim Erlernen neuer Methoden sehr hilfreich sein kann.

Signifikanz des Korrelationskoeffizienten

2013-01-25T08:07:00.000+01:00

Gestern wurde in einem Forumbeitrag die Frage gestellt, wie man die Signifikanz des Korrelationskoeffizienten nach Spearman berechnet. Zu meiner Antwort direkt im Forum hier noch ein paar praktische Anmerkungen:

1) Die im Posting des Forums erwähnte Umformung in einen t-Wert gilt nur für den Fall, dass man die Korrelation gegen 0 prüfen will, für die Prüfung gegen einen anderen Wert ist eine etwas andere Umformung zu verwenden, die eine normalverteilte Testgröße liefert (siehe letzte Formel auf der entsprechenden Seite in den "Grundlagen der Statistik").

2) Die Überprüfung gegen Null kann man im DataLab direkt machen, in dem man die Korrelationstabelle aufruft und auf den Einstellregler "Level of Signif." klickt. Wie man aus der folgenden Abbildung erkennen kann, ist also der Korrelationskoeffizient des Beispiels im Forum auf dem 5%-Niveau nicht signifikant (sonst würde das Feld mit dem Korrelationskoeffizienten rot aufleuchten)

3) Wer sich das Problem der Verteilung des Korrelationskoeffizienten bei unterschiedlichen Populationswerten klarer machen möchten, dem sei das kleine Simulationsprogramm empfohlen, das ich vor einigen Jahren geschrieben habe, um meinen Studierenden die Situation klarer zu machen (aber dazu sollte ich wohl noch einen gesonderten Blogeintrag schreiben...).

4) Wer nun meint, dass meine Diskussion sich großteils auf den Pearson'schen Koeffizienten bezieht, während im Forum die Frage nach dem Spearman'schen Koeffizienten gestellt wurde, und mir damit eine Themenverfehlung diagnositiziert, der sei darauf hingewiesen, dass sich die beiden Korrelationskoeffizienten nicht unterscheiden, falls keine Bindungen vorliegen (was in diesem Beispiel der Fall ist).

DataLab Release 3.506

2013-01-07T21:39:00.001+01:00

Manchmal sind kleine Schritte unscheinbar, aber doch irgendwie groß.... so geschehen bei der neuen DataLab-Release. Das gute Stück hat sich in den letzten 5 Monaten um ganze 6 Tausendstel Versionsnummern bewegt (von 3.500 auf 3.506) und trotzdem haben sich wesentliche Dinge ganz deutlich zum Besseren entwickelt. Die umfangreiche Liste der Verbesserungen lässt das Understatement der Versionsnummern nur erahnen.

Einziger Wermutstropfen: KNN (k-Nearest Neighbors) ist vorübergehend vom Mitspielen ausgeschlossen, wird aber als MBL (memory based learner) eine Wiederbelebung erfahren. Mehr zu MBL dann in einem späteren Beitrag.

Singular Value Decomposition

2012-12-21T10:39:00.001+01:00

Heute bin ich mehr oder weniger zufällig auf einen interessanten Film aus dem Jahr 1976 gestoßen, der die Singular Value Decomposition (SVD) visualisiert. SVD ist ja inzwischen einer der am meisten eingesetzen Algorithmen in vielen Bereichen der Naturwissenschaften. Die Anwendungen reichen dabei von der Analyse von Schwingungen von Molekülen, über das Verhalten von Brücken im Sturm, bis zu vielen multivariaten Modellierungsverfahren wie z.B. PLS (partial least squares).

1976 war SVD noch relativ wenig bekannt, darum wurde der Film damals auch als eher exotisch angesehen. Der Film wurde durch Abfotographieren der einzelnen Schritte vom Computerbildschirm erzeugt. Man bedenke dabei, dass farbige Computerbildschirme zu dieser Zeit eine absolut seltene (und sehr teure) Angelegenheit waren, und wohl nur in wenigen Forschungsstätten zur Verfügung standen. Ich denke noch immer mit gemischten Gefühlen an eine Äußerung eines Betreuers meiner Diplomarbeit einige Jahre später, der tatsächlich meinte (so um 1980/81), dass Farbbildschirme nicht wirklich einen Gewinn für die Datenanalyse bringen würden.... na ja, so kann man sich irren.

Aber bevor ich mich zu sehr in Nostalgie verfange, hier der Film:

Cool, nicht? Also dann, Frohe Weihnachten!

vom Vertrauen in Schätzungen...

2012-12-07T09:04:00.000+01:00

Ort der Handlung: Das Innenleben eines Studierenden an der chemischen Fakultät. Das Semester läuft nun so richtig auf Hochtouren, alle wuseln herum und sind nur mehr hektisch. Neben Laborübungen gibt es dann noch irgendwelche Zwischenprüfungen zu absolvieren, Proben nochmals zu messen, sich mit abgestürzten Computern herumzuschlagen, vergessene Passwörter wieder zu organisieren, parallel dazu Vorlesungen besuchen, sich für die Übung am nächsten Tag vorbereiten, bei der Abschlussfeier nicht abstürzen, .... und dann soll man all die neuen Dinge auch noch verstehen, oder zumindest soweit inhalieren, dass keiner merkt, dass man es eigentlich doch nicht verstanden hat.

Schnitt - zu Hause am Computer: irgendein Professor behauptet, ich hätte das Konfidenzintervall für die Abschätzung meines Analysenwerts falsch angegeben. Wie ich das hasse, ich will Chemiker werden, nicht Mathe-Fuzzi. Also Max anrufen, der kennt sich aus mit dem Mathe-Zeugs. Max meint, da muss man y-dach nehmen, weil das den Schätzwert mit dem richtigen Konfidenzintervall angibt. Mehr ist auch aus Max nicht herauszubekommen, weil grade Tina bei ihm ist, und Konfidenzintervalle für ihn momentan nicht so arg wichtig sind. Am besten ich suche mir eine Freundin aus der Mathematik, da kann man dann das Angenehme mit dem Nützlichen verbinden. Ah verdammt, das wird sich nicht ausgehen, ich muss die Korrektur bis morgen abgeben.

Also, eine Rauchpause, und dann googeln: "konfidenzintervall regression".... na da kommt ja einiges an Material hoch. Gewohnheitsmäßig klicke ich auf Wikipedia - obwohl in letzter Zeit bin schon oft arg eingefahren, in den Wikipediaeinträgen steht auch nicht immer das Gelbe vom Ei. Oh, Wikipedia bietet ja eine Menge Stoff zum Thema. Verdammt, beim Runterscrollen tauchen da ja Formeln auf, die mir alle spanisch vorkommen, und die Regression wird in diesem Artikel zwar erwähnt, aber in Zusammenhang mit den Koeffizienten, ist wohl nicht mein Problem. Also weiter, zu anderen Google-Ergebnissen, ah ja, da gibt es ja noch einen Wikipedia-Eintrag, explizit zur Regressionsanalyse. Enttäuschung - das einzige was Wikipedia in diesem Artikel dazu anbietet ist folgender geniale Satz: "Häufig wird neben dem prognostizierten Wert von y auch ein Konfidenzintervall angegeben, um so die Unsicherheit der Prognose abzuschätzen." - Ah ja, dacht ich mir's doch, das hilft ja wirklich weiter.

Vielleicht sollte ich es doch zur Abwechslung mit einem Buch probieren - aber mit welchem? Genaugenommen bin ich zu faul, in die Bibliothek zu pilgern, und jetzt ist es ohnehin schon zu spät. Also weiter im Internet stöbern. Ah da! Ein Eintrag in MatheBoard. Na die Damen und Herren kennen sich ja ziemlich aus. Da ist von "deskreptiver Statistik" die Rede (ich dachte das heißt doch "deskriptiv", oder?) und von einem "Bland-Altman-Plot" - was auch immer das ist. Alles Selbstdarsteller, jeder wirft mit Ausdrücken herum, keiner kann's erklären. Ah, da gibt es noch einen Link auf Wikipedia, auch zur Regression, aber ein anderer Artikel als die bisher besuchten. Mal sehen.... Schaut so aus, als ob das genau mein Problem behandelt. Aber schon wieder Formeln - keine Chance, ich bin dabei Chemiker zu werden, nicht Mathematiker.

Na was mache ich nun? Ist irgendwie doof, ich werd einfach y-dach hinschreiben, vielleicht schluckt der Prof. es ja, und morgen bei der Besprechung werde ich um mein Leiberl reden, ein paar Kraftausdrücke, wie "Konfidenzintervall", "Residuum" und "Heteroskedastizität" kann ich ja zumindest schon aussprechen.... (Mann, bin ich froh, wenn endlich Weihnachten ausbricht).

Regression bei niedriger Korrelation

2012-11-30T21:47:00.000+01:00

Gestern stellte mir jemand die Frage, ob es sinnvoll ist, eine Regression zwischen x und y zu berechnen, obwohl der Pearson'sche Korrelationskoeffizient nahezu null ist. Der Fragesteller wollte eigentlich nur eine Bestätigung seiner Ansicht, dass es keinen Sinn macht, in diesem Fall eine Regression zu berechnen.

Meine Antwort gefiel dann weniger, sie hörte sich nämlich ziemlich opportunistisch an: "Es kommt darauf an...".

Also zu den Details: Wenn man davon ausgeht, dass mit Regression die simple Anpassung einer Geraden an die Messpunkte gemeint ist, dann ist die Antwort genau im Sinne des Fragenstellers - also sinnlos sich weiter anzustrengen, die Regression wird einfach abgeblasen.

Manche Zeitgenossen neigen nun dazu (und dazu gehört meine Wenigkeit), sich Gegenargumente zurecht zu legen und womöglich Beispiele zu finden, die eine verallgemeinerte Ansicht widerlegen können; und erst wenn sich auch nach langem und angestrengtem Grübeln kein Gegenbeispiel finden lässt, geht man davon aus, dass "es keinen Grund zur Ablehnung dieser Ansicht gibt" (wem diese Formulierung bekannt vorkommt, der hat schon mal einen Stein im Brett des Statistikers).

Im speziellen Fall ist allerdings das Gegenbeispiel dann auch schnell gefunden. Fasst man nämlich ins Auge, dass mit Regression z.B. auch ein Polynom n-ten Grades an gegebene Daten angepasst werden kann, dann sieht die Situation schon ganz anders aus. Die folgende Abbildung zeigt ein klassisches Beispiel. Der Korrelationskoeffizient für diese Daten ist praktisch null (genau genommen 0.08, was sich aber nicht signifikant von null unterscheidet), und es lässt sich dennoch eine wunderbare Regression berechnen (nämlich eine parabolische, siehe die rote Kurve).

Die Erklärung für das eigentümliche Verhalten - keine Korrelation aber dennoch eine wunderbare Regression - liegt in der simplen Tatsache, dass der Pearson'sche Korrelationskoeffizient einen geradlinigen Zusammenhang voraussetzt.

...also es kommt halt darauf an (sagte ich ja ;-).

Reaktionszeit im Alko-Dusel

2012-11-27T21:27:00.001+01:00

Haben Sie sich schon einmal gefragt, um wieviel langsamer Sie ein gepflegtes Bier macht? Die Verkehrsauguren meinen ja (völlig zurecht), dass man durch den Genuss von Alkohol fahruntauglich wird.

Da sagte neulich ein Bekannter zu mir (110 kg, ein Hühne), dass er ein Bier überhaupt nicht spüre und ein zweites eher für die innere Schönheit notwendig ist, und natürlich auch nicht wirkt. Mein bescheidener Körper ist da nicht mit solchen inneren Schönheiten ausgestattet - ich merke schon das erste Bier. Allerdings kann ich überhaupt nicht einschätzen, wie stark sich ein Bier tatsächlich auswirkt.

Wie es halt dem Wissenschafter geziemt, lässt sich diese Frage durch ein einfaches Experiment klären. Dazu habe ich ein kleines Programm zur Messung der Reaktionszeit geschrieben, bei dem man auf die Farbveränderung einer Fläche am Bildschirm durch einen Mausklick reagieren muss. Also los geht's mit der Messung, zuerst im nüchternen Zustand, dann - nach einer Flasche Gösser Zwickl - im Zustand innerer Schönheit.

Ergebnis: die Verlangsamung nach einem Bier lässt sich gerade noch nachweisen. Ab dem zweiten Bier wird sich der Effekt vermutlich schon ganz deutlich zeigen; den Test wollt ich dann aber nicht machen, da das dann doch zu viel der inneren Schönheit gewesen wäre.

Für die Statistik-Freaks nun die Details, hier sind die Daten (dabei wurde jeweils 50 bzw. 51 mal die Reaktionszeit auf den Farbumschlag von weiß auf rot gemessen):

Reaktionszeiten nüchtern [msec]
259, 299, 238, 242, 261, 258, 355, 
257, 275, 269, 265, 343, 230, 247, 
290, 287, 230, 245, 267, 348, 287,
287, 318, 249, 279, 273, 278, 233, 
411, 268, 347, 250, 289, 272, 349, 
305, 349, 252, 373, 403, 396, 258, 
300, 293, 258, 446, 288, 304, 272, 
279

Reaktionszeiten nach einem Bier [msec]
375, 324, 268, 512, 233, 274, 358, 
249, 255, 249, 556, 274, 453, 335, 
307, 361, 506, 297, 275, 271, 290, 
328, 279, 267, 351, 246, 263, 282, 
276, 310, 469, 274, 328, 454, 286, 
440, 323, 249, 252, 360, 433, 274, 
421, 419, 387, 248, 272, 289, 290,
311, 241

Was man an den Daten sofort sieht, ist, dass sie ganz offensichtlich nicht normalverteilt sind, der Shapiro-Wilk-Test liefert dann dazu auch noch die handfesten Zahlen - also nichts mit t-Test zum Vergleich der Reaktionszeiten, es drängt sich der Mann-Whitney-U-Test auf. Der Vorteil des U-Tests ist, dass er nahezu keine Voraussetzungen verlangt - ein Test für alle Lebenslagen, aber auch ein wenig geringer in der Trennschärfe.

Die Ergebnisse im Detail sprechen für sich. Der Mittelwert der Reaktionszeiten im nüchternen Zustand ist um rund 33 msec niedriger als nach einem Bier, die Standardabweichung der Reaktionszeiten ist nach einem Bier deutlich höher, was darauf hindeutet, dass man nach einem Bier nicht nur langsamer wird, sondern auch unkonzentrierter (die Ergebnisse schwanken mehr).

Daten des Blocks A (nüchtern):
      Zahl der Daten: 50
          Mittelwert: 292.62000
        Standardabw.: 50.54999

Daten des Blocks B (nach 1 Bier):
      Zahl der Daten: 51
          Mittelwert: 326.35294
        Standardabw.: 80.74003

Wendet man nun den U-Test auf die Daten an, dann kann man auf einem Signifikanzniveau von 0.05 (95%ige Sicherheit) die Nullhypothese, dass sich die beiden Verteilungen nicht unterscheiden, ablehnen. Das Ergebnis ist zwar knapp, aber doch eindeutig (U-Wert 969.5, kritische Grenze für das angegebene Signifikanzniveau 986; die Nullhypothese ist abzulehnen, wenn der U-Wert kleiner als die kritische Grenze ist).

.... bleiben noch ein paar nachdenkliche Fragen: wie weit fährt ein Auto mit 100 km/h in 33 msec? Und wie ist das mit dem vermehrt auftretenden "Sekundenschlaf" unter Alkoholeinfluss? Die Antworten lassen sich wohl so zusammenfassen: don't drink and drive.....

(Un)gleichheit...

2012-11-15T15:01:00.000+01:00

Letztens fragte mich eine Studierende wieso in DataLab keine Tests auf Gleichheit von Mittelwerten eingebaut sind - man kann ja mit den üblichen Tests immer nur die Annahme der Gleichheit von Mittelwerten widerlegen, nie aber bestätigen. Sie erkannte darin einen schweren Mangel von DataLab und meinte, dass das Fehlen solch elementarer Tests wohl nicht verkaufsförderlich sei. Nun, statistisch gesehen eine interessante Frage - ob sich daraus allerdings Konsequenzen kommerzieller Natur ableiten lassen, wollen wir lieber den Marketingexperten überlassen (die werden schon einen passenden Spruch finden, damit der Blähbauch nicht zu groß wird).

Ich möchte die Antwort auf den statistischen Teil der Frage durch ein einfaches Beispiel illustrieren: Angenommen, wir möchten mit einem statistischen Test nachweisen, dass ein Mittelwert θ signifikant gleich einem vorgegebenen Wert θ₀ ist. Nach der üblichen Vorgangsweise bei statistischen Tests müsste man dazu als Nullhypothese das Gegenteil behaupten (H₀: "der Mittelwert ist nicht gleich θ₀"). Bei einer Ablehnung dieser H₀ wüsste man dann, dass der Mittelwert mit 100*(1-α)%iger Sicherheit gleich dem vorgegebenen Wert ist (wobei α das Signifikanzniveau ist).

So weit so gut. Das Problem ist nur, dass man keinen statistischer Test konstruieren kann, der zu einer direkten Ablehnung dieser Nullhypothese führt, da ja "nicht gleich" bedeuten kann, dass der Mittelwert sich nur ganz wenig unterscheidet (z.B. um ein Prozent abweicht), oder aber ganz enorm abweicht (z.B. um den Faktor 10 größer ist). So lange ich nicht festlege, was ich unter Ungleichheit verstehe, werde ich keine fundierte Entscheidung bzgl. H₀ treffen können (= H₀ auf einem bestimmten Signifikanzniveau ablehnen).

Um korrekt vorzugehen, muss ich also einen sogenannten Äquivalenzbereich definieren [ε₁, ε₂], innerhalb dessen ich etwaige Unterschiede als irrelevant betrachte. Für meine Null- bzw. Alternativhypothese gelten somit die Formulierungen:

H₀:	θ ≤ ε₁ oder θ ≥ ε₂
H₁:	ε₁ < θ < ε₂

Man führt also den Test auf Ungleichheit auf zwei einseitige Tests zurück und lehnt die oben formulierte Nullhypothese ab, falls beide Teiltests zu einer Ablehnung ihrer jeweiligen Nullhypothese führen.

Das bedeutet aber, dass ich (1) ohne vorherige Festlegung des Äquivalenzbereich, also ohne Festlegung, wie Ungleichheit definiert ist, keinen Test auf Gleichheit durchführen kann, und (2) bei zu kleinem Äquivalenzbereich ich nie eine Ablehnung der Nullhypothese bekommen werde. Wie groß der Äquivalenzbereich mindestens sein muss, hängt vom Signifikanzniveau und von der Zahl der Beobachtungen ab.

Zurück zur eingangs erwähnten Studierenden: Abgesehen davon, dass in DataLab natürlich einseitige Tests eingebaut sind und man auf diese Weise den Äquivalenztest durchführen kann - vielleicht sollte ich doch einen direkten Äquivalenztest in DataLab implementieren, mal sehen, ob das dann der Hit des Jahres wird und ich als kommerzielle Konsequenz daraus alle Studierenden des Jahrgangs auf ein Bier einladen kann (;-)

Buchstabensalat

2012-11-12T09:35:00.001+01:00

Ich weiß nicht, wie es anderen Leuten geht; aber wenn ich zu viel (öde) Arbeit habe, dann neige ich dazu, mir mal zwischendurch ein "Spielchen" zu genehmigen. Und am Wochenende war's mal wieder soweit. Die Zahl der zu verbessernden Übungen aus dem Biostatistik-Kurs stieg gegen gefühlte Unendlich - ein schier unüberwindlicher Haufen von Protokollen und Emails. Also was liegt näher, als sich mal kurz aus der Schlacht zu nehmen.

Idee zum Spielchen: Ermittle alle Zwei-Buchstaben-Kombinationen in beliebigen Texten und zähle sie. Die Häufigkeiten der Buchstabenkombinationen werden dann zur statistischen Analyse dieser Texte verwendet.... So weit die Idee. Nun zur Verwirklichung: Da ich seit geraumer Zeit an mehreren eBooks schreibe, und zwei davon inhaltlich praktisch ident sind, das eine in Deutsch das andere in Englisch, wollte ich mal wissen, ob man auf diesem sehr banalen Weg die beiden Ebooks unterscheiden kann.

Also schrieb ich ein kleines 100-Zeilen-Programm, das die Seiten der beiden eBooks (je 527 Seiten) in diese Zweier-Kombinationen aufspaltet. Von den so erhaltenen 676 Variablen (26x26 Buchstaben, Ziffern, Sonderzeichen und Umlaute wurden ignoriert) habe ich mit Hilfe von DataLab jene 180 Variablen ausgewählt, die die höchsten Häufigkeiten aufweisen. Der reduzierte Variablensatz wurde dann einer Hauptkomponentenanalyse unterworfen. Das Ergebnis war zwar erwartbar, ist aber doch auch interessant:

Hauptkomponentenanalyse der zwei eBooks. Texte der englischen Ausgabe sind blau, die Texte der deutschen Auflage rot eingefärbt.

Man kann in erster Näherung drei Effekte erkennen: (1) deutsche und englische Texte lassen sich sehr gut unterscheiden, (2) im roten, deutschsprachigen Bereich gibt es rund 15 blaue Markierungen. Das sind deutschsprachige Texte im englischen Buch; diese Texte wurden aus der deutschen Version in die englische Version kopiert aber noch nicht übersetzt. (3) Die beiden kleineren Cluster unterhalb der beiden Hauptcluster rühren von speziellen Seiten her, die sehr stark formalisiert sind und keine freien Formulierungen enthalten (es handelt sich um rund 90 Texte eines Wizzards zur Auswahl geeigneter statistischer Tests).

Wer selber mit dem Datensatz experimentieren möchte, findet den vollständigen Datensatz im DataLab-Repository unter dem Titel "Linguistische Textanalyse" (allerdings kann der Datensatz nur mit der registrierten Version von DataLab geladen werden, für die kostenlose Version ist er zu groß).

Übrigens: Den eingangs erwähnten unüberwindlichen Haufen an Übungsprotokollen habe ich dann natürlich auch noch fertig abgearbeitet - was dem Sonntag einen speziellen Touch gab ("am siebten Tag sollst du ruhen...").

US Wahlen und Austrogehirne

2012-11-06T20:51:00.000+01:00

Irgendwie drängt sich der Eindruck auf, dass die Hysterie um die US-amerikanische Präsidentschaftswahl, das Gehirn so manchen Redakteurs schwer beeinträchtigt. Wer's nicht glaubt, kann ja mal die Nachrichtenzusammenfassung am Ende des Morgenjournals im österreichischen Rundfunk am 6.11.2012 um ca. 8h12 nachhören (in der ORF-Radiothek). Zitat:

"Bei den heutigen Präsidentenwahlen in den USA zeichnet sich ein Kopf-an-Kopfrennen ab, wie sich auch am Beispiel eines kleinen Dorfes im nordöstlichen New Hampshire zeigt. In Dixville Notch haben etwa die wenigen Einwohner bereits gewählt, dabei hat es erstmals in der Geschichte ein Patt gegeben. 5 Stimmen für Amtsinhaber Barack Obama, und ebenfalls 5 Stimmen für Mitt Romney. 5 zu 5, ein weiterer Indikator für das extrem knappe Rennen bei der diesjährigen Wahl."

Das nenne ich eine valide Vorhersage des Wahlausgangs und einen Super-Indikator! Bravo ORF, für solche Meldungen zahle ich wirklich gerne meine Gebühren. Und damit ich die geringen ORF-Gebühren nicht überstrapaziere, möchte ich eine eingehendere statistische Diskussion dieser genialen Meldung nicht weiter verfolgen.... schade um den Strom, den die Ausstrahlung dieses "Beitrags" verbraucht hat.

P.S.: Frage an die Statistiker: Wie groß ist das Konfidenzintervall für eine Hochrechnung aus diesem Ergebnis, wenn man bedenkt, dass die paar Bewohner sich vielleicht abgesprochen haben???

Raucher bitte tief durchatmen!

2012-10-04T16:30:00.001+02:00

Nachdem wir uns bei der ersten Analyse der Staubmessungen in der Wiener U-Bahn über mögliche Ausreißer klar geworden sind und diese aus den Daten entfernt haben, möchte ich noch eine Frage nachschieben, die wir mit statistischen Mitteln beantworten wollen: Ist die Staubbelastung in den Stationsgebäuden U2 und U3 beim Volkstheater tatsächlich unterschiedlich?

Dazu wählen wir mal jeweils eine 5-minütige Phase während des Aufenthalts in den Stationsgebäuden U2 und U3 aus. Die Daten dazu finden sich unten, die Angaben beziehen sich auf den lungengängigen Staub, der in mg/m³ angegeben ist. Die jeweils 11 Messungen wurden mit 30 Sekunden Abstand gemessen.

Nun, bei einem Blick auf die Daten "sieht ja ein Blinder", dass die Werte in der U2 und in der U3 deutlich unterschiedlich sind. Aber lässt sich dieser Standpunkt auch vertreten, wenn z.B. ein Politiker (und davon gibt es in Wien überproportional viele) das genaue Gegenteil behauptet? Könnte es nicht sein, dass die Unterschiede zufälligt bedingt sind?

Um hier eine profunde Antwort zu geben, starten wir DataLab und laden die Daten in das Programm (Anleitung und Daten, siehe unten). Nehmen wir an, dass die Messungen der beiden Stationsgebäude unabhängig voneinander sind (sonst müsste ein kräftiger Wind die Luft von einer Station in die andere transportieren - ein Wind war aber während der Messungen nicht wahrnehmbar). Damit können wir die beiden Stichproben durch einen t-Test vergleichen. Voraussetzung für den 2-Stichproben-t-Test ist aber, dass die Stichproben jeweils normalverteilt und die Varianzen gleich sind.

Also führen wir vor dem t-Test einen Normalverteilungstest durch (z.B. den Shapiro-Wilk-Test). Dazu werden die beiden Stichproben jeweils rot und blau markiert und dann der Test durchgeführt. Für keine der beiden Stichproben wird die Nullhypothese (nämlich, dass sie normalverteilt sind) abgelehnt, also testen wir im nächsten Schritt mit dem F-Test auf Varianzgleichheit. Auch hier gibt es keine Ablehnung der Nullhypothese (p=0.07) also können wir im nächsten und letzten Schritt mit gutem Gewissen den t-Test anwenden.

Der t-Test ergibt nun mit sehr hoher statistischer Sicherheit (p < 10^-4 entspricht einer Sicherheit besser als 99.99%), dass die beiden Stichproben unterschiedlich sind. Wir können also mit Fug und Recht behaupten, dass die Luft in der U3-Station hoch signifikant schlechter ist als in der U2-Station. Also, liebe Wiener Nichtraucher, haltet die Luft an, wenn ihr mit der U3 fährt und in der Station Volkstheater aussteigt; Raucher dagegen dürfen und sollen tief durchatmen, denn so reine Luft bekommen sie nur bis zum Anzünden des nächsten Glimmstengels - alles ist relativ....

Die folgenden Daten können leicht durch "Copy and Paste" in DataLab geladen werden. Dazu kopieren Sie alle Zeilen zwischen den Trennstrichen in die Windows-Zwischenablage, wechseln dann zu DataLab und rufen den Befehl Datei/Laden/ASC Daten in Zwischenablage auf.

Lungenaktive Feinstaubfraktion U2/U3, Werte in mg/m3
2
11
FALSE TRUE FALSE FALSE
RESP-U2  RESP-U3
0.036    0.064
0.040    0.063
0.034    0.064
0.040    0.062
0.038    0.066
0.042    0.054
0.043    0.050
0.039    0.053
0.039    0.056
0.037    0.058
0.046    0.063

Feinstaub im Cafe

2012-09-23T16:40:00.002+02:00

Irgendwie konnte ich die Neugierde nicht unterdrücken.... Nach der letzten Staubmessung stellt sich natürlich die Frage, wie schaut denn die Feinstaubbelastung in Lokalen aus, vor allem in Lokalen in denen geraucht wird. Nach dem ich meine Lunge nicht unbedingt einer Luft "zum Schneiden" ausliefern wollte, wie man sie in manchen irischen Pubs vor einigen Jahren noch gratis zum Guinness geliefert bekam, machte ich einen Kompromiss und setzte mich in ein Kaffeehaus in Wien, in dem zwar geraucht wurde, das aber den Nichtraucher- und den Raucherteil (schlecht) separiert hatte.

Nebenbei ist da dann auch noch ein Mittagessen abgefallen (natürlich selbst bezahlt, obwohl diese Feinstaubmessung ein weiterer heldenhafter Einsatz im Dienste der Wissenschaft war). Egal wie, hier sind die Ergebnisse:

Man kann schön erkennen wie es der Kellnerin zu bunt mit der dicken Luft wurde. Um 13:44 machte sie die Eingangstür dauerhaft auf, um den Raum zu lüften. Wie man sieht, fällt die Feinstaubbelastung innerhalb ca. 5 Minuten auf weniger als die Hälfte - aber natürlich nicht wirklich auf den Level meines super-gefilterten Büros.

Was bleibt nun an Erkenntnissen vom Lokalbesuch:

Die Luft in einem gelüfteten Lokal ist immer noch deutlich schlechter als die Luft im Freien in der Stadt.
Die Luft in manchen Stationen der U-Bahn (siehe U3-Station Volkstheater) ist ähnlich stark mit Feinstaub belastet wie in manchen Raucherlokalen.
Mein Jacket zeigt deutliche Erinnerungen an den Feinstaub (den man mit der Nase auch am nächsten Tag noch detektieren kann).
Das Essen war gut ;-).

Staub in der Luft - die Pleite der Ausreißertests

2012-09-10T18:54:00.000+02:00

Wie versprochen hier nun eine erste, eingehendere Analyse der Staubdaten. Im ersten Anlauf wollen wir mal über Ausreißer nachdenken - ein Thema, das mich immer wieder zur Weißglut treibt, wenn ich sehe wie unreflektiert manche Zeitgenossen Ausreißer eliminieren.

Unter Ausreißer versteht man im Sinne der Datenanalyse natürlich nicht jene eher jugendlichen Zeitgenossen, die die Nase voll haben von ihren meist super angepassten Eltern, sondern schlicht und einfach Datenpunkte einer Messserie, die ungewöhnlich weit weg liegen von allen anderen Messungen und damit einen Hinweis liefern, dass "irgendetwas mit diesen Messungen nicht stimmt".

Um Ausreißer erkennen zu können, bedarf es zum einen des Verständnisses der Daten und des Messprozesses und zum anderen natürlich auch eines gewissen minimalen statistischen Hintergrundwissens.

Nehmen wir der Einfachheit halber mal an, wir wären keine Naturwissenschafter sondern Statistiker - wir wissen als nichts über den Messprozess und wir wollen auch nichts darüber wissen. Dann bleibt uns nichts anderes übrig, als die Entscheidung, ob ein Wert ein Ausreißer ist, anhand von Wahrscheinlichkeiten zu treffen. Wir können uns also die Frage stellen, wie groß die Chance ist, dass ein bestimmter Wert zufällig und im Rahmen der "normalen" Daten auftritt. Ist diese Wahrscheinlichkeit sehr klein, so wird man diesen Wert als Ausreißer klassifizieren.

Allerdings ergeben sich einige Schwierigkeiten, von denen eine näher betrachtet werden soll: Um die Auftrittswahrscheinlichkeit eines bestimmten Messwerts berechnen zu können, muss ich die Verteilung der Daten kennen (oder eine Annahme dazu treffen). Der naive Anwender neigt hier dazu auf statistische Tests zu vertrauen, was implizit aber immer die Annahme einer zugrundeliegenden Verteilung mit einschließt. Beispiel: Habe ich Messungen die aus einer Pareto- oder Cauchy-Verteilung stammen, so werden die gängigen Ausreißertests sehr oft Ausreißer identifizieren, die aber in Wirklichkeit keine sind. Die hirn- und kritiklose Anwendung von Ausreißertests führt also in vielen Fällen zu grob falschen Ergebnissen (darum meine gelegentliche Weißglut...).

Betrachten wird als Beispiel einen Ausschnitt aus unseren Staubdaten (die Daten stehen als DataLab-File zur Verfügung):

Wenn wir auf diese Daten einen Ausreißertest anwenden, so wird der Dean-Dixon-Test keine Ausreißer finden, der Grubbs-Test wird den höchsten Wert des Peaks 3 als Ausreißer identifizieren.

Ich behaupte mal, dass beide Ergebnisse falsch sind. Warum diese arrogante Behauptung? - Na ja, es ist ja nicht verboten, sein Wissen über die Daten, das Messgerät und die Prinzipien der jeweiligen statistischen Tests zusammenzuführen und damit zu einem Urteil zu kommen. Im Detail: Der Dean-Dixon-Test setzt den Abstand des größten Wertes vom zweitgrößten Wert in Beziehung zur Gesamtspannweite der Daten. Gibt es nun aber zwei oder mehrere große Werte (also potentielle Ausreißer), so wird der Abstand des größten vom zweitgrößten Wert klein sein - womit der Dean-Dixon-Test keine Change hat. Der Dean-Dixon-Test eignet sich also nur für Einzelausreißer. Der Grubbs-Test hingegen testet immer den Abstand des größten Werts vom Mittelwert, gemessen in Einheiten der Standardabweichung und setzt eine Normalverteilung voraus - was in unserem Fall schlicht falsch ist.

So, und nun kommt noch mein Wissen über die Messung dazu: Ich weiß, dass das Messgerät stoßempfindlich ist, und immer dann wenn ich das Gerät abrupt bewege, zeigt es einen (einzelnen) hohen Wert an. Betrachten wir die Messwerte im Detail, so sieht man, dass Peak 1 nur ein Einzelwert ist, währen die anderen beiden Peaks deutlich breiter sind. Meine Einschätzung ist also, dass Peak 1 ein Ausreißer ist, die Peaks 2 und 3 aber auf real vorhandene Abweichungen der Staubkonzentration zurückzuführen sind.

Analysieren wir die gemessenen Daten in der Gesamtheit, so wird man jene Peaks, die stark von den vorhergehenden Werten abweichen aber nur einen Messwerte "breit" sind, als Ausreißer betrachten, alle anderen Werte aber nicht - auch wenn statistische Tests etwas Gegenteiliges behaupten. Ich würde also die Messwerte A,B,C,D und E als Ausreißer qualifizieren und vor der weiteren Analyse entfernen.

Staub liegt in der (U-Bahn-)Luft

2012-09-05T07:12:00.001+02:00

Sommer ist doppelt angenehm: Wärme und Zeit, zwar nicht im Überfluss aber doch mehr als den Rest des Jahres. Also nichts wie raus in die Natur zu Luft, Licht und Sonne. Gesagt, getan - ich borgte mir ein tragbares Staubmessgerät von einer Kollegin aus und fuhr mit dem Gerät mit verschiedenen öffentlichen Verkehrsmitteln von Tullnerbach (einem Vorort von Wien) auf verschlungenen Pfaden nach Wien ins Büro. Der Umweg im Dienste der Wissenschaft war gigantisch, brauche ich normalerweise von Tullnerbach bis ins Büro rund 45 Minuten, so fuhr ich diesmal knappe drei Stunden - von Tullnerbach nach Hütteldorf, dann weiter zum Handelskai, von da nach Wolkersdorf (ein Dorf nördlich von Wien) und von dort die selbe Strecke zurück ins Zentrum von Wien, wo mein Büro liegt.

Bei der Fahrt habe ich verschiedene Züge genommen: klimatisierte Züge mit geschlossenenen Fenstern, Schnellbahnzüge mit offenen Fenstern und zwei verschiedene U-Bahnen. Hier das Ergebnis der Messung:

Auf der Y-Achse ist die Feinstaubkonzentration in mg/m³ aufgetragen, auf der X-Achse die Zeit, unterhalb der Zeitachse sind die Zeiten, die ich in einem Zug verbracht habe, mit roten Balken gekennzeichnet.

Dazu sind ein paar Einzelereignisse eingetragen, z.B. ein in der Nähe stehender Raucher am Bahnsteig in Hütteldorf (um ca. 9h40), oder der Raucher, der in Wolkersdorf vor der Abfahrt des Zuges (ca. 10h40) schnell noch eine Zigarette "inhalierte" und den in der Lunge gesammelten Rauch zum Vergnügen aller nichtrauchenden Passagiere im Wagon rausließ (da kommt Freude auf, bei mir natürlich nur wegen des einzigartigen Mess-Events - manche der Leser mögen es schon ahnen, ich bin Nichtraucher).

Interessant auch die extreme Staubbelastung in den U-Bahn-Stationen, wo die Staubbelastung fast das Zehnfache der Belastung in gut mit gefilterter Luft versorgten Büroräumen beträgt. Weiters interessant der Unterschied zwischen den Stationsgebäuden der selben U-Bahnstation (U2 und U3 in der Station Volkstheater). Die Wiener Leser dieses Blogs, werden wohl sofort auch die Erklärung dafür parat haben: Die U3-Station liegt unterhalb der Station der U2 und hat keinen direkten Zugang zur Außenluft und ist wesentlich voluminöser als die U2-Station, die zumindest zwei direkte Zugänge nach außen hat und deshalb besser mit Frischluft versorgt wird.

Überraschend auch, wie gut die Luftfilter der ÖBB in den klimatisierten Zügen funktionieren und wie staubig die Luft im Kofferraum meines Auto ist (kurze 5-minütige Fahrt zum Bahnhof). Soweit mal der grobe Überblick, eine eingehendere (statistische) Analyse dann in den nächsten Tagen.

Sommerlektüre für den Strand

2012-08-29T10:44:00.001+02:00

Angeblich gibt es drei Kategorien von Urlaubsleseverhalten: die Kleinformatleser (handliche aber dicke Taschenbuchkrimis und Liebesromane), die Großformatleser (unhandliche aber dünne, mehr oder weniger bebilderte Zeitungen), und die Nichtleser (das ist jene wachsende Gruppe, die so tut als könnte sie nicht lesen sondern maximal YouTube-Videos anschauen). - Nein, natürlich alles Quatsch, Expedia hat klare Zahlen erheben lassen, damit endlich Schluss ist mit den Mutmaßungen: Die Strandlektüre der Deutschen. Schlimm nur, dass vor allem die Jüngeren zu den Nicht-Lesern gehören.

Ich für meinen Teil zähle da zu jenen Dinosauriern, denen es gelingt Bücher so mit Sand zu versetzen, dass man Jahrzehnte später noch den Urlaubsort durch eine chemische Analyse eben dieser Sandreste herausfinden könnte. Aber diese umständliche Art, Urlaubserinnerungen aufzufrischen wird - zumindest in meinem Fall - zunehmend schwieriger, da überall die eBooks Einzug halten und die halt Sand nur virtuell aufnehmen können.

Also genug geschwätzt, diesmal lese ich das kleine Bändchen Probability and Statistics - The Science of Uncertainty von J. Tabak, (Facts On File, 2011) am steinigen Strand einer der zahllosen kroatischen Inseln - also nichts mit Sand zwischen den Seiten. Das Buch ist perfekt für entspannte Urlaubslektüre, es gibt einen Überblick und eine kritische Würdigung der verschiedenen Strömungen der Mathematik und Statistik ohne durch allzu viele Formeln abzuschrecken.

Beginnend bei Cardano entwickelt John Tabak die Geschichte der Statistik und gibt immer wieder klare und verständliche Beispiele, die Probleme aufzeigen, deren Lösung im Laufe der Geschichte zu neuen Methoden geführt hat. Man begegnet im Buch allen wichtigen Spielern auf dem Gebiet der Statistik, von Blaise Pascal, über Thomas Bayes, S.-D. Poisson und A.N. Kolmogorov bis hin zu Karl Pearson und R.A. Fisher. Neben den historischen und persönlichen Verknüpfungen wird die Entwicklung eines neuen Fachgebiets beschrieben, das inzwischen einen erheblichen Einfluss auf alle Bereiche des Lebens hat. Schön zu lesen, wie schwierig es ist und wie lange es dauert, bis die vielen über Jahrhunderte gesammelten Mosaiksteine dann endlich zur einem tragfähigen Gerüst zusammengeschweißt werden (im Fall der Statistik hat das Andrei Kolmogorov für die Nachwelt erledigt und die entsprechenden Axiome postuliert).

Abgerundet wird das Buch durch eine Diskussion der statistisch-historischen Aspekte von Seuchen und Impfungen und durch ein Interview mit M. Stramatelatos (NASA), der einen Einblick in die Risikoabschätzung bei der Raumfahrt gibt.

Meine Meinung: Cooles Buch, das mindestens so spannend wie ein Krimi ist - vorausgesetzt man interessiert sich für Statistik.

Wie groß ist Österreich wirklich?

2012-08-23T18:20:00.000+02:00

Na ja, wenn man viel Arbeit hat, dann braucht man auch Pausen. Manche Leute erledigen die Pausen mit Kaffeetrinken, manche mit Nasenbohren oder Autofahren, ich stöbere halt (wenn ich nicht Kaffee trinke und tratsche) da manchmal in Wikipedia. Dieses wunderschöne Lexikon, in dem inzwischen fast alles aufgeschrieben steht was mehr oder weniger wichtig ist, und mit dem inzwischen etliche Jahrgänge an Maturanten (aka Abiturienten) gelernt haben, durch Copy und Paste ihre schulische Performance in letzter Sekunde noch auf ein vermeintlich unschlagbares Niveau zu heben.

Inzwischen ist die Copy&Paste-Manie auch bei den Studierenden angekommen - höchste Zeit also, da mal zu fragen, wie weit die Daten in Wikipedia zuverlässig sind.

Nachdem sich, wie wohl ein(e) jede(r) einsieht, eine umfangreiche Studie dazu in einer kurzen Pause nicht ausgeht, habe ich mich mal gefragt, wie groß Österreich in Wikipedia ist - und zwar nicht nur im deutschsprachigen Wiki sondern auch in anderen Sprachen. Die Ergebnisse für 14 Sprachen habe ich also kurzerhand in DataLab eingetragen und fertig ist das Histogramm:

Und wer sich hier einen einzigen Balken mit der Höhe 14 erwartet hat, der irrt beträchtlich. Die Flächenangaben in Wikipedia schwanken zwischen 83855 km² in der englischen Ausgabe und 83878.99 km² im deutschen Wikipedia. Der Unterschied entspricht etwa der zehnfachen Fläche der Innenstadt von Wien, oder ein Fünftel von Liechtenstein....

Dazu fallen zwei Dinge auf: 1) die deutschsprachige Ausgabe weist Österreich den größten Wert von allen überprüften Sprachversionen zu (ein Schelm wer da Absicht vermutet) und 2) ganz offensichtlich gibt es zwei Gruppen von Daten: Fünf Werte häufen sich um 83557 km² und acht Werte häufen sich um 83572 km²; dazu gibt es noch einen Einzelwert bei 83579. Die Erklärung dafür kann nur vermutet werden, ich bringe mal meine Überlegung dazu: Im Laufe des Aufbaus von Wikipedia wurde zuerst die offizielle Größe von Österreich aus dem statistischen Jahrbuch 2009 oder davor entnommen (83871.97 km²), diese wurde dann aus Schlamperei durch 83871 ersetzt (also nicht gerundet), gleichzeitig hat jemand diese Zahl für die englische Ausgabe in Quadratmeilen umgerechnet, die dann ihrerseits im Zuge der späteren Internationalisierung von Wikipedia wieder in km²zurück gerechnet wurden - natürlich jedesmal mit Rundungsfehlern. So, und dann kam 2011 das Bundesamt für Eich- und Vermessungswesen im Zuge der Neuvermessung und Digitalisierung der Karten dahinter, dass Österreich eigentlich um sieben km² größer ist als gedacht - und fertig ist der Zahlensalat.

Zwei Fragen sind noch zu klären: 1) Wohin ist Österreich gewachsen? Die Grenzen sind ja gleich geblieben. Und 2) wer hat die zusätzlichen 7 km² bekommen? (hoffentlich der Steuerzahler)

Für alle, die es genau wissen wollen, das zugehörige DataLab-File kann man hier downloaden. Die eingetragenen Daten wurden heute um 18h herum aus Wikipedia entnommen.