Statistik mit DataLab: August 2012

Mittwoch, 29. August 2012

Sommerlektüre für den Strand

Angeblich gibt es drei Kategorien von Urlaubsleseverhalten: die Kleinformatleser (handliche aber dicke Taschenbuchkrimis und Liebesromane), die Großformatleser (unhandliche aber dünne, mehr oder weniger bebilderte Zeitungen), und die Nichtleser (das ist jene wachsende Gruppe, die so tut als könnte sie nicht lesen sondern maximal YouTube-Videos anschauen). - Nein, natürlich alles Quatsch, Expedia hat klare Zahlen erheben lassen, damit endlich Schluss ist mit den Mutmaßungen: Die Strandlektüre der Deutschen. Schlimm nur, dass vor allem die Jüngeren zu den Nicht-Lesern gehören.

Ich für meinen Teil zähle da zu jenen Dinosauriern, denen es gelingt Bücher so mit Sand zu versetzen, dass man Jahrzehnte später noch den Urlaubsort durch eine chemische Analyse eben dieser Sandreste herausfinden könnte. Aber diese umständliche Art, Urlaubserinnerungen aufzufrischen wird - zumindest in meinem Fall - zunehmend schwieriger, da überall die eBooks Einzug halten und die halt Sand nur virtuell aufnehmen können.

Also genug geschwätzt, diesmal lese ich das kleine Bändchen Probability and Statistics - The Science of Uncertainty von J. Tabak, (Facts On File, 2011) am steinigen Strand einer der zahllosen kroatischen Inseln - also nichts mit Sand zwischen den Seiten. Das Buch ist perfekt für entspannte Urlaubslektüre, es gibt einen Überblick und eine kritische Würdigung der verschiedenen Strömungen der Mathematik und Statistik ohne durch allzu viele Formeln abzuschrecken.

Beginnend bei Cardano entwickelt John Tabak die Geschichte der Statistik und gibt immer wieder klare und verständliche Beispiele, die Probleme aufzeigen, deren Lösung im Laufe der Geschichte zu neuen Methoden geführt hat. Man begegnet im Buch allen wichtigen Spielern auf dem Gebiet der Statistik, von Blaise Pascal, über Thomas Bayes, S.-D. Poisson und A.N. Kolmogorov bis hin zu Karl Pearson und R.A. Fisher. Neben den historischen und persönlichen Verknüpfungen wird die Entwicklung eines neuen Fachgebiets beschrieben, das inzwischen einen erheblichen Einfluss auf alle Bereiche des Lebens hat. Schön zu lesen, wie schwierig es ist und wie lange es dauert, bis die vielen über Jahrhunderte gesammelten Mosaiksteine dann endlich zur einem tragfähigen Gerüst zusammengeschweißt werden (im Fall der Statistik hat das Andrei Kolmogorov für die Nachwelt erledigt und die entsprechenden Axiome postuliert).

Abgerundet wird das Buch durch eine Diskussion der statistisch-historischen Aspekte von Seuchen und Impfungen und durch ein Interview mit M. Stramatelatos (NASA), der einen Einblick in die Risikoabschätzung bei der Raumfahrt gibt.

Meine Meinung: Cooles Buch, das mindestens so spannend wie ein Krimi ist - vorausgesetzt man interessiert sich für Statistik.

Donnerstag, 23. August 2012

Wie groß ist Österreich wirklich?

Na ja, wenn man viel Arbeit hat, dann braucht man auch Pausen. Manche Leute erledigen die Pausen mit Kaffeetrinken, manche mit Nasenbohren oder Autofahren, ich stöbere halt (wenn ich nicht Kaffee trinke und tratsche) da manchmal in Wikipedia. Dieses wunderschöne Lexikon, in dem inzwischen fast alles aufgeschrieben steht was mehr oder weniger wichtig ist, und mit dem inzwischen etliche Jahrgänge an Maturanten (aka Abiturienten) gelernt haben, durch Copy und Paste ihre schulische Performance in letzter Sekunde noch auf ein vermeintlich unschlagbares Niveau zu heben.

Inzwischen ist die Copy&Paste-Manie auch bei den Studierenden angekommen - höchste Zeit also, da mal zu fragen, wie weit die Daten in Wikipedia zuverlässig sind.

Nachdem sich, wie wohl ein(e) jede(r) einsieht, eine umfangreiche Studie dazu in einer kurzen Pause nicht ausgeht, habe ich mich mal gefragt, wie groß Österreich in Wikipedia ist - und zwar nicht nur im deutschsprachigen Wiki sondern auch in anderen Sprachen. Die Ergebnisse für 14 Sprachen habe ich also kurzerhand in DataLab eingetragen und fertig ist das Histogramm:

Und wer sich hier einen einzigen Balken mit der Höhe 14 erwartet hat, der irrt beträchtlich. Die Flächenangaben in Wikipedia schwanken zwischen 83855 km² in der englischen Ausgabe und 83878.99 km² im deutschen Wikipedia. Der Unterschied entspricht etwa der zehnfachen Fläche der Innenstadt von Wien, oder ein Fünftel von Liechtenstein....

Dazu fallen zwei Dinge auf: 1) die deutschsprachige Ausgabe weist Österreich den größten Wert von allen überprüften Sprachversionen zu (ein Schelm wer da Absicht vermutet) und 2) ganz offensichtlich gibt es zwei Gruppen von Daten: Fünf Werte häufen sich um 83557 km² und acht Werte häufen sich um 83572 km²; dazu gibt es noch einen Einzelwert bei 83579. Die Erklärung dafür kann nur vermutet werden, ich bringe mal meine Überlegung dazu: Im Laufe des Aufbaus von Wikipedia wurde zuerst die offizielle Größe von Österreich aus dem statistischen Jahrbuch 2009 oder davor entnommen (83871.97 km²), diese wurde dann aus Schlamperei durch 83871 ersetzt (also nicht gerundet), gleichzeitig hat jemand diese Zahl für die englische Ausgabe in Quadratmeilen umgerechnet, die dann ihrerseits im Zuge der späteren Internationalisierung von Wikipedia wieder in km²zurück gerechnet wurden - natürlich jedesmal mit Rundungsfehlern. So, und dann kam 2011 das Bundesamt für Eich- und Vermessungswesen im Zuge der Neuvermessung und Digitalisierung der Karten dahinter, dass Österreich eigentlich um sieben km² größer ist als gedacht - und fertig ist der Zahlensalat.

Zwei Fragen sind noch zu klären: 1) Wohin ist Österreich gewachsen? Die Grenzen sind ja gleich geblieben. Und 2) wer hat die zusätzlichen 7 km² bekommen? (hoffentlich der Steuerzahler)

Für alle, die es genau wissen wollen, das zugehörige DataLab-File kann man hier downloaden. Die eingetragenen Daten wurden heute um 18h herum aus Wikipedia entnommen.

Sonntag, 19. August 2012

MLR und lineare Abhängigkeiten

Letzte Woche schaute ein Studierender bei mir vorbei, mit einer Frage die ihn irgendwie nicht locker ließ. Es ging darum, dass er bei einer Messanlage, die einen neuartigen Prozess überwachte, alle paar Minuten ca. 20 Variablen ermittelte, von denen einige ziemlich stark korrelierten. Diese Variablen dienten zur Überprüfung der Ausbeute des Prozesses; letztendlich will er ein statistisches Modell erstellen, das ihm die Möglichkeit gibt, die Einflüsse der einzelnen Prozessparameter (=Variablen aus der Messanlage) auf die Ausbeute besser zu verstehen (und diese in der Folge zu optimieren).

Der Studierende experimentierte seit einiger Zeit mit multipler lineare Regression (MLR) und hatte das Problem, dass die MLR-Koeffizienten dreier Variablen einfach nicht stabil waren (von Versuch zu Versuch).

Meine erste Vermutung, dass diese Variablen multikollinear sind, führte zuerst mal zu Stirnrunzeln und dann zu zwei Kaffees aus unserer Kaffeemaschine (das ist die, die der Herr Clooney erfunden und gebaut hat, nachdem ihm das Filmbusiness vermutlich zu eintönig wurde).

Ich zeigte dem Studierenden ein kleines Beispiel, in dem ich in DataLab drei Variablen so erzeugte, dass die erste und die zweite einfach mit normalverteilten Zufallszahlen belegt wurden, die dritte war die Summe der beiden anderen plus eine kleine Zufallszahl. Außerdem erzeugte ich eine weitere Variable (C5, siehe Skript unten), die die gewichtete Summe der drei Variablen plus einen kleinen zufälligen Anteil enthielt.

Hier das DataLab-Skript zum Nachvollziehen (öffnen Sie dazu in DataLab den Skript-Editor und kopieren Sie das Skript in den Editor; durch Klick auf "Ausführen" werden die Daten entsprechend erzeugt):

Initialize
MATH
C1=gauss
c2=gauss
c3=c1+c2+0.1*gauss
c5=3*c1+2*C2+c3+0.5*gauss
/MATH
MLRCalc

Rechnet man mit diesen Daten die MLR für die Variable C5, so sollten die ermittelten Koeffizienten den Faktoren der gewichteten Summe entsprechen (also 3.0, 2.0 und 1.0 sein). Die realen Koeffizienten weichen aber sehr stark davon ab, obwohl das Ergebnis sehr gut aussieht. Schlimmer noch: Wiederholt man das Experiment, so bekommt man jedesmal gänzlich andere Koeffizienten!

Die Erklärung für dieses sonderbare Verhalten liegt in der Tatsache, dass bei (multi)kollinearen Variablen die geschätzten Regressionsparameter praktisch "Hausnummern" sind. Das ist eine mathematische Eigenheit von MLR, die unbedingt zu beachten ist.

Am einfachsten hilft man sich durch Berechnung des "variance inflation factor" (VIF), der für keine Variable den Wert 10 überschreiten sollte. Tut er dies dennoch, dann können Sie davon ausgehen, dass die Regressionsparameter nicht mehr interpretierbar sind, da sie nicht mehr stabil sind.

Zuletzt noch ein Hinweis: Man kann den VIF in DataLab bequem berechnen. Klicken Sie einfach den Knopf VIF und wählen Sie am besten alle Variablen (wenn es nicht zu viele sind) aus. Variablen, bei denen der VIF zu hoch ist, darf man nicht für das MLR-Modell einsetzen. In vielen Fällen kann man sich so helfen, dass man die Variable mit dem höchsten VIF aus dem Datensatz rausnimmt. Dadurch ändern sich die Multikollinearitäten und damit die VIFs aller anderen Variablen. Dieses Spiel kann man dann so lange fortsetzen, bis bei allen verbleibenden Variablen die VIFs unter 10 gefallen sind.

Einfach, oder? Auf jeden Fall hat sich der Studierende nicht nur für den Kaffee bedankt. Ist doch eine Freude, wenn man nicht nur den Kreislauf sondern auch noch die Wirtschaft ankurbelt....

Mittwoch, 15. August 2012

Median/Mittelwert - wann verwende ich was?

Soll man bei der Berechnung von Lageparametern lieber den Median oder den Mittelwert verwenden?

Grundsätzlich hängt die Wahl von Median oder Mittelwert von einigen Randbedingungen der jeweiligen Untersuchung ab. Dabei spielen z.B. die Symmetrie der Verteilung eine Rolle, das (Nicht)Vorhandensein von Ausreißern, oder eine eventuelle Zensierung der Daten. Außerdem sollte man nie übersehen, dass der Mittelwert nur für intervallskalierte oder verhältnisskalierte Daten Sinn macht, der Median aber auch bei ordinal skalierten Daten eingesetzt werden kann.

Also generell liefert der Median leichter interpretierbare und stabilere Ergebnisse als der Mittelwert. Ich würde immer den Median angeben, der Mittelwert ist in vielen Fällen schlicht Unfug.

Beispiel für solchen Unfug: der Notendurchschnitt in der Schule - hier wird der Mittelwert einer ordinal skalierten Variablen berechnet, was schlicht und einfach Blödsinn ist (trotzdem basiert der Numerus Clausus auf der Durchschnittsnote des Abiturs - soweit zur Fundiertheit von Bildungspolitik).

Bevor ich mich aber in die Untiefen der Bildungspolitik begebe, hier lieber eine Zusammenfassung des Vergleichs von Median und Mittelwert:

	Mittelwert	Median
symmetrische Verteilung	Median = Mittelwert
schiefe Verteilung	stärkere Verschiebung	geringere Verschiebung
Einfluss von Ausreißern	groß	keiner
erlaubte Skalentypen	intervallskaliert, verhältnisskaliert	ordinal skaliert, intervallskaliert, verhältnisskaliert
Interpretation	schwierig, Kenntnis der Verteilung notwendig	leicht, Median ist immer der mittlere Wert
Berechnung bei zensierten Daten	unmöglich	möglich, falls weniger als die Hälfte der Daten zensiert sind

Freitag, 10. August 2012

A/B-Tests

Heute fragte mich ein Bekannter der u.a. Webanalysen macht, wie denn das mit A/B-Tests sei, und ob das DataLab nicht auch machen könne. Die Antwort war mal wieder typisch: "ja, aber...."

Doch langsam und der Reihe nach: Grundsätzlich muss man bei AB-Tests unterscheiden zwischen dem Test-Layout und den statistischen Verfahren, um die Ergebnisse "wasserdicht" zu analysieren. Nachdem das Test-Layout sehr spezifisch von der Situation abhängt, lässt sich dazu wenig allgemein Gültiges sage. Da muss wohl jeder selber entscheiden was er/sie testet.

Einen netten Übersichtsartikel dazu gibt's in Wired. Der Artikel geht allerdings nicht auf die Statistik ein, sondern sagt nur "making sense of the results requires deep knowledge of statistics".

Wie tief das statistische Wissen tatsächlich dazu sein muss, sei mal dahingestellt. Ich nehme mal ANOVA, t-Tests und ähnliches Zeugs als Basiswerkzeug an, über das jeder Statistiker ohnehin verfügt. Und da kann DataLab natürlich mithalten. Mal sehen, vielleicht liefert mir der Bekannte ein paar Daten eines AB-Tests. Ich werde dann versuchen, eine "wasserdichte Analyse" zu machen und sie hier veröffentlichen (natürlich nur nach Zustimmung durch den Bekannten - eh klar!).

Donnerstag, 9. August 2012

DataLab 3.5 ist da!

Wie immer bei der Erstellung einer Major Release, ist Hektik angesagt. Natürlich auch diesmal, da wir mit den Terminen schon drei Wochen über der Zeit waren. Und wie halt auch immer, treten in der letzten Sekunde dann noch Probleme auf, die man eigentlich lösen sollte - also zurück an den Start.

Wenn man diesen Zyklus in freudiger Erwartung des Endprodukts ein paarmal durchmacht, liegen die Nerven dann auch schon mal blank...

Wie auch immer, Ende gut alles gut, das Baby liegt hier zum Download und Bestaunen bereit: DataLab 3.5

... und wir machen eine Flasche Traminer auf (vom Löscher in Retz) und genießen die Reste des Sommerabends.....

Mittwoch, 8. August 2012

Help oder nicht Help - das ist hier die Frage!

Jeder Entwickler von Software kennt das Dilemma: Einerseits: ohne kontextsensitive Hilfe-Datei sind größere Programme eigentlich unprofessionell.
Andererseits: die Erzeugung einer vernünftigen Hilfe erfordert genau so viel Arbeit (und Kosten) wie die eigentliche Entwicklung.

Die bange Frage bleibt: liest der Nutzer denn Help-Files überhaupt? Mein jüngster Sohn brachte es mal auf den Punkt: "Richtige Männer lesen keine Help-Files".

Also stelle ich mal die Frage an's werte Publikum: Was erwarten Sie sich von einem Help-File? Und speziell in Bezug auf DataLab - möchten Sie lieber technisch/statistische Hintergrundinformationen, oder die Beschreibung der Funktionalität des Programms?

(ich weiß, ich weiß .... Sie wollen natürlich beides, und das in möglichst großem Umfang.... ist ja alles kein Problem, schicken Sie einfach 2 Kilo Gold und wir machen den Rest ;--)

Statistik mit DataLab