Montag, 25. März 2013

Durchschnittliches Sparguthaben in Zypern

Die dramatischen Ereignisse in Zypern hinterlassen Spuren.... bei mir zwar keine finanziellen Kratzer am Sparbuch, dafür aber einigen Ärger im Gehirn....

So schreibt "Focus", wie viele andere Medien auch, dass das durchschnittliche Sparguthaben in Zypern mit 85000 EUR viermal so hoch ist wie in Deutschland - hm.... - da beginnt auch schon der Ärger:

Wieso lernen Journalisten nicht wenigstens so viel elementare Statistik, um zu wissen, dass der Mittelwert bei schiefen Verteilungen ziemlich weit weg von der "Wahrheit" liegt und dadurch die Berichterstattung total verzerrt wird. Man bekommt da den Eindruck, dass die Zyprioten extrem reich sind (und sich somit den Finanzschnitt ohnehin locker leisten können). Die Wahrheit ist aber, dass das zypriotische Lohnniveau - gemessen an der Kaufkraft - um ca. 30% niedriger als das Lohnniveau in Deutschland ist, und sich somit der "durchschnittliche Zypriote" wohl kaum 85000 EUR ersparen kann.

Gut ausgebildete Journalisten würden an dieser Stelle wohl den Median der Sparguthaben anführen, was nicht nur den Vorteil hätte, dass man diese Zahl wesentlich besser interpretieren könnte (50% aller Sparguthaben liegen unterhalb des Medians, 50% darüber), sondern auch eine weniger verzerrte Berichterstattung ermöglichen würde.

Zur Erklärung ein kleines Experiment, durchgeführt mit dem Zufallszahlengenerator von DataLab: Betrachten wir jeweils 100000 Sparguthaben und füllen sie mit zufälligen virtuellen Guthaben im Bereich zwischen 1000 und 100000 EUR (nehmen wir also die in den letzten Tagen vielbeschriebenen Kleinsparer an), wobei eine leicht rechtsschiefe Verteilung angenommen wird. Beim zweiten Teil des Experiments nehmen wir an, dass 5% der "Sparer" Leute mit viel Geld sind (aus welchen Quellen auch immer). Wir wählen also zufällig 5000 aus den 100000 Sparkonten aus und verpassen diesen Glückspilzen zufällige Beträge zwischen 100000 und 100 Millionen EUR.

So, und nun berechnen wir sowohl den Mittelwert als auch den Median dieser Sparkonten:

                                  95% Kleinsparer
         100% Kleinsparer      5% Leute mit viel Geld
         --------------------------------------------
Mittelw.     52817 EUR               303368 EUR
Median       51734 EUR                52372 EUR
         --------------------------------------------
Wie man leicht erkennen kann, täuscht der Mittelwert eine extrem wohlhabende zypriotische Bevölkerung vor, obwohl grade mal 5% der Sparguthaben "reichen Leuten" gehören (der Mittelwert ist fast 6-mal so hoch wie der Median)....

Da taucht in meinem verärgerten Gehirn ein Satz auf, den manche ältere Semester wohl so ähnlich von prominenter Seite in Erinnerung haben: "Lernen'S a bisserl Statistik, Herr Reporter" (frei nach Bruno Kreisky, 24.2.1981)

Freitag, 15. März 2013

DataLab Release 3.51

Manchmal geht nicht alles nach Plan ... diesmal wollte ich eigentlich, dass der Memory Based Learner (aka KNN) wieder in DataLab zur Verfügung steht - alleine die Programmiergötter waren gegen uns. Also heißt es weiter warten auf der einen Seite des Rubicon und weiter schuften auf der anderen Seite....

Wie auch immer, die neue Release ist sicher einen Versuch Wert. Mehr dazu findet sich auf den DataLab-Seiten.

Nett finde ich den 2D-Datendesigner, mit dem man sich schnell mal zweidimensionale Datensätze "zusammenklicken" kann - was gerade beim Erlernen neuer Methoden sehr hilfreich sein kann.

Freitag, 25. Januar 2013

Signifikanz des Korrelationskoeffizienten

Gestern wurde in einem Forumbeitrag die Frage gestellt, wie man die Signifikanz des Korrelationskoeffizienten nach Spearman berechnet. Zu meiner Antwort direkt im Forum hier noch ein paar praktische Anmerkungen:

1) Die im Posting des Forums erwähnte Umformung in einen t-Wert gilt nur für den Fall, dass man die Korrelation gegen 0 prüfen will, für die Prüfung gegen einen anderen Wert ist eine etwas andere Umformung zu verwenden, die eine normalverteilte Testgröße liefert (siehe letzte Formel auf der entsprechenden Seite in den "Grundlagen der Statistik").

2) Die Überprüfung gegen Null kann man im DataLab direkt machen, in dem man die Korrelationstabelle aufruft und auf den Einstellregler "Level of Signif." klickt. Wie man aus der folgenden Abbildung erkennen kann, ist also der Korrelationskoeffizient des Beispiels im Forum auf dem 5%-Niveau nicht signifikant (sonst würde das Feld mit dem Korrelationskoeffizienten rot aufleuchten)

3) Wer sich das Problem der Verteilung des Korrelationskoeffizienten bei unterschiedlichen Populationswerten klarer machen möchten, dem sei das kleine Simulationsprogramm empfohlen, das ich vor einigen Jahren geschrieben habe, um meinen Studierenden die Situation klarer zu machen (aber dazu sollte ich wohl noch einen gesonderten Blogeintrag schreiben...).

4) Wer nun meint, dass meine Diskussion sich großteils auf den Pearson'schen Koeffizienten bezieht, während im Forum die Frage nach dem Spearman'schen Koeffizienten gestellt wurde, und mir damit eine Themenverfehlung diagnositiziert, der sei darauf hingewiesen, dass sich die beiden Korrelationskoeffizienten nicht unterscheiden, falls keine Bindungen vorliegen (was in diesem Beispiel der Fall ist).

Montag, 7. Januar 2013

DataLab Release 3.506

Manchmal sind kleine Schritte unscheinbar, aber doch irgendwie groß.... so geschehen bei der neuen DataLab-Release. Das gute Stück hat sich in den letzten 5 Monaten um ganze 6 Tausendstel Versionsnummern bewegt (von 3.500 auf 3.506) und trotzdem haben sich wesentliche Dinge ganz deutlich zum Besseren entwickelt. Die umfangreiche Liste der Verbesserungen lässt das Understatement der Versionsnummern nur erahnen.

Einziger Wermutstropfen: KNN (k-Nearest Neighbors) ist vorübergehend vom Mitspielen ausgeschlossen, wird aber als MBL (memory based learner) eine Wiederbelebung erfahren. Mehr zu MBL dann in einem späteren Beitrag.