Statistik mit DataLab

Sonntag, 29. Juli 2012

Skalierung der Daten bei der Clusteranalyse

Vor einigen Tagen wurde ich von einem Kunden gefragt, ob man bei der Clusteranalyse die Daten standardisieren soll, obwohl diese vorher schon normiert wurden. Konkret: Es ging um Massenspektren, die jeweils auf den höchsten Peak mit 100% normiert waren. Bei solchen Daten ist es nicht unmittelbar einsichtig, ob die Daten nun quasi ein zweites Mal skaliert werden sollen.

Im Folgenden meine Antwort an den Kunden (in leicht veränderter Form), die - so glaube ich - auch für andere Nutzer von DataLab interessant sein könnte:

....die Standardisierung der Daten (=Variablen so skalieren, dass der Mittelwert null wird und die Standardabweichung eins) ist immer zu empfehlen, wenn die Größenordnung der verwendeten Variablen keine Bedeutung haben darf. Würden Sie die Variablen nicht standardisieren, würde jene Variable, die numerisch die größten Werte enthält, das Ergebnis der Clusteranalyse dominieren (was im Extremfall bedeuten kann, dass Ihr Dendrogramm nur von einer Variablen "beherrscht" wird, es also kaum einen Unterschied macht, ob Sie noch weitere Variablen dazunehmen).
Im Fall der MS-Spektren würde ich auf jeden Fall eine Standardisierung empfehlen. Die Skalierung auf den jeweils höchsten MS Peak mit 100% hat mit der Standardisierung nichts zu tun, da die 100%-Skalierung ja pro Spektrum passiert (in der Datenmatrix also entlang einer Zeile), während die Standardisierung vor der Clusteranalyse pro Variable, also bei jeder Masse getrennt für alle Proben erfolgt (in der Datenmatrix entlang der Spalte).
Beispiel: Angenommen, Sie machen eine Clusteranalyse mit den Peaks bei den Massen 78, 93 und 251; weiters angenommen, die Intensitäten bei der Masse 78 liegen alle zwischen 10 und 100%, während die Intensitäten der Peaks 93 und 251 alle unter 10% liegen. Wenn Sie die Daten nicht standardisieren, so werden die Werte von Peak 78 das Dendrogramm zum größten Teil beeinflussen, Sie erzeugen also ein Dendrogramm das sich in der Klassenzuordnung kaum von einem Dendrogramm unterscheidet, das nur auf der Masse 78 beruht.
Genau umgekehrt ist die Lage bei vorhergehender Standardisierung - plötzlich bekommen alle drei Massen die gleiche Bedeutung, und entsprechend unterschiedlich ist das Dendrogramm. Das Dendrogramm basiert also in diesem Fall tatsächlich auf allen drei Variablen.
Zusammengefasst: wenn man die Daten nicht standardisiert, riskiert man, dass man in manchen Dimensionen "blind" wird, und das Dendrogramm nur die Situation der Variablen mit den größten numerischen Werten widerspiegelt.

Dienstag, 23. November 2010

Kurtosis

Nachdem das Semester nun auf Hochtouren läuft, kommt wie jedes Jahr die Frage auf, wieso wird für die Normalverteilung die Kurtosis manchmal mit 0 und manchmal mit 3 angegeben? Und welche Version berechnet nun DataLab?

Nun das hängt damit zusammen, dass die Kurtosis sich vom vierten Moment a₄ um den Mittelwert ableitet (siehe Grundlagen der Statistik). Dieses ist für eine Normalverteilung 3. Um eine "schöne" Maßzahl zu erhalten, die für leptokurtische Verteilungen positiv ist, für Normalverteilungen 0 und für platykurtische Verteilungen negativ, definiert man die Kurtosis als a₄-3.

Antwort zur Frage 2: DataLab verwendet eben diese Definition der Kurtosis, Normalverteilungen weisen also für die Kurtosis einen Wert um null herum aus.

Dienstag, 10. August 2010

Versuch am lebenden Objekt...

Seit einigen Wochen versuche ich wieder in Form zu kommen (= Gewichtsabnahme ohne Hungern). Wie das gehen soll? Ganz einfach: das notwendige Kaloriendefizit nicht durch Hungern erzeugen sondern durch Sport.

Also, wer - wie die Gesundheitsapostel empfehlen - ein halbes Kilo pro Woche verlieren möchte, muss ca. 500 Kalorien/Tag Defizit erzeugen. Ich mache das mit Radfahren....

... hier die Ergebnisse des Versuchs am lebenden Objekt (natürlich mit DataLab analysiert):

Wie man aus den Regressionsparametern sieht, nehme ich rund 70 g pro Tag ab, was nach Adam Riese ca. 1/2 Kilo pro Woche macht.... (Zusatzfrage für Streber: Ist die Gewichtsabnahme signifikant?)

Samstag, 7. August 2010

Kostenlose Lizenz für Forscher

Jetzt, wo DataLab fertig ist (aber wann ist ein Programm schon fertig?) stellt sich die Frage, wie bringe ich das Ding unter die Leute. Problem für jeden Klein-Entwickler ist, wie werde ich sichtbar mit meinem Produkt, gegen die Übermacht der etablierten Konkurrenz?

Also verfolgen wir mal folgende Idee: Jede(r), die/der DataLab in einem Forschungsprojekt zur Datenanalyse einsetzt und dies in einer Publikation dokumentiert bekommt eine Dauerlizenz gratis.... das müsste doch die Sichtbarkeit von DataLab deutlich erhöhen.

Gesagt, getan: hier sind die Details (siehe "Free Research License").

Bin schon gespannt, wie viele Leute das Angebot annehmen.