Sonntag, 29. Juli 2012

Skalierung der Daten bei der Clusteranalyse

Vor einigen Tagen wurde ich von einem Kunden gefragt, ob man bei der Clusteranalyse die Daten standardisieren soll, obwohl diese vorher schon normiert wurden. Konkret: Es ging um Massenspektren, die jeweils auf den höchsten Peak mit 100% normiert waren. Bei solchen Daten ist es nicht unmittelbar einsichtig, ob die Daten nun quasi ein zweites Mal skaliert werden sollen.

Im Folgenden meine Antwort an den Kunden (in leicht veränderter Form), die - so glaube ich - auch für andere Nutzer von DataLab interessant sein könnte:
....die Standardisierung der Daten (=Variablen so skalieren, dass der Mittelwert null wird und die Standardabweichung eins) ist immer zu empfehlen, wenn die Größenordnung der verwendeten Variablen keine Bedeutung haben darf. Würden Sie die Variablen nicht standardisieren, würde jene Variable, die numerisch die größten Werte enthält, das Ergebnis der Clusteranalyse dominieren (was im Extremfall bedeuten kann, dass Ihr Dendrogramm nur von einer Variablen "beherrscht" wird, es also kaum einen Unterschied macht, ob Sie noch weitere Variablen dazunehmen).
Im Fall der MS-Spektren würde ich auf jeden Fall eine Standardisierung empfehlen. Die Skalierung auf den jeweils höchsten MS Peak mit 100% hat mit der Standardisierung nichts zu tun, da die 100%-Skalierung ja pro Spektrum passiert (in der Datenmatrix also entlang einer Zeile), während die Standardisierung vor der Clusteranalyse pro Variable, also bei jeder Masse getrennt für alle Proben erfolgt (in der Datenmatrix entlang der Spalte).
Beispiel: Angenommen, Sie machen eine Clusteranalyse mit den Peaks bei den Massen 78, 93 und 251; weiters angenommen, die Intensitäten bei der Masse 78 liegen alle zwischen 10 und 100%, während die Intensitäten der Peaks 93 und 251 alle unter 10% liegen. Wenn Sie die Daten nicht standardisieren, so werden die Werte von Peak 78 das Dendrogramm zum größten Teil beeinflussen, Sie erzeugen also ein Dendrogramm das sich in der Klassenzuordnung kaum von einem Dendrogramm unterscheidet, das nur auf der Masse 78 beruht.
Genau umgekehrt ist die Lage bei vorhergehender Standardisierung - plötzlich bekommen alle drei Massen die gleiche Bedeutung, und entsprechend unterschiedlich ist das Dendrogramm. Das Dendrogramm basiert also in diesem Fall tatsächlich auf allen drei Variablen.
Zusammengefasst: wenn man die Daten nicht standardisiert, riskiert man, dass man in manchen Dimensionen "blind" wird, und das Dendrogramm nur die Situation der Variablen mit den größten numerischen Werten widerspiegelt.