Montag, 10. September 2012

Staub in der Luft - die Pleite der Ausreißertests

Wie versprochen hier nun eine erste, eingehendere Analyse der Staubdaten. Im ersten Anlauf wollen wir mal über Ausreißer nachdenken - ein Thema, das mich immer wieder zur Weißglut treibt, wenn ich sehe wie unreflektiert manche Zeitgenossen Ausreißer eliminieren.

Unter Ausreißer versteht man im Sinne der Datenanalyse natürlich nicht jene eher jugendlichen Zeitgenossen, die die Nase voll haben von ihren meist super angepassten Eltern, sondern schlicht und einfach Datenpunkte einer Messserie, die ungewöhnlich weit weg liegen von allen anderen Messungen und damit einen Hinweis liefern, dass "irgendetwas mit diesen Messungen nicht stimmt".

Um Ausreißer erkennen zu können, bedarf es zum einen des Verständnisses der Daten und des Messprozesses und zum anderen natürlich auch eines gewissen minimalen statistischen Hintergrundwissens.

Nehmen wir der Einfachheit halber mal an, wir wären keine Naturwissenschafter sondern Statistiker - wir wissen als nichts über den Messprozess und wir wollen auch nichts darüber wissen. Dann bleibt uns nichts anderes übrig, als die Entscheidung, ob ein Wert ein Ausreißer ist, anhand von Wahrscheinlichkeiten zu treffen. Wir können uns also die Frage stellen, wie groß die Chance ist, dass ein bestimmter Wert zufällig und im Rahmen der "normalen" Daten auftritt. Ist diese Wahrscheinlichkeit sehr klein, so wird man diesen Wert als Ausreißer klassifizieren.

Allerdings ergeben sich einige Schwierigkeiten, von denen eine näher betrachtet werden soll: Um die Auftrittswahrscheinlichkeit eines bestimmten Messwerts berechnen zu können, muss ich die Verteilung der Daten kennen (oder eine Annahme dazu treffen). Der naive Anwender neigt hier dazu auf statistische Tests zu vertrauen, was implizit aber immer die Annahme einer zugrundeliegenden Verteilung mit einschließt. Beispiel: Habe ich Messungen die aus einer Pareto- oder Cauchy-Verteilung stammen, so werden die gängigen Ausreißertests sehr oft Ausreißer identifizieren, die aber in Wirklichkeit keine sind. Die hirn- und kritiklose Anwendung von Ausreißertests führt also in vielen Fällen zu grob falschen Ergebnissen (darum meine gelegentliche Weißglut...).

Betrachten wird als Beispiel einen Ausschnitt aus unseren Staubdaten (die Daten stehen als DataLab-File zur Verfügung):

Wenn wir auf diese Daten einen Ausreißertest anwenden, so wird der Dean-Dixon-Test keine Ausreißer finden, der Grubbs-Test wird den höchsten Wert des Peaks 3 als Ausreißer identifizieren.

Ich behaupte mal, dass beide Ergebnisse falsch sind. Warum diese arrogante Behauptung? - Na ja, es ist ja nicht verboten, sein Wissen über die Daten, das Messgerät und die Prinzipien der jeweiligen statistischen Tests zusammenzuführen und damit zu einem Urteil zu kommen. Im Detail: Der Dean-Dixon-Test setzt den Abstand des größten Wertes vom zweitgrößten Wert in Beziehung zur Gesamtspannweite der Daten. Gibt es nun aber zwei oder mehrere große Werte (also potentielle Ausreißer), so wird der Abstand des größten vom zweitgrößten Wert klein sein - womit der Dean-Dixon-Test keine Change hat. Der Dean-Dixon-Test eignet sich also nur für Einzelausreißer. Der Grubbs-Test hingegen testet immer den Abstand des größten Werts vom Mittelwert, gemessen in Einheiten der Standardabweichung und setzt eine Normalverteilung voraus - was in unserem Fall schlicht falsch ist.

So, und nun kommt noch mein Wissen über die Messung dazu: Ich weiß, dass das Messgerät stoßempfindlich ist, und immer dann wenn ich das Gerät abrupt bewege, zeigt es einen (einzelnen) hohen Wert an. Betrachten wir die Messwerte im Detail, so sieht man, dass Peak 1 nur ein Einzelwert ist, währen die anderen beiden Peaks deutlich breiter sind. Meine Einschätzung ist also, dass Peak 1 ein Ausreißer ist, die Peaks 2 und 3 aber auf real vorhandene Abweichungen der Staubkonzentration zurückzuführen sind.

Analysieren wir die gemessenen Daten in der Gesamtheit, so wird man jene Peaks, die stark von den vorhergehenden Werten abweichen aber nur einen Messwerte "breit" sind, als Ausreißer betrachten, alle anderen Werte aber nicht - auch wenn statistische Tests etwas Gegenteiliges behaupten. Ich würde also die Messwerte A,B,C,D und E als Ausreißer qualifizieren und vor der weiteren Analyse entfernen.

Keine Kommentare:

Kommentar veröffentlichen