Sonntag, 23. September 2012

Feinstaub im Cafe

Irgendwie konnte ich die Neugierde nicht unterdrücken.... Nach der letzten Staubmessung stellt sich natürlich die Frage, wie schaut denn die Feinstaubbelastung in Lokalen aus, vor allem in Lokalen in denen geraucht wird. Nach dem ich meine Lunge nicht unbedingt einer Luft "zum Schneiden" ausliefern wollte, wie man sie in manchen irischen Pubs vor einigen Jahren noch gratis zum Guinness geliefert bekam, machte ich einen Kompromiss und setzte mich in ein Kaffeehaus in Wien, in dem zwar geraucht wurde, das aber den Nichtraucher- und den Raucherteil (schlecht) separiert hatte.

Nebenbei ist da dann auch noch ein Mittagessen abgefallen (natürlich selbst bezahlt, obwohl diese Feinstaubmessung ein weiterer heldenhafter Einsatz im Dienste der Wissenschaft war). Egal wie, hier sind die Ergebnisse:

Man kann schön erkennen wie es der Kellnerin zu bunt mit der dicken Luft wurde. Um 13:44 machte sie die Eingangstür dauerhaft auf, um den Raum zu lüften. Wie man sieht, fällt die Feinstaubbelastung innerhalb ca. 5 Minuten auf weniger als die Hälfte - aber natürlich nicht wirklich auf den Level meines super-gefilterten Büros.

Was bleibt nun an Erkenntnissen vom Lokalbesuch:

  1. Die Luft in einem gelüfteten Lokal ist immer noch deutlich schlechter als die Luft im Freien in der Stadt.
  2. Die Luft in manchen Stationen der U-Bahn (siehe U3-Station Volkstheater) ist ähnlich stark mit Feinstaub belastet wie in manchen Raucherlokalen.
  3. Mein Jacket zeigt deutliche Erinnerungen an den Feinstaub (den man mit der Nase auch am nächsten Tag noch detektieren kann).
  4. Das Essen war gut ;-).

Montag, 10. September 2012

Staub in der Luft - die Pleite der Ausreißertests

Wie versprochen hier nun eine erste, eingehendere Analyse der Staubdaten. Im ersten Anlauf wollen wir mal über Ausreißer nachdenken - ein Thema, das mich immer wieder zur Weißglut treibt, wenn ich sehe wie unreflektiert manche Zeitgenossen Ausreißer eliminieren.

Unter Ausreißer versteht man im Sinne der Datenanalyse natürlich nicht jene eher jugendlichen Zeitgenossen, die die Nase voll haben von ihren meist super angepassten Eltern, sondern schlicht und einfach Datenpunkte einer Messserie, die ungewöhnlich weit weg liegen von allen anderen Messungen und damit einen Hinweis liefern, dass "irgendetwas mit diesen Messungen nicht stimmt".

Um Ausreißer erkennen zu können, bedarf es zum einen des Verständnisses der Daten und des Messprozesses und zum anderen natürlich auch eines gewissen minimalen statistischen Hintergrundwissens.

Nehmen wir der Einfachheit halber mal an, wir wären keine Naturwissenschafter sondern Statistiker - wir wissen als nichts über den Messprozess und wir wollen auch nichts darüber wissen. Dann bleibt uns nichts anderes übrig, als die Entscheidung, ob ein Wert ein Ausreißer ist, anhand von Wahrscheinlichkeiten zu treffen. Wir können uns also die Frage stellen, wie groß die Chance ist, dass ein bestimmter Wert zufällig und im Rahmen der "normalen" Daten auftritt. Ist diese Wahrscheinlichkeit sehr klein, so wird man diesen Wert als Ausreißer klassifizieren.

Allerdings ergeben sich einige Schwierigkeiten, von denen eine näher betrachtet werden soll: Um die Auftrittswahrscheinlichkeit eines bestimmten Messwerts berechnen zu können, muss ich die Verteilung der Daten kennen (oder eine Annahme dazu treffen). Der naive Anwender neigt hier dazu auf statistische Tests zu vertrauen, was implizit aber immer die Annahme einer zugrundeliegenden Verteilung mit einschließt. Beispiel: Habe ich Messungen die aus einer Pareto- oder Cauchy-Verteilung stammen, so werden die gängigen Ausreißertests sehr oft Ausreißer identifizieren, die aber in Wirklichkeit keine sind. Die hirn- und kritiklose Anwendung von Ausreißertests führt also in vielen Fällen zu grob falschen Ergebnissen (darum meine gelegentliche Weißglut...).

Betrachten wird als Beispiel einen Ausschnitt aus unseren Staubdaten (die Daten stehen als DataLab-File zur Verfügung):

Wenn wir auf diese Daten einen Ausreißertest anwenden, so wird der Dean-Dixon-Test keine Ausreißer finden, der Grubbs-Test wird den höchsten Wert des Peaks 3 als Ausreißer identifizieren.

Ich behaupte mal, dass beide Ergebnisse falsch sind. Warum diese arrogante Behauptung? - Na ja, es ist ja nicht verboten, sein Wissen über die Daten, das Messgerät und die Prinzipien der jeweiligen statistischen Tests zusammenzuführen und damit zu einem Urteil zu kommen. Im Detail: Der Dean-Dixon-Test setzt den Abstand des größten Wertes vom zweitgrößten Wert in Beziehung zur Gesamtspannweite der Daten. Gibt es nun aber zwei oder mehrere große Werte (also potentielle Ausreißer), so wird der Abstand des größten vom zweitgrößten Wert klein sein - womit der Dean-Dixon-Test keine Change hat. Der Dean-Dixon-Test eignet sich also nur für Einzelausreißer. Der Grubbs-Test hingegen testet immer den Abstand des größten Werts vom Mittelwert, gemessen in Einheiten der Standardabweichung und setzt eine Normalverteilung voraus - was in unserem Fall schlicht falsch ist.

So, und nun kommt noch mein Wissen über die Messung dazu: Ich weiß, dass das Messgerät stoßempfindlich ist, und immer dann wenn ich das Gerät abrupt bewege, zeigt es einen (einzelnen) hohen Wert an. Betrachten wir die Messwerte im Detail, so sieht man, dass Peak 1 nur ein Einzelwert ist, währen die anderen beiden Peaks deutlich breiter sind. Meine Einschätzung ist also, dass Peak 1 ein Ausreißer ist, die Peaks 2 und 3 aber auf real vorhandene Abweichungen der Staubkonzentration zurückzuführen sind.

Analysieren wir die gemessenen Daten in der Gesamtheit, so wird man jene Peaks, die stark von den vorhergehenden Werten abweichen aber nur einen Messwerte "breit" sind, als Ausreißer betrachten, alle anderen Werte aber nicht - auch wenn statistische Tests etwas Gegenteiliges behaupten. Ich würde also die Messwerte A,B,C,D und E als Ausreißer qualifizieren und vor der weiteren Analyse entfernen.

Mittwoch, 5. September 2012

Staub liegt in der (U-Bahn-)Luft

Sommer ist doppelt angenehm: Wärme und Zeit, zwar nicht im Überfluss aber doch mehr als den Rest des Jahres. Also nichts wie raus in die Natur zu Luft, Licht und Sonne. Gesagt, getan - ich borgte mir ein tragbares Staubmessgerät von einer Kollegin aus und fuhr mit dem Gerät mit verschiedenen öffentlichen Verkehrsmitteln von Tullnerbach (einem Vorort von Wien) auf verschlungenen Pfaden nach Wien ins Büro. Der Umweg im Dienste der Wissenschaft war gigantisch, brauche ich normalerweise von Tullnerbach bis ins Büro rund 45 Minuten, so fuhr ich diesmal knappe drei Stunden - von Tullnerbach nach Hütteldorf, dann weiter zum Handelskai, von da nach Wolkersdorf (ein Dorf nördlich von Wien) und von dort die selbe Strecke zurück ins Zentrum von Wien, wo mein Büro liegt.

Bei der Fahrt habe ich verschiedene Züge genommen: klimatisierte Züge mit geschlossenenen Fenstern, Schnellbahnzüge mit offenen Fenstern und zwei verschiedene U-Bahnen. Hier das Ergebnis der Messung:

Auf der Y-Achse ist die Feinstaubkonzentration in mg/m3 aufgetragen, auf der X-Achse die Zeit, unterhalb der Zeitachse sind die Zeiten, die ich in einem Zug verbracht habe, mit roten Balken gekennzeichnet.

Dazu sind ein paar Einzelereignisse eingetragen, z.B. ein in der Nähe stehender Raucher am Bahnsteig in Hütteldorf (um ca. 9h40), oder der Raucher, der in Wolkersdorf vor der Abfahrt des Zuges (ca. 10h40) schnell noch eine Zigarette "inhalierte" und den in der Lunge gesammelten Rauch zum Vergnügen aller nichtrauchenden Passagiere im Wagon rausließ (da kommt Freude auf, bei mir natürlich nur wegen des einzigartigen Mess-Events - manche der Leser mögen es schon ahnen, ich bin Nichtraucher).

Interessant auch die extreme Staubbelastung in den U-Bahn-Stationen, wo die Staubbelastung fast das Zehnfache der Belastung in gut mit gefilterter Luft versorgten Büroräumen beträgt. Weiters interessant der Unterschied zwischen den Stationsgebäuden der selben U-Bahnstation (U2 und U3 in der Station Volkstheater). Die Wiener Leser dieses Blogs, werden wohl sofort auch die Erklärung dafür parat haben: Die U3-Station liegt unterhalb der Station der U2 und hat keinen direkten Zugang zur Außenluft und ist wesentlich voluminöser als die U2-Station, die zumindest zwei direkte Zugänge nach außen hat und deshalb besser mit Frischluft versorgt wird.

Überraschend auch, wie gut die Luftfilter der ÖBB in den klimatisierten Zügen funktionieren und wie staubig die Luft im Kofferraum meines Auto ist (kurze 5-minütige Fahrt zum Bahnhof). Soweit mal der grobe Überblick, eine eingehendere (statistische) Analyse dann in den nächsten Tagen.