Statistik mit DataLab: Korrelation

Freitag, 25. Januar 2013

Signifikanz des Korrelationskoeffizienten

Gestern wurde in einem Forumbeitrag die Frage gestellt, wie man die Signifikanz des Korrelationskoeffizienten nach Spearman berechnet. Zu meiner Antwort direkt im Forum hier noch ein paar praktische Anmerkungen:

1) Die im Posting des Forums erwähnte Umformung in einen t-Wert gilt nur für den Fall, dass man die Korrelation gegen 0 prüfen will, für die Prüfung gegen einen anderen Wert ist eine etwas andere Umformung zu verwenden, die eine normalverteilte Testgröße liefert (siehe letzte Formel auf der entsprechenden Seite in den "Grundlagen der Statistik").

2) Die Überprüfung gegen Null kann man im DataLab direkt machen, in dem man die Korrelationstabelle aufruft und auf den Einstellregler "Level of Signif." klickt. Wie man aus der folgenden Abbildung erkennen kann, ist also der Korrelationskoeffizient des Beispiels im Forum auf dem 5%-Niveau nicht signifikant (sonst würde das Feld mit dem Korrelationskoeffizienten rot aufleuchten)

3) Wer sich das Problem der Verteilung des Korrelationskoeffizienten bei unterschiedlichen Populationswerten klarer machen möchten, dem sei das kleine Simulationsprogramm empfohlen, das ich vor einigen Jahren geschrieben habe, um meinen Studierenden die Situation klarer zu machen (aber dazu sollte ich wohl noch einen gesonderten Blogeintrag schreiben...).

4) Wer nun meint, dass meine Diskussion sich großteils auf den Pearson'schen Koeffizienten bezieht, während im Forum die Frage nach dem Spearman'schen Koeffizienten gestellt wurde, und mir damit eine Themenverfehlung diagnositiziert, der sei darauf hingewiesen, dass sich die beiden Korrelationskoeffizienten nicht unterscheiden, falls keine Bindungen vorliegen (was in diesem Beispiel der Fall ist).

Freitag, 30. November 2012

Regression bei niedriger Korrelation

Gestern stellte mir jemand die Frage, ob es sinnvoll ist, eine Regression zwischen x und y zu berechnen, obwohl der Pearson'sche Korrelationskoeffizient nahezu null ist. Der Fragesteller wollte eigentlich nur eine Bestätigung seiner Ansicht, dass es keinen Sinn macht, in diesem Fall eine Regression zu berechnen.

Meine Antwort gefiel dann weniger, sie hörte sich nämlich ziemlich opportunistisch an: "Es kommt darauf an...".

Also zu den Details: Wenn man davon ausgeht, dass mit Regression die simple Anpassung einer Geraden an die Messpunkte gemeint ist, dann ist die Antwort genau im Sinne des Fragenstellers - also sinnlos sich weiter anzustrengen, die Regression wird einfach abgeblasen.

Manche Zeitgenossen neigen nun dazu (und dazu gehört meine Wenigkeit), sich Gegenargumente zurecht zu legen und womöglich Beispiele zu finden, die eine verallgemeinerte Ansicht widerlegen können; und erst wenn sich auch nach langem und angestrengtem Grübeln kein Gegenbeispiel finden lässt, geht man davon aus, dass "es keinen Grund zur Ablehnung dieser Ansicht gibt" (wem diese Formulierung bekannt vorkommt, der hat schon mal einen Stein im Brett des Statistikers).

Im speziellen Fall ist allerdings das Gegenbeispiel dann auch schnell gefunden. Fasst man nämlich ins Auge, dass mit Regression z.B. auch ein Polynom n-ten Grades an gegebene Daten angepasst werden kann, dann sieht die Situation schon ganz anders aus. Die folgende Abbildung zeigt ein klassisches Beispiel. Der Korrelationskoeffizient für diese Daten ist praktisch null (genau genommen 0.08, was sich aber nicht signifikant von null unterscheidet), und es lässt sich dennoch eine wunderbare Regression berechnen (nämlich eine parabolische, siehe die rote Kurve).

Die Erklärung für das eigentümliche Verhalten - keine Korrelation aber dennoch eine wunderbare Regression - liegt in der simplen Tatsache, dass der Pearson'sche Korrelationskoeffizient einen geradlinigen Zusammenhang voraussetzt.

...also es kommt halt darauf an (sagte ich ja ;-).

Statistik mit DataLab

Freitag, 25. Januar 2013

Signifikanz des Korrelationskoeffizienten

Freitag, 30. November 2012

Regression bei niedriger Korrelation

Blog-Archiv

Index

Dieses Blog durchsuchen