Donnerstag, 29. August 2013

Standardabweichung der Residuen bei MLR

Haben Sie schon mal die Standardabweichung der Residuen bei einer MLR (multiplen linearen Regression) nachgerechnet? Wenn man das naiv (im besten Sinne des Wortes) macht, so nimmt man einfach die Residuen und berechnet daraus die Standardabweichung - fertig. Oder doch nicht?

Na ja, wenn ich schon so blöd frag, dann wird's wohl doch nicht ganz so einfach sein. Sieht man nämlich die naiv berechnete Standardabweichung der Residuen als Schätzwert für die wirkliche (aber unbekannte) Standardabweichung an, so kann man mit ein paar einfachen Experimenten feststellen, dass der naiv berechnete Wert "viel zu gut" ist; d.h. dieser Wert gaukelt ein Modell vor, das besser zu sein scheint als es tatsächlich ist.

Nun der Grund für die zu guten Werte liegt in der Tatsache, dass die mit dem MLR-Modell geschätzten y-Werte ja zumindest auf zwei (meist aber mehr) Deskriptoren beruhen (sonst wär's ja keine MLR). Und generell gilt, je mehr Deskriptoren ich habe, desto eher wird das MLR-Modell sich an die fehlerbehafteten Daten anpassen - und damit die Residuen künstlich verkleinern.

Möchte man also den "wahren" Wert der Residuen kennen, so ist bei der Berechnung eine Korrektur anzubringen, die die Zahl der Deskriptoren (p) berücksichtigt. Und genau das passiert bei einer korrekt berechneten MLR: Die Standardabweichung der Residuen ist eben nicht der naiv berechnete Wert, sondern einer der um den Faktor

größer ist (mit n = Zahl der Beobachtungen, p = Zahl der Deskriptoren).