Orthogonale Regression und Streuellipsen
Zu einem Dreieck gibt es unendlich viele Ellipsen, die
die Dreiecksseiten von innen
berŸhren. Die flŠchengrš§te dieser Ellipsen ist die Steiner-Innenellipse1. Die dazu duale Umellipse ist die flŠchenkleinste Ellipse durch die Eckpunkte des Dreiecks:
Abb.1: Steiner-Innenellipse und -Umellipse eines Dreiecks
Es zeigt sich, dass die Steiner-Ellipsen zu einer
Ellipsenschar gehšren, die zu beliebigen ebenen Punktwolken durch Hauptachsentransformation
berechnet werden kann. Die statistischen Begriffe Varianz und Kovarianz zeigen
dabei eine geometrische Bedeutung.
Abb. 2: Punktwolke: PISA-Ergebnisse oder elliptische Galaxie?
Die Punktwolke sei (ohne
Einfluss auf Varianz und Kovarianz) bereits so verschoben, dass der Schwerpunkt
im Koordinatenursprung liegt: .
Die Punkte der Wolke seien in Polarkoordinaten
gegeben:
Die Kovarianz sei , die Varianzen bzw. .
Wir betrachten eine
Ursprungsgerade mit dem
Steigungswinkel .
FŸr jeden Punkt der Wolke gilt dann folgende
†berlegung:
Abb. 3: Projektion auf Ursprungsgerade
Es
ist:
und analog:
Die
Ursprungsgerade wird im folgenden so bestimmt werden, dass sie eine
Extremaleigenschaft in Bezug auf Varianz und Kovarianz der Punktwolke erfŸllt.
Sie
wird sich spŠter als Hauptachse der gesuchten Ellipsenschar erweisen.
Wir
definieren nun die beiden Funktionen:
ist der mittlere
FlŠcheninhalt "orthogonalen"
Quadrate:
Abb.
4: Quadrate der Lote
Dazu
analog ist ist die Varianz
der auf der Gerade liegenden Punkte:
Abb.
5: Varianz der projizierten Punkte
Die
Funktion stellt eine Verallgemeinerung der Varianz dar, denn es gilt:
und
Die Funktionen V und F sind um gegeneinander
phasenverschoben: .
Wegen
gilt:
Daraus
ergibt sich . Einem Maximum der (nichtkonstanten) Funktion entspricht daher
ein Minimum von und umgekehrt.
Berechnung
der Extrema:
und
daher (fŸr )
FŸr
erhŠlt man
. Im folgenden gelte:
Im
Intervall gibt
es eine Maximumstelle und eine Minimumstelle.
Anders
als bei den gebrŠuchlichen Regressionsgeraden werden hier nicht die senkrecht bzw. waagerecht gemessenen AbstŠnde
in der Quadratsumme zum Minimum gemacht sondern die orthogonal gemessenen. Man
kšnnte daher von "orthogonaler Regression" sprechen.
Es bezeichne den Winkel
und
Der Test mit der zweiten Ableitung
ergibt: ,
wobei
das negative Vorzeichen fŸr gilt.
Man
erhŠlt fŸr :
Anderenfalls
gelten die umgekehrten Zuordnungen.
Beispiel:
. Es gilt: , , , , und,
da , ,
Die Extremwerte werden spŠter unter
Verwendung des MatrizenkalkŸls berechnet.
Genau
wie beim †bergang von der Varianz zur Standardabweichung im Eindimensionalen
sollte man auch bei und die Wurzel
ziehen. Man erhŠlt dadurch Ma§stabsinvarianz und die richtigen Einheiten. In
Polarkoordinaten und mit den Daten aus dem Beispiel ergibt sich:
Abb.
6: Graphen
zu , und
Betrachten wir die
Ursprungsgerade mit Steigungswinkel (wegen ), die durch die "Taille" der zu gehšrigen Kurve
und gleichzeitig durch die Scheitelpunkte von verlŠuft. Der
Winkel ist nunmehr so bestimmt, dass die Summe der in Abb. 4
dargestellten Abstandsquadrate der Punkte von dieser Gerade minimal ist: . Entsprechend liest man an der zu V gehšrigen Kurve ab, dass
die in Richtung der Geraden entsprechend gemessene Varianz maximal ist, d.h. .
Darstellung mit Quadratischen Formen
Die Kovarianzmatrix hat die
Determinante .
Wegen der Ungleichung von
Cauchy-Schwarz gilt ohnehin:
.
Im Falle der Gleichheit wŸrde
fŸr den Korrelationskoeffizienten folgen:
Daraus ergŠbe sich, dass alle
Punkte auf einer (steigenden oder fallenden) Gerade lŠgen.
Fordert man, dass die
Punktwolke aus Punkten besteht, die nicht alle auf einer Geraden liegen, ergibt sich als Mindestanzahl 3 sowie,
dass .
Daraus folgt, dass die
Kovarianzmatrix positiv definit ist.
Man
erhŠlt dadurch die positiv definite quadratische Form
In
Polarkoordinaten:
Gleichheit tritt nur fŸr bzw. ein. HŠlt man
den Winkel fest, so wachsen die Funktionswerte quadratisch mit . Die quadratische Form kann also als Paraboloid mit
Scheitelpunkt im Koordinatenursprung dargestellt werden.
Jeder Schnitt mit einer Ebene, die die z-Achse
enthŠlt, ist eine Parabel:
Abb.
7: Darstellung von
Hauptachsentransformation
Bei den Niveaulinien von handelt es
sich um Ellipsen:
Beweis: Um den "gemischten" Term in zu eliminieren,
fŸhrt man mit Hilfe der Drehmatrix
.
und der Substitution neue Koordinaten
ein:
Das Produkt der in der Mitte stehenden drei Matrizen
wird explizit ausgerechnet zu
(*)
FŸr die Winkelund nimmt diese Matrix Diagonalgestalt an. Zur Vereinfachung der
Darstellung sei im folgenden und vorausgesetzt.
Man erhŠlt die Matrix
Die Berechnung der Extremwerte in der Hauptdiagonalen
erfolgt nun nicht etwa numerisch Ÿber das Einsetzen des berechneten Winkels in
die trigonometrischen Funktionen sondern nach den Rechenregeln fŸr
Determinanten. Es gilt nŠmlich einerseits, dass das Produkt der gesuchten Extremwerte bekannt ist:
Andererseits ergibt die Addition der in der
Hauptdiagonale von (*) stehenden Terme
wegen die ebenfalls bekannte Summe
Die Werte , sind daher die
Lšsungen der quadratischen Gleichung
Es handelt sich um die charakteristische Gleichung der
Kovarianzmatrix.
Die gesuchten Extremwerte sind also die Eigenwerte der
Kovarianzmatrix:
Die Eigenwerte
sind beide positiv und (falls ) voneinander verschieden.
Als Bezeichnung sei vereinbart.
Die zugehšrigen Eigenvektoren sind:
Die zum Wert gehšrige
Niveaulinie hat im gedrehten Koordinatensystem
die Gleichung:
Es handelt sich also – wie behauptet – um
eine Ellipse. Ø
WŠhlt man speziell , so
ergibt sich , also
Die Halbachsen haben die
LŠngen , . Normierung der Eigenvektoren und Multiplikation mit diesen
Werten ergibt die Scheitelpunkte im ursprŸnglichen Koordinatensystem.
Die Ellipse berŸhrt den Graphen von von innen:
Abb. 8
Die Lage und die Ma§e ermšglichen es, eine Koordinatengleichung der Ellipse direkt aus
derjenigen von durch eine
Inversion am Kreis zu
bestimmen.
Abb. 9 Inversion am Kreis
Bei einer Inversion am Kreis muss das Produkt der
Radien sein.
Aus folgt mit
dass
Ausmultplizieren ergibt eine Koordinatengleichung der
Inversionskurve:
Also geht durch Inversion
Ÿber in die Ellipse:
Benutzt man wieder Matrizen, lŠsst sich diese
Ellipsengleichung sehr knapp mit der inversen Kovarianzmatrix schreiben:
Wegen ist sie
Šquivalent zu
Definition:
Sei
W eine ebene Wolke aus Punkten, die nicht alle auf einer Geraden liegen.
sei die
Kovarianzmatrix. Die Ellipsen mit der Gleichung
oder kurz
sowie ihre Translationen hei§en Streuellipsen von W.
Die
Ellipse mit hei§t
"Standardstreuellipse".
Aus der Annahme folgt und dass die Mindestpunktanzahl 3 betrŠgt.
Die Ellipsen sind also
wohldefiniert. Der Grenzfall Kreis tritt genau dann auf, wenn . Die Streuellipsen sind die geometrischen Orte der Punkte,
die denselben Mahalanobis-Abstand bzw. vom Zentrum mit Ortsvektor haben. Sie sind
bei bivariater Normalverteilung die Konturlinien gleicher Wahrscheinlichkeitsdichte.
Das Mahalanobis-Abstandsma§ geht den zu messenden Daten nicht voraus sondern
entsteht gewisserma§en erst mit ihnen. Die (euklidische) AbstŠnde werden entsprechend
der Varianz in der jeweiligen Richtung gewichtet.
Abb. 10 Beispiel fŸr Streuellipsen
Die eingezeichneten Geraden sind Translationen der
EigenrŠume der Kovarianzmatrix und Hauptachsen der Ellipsen. Man kšnnte sie als
Dritte Regressionsgeraden bezeichnen. In diesem Beispiel wŠre eine Verwendung
der Ÿblichen ersten oder zweiten Regressionsgerade wegen der Gleichartigkeit
der dargestellten Daten ganz unangebracht, denn beide Komponenten des
Datensatzes sind in gleicher Weise fehlerbehaftet. Die erste Regressionsgerade wŸrde hier etwa 18¡ flacher, die
zweite etwa 30¡ steiler verlaufen als die Hauptachse.
Steiner-Ellipsen als spezielle Streuellipsen
Satz: Die Punktwolke bestehe aus den Punkten mit.
Dann
gilt:
Die
Streuellipse ist die
Steiner-Innenellipse des Dreiecks.
Die
Streuellipse ist die
Steiner-Umellipse des Dreiecks.
Beweis:
a) Berechnung der Streuellipse:
FŸr die Punktwolke ABC mit gilt:
.
Daher: , und
Die Streuellipsen sind also:
d.h.:
b) Berechnung der Steiner-Ellipse:
Jedes ebene Dreieck kann (zusammen mit seinen
Steiner-Ellipsen) durch die umkehrbaren Abbildungen Verschiebung, Drehung, zentrische Streckung und Spiegelung auf ein geeignetes Dreieck mit abgebildet
werden. Das Dreieck mit ist
gleichseitig. Seine
Steiner-Ellipsen sind daher bekannt: es handelt sich (aus
SymmetriegrŸnden) um den Innenkreis: und um den
Umkreis: .
Wenn man das gleichseitige
Dreieck durch die affine Abbildung mit
auf das Dreieck abbildet, geht
sein Innenkreis in die Steiner-Innenellipse Ÿber. Denn eine affine Abbildung
erhŠlt TeilverhŠltnisse, und die Innenellipse berŸhrt wie der Innenkreis die
Dreiecksseiten in den Seitenmitten. Die Spaltenvektoren von M haben (als Bildvektoren
der orthogonalen Kreisradien) konjugierte Richtung. Das legt zusammen mit dem
Zentrum die Ellipse bereits fest.
Sie sei durch die Koordinaten beschrieben.
Die
Umkehrabbildung ist gegeben durch:
Durch Einsetzen in die
Kreisgleichung erhŠlt man:
Daraus folgt:
Die Steiner-Innenellipse hat die Gleichung:
Der Vergleich zeigt: FŸr ist die
Streuellipse also die Steiner-Innenellipse.
Streckung mit dem Faktor 2
ergibt fŸr die Umellipse. Ø
Die Berechnung der Streuellipsen ist offenbar von der
Anzahl der zugrunde liegenden Punkte unabhŠngig. Der Begriff der
Steiner-Ellipse kann daher durch die im Satz genannte Charakterisierung
allgemeiner gefasst werden.
Korollar: Zu jeder Punktwolke W gibt es
Steiner-Ellipsen.
Der Extremaleigenschaft der Steiner-Ellipsen
entspricht bei den Streuellipsen die Eigenschaft der "effektivsten
Darstellung"2.
Die ExzentrizitŠt der Streuellipsen hŠngt vom
Korrelationskoeffizienten und
vom VerhŠltnis der Varianzen ab:
FŸr ( also ) gilt:
FŸr gilt: fŸr und
fŸr
Auch unkorrelierte
Punktwolken haben also im Allgemeinen keine Kreise als Streuellipsen. Es gibt unkorrelierte
Punktwolken mit Streuellipsen beliebiger ExzentrizitŠt. Dieser Feststellung enthŠlt eine Warnung vor zu
gro§em Vertrauen in die Aussagekraft des optischen Eindrucks, den eine
statistische Graphik erwecken kann. Falls mšglich, sollte man Vx und
Vy mit derselben
Einheit darstellen.
Anwendung ergeben sich in
Mustererkennung und EchtheitsprŸfung von Geldscheinen3. Elliptische
Galaxien bestehen aus Milliarden von Sternen. Mit bivariater Statistik kann
jeder Streuellipsen der jeweilige Anteil an der Gesamtzahl der Sterne
zugeordnet werden.
Abbildungsverzeichnis:
[Abb. 2] PISA-Konsortium
(Hrsg.) PISA 2003. Der zweite
Vergleich der LŠnder in Deutschland - Was wissen und kšnnen Jugendliche?,
MŸnster, New York, MŸnchen, Berlin: Waxmann 2005. S. 253.
(Schwarz-wei§-invertiert) Abdruck mit freundlicher Genehmigung des Verlags.
[Abb. 10] Daten
aus: A Handbook of Small Data
Sets.
Ed. by D.J. Hand et al.. London:
Chapman and Hall 1994.
Literaturverzeichnis:
Koecher, Max: Lineare Algebra und Analytische Geometrie/Berlin;Heidelberg;
New York;Tokyo: Springer 1983. [ISBN 3-540-12572-8 ]
Tack, Thomas: Die dritte, vierte und fŸnfte Regressionsgerade.
MNU, Mathematischer und naturwissenschaftlicher Unterricht
59/1 (15.1.2006), S. 7-13. [ISSN
0025-5866.]
Internetquellen [Stand: jeweils 6. April 2007]:
1 http://mathworld.wolfram.com/SteinerInellipse.html
2 http://www.meteo.uni-bonn.de/mitarbeiter/PFried/multstat.pdf [S.15f]
3 http://www2.informatik.hu-berlin.de/~wagnerc/SV2/mahalanobis/aufgabe24.html
http://www-groups.dcs.st-and.ac.uk/~history/Curves/Curves.html
Empfehlenswerte Links:
Anschriften der Verfasser:
Thomas
Tack, Kapitelshof 22, D-53229 Bonn
Hans Walser,
Gerlikonerstrasse 29, CH-8500 Frauenfeld
last
modified: 12. May 2007