Thomas Tack und Hans Walser

 

Orthogonale Regression und Streuellipsen

 

 

Zu einem Dreieck gibt es unendlich viele Ellipsen, die die Dreiecksseiten von innen berŸhren. Die flŠchengrš§te dieser Ellipsen ist die Steiner-Innenellipse1. Die dazu duale Umellipse ist die flŠchenkleinste Ellipse durch die Eckpunkte des Dreiecks:

 

       

 

Abb.1:     Steiner-Innenellipse und -Umellipse eines Dreiecks

 

Es zeigt sich, dass die Steiner-Ellipsen zu einer Ellipsenschar gehšren, die zu beliebigen ebenen Punktwolken durch Hauptachsentransformation berechnet werden kann. Die statistischen Begriffe Varianz und Kovarianz zeigen dabei eine geometrische Bedeutung.

           

 

     

 

Abb. 2: Punktwolke:  PISA-Ergebnisse oder elliptische Galaxie?

 

 

Die Punktwolke  sei (ohne Einfluss auf Varianz und Kovarianz) bereits so verschoben, dass der Schwerpunkt im Koordinatenursprung liegt:  .

Die Punkte der Wolke seien in Polarkoordinaten gegeben:

 

          

 

Die  Kovarianz  sei , die Varianzen   bzw. .


Wir betrachten eine Ursprungsgerade  mit dem Steigungswinkel .

FŸr jeden  Punkt der Wolke gilt dann folgende †berlegung:

 

  

Abb. 3: Projektion auf Ursprungsgerade

 

Es ist:            

                                 

 

und analog:   

                               

 

Die Ursprungsgerade wird im folgenden so bestimmt werden, dass sie eine Extremaleigenschaft in Bezug auf Varianz und Kovarianz der Punktwolke erfŸllt.

Sie wird sich spŠter als Hauptachse der gesuchten Ellipsenschar erweisen.

 

Wir definieren nun die beiden Funktionen:

 


 ist der mittlere FlŠcheninhalt "orthogonalen"  Quadrate:

 

 

 

Abb. 4:  Quadrate der Lote

 

Dazu analog ist  ist die Varianz der auf der Gerade liegenden Punkte:

 

 

           

Abb. 5:  Varianz der projizierten Punkte

 

Die Funktion stellt eine Verallgemeinerung der Varianz dar,  denn es gilt:

                und    

Die Funktionen V und F sind um  gegeneinander phasenverschoben: .

Wegen  gilt:               

Daraus ergibt sich . Einem Maximum der (nichtkonstanten) Funktion  entspricht daher ein Minimum von und umgekehrt.


Berechnung der Extrema:

 

 

                   

                                             

 

und daher                           (fŸr )

 

 

FŸr   erhŠlt man . Im folgenden gelte:

Im Intervall     gibt es eine Maximumstelle und eine Minimumstelle.

 

Anders als bei den gebrŠuchlichen Regressionsgeraden werden hier nicht die senkrecht bzw. waagerecht gemessenen AbstŠnde in der Quadratsumme zum Minimum gemacht sondern die orthogonal gemessenen. Man kšnnte daher von "orthogonaler Regression" sprechen.

 

Es bezeichne  den Winkel              

und                                                   

 

Der Test mit der zweiten Ableitung ergibt:            ,

wobei das negative Vorzeichen fŸr  gilt.

 

Man erhŠlt fŸr :      

 

 

Anderenfalls gelten die umgekehrten Zuordnungen.

 

Beispiel: .  Es gilt:  ,   ,   , ,    und, da ,    ,    

 

Die Extremwerte werden spŠter unter Verwendung des MatrizenkalkŸls berechnet.


Genau wie beim †bergang von der Varianz zur Standardabweichung im Eindimensionalen sollte man auch bei und  die Wurzel ziehen. Man erhŠlt dadurch Ma§stabsinvarianz und die richtigen Einheiten. In Polarkoordinaten und mit den Daten aus dem Beispiel ergibt sich:

 

 

Abb. 6:      Graphen zu  ,      und

 

Betrachten wir die Ursprungsgerade mit Steigungswinkel  (wegen ), die durch die "Taille" der zu  gehšrigen Kurve und gleichzeitig durch die Scheitelpunkte von  verlŠuft. Der Winkel ist nunmehr so bestimmt, dass die Summe der in Abb. 4 dargestellten Abstandsquadrate der Punkte von dieser Gerade minimal ist:   . Entsprechend liest man an der zu V gehšrigen Kurve ab, dass die in Richtung der Geraden entsprechend gemessene Varianz  maximal ist, d.h. .

 

                                  

 

 

Darstellung mit Quadratischen Formen

 

Die Kovarianzmatrix    hat die Determinante .

 

Wegen der Ungleichung von Cauchy-Schwarz gilt ohnehin:         . 

Im Falle der Gleichheit wŸrde fŸr den Korrelationskoeffizienten folgen:

 

Daraus ergŠbe sich, dass alle Punkte auf einer (steigenden oder fallenden) Gerade lŠgen.

Fordert man, dass die Punktwolke aus Punkten besteht, die nicht alle auf einer Geraden liegen, ergibt sich als Mindestanzahl 3 sowie, dass .

Daraus folgt, dass die Kovarianzmatrix positiv definit ist.


Man erhŠlt dadurch die positiv definite quadratische Form

 

    

In Polarkoordinaten:            

            

Gleichheit tritt nur fŸr  bzw.  ein. HŠlt man den Winkel fest, so wachsen die Funktionswerte quadratisch mit . Die quadratische Form kann also als Paraboloid mit Scheitelpunkt im Koordinatenursprung dargestellt werden.

Jeder Schnitt mit einer Ebene, die die z-Achse enthŠlt, ist eine Parabel:

 

Abb. 7:  Darstellung von

 

 

 

Hauptachsentransformation

 

Bei den Niveaulinien von   handelt es sich um Ellipsen: 

 

Beweis: Um den "gemischten" Term in  zu eliminieren, fŸhrt man mit Hilfe der Drehmatrix

 

.

 

und der Substitution   neue Koordinaten ein:

 

            


Das Produkt der in der Mitte stehenden drei Matrizen wird explizit ausgerechnet zu

 

     

 

 

  (*)

 

 

 

FŸr die Winkelund nimmt diese Matrix Diagonalgestalt an. Zur Vereinfachung der Darstellung sei im folgenden  und  vorausgesetzt. Man erhŠlt die Matrix

 

    

 

Die Berechnung der Extremwerte in der Hauptdiagonalen erfolgt nun nicht etwa numerisch Ÿber das Einsetzen des berechneten Winkels in die trigonometrischen Funktionen sondern nach den Rechenregeln fŸr Determinanten. Es gilt nŠmlich einerseits, dass das Produkt der gesuchten Extremwerte bekannt ist:                          

 

Andererseits ergibt die Addition der in der Hauptdiagonale von (*) stehenden Terme

wegen die ebenfalls bekannte Summe 

 

 

Die Werte ,  sind daher die Lšsungen der quadratischen Gleichung

 

 

 

Es handelt sich um die charakteristische Gleichung der Kovarianzmatrix.

Die gesuchten Extremwerte sind also die Eigenwerte der Kovarianzmatrix:

 

Die Eigenwerte sind beide positiv und (falls ) voneinander verschieden.

Als Bezeichnung sei    vereinbart.  Die zugehšrigen Eigenvektoren sind:

            


Die zum Wert  gehšrige Niveaulinie hat im gedrehten Koordinatensystem

die Gleichung:

Es handelt sich also – wie behauptet – um eine Ellipse. Ø

 

WŠhlt man speziell   ,                       so ergibt sich              ,             also

 

Die Halbachsen haben die LŠngen , . Normierung der Eigenvektoren und Multiplikation mit diesen Werten ergibt die Scheitelpunkte im ursprŸnglichen Koordinatensystem.

 

Die Ellipse berŸhrt den Graphen von  von innen:

 

 

Abb. 8

 

Die  Lage und die Ma§e ermšglichen es, eine Koordinatengleichung der Ellipse direkt aus derjenigen von   durch eine Inversion am Kreis   zu bestimmen.

 

 

Abb. 9   Inversion am Kreis


Bei einer Inversion am Kreis muss das Produkt der Radien    sein.

 

Aus     folgt   mit

 

dass                                      

           

Ausmultplizieren ergibt eine Koordinatengleichung der Inversionskurve:

 

 

Also geht  durch Inversion Ÿber in die Ellipse:                                  

 

                                                 

 

Benutzt man wieder Matrizen, lŠsst sich diese Ellipsengleichung sehr knapp mit der inversen Kovarianzmatrix schreiben:

 

Wegen   ist sie Šquivalent zu  

 

 

 

            Definition:

            Sei W eine ebene Wolke aus Punkten, die nicht alle auf einer Geraden liegen. 

 sei die Kovarianzmatrix. Die Ellipsen mit der Gleichung           

           

        oder kurz         

 

sowie ihre Translationen hei§en Streuellipsen von W. 

            Die Ellipse mit   hei§t "Standardstreuellipse".

 

 

Aus der Annahme folgt und dass die Mindestpunktanzahl 3 betrŠgt.

Die Ellipsen sind also wohldefiniert. Der Grenzfall Kreis tritt genau dann auf,  wenn . Die Streuellipsen sind die geometrischen Orte der Punkte, die denselben Mahalanobis-Abstand  bzw. vom Zentrum mit Ortsvektor  haben. Sie sind bei bivariater Normalverteilung die Konturlinien gleicher Wahrscheinlichkeitsdichte. Das Mahalanobis-Abstandsma§ geht den zu messenden Daten nicht voraus sondern entsteht gewisserma§en erst mit ihnen. Die (euklidische) AbstŠnde werden entsprechend der Varianz in der jeweiligen Richtung gewichtet.


                                  

Abb. 10  Beispiel fŸr Streuellipsen

 

Die eingezeichneten Geraden sind Translationen der EigenrŠume der Kovarianzmatrix und Hauptachsen der Ellipsen. Man kšnnte sie als Dritte Regressionsgeraden bezeichnen. In diesem Beispiel wŠre eine Verwendung der Ÿblichen ersten oder zweiten Regressionsgerade wegen der Gleichartigkeit der dargestellten Daten ganz unangebracht, denn beide Komponenten des Datensatzes sind in gleicher Weise fehlerbehaftet.  Die erste Regressionsgerade wŸrde hier etwa 18¡ flacher, die zweite etwa 30¡ steiler verlaufen als die Hauptachse.

 

 

Steiner-Ellipsen als spezielle Streuellipsen

 

Satz:   Die Punktwolke bestehe aus den Punkten mit.

Dann gilt:

Die Streuellipse         ist die Steiner-Innenellipse des Dreiecks.

            Die Streuellipse           ist die Steiner-Umellipse des Dreiecks.

 

Beweis:

 

a) Berechnung der Streuellipse:

 

FŸr die Punktwolke ABC mit    gilt:

                                            .

 

Daher:  ,           und    

Die Streuellipsen sind also: 

 

d.h.:                                      


b) Berechnung der Steiner-Ellipse:

 

Jedes ebene Dreieck kann (zusammen mit seinen Steiner-Ellipsen) durch die umkehrbaren Abbildungen Verschiebung,  Drehung,  zentrische Streckung und  Spiegelung auf ein geeignetes Dreieck   mit  abgebildet werden.  Das Dreieck mit   ist gleichseitig. Seine  Steiner-Ellipsen sind daher bekannt: es handelt sich (aus SymmetriegrŸnden) um den Innenkreis:  und um den Umkreis: .

Wenn man das gleichseitige Dreieck durch die affine Abbildung mit       

 

auf das Dreieck  abbildet, geht sein Innenkreis in die Steiner-Innenellipse Ÿber. Denn eine affine Abbildung erhŠlt TeilverhŠltnisse, und die Innenellipse berŸhrt wie der Innenkreis die Dreiecksseiten in den Seitenmitten. Die Spaltenvektoren von M haben (als Bildvektoren der orthogonalen Kreisradien) konjugierte Richtung. Das legt zusammen mit dem Zentrum die Ellipse bereits fest.  Sie sei durch die Koordinaten  beschrieben.

Die Umkehrabbildung ist gegeben durch:                         

 

Durch Einsetzen in die Kreisgleichung erhŠlt man:                       

 

Daraus folgt:                                                                      

 

Die Steiner-Innenellipse hat die Gleichung:                 

 

Der Vergleich zeigt:  FŸr  ist die Streuellipse also die Steiner-Innenellipse.

Streckung mit dem Faktor 2 ergibt fŸr  die Umellipse.   Ø

 

Die Berechnung der Streuellipsen ist offenbar von der Anzahl der zugrunde liegenden Punkte unabhŠngig. Der Begriff der Steiner-Ellipse kann daher durch die im Satz genannte Charakterisierung allgemeiner gefasst werden.

 

Korollar: Zu jeder Punktwolke W gibt es Steiner-Ellipsen.

 

Der Extremaleigenschaft der Steiner-Ellipsen entspricht bei den Streuellipsen die Eigenschaft der "effektivsten Darstellung"2.


Die ExzentrizitŠt der Streuellipsen hŠngt vom Korrelationskoeffizienten  und

vom VerhŠltnis der Varianzen ab:

 

 

 

FŸr  ( also )  gilt:      

 

FŸr    gilt:      fŸr          und      fŸr  

 

Auch unkorrelierte Punktwolken haben also im Allgemeinen keine Kreise als Streuellipsen. Es gibt unkorrelierte Punktwolken mit Streuellipsen beliebiger ExzentrizitŠt. Dieser Feststellung enthŠlt eine Warnung vor zu gro§em Vertrauen in die Aussagekraft des optischen Eindrucks, den eine statistische Graphik erwecken kann. Falls mšglich, sollte man Vx und Vy   mit derselben Einheit darstellen.

Anwendung ergeben sich in Mustererkennung und EchtheitsprŸfung von Geldscheinen3. Elliptische Galaxien bestehen aus Milliarden von Sternen. Mit bivariater Statistik kann jeder Streuellipsen der jeweilige Anteil an der Gesamtzahl der Sterne zugeordnet werden.

 

 

Abbildungsverzeichnis:

[Abb. 2]                    PISA-Konsortium (Hrsg.)  PISA 2003. Der zweite Vergleich der LŠnder in Deutschland - Was wissen und kšnnen Jugendliche?, MŸnster, New York, MŸnchen, Berlin: Waxmann 2005. S. 253.

                                   (Schwarz-wei§-invertiert) Abdruck mit freundlicher Genehmigung des Verlags.

 

[Abb. 10]                 Daten aus: A Handbook of  Small Data Sets.

Ed. by D.J. Hand et al.. London: Chapman and Hall 1994.

 

Literaturverzeichnis:

Koecher, Max: Lineare Algebra und Analytische Geometrie/Berlin;Heidelberg;

New York;Tokyo: Springer 1983.    [ISBN 3-540-12572-8 ]

 

                  Tack, Thomas: Die dritte, vierte und fŸnfte Regressionsgerade.

                                   MNU, Mathematischer und naturwissenschaftlicher Unterricht

59/1 (15.1.2006), S. 7-13. [ISSN 0025-5866.]

 

Internetquellen [Stand: jeweils 6. April 2007]:

1                http://mathworld.wolfram.com/SteinerInellipse.html

2                http://www.meteo.uni-bonn.de/mitarbeiter/PFried/multstat.pdf    [S.15f]

3                http://www2.informatik.hu-berlin.de/~wagnerc/SV2/mahalanobis/aufgabe24.html

                  http://www-groups.dcs.st-and.ac.uk/~history/Curves/Curves.html

Empfehlenswerte Links:

http://www.elektronik.htw-aalen.de/statistik-erleben/indexi.php?top=top.txt&nav=nav_applets.htm&main=streuellipsen_komfort.htm

 

 

Anschriften der Verfasser:

Thomas Tack, Kapitelshof 22, D-53229 Bonn

Hans Walser, Gerlikonerstrasse 29, CH-8500 Frauenfeld

 

last modified: 12. May 2007