Zusammenfassung Varianzzerlegung

Überblick Lektion 3

Varianzzerlegung

Bei der Regression werden die Y-Werte anhand der X-Werte vorhergesagt.

   ŷ = bx + a

Bei der Varianzzerlegung wird nun die Varianz von Y in zwei Teile zerlegt: die vorhergesagte Varianz und die nicht vorhergesagte Varianz (aufgeklärte und nicht aufgeklärte Varianz).

☝️ Gesamtvarianz von Y = aufgekl. Varianz + nicht aufgekl. Varianz
☝️ Die aufgeklärte Varianz nennt man auch Regressionsvarianz und die nicht aufgeklärte Varianz nennt man Fehlervarianz.
☝️ Gesamtvarianz von Y = Regressionsvarianz + Fehlervarianz

Um die Varianz in diese beiden Bestandteile zu zerlegen, wird zunächst jede einzelne Y-Abweichung in zwei Teile zerlegt: die vorhergesagte Abweichung und die nicht vorhergesagte Abweichung (Vorhersagefehler).

☝️ Y-Abweichung = vorhergesagte Abw. + Vorhersagefehler

Hier am Beispiel eines Wertepaares (x3 , y3):

Aus diesen Bestandteilen der einzelnen Abweichungen ergeben sich die Bestandteile der Varianz:

Die Gesamtvarianz von Y ist der Durchschnitt der quadrierten Abweichungen.

Die Regressionsvarianz ist der Durchschnitt der quadrierten vorhergesagten Abweichungen.

Die Fehlervarianz ist der Durchschnitt der quadrierten Vorhersagefehler.

Determinationskoeffizient

Der Determinationskoeffizient r2 ist der Anteil der aufgeklärten Varianz an der Gesamtvarianz:

Der Determinationskoeffizient ist eine Zahl zwischen 0 und 1 – eine Maßzahl für die Güte der Vorhersage. Je größer, desto besser kann man die Y-Werte anhand der X-Werte vorhergesagen.

☝️ Im Prinzip enthält der Determinationskoeffizient dieselben Informationen, wie der Korrelationskoeffizient (PMK). Je größer die Korrelation, desto größer die Güte der Vorhersage. Und tatsächlich ist der Determinationskoeffizient r2 gleich dem Korrelationskoeffizient r zum Quadrat.

 

  ⬜ gesehen    ⬜ verstanden  
 (Markierung auch in der Lektion Übersicht)