Übung Streuungsmaße

Überblick Lektion 2

Varianz und Standardabweichung:
Beispiel mit RÜben

Erzeugen einer Datenreihe und anzeigen:

x <- c(3, 3, 5, 7, 7)
x
[1] 3 3 5 7 7

Die Varianz und Standardabweichung können wir mithilfe der Funktionen var() und sd() ausrechnen (sd wie Standard Deviation).

Aber vorher rechnen wir die Varianz einmal selbst aus. Dazu speichern wir den Mittelwert erstmal in einer Variablen ab:

m <- mean(x)
m
[1] 5

Jetzt rechnen wir die Varianz wie gehabt. Zuerst berechnen wir die Summe der quadrierten Abweichungen als qs (wie Quadratsumme). Und dann teilen wir die Quadratsumme durch die Anzahl, also durch 5, und speichern das Ergebnis ebenfalls in einer Variablen ab:

qs <- (3-m)^2 + (3-m)^2 + (5-m)^2 + (7-m)^2 + (7-m)^2
emp_var <- qs / 5

emp_var ist jetzt die empirische Varianz.

emp_var
[1] 3.2

Natürlich können wir die Varianz auch mit der var()-Funktion ausrechnen, aber erstaunlicherweise kommt die zu einem anderen Ergebnis:

var(x)
[1] 4

Die var()-Funktion berechnet nicht die empirische Varianz, sondern die "Stichproben-Varianz".

Was es mit der Stichproben-Varianz auf sich hat, besprechen wir später. Es ist nicht kompliziert, aber das gehört in den Bereich der Inferenzstatistik. Für eine ausführliche Erklärung siehe die Videos zu den Inferenzstatistik Grundlagen in Lektion 6

☝️ Achtung!! Der Begriff Stichproben-Varianz ist nicht eindeutig definiert und wird je nach Lehrstuhl und Dozent unterschiedlich verwendet. Beim M2-Lehrstuhl ist die Stichproben-Varianz dasselbe wie die empirische Varianz. Aber hier benutzen wir den Begriff Stichproben-Varianz, um sie eindeutig von der empirischen Varianz zu unterscheiden.

Bei der Stichproben-Varianz wird die Quadratsumme nicht durch n geteilt, sondern durch n-1:

qs / 5    # empirische Varianz
qs / 4    # Stichproben-Varianz
[1] 3.2
[1] 4

Mit diesem Wissen kann man die empirische Varianz auch leicht so ausrechnen:

var(x) * 4 / 5
[1] 3.2

var(x) ist dasselbe wie qs/4. Also ist qs gleich var(x) * 4. Und qs/5 ergibt 3.2.

Da man mithilfe der length()-Funktion die Länge einer Datenreihe ermitteln kann, lässt sich das etwas allgemeiner auch so formulieren:

n <- length(x)
var(x) * (n-1) / n
[1] 3.2

Die Standardabweichung ist die Quadratwurzel der Varianz. Um eine Quadratwurzel auszurechnen gibt es die sqrt()-Funktion. sqrt() steht für "square root", wie Quadratwurzel:

sqrt(emp_var)
[1] 1.788854

Dementsprechend ist sd(x) immer die Quadratwurzel von var(x):

var(x)
[1] 4
sd(x)
[1] 2
x <- c(3, 3, 5, 7, 7)
x
m <- mean(x)
m
qs <- (3-m)^2 + (3-m)^2 + (5-m)^2 + (7-m)^2 + (7-m)^2
emp_var <- qs / 5
emp_var  # empirische Varianz
var(x)   # Stichproben-Varianz
qs / 5  # empirische Varianz
qs / 4  # Stichproben-Varianz
var(x) * 4 / 5  # empirische Varianz
n <- length(x)
var(x) * (n-1) / n  # empirische Varianz
sqrt(emp_var)
var(x)
sd(x)
Hinweis

Das Fenster mit dem  grünen Button  ist eine R Konsole. Es verhält sich im Prinzip genauso, wie die R Konsole in deinem RStudio. Du kannst damit "rumspielen", die Zahlen verändern und Dinge ausprobieren.

Du kannst nichts kaputt machen! Den Ausgangszustand kannst du jederzeit durch einen Seiten Reload wiederherstellen.


  ⬜ gesehen    ⬜ verstanden  
 (Markierung auch in der Lektion Übersicht)

Schreibe einen Kommentar