Überblick Lektion 2
Erzeugen einer Datenreihe und anzeigen:
x <- c(3, 3, 5, 7, 7)
x
[1] 3 3 5 7 7
Die Varianz und Standardabweichung können wir mithilfe der Funktionen var()
und sd()
ausrechnen (sd wie Standard Deviation).
Aber vorher rechnen wir die Varianz einmal selbst aus. Dazu speichern wir den Mittelwert erstmal in einer Variablen ab:
m <- mean(x)
m
[1] 5
Jetzt rechnen wir die Varianz wie gehabt. Zuerst berechnen wir die Summe der quadrierten Abweichungen als qs
(wie Quadratsumme). Und dann teilen wir die Quadratsumme durch die Anzahl, also durch 5, und speichern das Ergebnis ebenfalls in einer Variablen ab:
qs <- (3-m)^2 + (3-m)^2 + (5-m)^2 + (7-m)^2 + (7-m)^2
emp_var <- qs / 5
emp_var
ist jetzt die empirische Varianz.
emp_var
[1] 3.2
Natürlich können wir die Varianz auch mit der var()
-Funktion ausrechnen, aber erstaunlicherweise kommt die zu einem anderen Ergebnis:
var(x)
[1] 4
Die var()
-Funktion berechnet nicht die empirische Varianz, sondern die "Stichproben-Varianz".
Was es mit der Stichproben-Varianz auf sich hat, besprechen wir später. Es ist nicht kompliziert, aber das gehört in den Bereich der Inferenzstatistik. Für eine ausführliche Erklärung siehe die Videos zu den Inferenzstatistik Grundlagen in Lektion 6
Stichproben-Varianz
ist nicht eindeutig definiert und wird je nach Lehrstuhl und Dozent unterschiedlich verwendet. Beim M2-Lehrstuhl ist die Stichproben-Varianz
dasselbe wie die empirische Varianz
. Aber hier benutzen wir den Begriff Stichproben-Varianz
, um sie eindeutig von der empirischen Varianz
zu unterscheiden.
Bei der Stichproben-Varianz wird die Quadratsumme nicht durch n geteilt, sondern durch n-1:
qs / 5 # empirische Varianz
qs / 4 # Stichproben-Varianz
[1] 3.2
[1] 4
Mit diesem Wissen kann man die empirische Varianz auch leicht so ausrechnen:
var(x) * 4 / 5
[1] 3.2
var(x)
ist dasselbe wie qs/4
. Also ist qs
gleich var(x) * 4
. Und qs/5
ergibt 3.2
.
Da man mithilfe der length()
-Funktion die Länge einer Datenreihe ermitteln kann, lässt sich das etwas allgemeiner auch so formulieren:
n <- length(x)
var(x) * (n-1) / n
[1] 3.2
Die Standardabweichung ist die Quadratwurzel der Varianz. Um eine Quadratwurzel auszurechnen gibt es die sqrt()
-Funktion. sqrt()
steht für "square root", wie Quadratwurzel:
sqrt(emp_var)
[1] 1.788854
Dementsprechend ist sd(x)
immer die Quadratwurzel von var(x)
:
var(x)
[1] 4
sd(x)
[1] 2