Für eine Korrelation braucht man immer zwei Datenreihen:
x <- c(30, 40, 20, 30)
y <- c(40, 50, 10, 20)
x
y
[1] 30 40 20 30
[1] 40 50 10 20
Korrelation berechnen:
cor(x, y)
[1] 0.8944272
Streudiagramm anzeigen: ℹ️ Hinweis
Hier auf StatsTutor verwenden wir kein ggplot
, weil es das Erlernen der Grundlagen nicht fördert, sondern behindert. Einfacher und verständlicher geht es mit:
Barplot: barplot(table(x))
.
Boxplot: boxplot(x)
.
Scatterplot: plot(x, y)
.
Der Barplot (Säulendiagramm) ist die visualisierte Häufigkeitstabelle.
Beim Scatterplot (Streudiagramm) geht es um den Zusammenhang von zwei Variablen. Darum hat er beim Aufruf zwei Parameter. Es ist gewissermaßen ein zweidimensionales Diagramm.
plot(x, y)
Das sieht noch nicht besonders übersichtlich aus.
Etwas besser geht es mit diesem Befehl. Wir können die Punkte schwarz ausfüllen und die x- und y-Achsen etwas weiter "aufziehen":
plot(x, y, pch=19, xlim=c(0,60), ylim=c(0,60))
Hier ist noch ein Beispiel mit einer größeren Datenmenge: ℹ️ Hinweis
Das Objekt mtcars
ist ein Data Frame für 32 Automodelle aus den 1970er Jahren mit technischen Angaben, wie etwa die Anzahl Zylinder. Es ist bei jeder R-Installation immer automatisch vorhanden. Als Übungs-Datensatz.
cor(mtcars$wt, mtcars$mpg)
plot(mtcars$wt, mtcars$mpg , pch=19, xlab="Gewicht", ylab="Meilen pro Gallone")
[1] -0.8676594
Hier ist die Korrelation negativ. Je größer das Gewicht, desto weniger Meilen pro Gallone (also desto höher der Benzinverbrauch). Dieser negative Zusammenhang ist im Streudiagramm ziemlich deutlich zu erkennen.
x <- c(30, 40, 20, 30)
y <- c(40, 50, 10, 20)
x
y
cor(x, y)
plot(x, y)
plot(x, y, pch=19, xlim=c(0,60), ylim=c(0,60))
cor(mtcars$wt, mtcars$mpg)
plot(mtcars$wt, mtcars$mpg , pch=19, xlab="Gewicht", ylab="Meilen pro Gallone")