Backup – Lösungen 09 / 2021 – Teil 1

Aufgabe 1

Hier ist ein Beispiel, um die Aufgabe zu veranschaulichen:

# no pec

flugverhalten <- c("weniger", "gleich", rep("gewissen", 8)) flugverhalten cat("\n") table(flugverhalten) pie(table(flugverhalten), init.angle=90)

Lösungen:

  • 💡  A ist richtig 
  • 💡  B ist falsch:  Es wird eine Variable mit drei verschiedenen Ausprägungen dargestellt. Die Variable ist das Flugverhalten.
  • 💡  C ist richtig:  ℹ️ Beispiel.
  • 💡  D ist falsch:  Die absoluten Häufigkeit stehen nicht dabei. Man kann nur die relativen Häufigkeiten (ungefähr) erkennen. ℹ️ Hier ist ein Beispiel für dasselbe Kreisdiagramm mit anderen absoluten Häufigkeiten.
  • 💡  E ist falsch:  Das Flugverhalten ist nicht metrisch, sondern nominal.

Beispiel für Aussage C:

# no pec

flugverhalten <- c("weniger", "gleich", rep("gewissen", 8)) table(flugverhalten) cat("\nKreis- und Säulendiagramm:") pie(table(flugverhalten), init.angle=90) barplot(table(flugverhalten))

Beispiel für Aussage D:

# no pec

flugverhalten_1 <- c("weniger", "gleich", rep("gewissen", 8)) cat("flugverhalten_1:\n") absolut <- table(flugverhalten_1) relativ <- prop.table(table(flugverhalten_1)) rbind(absolut, relativ) pie(table(flugverhalten_1), init.angle=90) flugverhalten_2 <- c(rep("weniger",2), rep("gleich",2), rep("gewissen", 16)) cat("\nflugverhalten_2:\n") absolut <- table(flugverhalten_2) relativ <- prop.table(table(flugverhalten_2)) rbind(absolut, relativ) pie(table(flugverhalten_2), init.angle=90)
Aufgabe 2

Der Einleitungssatz ist ein wenig fragwürdig. In der deskriptiven Statistik gibt es eigentlich keine Stichproben. Die Stichprobe ist ein Konzept der Inferenzstatistik. Siehe dazu auch Lektion 6 - Inferenz vs. deskriptive Statistik. Aber natürlich kann man auch eine Stichprobe mit den Mitteln der deskriptiven Statistik beschreiben...

Lösungen:

  • 💡  A ist richtig:  ℹ️ Beispiel.
  • 💡  B ist falsch:  Der Streubereich ist der Bereich vom kleinsten bis zum größten Wert. Der Streubereich für die Datenreihe [ 1 , 1 , 3 , 4 ] ist der Bereich von 1 bis 4, also gleich [ 1 ; 4 ]. Ein einzelner Ausreißer verändert diesen Bereich entsprechend. Der Streubereich für die Datenreihe [ 1 , 1 , 3 , 99 ] ist gleich [ 1 ; 99 ]
  • 💡  C ist falsch:  Umgekehrt. Die Standardabweichung ist die Quadratwurzel der Varianz.
  • 💡  D ist richtig:  Zentrierung ist gewissermaßen ein Teilschritt der Z-Standardisierung. Zentrierung heißt Ausrichtung an Null. Wenn man von jedem Wert den Mittelwert abzieht, wird die Verteilung zur Null hin verschoben. Sie wird an der Null "zentriert", sodass die Null in der Mitte ist. Siehe Eid, Seite 165.
  • 💡  E ist richtig:  Um eine kumulierte Häufigkeit zu ermitteln, muss man die einzelnen Ausprägungen in eine sortierte Reihenfolge bringen. Eine Reihenfolge (oder Rangfolge) gibt es aber erst ab Ordinalskala. Bei nominalen Merkmalen (wie z.B. beim Studienfach oder bei der Haarfarbe) gibt es keine Reihenfolge. Die Anordnung der Ausprägungen in einer Tabelle oder in einem Diagramm ist immer zufällig oder willkürlich.
Aufgabe 3

Lösungen:

  • 💡  A ist falsch:  Der Determinationskoeffizient ist der Anteil der Regressionsvarianz an der Gesamtvarianz. Siehe Lektion 3 - Zusammenfassung Varianzzerlegung.
  • 💡  B ist richtig:  Siehe Lektion 3 - Lernkarten Varianzzerlegung.
  • 💡  C ist falsch:  Beides ist möglich. Hier ist ein ℹ️ Beispiel für Überschätzung durch einen Ausreißer und ein ℹ️ Beispiel für Unterschätzung durch einen Ausreißer.
  • 💡  D ist richtig:  Genau wie Spearman ist auch Kendall ein Zusammenhangsmaß für ordinale Merkmale.
  • 💡  E ist richtig:  Der PMK ist ein Zusammenhangsmaß nur für lineare Zusammenhänge.
Aufgabe 4

☝️ Je enger die Punkte sich um die jeweilige Gerade herum anordnen, desto größer ist die Korrelation. ℹ️ Die STEIGUNG der Gerade ist irrelevant für die Korrelation (ℹ️ abgesehen vom Vorzeichen).

Siehe auch Lektion 5 - Korrelation ist dimensionslos

Lösungen:

  • 💡  A ist falsch:  Zwei Anmerkungen. Erstens: Die Größe des Korrelationskoeffizient r kann man nicht an der Steigung der Gerade erkennen. Vielmehr geht es darum, wie eng sich die Datenpunkte um die Gerade herum anordnen (siehe oben). Zweitens: Es ist praktisch unmöglich, auf dem Bild zu erkennen, ob nun die Kinder oder die Eltern den größeren PMK haben. Um das genau zu sagen, müsste man den PMK ausrechnen, was aber nicht geht, weil die Ausgangsdaten nicht vorliegen. Und man kann die Daten auch nicht aus dem Diagramm ableiten, weil man ja nicht weiß, ob es mehrere Punkte auf demselben Fleck gibt, die sich gegenseitig überdecken. Ich denke, der Lehrstuhl hat sich hier selbst ins Bockshorn gejagt (wie auch schon bei Aufgabe 5 aus der Klausur 03/2021).
  • 💡  B ist falsch:  Eine steigende Gerade steht in jedem Fall für einen positiven Zusammenhang (heißt: je größer die Anzahl der gefressenen Wesen, desto größer die Angst) und eine fallende Gerade für einen negativen Zusammenhang.
  • 💡  C ist richtig 
  • 💡  D ist falsch:  Die farbigen Linien sind die Regressionsgeraden für die einzelnen Gruppen.
  • 💡  E ist falsch:  Theoretisch entspricht die Anzahl der Punkte zwar der Stichprobengröße, aber man kann im Diagramm ja nicht erkennen, ob es vielleicht mehrere Punkte auf demselben Fleck gibt, die sich gegenseitig überdecken. Im Streudiagramm kann man also nicht die Größe der Stichprobe erkennen.
Aufgabe 5

Diese Aufgabe ist sehr ähnlich zur Aufgabe 4 aus der Klausur 09/2020. Die Aussagen B und D sind sogar identisch.

Lösungen:

  • 💡  A ist falsch:  Wenn die WSKen aufgrund der relativen Häufigkeiten der Vergangenheit geschätzt werden, dann nennt man das ℹ️ frequentistische WSKen. Demgegenüber steht der ℹ️ klassische Ansatz, bei dem es um etwas anderes geht.
  • 💡  B ist richtig:  Eigentlich müsste es heißen: Der ℹ️ Mittelwert wird als Erwartungswert bezeichnet. Es gibt nicht nur ein Lagemaß, sondern viele verschiedene, wie Median und Modalwert. Es ist eigentlich nicht wirklich klar, welches Lagemaß hier gemeint ist... Der Mittelwert einer jeden WSK-Verteilung (also nicht nur der Stichprobenverteilung) wird als Erwartungswert bezeichnet.
  • 💡  C ist richtig 
  • 💡  D ist falsch:  Es gilt: P(A ∩ B) ≤ P(A). Das kann man sich leicht mit einem Venn-Diagramm klarmachen. A ∩ B ist die Schnittmenge von A und B. Und was für die Mengen gilt, das gilt auch für die WSKen:
  • 💡  E ist falsch:  Zur Schätzung der Populationsvarianz wird nicht durch n geteilt, sondern durch n-1.
Aufgabe 6

Lösungen:

  • 💡  A ist falsch 
  • 💡  B ist falsch 
  • 💡  C ist richtig 
  • 💡  D ist falsch 
  • 💡  E ist richtig 
Aufgabe 7

Lösungen:

  • 💡  A ist richtig:  Bei der Varianzanalyse werden alle Gruppen gleichzeitig auf (Un-)Gleichheit getestet. Es werden nicht einzelne Gruppen miteinander verglichen, sondern es ist ein Gesamt-Test über alles (over all). Es ist ein Overall-Test. Dementsprechend bezeichnet man die Alternativhypothese manchmal auch als ℹ️ Overall-Hypothese. Sie sagt nicht, dass sich bestimmte Mittelwerte unterscheiden, sondern sie sagt nur, die Mittelwerte unterscheiden sich irgendwie. Sie bezieht sich also auf alle Mittelwerte gleichzeitig. Daher wird sie manchmal auch als Omnibus-Hypothese bezeichnet (omnibus ist latein für alle).
  • 💡  B ist richtig 
  • 💡  C ist richtig 
  • 💡  D ist richtig:  Gemeint sind eigentlich gleiche Varianzen in den ℹ️ Populationen. Siehe auch Aufgabe 10.
  • 💡  E ist richtig:  Bei der Varianzanalyse werden die Mittelwerte der abhängigen Variable von mehreren Gruppen verglichen. Um einen Mittelwert auszurechnen, muss die Variable metrisch, also mindestens intervall-skaliert, sein. Die Gruppierungsvariable ist die unabhängige Variable.
Aufgabe 8

Lösungen:

  • 💡  A ist falsch:  Das galt in der Klausur vermutlich als falsch. Denn der geeignete t-Test ist hier natürlich der für ℹ️ UNabhängige Stichproben. "Sie teilt ihre Proband:innen per Zufall in zwei Gruppen ein" => Es gibt also nichts, was einzelne Probanden miteinander verbinden könnte. ℹ️ Ergänzung.
  • 💡  B ist falsch:  "Sie vermutet, dass Personen mehr trinken, wenn ihr Trinkgefäß größer ist".
  • 💡  C ist falsch:  Auch die Daten mit getrunken=0 fließen natürlich in die Mittelwertberechnung mit ein.
  • 💡  D ist richtig: 
  • 💡  E ist richtig:  Das ist praktisch dieselbe Aussage wie Aufgabe 24 Aussage D in der Klausur 03/2021.