Lösungen 09 / 2021 – Teil 1

Aufgabe 1

Lösungen:

  • 💡  A ist richtig 
  • 💡  B ist falsch:  Es wird eine Variable mit drei verschiedenen Ausprägungen dargestellt. Die Variable ist das Flugverhalten.
  • 💡  C ist richtig:  ℹ️ Beispiel
  • 💡  D ist falsch:  Die absoluten Häufigkeit stehen nicht dabei. Man kann nur die relativen Häufigkeiten (ungefähr) erkennen. ℹ️ Hier ist ein Beispiel für dasselbe Kreisdiagramm mit anderen absoluten Häufigkeiten.
  • 💡  E ist falsch:  Das Flugverhalten ist nicht metrisch, sondern nominal.
Aufgabe 2

Der Einleitungssatz ist ein wenig fragwürdig. In der deskriptiven Statistik gibt es eigentlich keine Stichproben. Die Stichprobe ist ein Konzept der Inferenzstatistik. Aber natürlich kann man auch eine Stichprobe mit den Mitteln der deskriptiven Statistik beschreiben…

Lösungen:

  • 💡  A ist richtig:  ℹ️ Beispiel.
  • 💡  B ist falsch:  Der Streubereich ist der Bereich vom kleinsten bis zum größten Wert. Der Streubereich für die Datenreihe [ 1 , 1 , 3 , 4 ] ist der Bereich von 1 bis 4, also gleich [ 1 ; 4 ]. Ein einzelner Ausreißer verändert diesen Bereich entsprechend. Der Streubereich für die Datenreihe [ 1 , 1 , 3 , 99 ] ist gleich [ 1 ; 99 ]
  • 💡  C ist falsch:  Umgekehrt. Die Standardabweichung ist die Quadratwurzel der Varianz.
  • 💡  D ist richtig:  Zentrierung ist gewissermaßen der erste Schritt der Z-Standardisierung. Zentrierung heißt quasi Ausrichtung an Null. Die Verteilung wird zur Null hin verschoben. Sie wird an der Null "zentriert". Siehe Eid, Seite 165.
  • 💡  E ist richtig:  Um eine kumulierte Häufigkeit zu ermitteln, muss man die einzelnen Ausprägungen in eine sortierte Reihenfolge bringen. Eine Reihenfolge (oder Rangfolge) gibt es aber erst ab Ordinalskala. Bei nominalen Merkmalen (wie z.B. beim Studienfach oder bei der Haarfarbe) ist die Reihenfolge der Ausprägungen immer zufällig oder willkürlich.
Aufgabe 3

Lösungen:

  • 💡  A ist falsch:  Der Determinationskoeffizient ist der Anteil der Regressionsvarianz an der Gesamtvarianz. Siehe Lektion 3 – Zusammenfassung Varianzzerlegung.
  • 💡  B ist richtig:  Siehe Lektion 3 – Lernkarten Varianzzerlegung.
  • 💡  C ist falsch:  Beides ist möglich. Hier ist ein ℹ️ Beispiel für Überschätzung durch einen Ausreißer und ein ℹ️ Beispiel für Unterschätzung durch einen Ausreißer.
  • 💡  D ist richtig:  Genau wie Spearman ist auch Kendall ein Zusammenhangsmaß für ordinale Merkmale.
  • 💡  E ist richtig:  Der PMK ist ein Zusammenhangsmaß nur für lineare Zusammenhänge.
Aufgabe 4

☝️ Je enger die Punkte sich um die jeweilige Gerade herum anordnen, desto größer ist die Korrelation. ℹ️ Die STEIGUNG der Gerade ist irrelevant für die Korrelation (ℹ️ abgesehen vom Vorzeichen).

Siehe auch Lektion 5 – Korrelation ist dimensionslos

Lösungen:

  • 💡  A ist falsch:  Zwei Anmerkungen. Erstens: Die Größe des Korrelationskoeffizient r kann man nicht an der Steigung der Gerade erkennen. Vielmehr geht es darum, wie eng sich die Datenpunkte um die Gerade herum anordnen (siehe oben). Zweitens: Es ist unmöglich, auf dem Bild zu erkennen, ob nun die Kinder oder die Eltern den größeren PMK haben. Um das genau zu sagen, müsste man den PMK ausrechnen, was aber nicht geht, weil die Ausgangsdaten nicht vorliegen. Man kann auch nicht sagen, ob es mehrere Punkte auf demselben Fleck gibt, die sich gegenseitig überdecken. Ich denke, der Lehrstuhl hat sich hier selbst ins Bockshorn gejagt (genau wie auch schon bei Aufgabe 5 aus der Klausur 03/2021).
  • 💡  B ist falsch:  Eine steigende Gerade steht in jedem Fall für einen positiven Zusammenhang (heißt: je größer die Anzahl der gefressenen Wesen, desto größer die Angst) und eine fallende Gerade für einen negativen Zusammenhang.
  • 💡  C ist richtig 
  • 💡  D ist falsch:  Die farbigen Linien sind die Regressionsgeraden für die einzelnen Gruppen.
  • 💡  E ist falsch:  Theoretisch entspricht die Anzahl der Punkte zwar der Stichprobengröße, aber man kann im Diagramm ja gar nicht erkennen, ob sich vielleicht mehrere Punkte auf demselben Fleck befinden, sodass sie sich gegenseitig überdecken. So wie es auch im obigen Beispiel der Fall ist. Im Streudiagramm kann man also nicht die Größe der Stichprobe erkennen.
Aufgabe 5

Lösungen:

  • 💡  A ist falsch:  Wenn die WSKen in der Zukunft geschätzt werden aufgrund der relativen Häufigkeiten der Vergangenheit, dann nennt man das ℹ️ frequentistische WSKen. Demgegenüber steht der ℹ️ klassische Ansatz, bei dem es um etwas anderes geht.
  • 💡  B ist richtig:  Eigentlich müsste es heißen Mittelwert. Es gibt nicht nur ein Lagemaß, sondern viele verschiedene, wie Median und Modalwert. Es ist eigentlich nicht wirklich klar, welches Lagemaß hier gemeint ist… Der Mittelwert einer jeden WSK-Verteilung (also nicht nur der Stichprobenverteilung) wird als Erwartungswert bezeichnet. Das Formelzeichen für den Erwartungswert ist E(X) oder, gleichbedeutend, µ.
  • 💡  C ist richtig 
  • 💡  D ist falsch:  Es gilt: P(A ∩ B) ≤ P(A). Das kann man sich leicht mit einem Venn-Diagramm klarmachen. A ∩ B ist die Schnittmenge von A und B. Und was für die Mengen gilt, das gilt auch für die WSKen:
  • 💡  E ist falsch:  Zur Schätzung der Populationsvarianz wird nicht durch n geteilt, sondern durch n-1.
Aufgabe 6

Lösungen:

  • 💡  A ist falsch 
  • 💡  B ist falsch 
  • 💡  C ist richtig 
  • 💡  D ist falsch 
  • 💡  E ist richtig 
Aufgabe 7

Lösungen:

  • 💡  A ist falsch:  Alpha (α) ist unterschiedlich.
  • 💡  B ist falsch:  Die Idee bei dieser Aussage war sicher die folgende: nur weil bei Experiment 3 das Cohens d am größten ist, heißt das noch lange nicht, dass automatisch auch die Power am größten ist. Denn die Power hängt ja nicht nur von Cohens d ab, sondern z.B. auch von der Stichprobengröße. Und die Stichprobengröße ist bei diesem Experiment nunmal kleiner als bei zwei anderen Experimenten. So weit so gut. Aber was der Lehrstuhl vermutlich nicht bedacht hat, ist, dass die Power mit den vorliegenden Informationen vollständig bestimmt werden kann (siehe unten bei Zusatzaufgabe 1). Das heißt, ausgerechnet diejenigen Studis, die diesen Zusammenhang richtig erkannt haben, mussten die Power exakt ausrechen, um wirklich sicher zu sein, die Aussage korrekt bewerten zu können. Denn möglicherweise ist die Power ja trotz der kleineren Stichprobe dennoch am größten. Und wenn sie am größten ist, dann ist sie es in jedem Fall. Das kann man nur ausrechnen. Das war sicher nicht die Intention dieser Aufgabe. Vielmehr ging es dem Lehrstuhl dabei nur um die grundsätzlichen, oben dargestellten, Zusammenhänge. Der Lehrstuhl hat einfach nicht bedacht, dass man die Power wirklich vollständig bestimmen kann. Die Formulierung "in jedem Fall" ist redundant und irreführend.
  • 💡  C ist richtig  Die Stichprobe ist größer, also ist die Power größer (siehe oben).
  • 💡  D ist falsch:  Ein mittlerer Effekt ist bei etwa 0,5. Hingegen ist 0,2 ein kleiner Effekt. Siehe Sedlmeier Seite 304.
  • 💡  E ist falsch  Cohens d ist größer, also ist die Power größer (siehe oben).
Aufgabe 8

Lösungen:

  • 💡  A ist richtig:  ℹ️ Veranschaulichung
  • 💡  B ist falsch:  Zitat aus der Lerneinheit im Moodle "NHST-Beispiele 1: t-Tests" – Überblick: Der p-Wert: Bedeutung, Interpretation, Alternativen: ℹ️ Der p-Wert ist die Wahrscheinlichkeit, die vorliegenden oder noch extremere Daten zu erhalten, wenn die Nullhypothese gilt.
  • 💡  C ist richtig:  Siehe Lerneinheit im Moodle "NHST-Beispiele 1: t-Tests" – Tutorial: t-Tests.
  • 💡  D ist falsch:  Das galt in der Klausur vermutlich als falsch. Siehe wiederum die Lerneinheit im Moodle "NHST-Beispiele 1: t-Tests" – Überblick: Der p-Wert: Bedeutung, Interpretation, Alternativen. ℹ️ Eine solche Bewertung ist aus meiner Sicht allerdings unzutreffend.
  • 💡  E ist falsch:  "Normalerweise" sagt die H0, der Effekt ist null. Aber das muss nicht so sein. ℹ️ Die Nullhypothese kann auch einen Effekt postulieren.