Lösungen 03 / 2021 – Teil 1

Aufgabe 1

Gibt es einen Zusammenhang zwischen dem Vereins-Trikot eines Fussball-Fans und der Frage, ob die Person Hilfe bekommt? Also z.B.: Bekommen die Fans von Manchester öfter Hilfe als die von Liverpool?

Wir haben also 2 nominale Variablen:

1) Die Art des Trikots (Manchester / neutral / Liverpool)

2) Bekommt Hilfe (ja / nein)

Für diese beiden Variablen ist in der Aufgabe die folgende zweidimensionale Häufigkeitstabelle (ℹ️ Kreuztabelle) dargestellt:

Es gab 1 Person mit Manchester-Trikot, der nicht geholfen wurde und es gab 12 Personen mit Manchester-Trikot, denen geholfen wurde. Usw.

Den Zusammenhang zwischen 2 nominalen Merkmalen/Variablen kann man berechnen mithilfe von ℹ️ Chi-Quadrat. Bei Chi-Quadrat (X2) handelt es sich um eine Maßzahl für das Ausmaß der Abweichung von der völligen Unabhängigkeit der beiden Merkmale. Es gilt also: je größer X2, desto größer ist die Abhängigkeit, bzw. der Zusammenhang zwischen den Merkmalen.

Der konkrete Rechenweg zum Ausrechnen von Chi-Quadrat ist ℹ️ hier einmal dargestellt.

Laut der Angabe im Text berechnet sich Chi-Quadrat zu ℹ️ X2 = 12,07. Die Frage ist nun, ob dieser Wert signifikant von der Null abweicht.

Es geht hier nicht einfach nur darum, Chi-Quadrat auszurechnen, sondern es geht um einen Chi-Quadrat-Test. Beim Chi-Quadrat-Test müssen wir herausfinden, ob das berechnete Chi-Quadrat signifikant von der ℹ️ Nullhypothese abweicht.

☝️Beim Chi-Quadrat-Test ist das berechnete Chi-Quadrat (X2) die ℹ️ Prüfgröße.

Um zu wissen, ob das berechnete Chi-Quadrat signifikant von null abweicht, müssen wir schauen, ob es im Annahmebereich oder im Ablehnungsbereich liegt. Beim Chi-Quadrat-Test gibt es einen einseitigen Annahmebereich, weil Chi-Quadrat keine negativen Werte annehmen kann:

Schematische Darstellung

Unser berechnetes X2 ist 12,07. Wir müssen jetzt also wissen: Liegt die 12,07 noch im Annahmebereich oder liegt sie im Ablehnungsbereich. Wo genau also ist die Grenze des Annahmebereichs? Die Annahmebereichsgrenze nennt man auch den kritischen Wert.

Der kritische Wert für Chi-Quadrat richtet sich nach der Anzahl der Freiheitsgrade.

Die Anzahl der ℹ️ Freiheitsgrade ist die (Anzahl der Zeilen minus eins) x (Anzahl der Spalten minus eins):

(k-1) x (m-1)   =   (2-1)(3-1)   =   12   =   2

Wenn wir nun in die ↗️ Tabelle der Chi-Quadrat-Verteilung (auch im Sedlmeier) schauen, sehen wir, dass der kritische Wert für ein Signifikanzniveau α = 0,05 bei 2 Freiheitsgraden gleich 5,99 ist. Das könnte man z.B. schreiben als:

Kritischer Wert: Χ20,95(2) = 5,99

Unser berechnetes X2 = 12,07 ist größer als der kritische Wert, liegt also im Ablehnungsbereich. Der Test ist signifikant.

Als alternative Vorgehensweise kann man auch einfach den p-Wert für unser X2 = 12,07 ermitteln. Du wirst diesen Wert in der Tabelle nicht finden, aber wenn du den Test z.B. mit R machst, dann wird nicht nur X2 ausgerechnet, sondern es wird automatisch auch der passende p-Wert berechnet. Laut der Angabe im Aufgabentext ist der p-Wert gleich 0,0024. Wenn der p-Wert kleiner ist als Alpha (z.B. α = 0,05), dann ist der Test signifikant.

Die Berechnung mit R kannst du ℹ️ hier einmal nachvollziehen.

Lösungen:

  • 💡  A ist falsch:  Für nominale Daten kann man keine Varianz berechnen und auch keine Varianzanalyse machen
  • 💡  B ist richtig:  Siehe oben.
  • 💡  C ist richtig:  Bei einem Signifikanzniveau α = 0,05 ist der Test signifikant. p ist 0,0024 und damit deutlich kleiner als 0,05. Es besteht also ein signifikanter Zusammenhang zwischen den beiden Merkmalen. Die H0 besagt ja, dass es keinen Zusammenhang gibt.
  • 💡  D ist falsch:  Die Gesamtanzahl n aller Personen (der Stichproben-Umfang) ist 35. Das steht in der Aufgabe in der Klammer hinter dem X2, aber man kann es auch ermitteln, indem man alle Häufigkeiten zusammenzählt.
  • 💡  E ist falsch:  Es sind Absolutwerte angegeben, keine (relativen) Prozentwerte.
Aufgabe 2

Der Einleitungssatz ist ein wenig fragwürdig. In der deskriptiven Statistik gibt es eigentlich keine Stichproben. Die Stichprobe ist ein Konzept der Inferenzstatistik. Aber natürlich kann man auch eine Stichprobe mit den Mitteln der deskriptiven Statistik beschreiben…

So gesehen ist natürlich auch die Formulierung in Aussage A als richtig zu bewerten:

Lösungen:

  • 💡  A ist richtig:  Siehe oben.
  • 💡  B ist richtig:  Siehe Eid, Seite 153.
  • 💡  C ist falsch:  Der Modalwert ist der Wert, der am häufigsten vorkommt. Nicht seine Häufigkeit.
  • 💡  D ist richtig:  Diese ℹ️ etwas eigenwillige Definition stammt aus dem Eid, Seite 132.
  • 💡  E ist falsch:  Dispersion ist einfach nur ein anderes Wort für Streuung. ℹ️ Auch für nominale Merkmale gibt es ein Streuungsmaß, das mathematisch berechnet werden kann.
Aufgabe 3

In der Aufgabe ist zwar nirgendwo von einer Normalverteilung die Rede, aber wenn wir einfach mal davon ausgehen, dass die Körpergrößen der Tiere annähernd normalverteilt sind, dann kann man sich die Aufgabe besser veranschaulichen (und vermutlich ist das mit der Normalverteilung auch gar nicht so falsch).

Die Frage ist: Wer kriegt eine Decke mit Überlänge? Den Anspruch auf eine solche Decke markieren die schraffierten Bereiche (mehr als eine Standardabweichung über dem Durchschnitt):

Die pinken Markierungen repräsentieren die Größenangaben der einzelnen Tiere, die jetzt im Hotel übernachten wollen. Nur wenn die pinke Markierung im schraffierten Bereich liegt, gibt es eine Decke mit Überlänge.

Lösungen:

  • 💡  A ist falsch 
  • 💡  B ist richtig:  Ein Koalabär von 210cm bekommt definitiv eine Decke mit Überlänge.
  • 💡  C ist falsch 
  • 💡  D ist falsch 
  • 💡  E ist richtig 
Aufgabe 4

Ein Streudiagramm stellt die Datenpunkte von zwei metrischen Variablen im Koordinatensystem dar und macht so den Zusammenhang zwischen den Variablen visuell deutlich.

Ordinale oder nominale Variablen können nicht im Streudiagramm dargestellt werden, weil es keine definierten Abstände zwischen zwei Datenpunkten gibt.

Die lineare Regression versucht die Datenpunkte im Streudiagramm durch eine Gerade zu beschreiben.

Die Y-Werte werden anhand der X-Werte vorhergesagt. X ist der Prädiktor. X ist der "Vorhersager". Y ist das Kriterium. Y ist ein "Kriterium", ob X ein guter Vorhersager ist.

Der ℹ️ Determinationskoeffizient ist der Anteil der Regressionsvarianz an der Gesamtvarianz von Y.

Lösungen:

  • 💡  A ist falsch:  X ist der Prädiktor.
  • 💡  B ist falsch:  Siehe Sedlmeier Seite 261 (lesen lohnt sich nicht).
  • 💡  C ist falsch:  Den Anteil der Regressionsvarianz an der Gesamtvarianz von Y.
  • 💡  D ist richtig:  Kontinuierlich ist dasselbe wie stetig. Das sind zwei Worte für dieselbe Sache. Stetige Variablen sind immer auch metrisch. Und alle metrischen Variablen können im Streudiagramm dargestellt werden. Ordinale und nominale Variablen können nicht stetig sein. (für eine Auffrischung der Konzepte und Begrifflichkeiten siehe Lektion 3 Skalenniveaus und Lektion 5 "Diskretisierung und Histogramme").
  • 💡  E ist falsch:   ŷ = gx + f  ist dasselbe wie  ŷ = bx + a . Welche Buchstaben man nun für die beiden Regressionskoeffizienten a und b verwendet, ist im Prinzip egal. Und da bei  ŷ = bx + a  a den y-Achsenabschnitt darstellt, muss es bei  ŷ = gx + f  f sein und nicht g. Siehe Lektion 3 – (Allgemeine) Lineare Funktion.
Aufgabe 5

Dargestellt ist ein Streudiagramm für die beiden Merkmale:

– Ergebnis in einem Leistungstest

– Interesse am Thema


Schematische Darstellung

Gemäß der eingezeichneten Regressionsgerade gilt: Je größer das Interesse am Thema, desto besser das Testergebnis.

Tatsächlich handelt es sich bei dem in der Aufgabe dargestellten Streudiagramm aber um zwei Streudiagramme, die in einem Bild dargestellt sind. Das nennt man dann auch ℹ️ Gruppiertes Streudiagramm:


Schematische Darstellung

Im gruppierten Streudiagramm stehen also die blauen Punkte für die ℹ️ Grundschüler und die roten Punkte für die Oberschüler ℹ️ *.

☝️ Je enger die Punkte sich um die jeweilige Gerade herum anordnen, desto größer ist die Korrelation. ℹ️ Die STEIGUNG der Gerade ist irrelevant für die Korrelation (ℹ️ abgesehen vom Vorzeichen).

Lösungen:

  • 💡  A ist richtig:  Der oberste ℹ️ blaue Punkt ist auf der Höhe der 100 Punkte.
  • 💡  B ist falsch:  Zwei Anmerkungen. Erstens: Die Stärke des Zusammenhangs und somit die Größe des Korrelationskoeffizient r kann man nicht an der Steigung der Gerade erkennen. Vielmehr geht es darum, wie eng sich die Datenpunkte um die Gerade herum anordnen (siehe oben). Zweitens: Wie man das auf dem Bild erkennen soll, ist mir schleierhaft. Als Klausuraufgabe ist das eine kleine Unverschämtheit 😉 Offenbar liegen die Punkte (Kreuze) der Grundschüler etwas näher zur Gerade als die Punkte der Oberschüler. Um das ganz genau zu sagen, müsste man eigentlich entweder den PMK ausrechnen oder zumindest die Summe der quadrierten Y-Abweichungen ermitteln. Außerdem könnten sich ja auch mehrere Punkte auf demselben Fleck befinden und sich gegenseitig überdecken. Man weiß auch nicht, ob sich solche unsichtbaren "Mehrfachpunkte" nun in der Nähe der Gerade oder weit entfernt befinden… Ich denke, entweder hat sich der Lehrstuhl hier selbst ins Bockshorn gejagt oder ich habe einen Knick in der Optik und für alle anderen ist der Unterschied auf Anhieb deutlich erkennbar.
  • 💡  C ist falsch:  Theoretisch ist das richtig. Aber, wie gesagt, man kann ja nicht erkennen, ob es vielleicht mehrere, sich überdeckende Punkte auf demselben Fleck gibt. Möglicherweise ging es dem Lehrstuhl aber auch darum, dass man für die Größe der Gesamt-Stichprobe nicht nur die Punkte, sondern die Punkte UND Kreuze zählen muss.
  • 💡  D ist richtig 
  • 💡  E ist richtig:  Beide Geraden sind steigend. Das heißt, es gibt einen positiven Zusammenhang: Je größer das Interesse, desto besser das Testergebnis. Aber eigentlich müsste es heißen: desto besser im Durchschnitt (oder tendenziell o.ä.). Wenn man die Aussage so nimmt wie sie da steht, ist sie eigentlich nicht so hundertprozentig richtig…
Aufgabe 6

Lösungen:

  • 💡  A ist falsch:  Es ist genau umgekehrt, ℹ️ der einseitige Test hat die größere Power.
  • 💡  B ist richtig:  Genau wie beim Chi-Quadrat-Test, so gibt es ℹ️ auch beim F-Test einen einseitigen Annahmebereich.
  • 💡  C ist falsch:  Gemeint ist wohl eigentlich: Je größer Alpha (α), desto kleiner die Power. Alpha ist aber nicht der Fehler erster Art, sondern die Wahrscheinlichkeit für einen Fehler erster Art (unter der Bedingung H0). Alpha ist die Wahrscheinlichkeit für einen ℹ️ Alpha-Fehler. Die Aussage ist aber sowieso falsch. Denn es ist umgekehrt: ℹ️ Je KLEINER Alpha, desto kleiner die Power.
  • 💡  D ist richtig:  Eine Stichprobenverteilung ist immer die ℹ️ WSK-Verteilung für den Kennwert einer Stichprobe.
  • 💡  E ist richtig:  ℹ️ Siehe auch hier.
Aufgabe 7

In dieser Aufgabe geht es darum, wie man bei einem t-Test die Teststärke (Power) verändern kann.

Es gibt eine Tabelle mit den Daten für vier verschiedene t-Tests für unabhängige Stichproben. Für jeden dieser t-Tests wurde ein separates Experiment durchgeführt. Es sind jeweils die folgenden Daten angegeben:

▪️ Die Größe der ℹ️ Gesamtstichprobe N

▪️ Die Effektgröße Cohens d

▪️ Das Signifikanzniveau Alpha (α)

☝️Es sind genau diese drei Größen, die einen Einfluss auf die Teststärke (Power) haben.
☝️ Achtung, das Cohens d in der Tabelle steht nicht für den Unterschied der Gruppen in der Stichprobe, sondern für den in der H1 postulierten Effekt in der Population. Das ist in der Aufgabe ℹ️ missverständlich dargestellt.

In der Aufgabe geht es darum, in welcher Weise die Power jeweils beeinflusst wird.

Wir müssen also wissen, wie ist der Zusammenhang zwischen:

1) Cohens d und Power

2) Stichprobengröße und Power

3) Alpha (α) und Power

☝️Für alle drei Angaben gilt: Je größer der jeweilige Wert, desto größer die Power.

1) Je größer Cohens d desto größer die Power:

2) Je größer die Stichprobe desto größer die Power:

Je größer die Stichprobe, desto kleiner der Standardfehler (SE) und desto schmaler die Stichprobenverteilung.

Je größer die Stichprobe, desto genauer die Schätzung.

3) Je größer Alpha (α) desto größer die Power:

Je größer α, desto kleiner β.

Je größer α, desto größer 1-β.

Mit diesem Wissen sind die Aussagen in der Aufgabe leicht zu bewerten. Hier ist nochmal die Tabelle:

Lösungen:

  • 💡  A ist falsch:  Alpha (α) ist unterschiedlich.
  • 💡  B ist falsch:  Die Idee bei dieser Aussage war sicher die folgende: nur weil bei Experiment 3 das Cohens d am größten ist, heißt das noch lange nicht, dass automatisch auch die Power am größten ist. Denn die Power hängt ja nicht nur von Cohens d ab, sondern z.B. auch von der Stichprobengröße. Und die Stichprobengröße ist bei diesem Experiment nunmal kleiner als bei zwei anderen Experimenten. So weit so gut. Aber was der Lehrstuhl vermutlich nicht bedacht hat, ist, dass die Power mit den vorliegenden Informationen vollständig bestimmt werden kann (siehe unten bei Zusatzaufgabe 1). Das heißt, ausgerechnet diejenigen Studis, die diesen Zusammenhang richtig erkannt haben, mussten die Power exakt ausrechen, um wirklich sicher zu sein, die Aussage korrekt bewerten zu können. Denn möglicherweise ist die Power ja trotz der kleineren Stichprobe dennoch am größten. Und wenn sie am größten ist, dann ist sie es in jedem Fall. Das kann man nur ausrechnen. Das war sicher nicht die Intention dieser Aufgabe. Vielmehr ging es dem Lehrstuhl dabei nur um die grundsätzlichen, oben dargestellten, Zusammenhänge. Der Lehrstuhl hat einfach nicht bedacht, dass man die Power wirklich vollständig bestimmen kann. Die Formulierung "in jedem Fall" ist redundant und irreführend.
  • 💡  C ist richtig  Die Stichprobe ist größer, also ist die Power größer (siehe oben).
  • 💡  D ist falsch:  Ein mittlerer Effekt ist bei etwa 0,5. Hingegen ist 0,2 ein kleiner Effekt. Siehe Sedlmeier Seite 304.
  • 💡  E ist falsch  Cohens d ist größer, also ist die Power größer (siehe oben).
Zusatzaufgabe 1 (mittlerer Schwierigkeitsgrad)

Mithilfe von R können wir für jeden dieser 4 t-Tests die Power recht einfach ausrechnen.

☝️ In der Klausur muss vermutlich nichts konkretes mit R gerechnet werden. Das war in der Vergangenheit so und wird vermutlich auch in der Zukunft so sein.
ℹ️ Lösung

Zusatzaufgabe 2 (sehr hoher Schwierigkeitsgrad)

Jetzt rechnen wir die Power auch nochmal „händisch“ nach (nur für den ersten Test).

Dies ist ein wirklich hoher Schwierigkeitsgrad und das muss sicher nicht in der Klausur gerechnet werden. Daher ist das nicht unbedingt zum selber rechnen, sondern nur zum nachvollziehen. Vielleicht kannst du so nochmal die Zusammenhänge vertiefen und verinnerlichen.

ℹ️ Lösung

Zusatzaufgabe 3 (hoher Schwierigkeitsgrad)

Nehmen wir für einen Augenblick einfach mal an, dass das Cohens d in der Tabelle nicht für einen vermeintlichen Mittelwertunterschied in der Population steht, sondern für den Mittelwertunterschied in der Stichprobe. Also nicht für den von der H1 postulierten Effekt, sondern für den tatsächlich gemessenen Effekt. Und der tatsächlich gemessene Mittelwertunterschied in der Stichprobe ist ja genau das, was mit dem t-Test ausgewertet wird. Das heißt, mit dem Cohens d aus der Stichprobe können wir auch auf den t-Wert schließen. Das kann man (z.B.) mit der d2t Funktion aus dem psych Package machen (siehe Moodle Lerneinheit "Verbesserungen innerhalb des NHST" – Tutorial für Effektgrößen).

Und mit dem t-Wert können wir, mithilfe der pt Funktion, sogar den p-Wert ermitteln. Und der p-Wert ist ja das eigentliche Testergebnis!

Rechnen wir den p-Wert mal aus (nur für den ersten Test).

ℹ️ Lösung
Aufgabe 8

Lösungen:

  • 💡  A ist richtig:  ℹ️ Veranschaulichung
  • 💡  B ist falsch:  Zitat aus der Lerneinheit im Moodle "NHST-Beispiele 1: t-Tests" – Überblick: Der p-Wert: Bedeutung, Interpretation, Alternativen: ℹ️ Der p-Wert ist die Wahrscheinlichkeit, die vorliegenden oder noch extremere Daten zu erhalten, wenn die Nullhypothese gilt.
  • 💡  C ist richtig:  Siehe Lerneinheit im Moodle "NHST-Beispiele 1: t-Tests" – Tutorial: t-Tests.
  • 💡  D ist falsch:  Das galt in der Klausur vermutlich als falsch. Siehe wiederum die Lerneinheit im Moodle "NHST-Beispiele 1: t-Tests" – Überblick: Der p-Wert: Bedeutung, Interpretation, Alternativen. ℹ️ Eine solche Bewertung ist aus meiner Sicht allerdings unzutreffend.
  • 💡  E ist falsch:  "Normalerweise" sagt die H0, der Effekt ist null. Aber das muss nicht so sein. ℹ️ Die Nullhypothese kann auch einen Effekt postulieren.

Ein Gedanke zu „Lösungen 03 / 2021 – Teil 1“

Schreibe einen Kommentar