Lösungen 03 / 2021 – Teil 1

Aufgabe 1

Gibt es einen Zusammenhang zwischen dem Vereins-Trikot eines Fussball-Fans und der Frage, ob die Person Hilfe bekommt? Also z.B.: Bekommen die Fans von Manchester öfter Hilfe als die von Liverpool?

Wir haben also 2 nominale Variablen:

1) Die Art des Trikots (Manchester / neutral / Liverpool)

2) Bekommt Hilfe (ja / nein)

Für diese beiden Variablen ist in der Aufgabe die folgende zweidimensionale Häufigkeitstabelle (ℹ️ Kreuztabelle) dargestellt:

Es gab 1 Person mit Manchester-Trikot, der nicht geholfen wurde und es gab 12 Personen mit Manchester-Trikot, denen geholfen wurde. Usw.

Den Zusammenhang zwischen 2 nominalen Merkmalen/Variablen kann man berechnen mithilfe von ℹ️ Chi-Quadrat. Bei Chi-Quadrat (X2) handelt es sich um eine Maßzahl für das Ausmaß der Abweichung von der völligen Unabhängigkeit der beiden Merkmale. Es gilt also: je größer X2, desto größer ist die Abhängigkeit, bzw. der Zusammenhang zwischen den Merkmalen. Siehe auch Lektion 9 – Chi-Quadrat Tests.

Der konkrete Rechenweg zum Ausrechnen von Chi-Quadrat ist ℹ️ hier einmal dargestellt.

Laut der Angabe im Text berechnet sich Chi-Quadrat zu ℹ️ X2 = 12,07. Die Frage ist nun, ob dieser Wert signifikant von der Null abweicht.

Es geht hier nicht einfach nur darum, Chi-Quadrat auszurechnen, sondern es geht um einen Chi-Quadrat-Test. Beim Chi-Quadrat-Test müssen wir herausfinden, ob das berechnete Chi-Quadrat signifikant von der ℹ️ Nullhypothese abweicht.

☝️Beim Chi-Quadrat-Test ist das berechnete Chi-Quadrat (X2) die ℹ️ Prüfgröße.

Um zu wissen, ob das berechnete Chi-Quadrat signifikant von null abweicht, müssen wir schauen, ob es im Annahmebereich oder im Ablehnungsbereich liegt. Beim Chi-Quadrat-Test gibt es einen einseitigen Annahmebereich, weil Chi-Quadrat keine negativen Werte annehmen kann:

Schematische Darstellung

Unser berechnetes X2 ist 12,07. Wir müssen jetzt also wissen: Liegt die 12,07 noch im Annahmebereich oder liegt sie im Ablehnungsbereich. Wo genau also ist die Grenze des Annahmebereichs? Die Annahmebereichsgrenze nennt man auch den kritischen Wert.

Der kritische Wert für Chi-Quadrat richtet sich nach der Anzahl der Freiheitsgrade.

Die Anzahl der ℹ️ Freiheitsgrade ist die (Anzahl der Zeilen minus eins) x (Anzahl der Spalten minus eins):

(k-1) x (m-1)   =   (2-1)(3-1)   =   12   =   2

Wenn wir nun in die ↗️ Tabelle der Chi-Quadrat-Verteilung (auch im Sedlmeier) schauen, sehen wir, dass der kritische Wert für ein Signifikanzniveau α = 0,05 bei 2 Freiheitsgraden gleich 5,99 ist. Das könnte man z.B. schreiben als:

Kritischer Wert: Χ20,95(2) = 5,99

Unser berechnetes X2 = 12,07 ist größer als der kritische Wert, liegt also im Ablehnungsbereich. Der Test ist signifikant.

Als alternative Vorgehensweise kann man auch einfach den p-Wert für unser X2 = 12,07 ermitteln. Du wirst diesen Wert in der Tabelle nicht finden, aber wenn du den Test z.B. mit R machst, dann wird nicht nur X2 ausgerechnet, sondern es wird automatisch auch der passende p-Wert berechnet. Laut der Angabe im Aufgabentext ist der p-Wert gleich 0,0024. Wenn der p-Wert kleiner ist als Alpha (z.B. α = 0,05), dann ist der Test signifikant.

Die Berechnung mit R kannst du ℹ️ hier einmal nachvollziehen.

Lösungen:

  • 💡  A ist falsch:  Für nominale Daten kann man keine Varianz berechnen und auch keine Varianzanalyse machen
  • 💡  B ist richtig:  Siehe oben.
  • 💡  C ist richtig:  Bei einem Signifikanzniveau α = 0,05 ist der Test signifikant. p ist 0,0024 und damit deutlich kleiner als 0,05. Es besteht also ein signifikanter Zusammenhang zwischen den beiden Merkmalen. Die H0 besagt ja, dass es keinen Zusammenhang gibt.
  • 💡  D ist falsch:  Die Gesamtanzahl n aller Personen (der Stichproben-Umfang) ist 35. Das steht in der Aufgabe in der Klammer hinter dem X2, aber man kann es auch ermitteln, indem man alle Häufigkeiten zusammenzählt.
  • 💡  E ist falsch:  Es sind Absolutwerte angegeben, keine (relativen) Prozentwerte.
Aufgabe 2

Der Einleitungssatz ist etwas verwirrend. In der deskriptiven Statistik gibt es eigentlich keine Stichproben. Die Stichprobe ist ein Konzept der Inferenzstatistik. Siehe dazu auch Lektion 6 – Inferenz vs. deskriptive Statistik. Aber natürlich kann man auch eine Stichprobe mit den Mitteln der deskriptiven Statistik beschreiben…

So gesehen ist natürlich auch die Formulierung in Aussage A als richtig zu bewerten:

Lösungen:

  • 💡  A ist richtig:  Siehe oben.
  • 💡  B ist richtig:  Siehe Eid, Seite 153.
  • 💡  C ist falsch:  Der Modalwert ist der Wert, der am häufigsten vorkommt. Nicht seine Häufigkeit.
  • 💡  D ist richtig:  Diese ℹ️ etwas eigenwillige Definition stammt aus dem Eid, Seite 132.
  • 💡  E ist falsch:  Dispersion ist einfach nur ein anderes Wort für Streuung. ℹ️ Auch für nominale Merkmale gibt es ein Streuungsmaß, das mathematisch berechnet werden kann.
Aufgabe 3

In der Aufgabe ist zwar nirgendwo von einer Normalverteilung die Rede, aber wenn wir einfach mal davon ausgehen, dass die Körpergrößen der Tiere annähernd normalverteilt sind, dann kann man sich die Aufgabe besser veranschaulichen (und vermutlich ist das mit der Normalverteilung auch gar nicht so falsch).

Die Frage ist: Wer kriegt eine Decke mit Überlänge? Den Anspruch auf eine solche Decke markieren die schraffierten Bereiche (mehr als eine Standardabweichung über dem Durchschnitt):

Die pinken Markierungen repräsentieren die Größenangaben der einzelnen Tiere, die jetzt im Hotel übernachten wollen. Nur wenn die pinke Markierung im schraffierten Bereich liegt, gibt es eine Decke mit Überlänge.

Lösungen:

  • 💡  A ist falsch 
  • 💡  B ist richtig:  Ein Koalabär von 210cm bekommt definitiv eine Decke mit Überlänge.
  • 💡  C ist falsch 
  • 💡  D ist falsch 
  • 💡  E ist richtig 
Aufgabe 4

Ein Streudiagramm stellt die Datenpunkte von zwei metrischen Variablen im Koordinatensystem dar und macht so den Zusammenhang zwischen den Variablen visuell deutlich.

Ordinale oder nominale Variablen können nicht im Streudiagramm dargestellt werden, weil es keine definierten Abstände zwischen zwei Datenpunkten gibt.

Die lineare Regression versucht die Datenpunkte im Streudiagramm durch eine Gerade zu beschreiben.

Die Y-Werte werden anhand der X-Werte vorhergesagt. X ist der Prädiktor. X ist der "Vorhersager". Y ist das Kriterium. Y ist ein "Kriterium", ob X ein guter Vorhersager ist.

Der ℹ️ Determinationskoeffizient ist der Anteil der Regressionsvarianz an der Gesamtvarianz von Y.

Lösungen:

  • 💡  A ist falsch:  X ist der Prädiktor.
  • 💡  B ist falsch:  Siehe Sedlmeier Seite 261 (lesen lohnt sich nicht).
  • 💡  C ist falsch:  Den Anteil der Regressionsvarianz an der Gesamtvarianz von Y.
  • 💡  D ist richtig:  Kontinuierlich ist dasselbe wie stetig. Das sind zwei Worte für dieselbe Sache. Stetige Variablen sind immer auch metrisch. Und alle metrischen Variablen können im Streudiagramm dargestellt werden. Ordinale und nominale Variablen können nicht stetig sein. (für eine Auffrischung der Konzepte und Begrifflichkeiten siehe Lektion 3 Skalenniveaus und Lektion 5 "Diskretisierung und Histogramme").
  • 💡  E ist falsch:   ŷ = gx + f  ist dasselbe wie  ŷ = bx + a . Welche Buchstaben man nun für die beiden Regressionskoeffizienten a und b verwendet, ist im Prinzip egal. Und da bei  ŷ = bx + a  a den y-Achsenabschnitt darstellt, muss es bei  ŷ = gx + f  f sein und nicht g. Siehe Lektion 3 – (Allgemeine) Lineare Funktion.
Aufgabe 5

Beispiel um die Aufgabe zu veranschaulichen:

Backup

Backup

Dargestellt ist ein Streudiagramm für die beiden Merkmale:

– Ergebnis in einem Leistungstest

– Interesse am Thema


Schematische Darstellung

Gemäß der eingezeichneten Regressionsgerade gilt: Je größer das Interesse am Thema, desto besser das Testergebnis.

Tatsächlich handelt es sich bei dem in der Aufgabe dargestellten Streudiagramm aber um zwei Streudiagramme, die in einem Bild dargestellt sind. Das nennt man dann auch ℹ️ Gruppiertes Streudiagramm:


Schematische Darstellung

Im gruppierten Streudiagramm stehen also die blauen Punkte für die ℹ️ Grundschüler und die roten Punkte für die Oberschüler ℹ️ *.

☝️ Je enger die Punkte sich um die jeweilige Gerade herum anordnen, desto größer ist die Korrelation. ℹ️ Die STEIGUNG der Gerade ist irrelevant für die Korrelation (ℹ️ abgesehen vom Vorzeichen).

Siehe auch Lektion 5 – Korrelation ist dimensionslos

Lösungen:

Um diese Inhalte zu nutzen, musst du dich anmelden und den Zugriff auf die Klausurlösungen kostenpflichtig erwerben.

Weitere Aufgaben 6-8:

Um diese Inhalte zu nutzen, musst du dich anmelden und den Zugriff auf die Klausurlösungen kostenpflichtig erwerben.

Ein Gedanke zu „Lösungen 03 / 2021 – Teil 1“

Schreibe einen Kommentar