Abhängigkeit zweier Merkmale
Transcription
Abhängigkeit zweier Merkmale
Abhängigkeit zweier Merkmale Johannes Hain Lehrstuhl für Mathematik VIII – Statistik 1 / 33 Allgemeine Situation Neben der Untersuchung auf Unterschiede zwischen zwei oder mehreren Untersuchungsgruppen hinsichtlich eines bestimmten Merkmals, kann unter Umständen das Gegenteil von Interesse sein – nämlich die Frage, ob ein bestimmter Zusammenhang zwischen zwei Merkmalen besteht. Die Frage nach dem Zusammenhang lässt sich aus statistischer Sicht wieder sowohl explorativ, als auch mit Hilfe von Signifikanztests untersuchen. Dabei unterschiedet man im Wesentlichen die folgenden Fälle: (i) Die Daten sind metrisch: Normalverteilte Stichproben Nicht normalverteilte Stichproben (ii) Die Daten sind kategorial 2 / 33 Abhängigkeit bei metrischen Variablen Voraussetzungen Für zwei Zufallsvariablen X und Y vom stetigen Typ, d.h. entweder intervall- oder sogar verhältnisskalierte Variablen, liegt eine unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom Umfang n vor. Die Abhängigkeitsstruktur von X und Y kann man mit einem Scatterplot grafisch untersuchen. Hierbei werden die beiden Variablen X und Y gegeneinander in einem Diagramm eingetragen. Je nach dem wie stark der Zusammenhang zwischen den beiden Variablen ist, kann man mit einem Scatterplot schon eine Struktur in den Daten erkennen. 3 / 33 Abhängigkeit bei metrischen Variablen Beispiel: Scatterplot der Ehepaar-Daten, X = Alter des Mannes, Y = Alter der Frau. 4 / 33 Abhängigkeit bei metrischen Variablen Erstellung eines Scatterplots in SPSS → Diagramme → Veraltete Dialogfelder → Streu-/Punkt-Diagramm → Definiere ein Einfaches Streudiagramm und wähle die beiden gewünschten Variablen in die X-Achse und die Y-Achse. 5 / 33 Abhängigkeit bei metrischen Variablen Eng mit dem Begriff der Abhängigkeit verwandt ist in der Statistik die Korrelation zwischen zwei Variablen. Mit der Korrelation lässt sich der Zusammenhang quantifizieren und somit auch statistisch genauer untersuchen. Die Korrelation zwischen X und Y ist dann wie folgt definiert: Corr (X , Y ) = Cov (X , Y ) ∈ [−1; 1]. σX · σY =⇒ Die Korrelation ist auf dem Intervall [−1, +1] standardisiert und kann deshalb viel leichter interpretiert werden. 6 / 33 Abhängigkeit bei metrischen Variablen Interpretation der Korrelation: Eine hohe positive (negative) Korrelation bedeutet, dass tendenziell ein überdurchschnittlich hoher Wert von X mit einem überdurchschnittlich hohen (niedrigen) Wert von Y einhergeht. Richtlinien für die Stärke der Korrelation Corr (X , Y ) ≈ 0: vernachlässigbare lineare Abhängigkeit zwischen X und Y . 0.3 < |Corr (X , Y )| < 0.7: schwacher linearer Zusammenhang zwischen X und Y . |Corr (X , Y )| > 0.7: starker linearer Zusammenhang zwischen X und Y . 7 / 33 Abhängigkeit bei metrischen Variablen Zusammenhang zwischen Abhängigkeit und Korrelation: Es gilt: X und Y unabhängig ⇒ X und Y unkorreliert. ⇒ X und Y unabhängig. Achtung: X und Y unkorreliert gilt im Allgemeinen aber NICHT! Merke: Die Korrelation misst nur die lineare Abhängigkeit. Es gibt auch andere Arten von Abhängigkeiten zwischen Variablen, z.B. quadratische oder logarithmische. Gilt |Corr (X , Y ) = 1|, spricht man auch von einem perfekten postiven (negativen) Zusammenhang. In der Praxis kommt ein solcher Koeffizient aber eigentlich nicht vor. 8 / 33 Abhängigkeit bei metrischen Variablen Normalverteilte Stichproben Um nun konkrete statistische Aussagen über die Stärke des Zusammenhangs zweier Variablen zu machen, berechnet man aus der vorliegenden Stichproben den empirischen Korrelationskoeffizienten nach Pearson: P P P d (X , Y ) ( n1 ni=1 Xi Yi ) − ( n1 ni=1 Xi )( n1 ni=1 Yi ) Cov = q P ρ := P σ̂X σ̂Y ( n1 ni=1 (Xi − X̄ )2 )( n1 ni=1 (Yi − Ȳ )2 ) Interpretation von ρ Wenn der Wert der einen Variablen, z.B. von X um eine Einheit ansteigt, dann verändert sich der Wert der anderen Variablen, also Y , um ρ Einheiten. Je nach dem Vorzeichen geht der Wert von Y um ρ Einheiten nach oben oder nach unten. 9 / 33 Abhängigkeit bei metrischen Variablen Normalverteilte Stichproben Um festzustellen, ob der Zusammenhang zwischen zwei Variablen X und Y nicht nur zufällig sondern systematisch ist, kann man einen Signifikanztest durchführen. Voraussetzungen Gegeben sind zwei metrisch-skalierte Stichproben X1 , . . . , Xn und Y1 , . . . , Yn , die durch die Bildung von Paaren (Xi , Yi ), i = 1, . . . , n erhoben wurden. Die beiden Stichproben sind außerdem normalverteilt, d.h. X1 , . . . , Xn ∼ N(µX , σ 2 ) und Y1 , . . . , Yn ∼ N(µY , σ 2 ). =⇒ Es reicht bei diesem Test also nicht aus, dass intervallskalierte Daten vorliegen, sondern die Daten müssen zusätzlich auch noch beide normalverteilt sein! 10 / 33 Abhängigkeit bei metrischen Variablen Normalverteilte Stichproben Die zugehörige Nullhypothese für diesen Test lautet H0 : ρ = 0, d.h. es wird überprüft, ob überhaupt ein Zusammenhang zwischen X und Y vorliegt. Die zugehörige Teststatistik T := p ρ 1 − ρ2 √ n−2 ist unter H0 t-verteilt mit (n − 2) Freiheitsgraden. Wird H0 nun verworfen, kann man anhand des Vorzeichens von ρ erkennen, in welche Richtung der Zusammenhang geht. 11 / 33 Abhängigkeit bei metrischen Variablen Normalverteilte Stichproben Pearson’scher Korrelationskoeffizient in SPSS → Analysieren → Korrelation → Bivariat → Wähle die gewünschten Variablen aus und klicke im Feld Korrelationskoeffizienten den Koeffizienten nach Pearson an. 12 / 33 Abhängigkeit bei metrischen Variablen Nicht normalverteilte Stichproben Voraussetzungen Für zwei metrische Zufallsvariablen X und Y liegt eine unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom Umfang n vor. Im Fall nicht normalverteilter Daten, kann ebenfalls ein Korrelationskoeffizient berechnet werden, der sogenannte Spearman Rangkorrelationskoeffizient. Vorgehen zur Berechnung: Ordne die X1 , . . . , Xn und die Y1 , . . . , Yn jeweils der Größe nach an. Jeder Messwert Xi und Yi erhält einen Rang rX ,i und rY ,i . Berechne den Spearman’schen Rangkorrelationskoeffizienten: P 6 ni=1 (rX ,i − rY ,i )2 ∈ [−1; 1]. rS := n(n2 − 1) 13 / 33 Abhängigkeit bei metrischen Variablen Nicht normalverteilte Stichproben Wie beim Korrelationkoeffizienten nach Pearson wird auch hier die Nullhypothese H0 : rS = 0 getestet, also ob die beiden Variablen signifikant zusammenhängen – in welche Richtung auch immer. Die Teststatistik T := q rS 1 − rS2 √ n−2 ist dann für n > 30 approximativ t-verteilt mit (n − 2) Freiheitsgraden. Für n ≤ 30 berechnet SPSS den p-Wert basierend auf Tafelwerken. 14 / 33 Abhängigkeit bei metrischen Variablen Nicht normalverteilte Stichproben Spearman’scher Korrelationskoeffizient in SPSS → Analysieren → Korrelation → Bivariat → Wähle die gewünschten Variablen aus und klicke im Feld Korrelationskoeffizienten den Koeffizienten nach Spearman an. 15 / 33 Abhängigkeit bei metrischen Variablen Aufgaben zur Vertiefung I Aufgabe zum Datensatz Kino.sav Gibt es einen Zusammenhang zwischen dem Alter und der Anzahl der Kinobesuche? Stelle die Daten grafisch dar, berechne ein geeignetes Zusammenhangsmaß und führe dazu einen Signifikanztest durch. Aufgabe zum Datensatz Fussball.sav Wie hoch ist die Korrelation zwischen den Punkten am Saisonende und dem Etat des jeweiligen Vereins? Überprüfe die Signifikanz mit dem korrekten Testverfahren und versuche die Daten grafisch zu veranschaulichen. 16 / 33 Abhängigkeit bei metrischen Variablen Aufgaben zur Vertiefung II Aufgabe zum Datensatz Arbeitsbeschaffung.sav Der Datensatz enthält das Bruttoeinkommen von Erwerbslosen vor und während einer Arbeitsbeschaffungsmaßnahme. Wie hoch ist die Korrelation zwischen den beiden Einkommen? Überprüfe die Signifikanz mit dem korrekten Testverfahren und versuche die Daten grafisch zu veranschaulichen. Aufgabe zum Datensatz Pisa.sav Zwischen welchen der drei Leistungsparameter (Lesen, Mathe, Naturwissenschaften) gibt es den stärksten linearen Zusammenhang? 17 / 33 Abhängigkeit bei kategorialen Variablen Voraussetzungen Für zwei Zufallsvariablen X und Y mit nominalskalierten Werten liegt eine unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom Umfang n vor. Für Variablen vom diskreten Typ macht die Erstellung eines Scatterplot natürlich wenig Sinn. Allerdings gibt es auch in diesem Fall die Möglichkeit der grafischen Veranschaulichung der Daten, beispielsweise mittels 3D-Balken. Dabei wird für jede mögliche Merkmalskombination von X und Y die Häufigkeit in ein dreidimensionales Histogramm gezeichnet. 18 / 33 Abhängigkeit bei kategorialen Variablen Beispiel: 3D-Histogramm für zwei nominalsaklierte Variablen 19 / 33 Abhängigkeit bei kategorialen Variablen 3D-Histogramm in SPSS → Diagramme → Veraltete Diaglogfelder → 3D-Balken → Klicke sowohl für die X-Achse als auch für die Y-Achse die Auswahl Fallgruppen an und gehe auf das Feld Definieren → Wähle die beiden gewünschten Variablen in die Felder Kategorieachse X und Kategorieachse Z 20 / 33 Abhängigkeit bei kategorialen Variablen Die nominalskalierten Variablen X und Y mit einem statistischen Verfahren auf ihren Zusammenhang zu testen kann man mit dem χ2 -Unabhängigkeitstest. Die zu untersuchende Nullhypothese lautet: H0 : X und Y sind voneinander unabhängig Das Vorgehens des χ2 -Tests kann man sich mit Hilfe von Kontingenztafeln deutlich machen. Das Resultat jeder Sichprobe mit paarweisen Beobachtungen (Xi , Yi ) lässt sich mit einer Kontingenztafel darstellen. 21 / 33 Abhängigkeit bei kategorialen Variablen Beispiel einer Kontingenztafel X := Familienstand mit den Ausprägungen X ∈ {ledig, geschieden, verheiratet} Y := Schulbildung mit den Ausprägungen Y ∈ {Gymnasium, Realschule, Hauptschule} ledig geschieden verheiratet Gesamt Gymnasium 15 12 22 49 Realschule 14 26 18 58 Hauptschule 9 28 73 110 Gesamt 38 66 113 217 22 / 33 Abhängigkeit bei kategorialen Variablen Grafische Veranschaulichung Ein Balkendiagramm, dass für jede Ausprägung der einer Variable die prozentuale Verteilung der anderen Variablen darstellt, verdeutlicht ebenso die Vorgehensweise des χ2 -Tests: Auge blau braun nuss gruen 100,0% 80,0% 60,0% 40,0% 20,0% 0,0% rot braun blond schwarz 23 / 33 Abhängigkeit bei kategorialen Variablen Grafische Veranschaulichung Balkendiagramm mit SPSS → Diagramme → Diagrammerstellung... → Wähle im Feld Galerie eines der beiden ”gruppierten Balkendiagrammsymbole”mit einem Doppelklick aus. → Ziehe die Variable Haar in das Feld X-Achse? und die Variable Auge in das Feld Clustervariable... → Aktiviere das Fenster Elementeigenschaften. Ändere im Feld Statistiken unter Statistik die Auswahl von Anzahl zu Prozentsatz () → Klicke auf das Feld Parameter festlegen... und wähle im neu erscheinenden Dialogfeld Gesamt für jede X-Achsen-Kategorie aus und gehe auf Weiter → Gehe auf Zuweisen und danach im Fenster Diagrammerstellung auf OK 24 / 33 Abhängigkeit bei kategorialen Variablen Grundlegender Gedanke Vorgehen beim χ2 -Test Ausgehend von den vorliegenden Daten berechnet man beim χ2 -Test die erwarteten Häufigkeiten jeder Faktorstufenkombination unter der Annahme, dass X und Y unabhängig sind. Diese erwarteten Häufigkeiten werden dann mit den tatsächlichen Häufigkeiten vergleichen. Trifft H0 zu, sollte die Differenz der beiden Werte nahe bei Null liegen. Die zugehörige Teststatistik X 2 ist etwas komplizierter – vereinfacht gesprochen werden die quadrierten Differenzen für jede Faktorstufenkombination aufsummiert: n n 2 J I X X nij − •jn i • 2 . X := n•j ni • i =1 j=1 n Wird diese Gesamtsumme zu groß wird die Nullhypothese verworfen. 25 / 33 Abhängigkeit bei kategorialen Variablen Der χ2 -Unabhängigkeitstest in SPSS → Analysieren → Deskriptive Statistiken → Kreuztabellen → Ziehe eine der gewünschen Variablen in das Feld Zeilen, die andere in das Feld Spalten → Klicke das Feld Statistik an und wähle Chi-Quadrat aus → Klicke das Feld Zellen und klicke im Feld Häufigkeiten die Option Erwartet an, um sich zusätzlich noch die erwarteten Häufigkeiten angeben zu lassen 26 / 33 Abhängigkeit bei kategorialen Variablen Der χ2 -Unabhängigkeitstest ist ein approximatives Testverfahren – die zugehörige Teststatistik TP ist nur approximativ χ2 -verteilt mit (I − 1)(J − 1) Freiheitsgraden. Das gleiche Problem tritt beispielsweise beim Mann-Whitney-U-Test auf. Damit die Approximation von ausreichender Güte ist, sollte die folgende Faustregel erfüllt sein: Faustregel für den χ2 -Test (Regel von Cochran) Die erwartete Häufigkeit sollte in jeder Zelle mindestens den Wert 1 betragen und für 80% der Zellen sollte die erwartete Häufigkeit mindestens den Wert 5 betragen. Ist die Regel verletzt, gibt es zwei Möglichkeiten: (i) Weglassen von dünn“ besetzten Kategorien oder ” (ii) Zusammenfassen von (fachlich ähnlichen) Kategorien. 27 / 33 Abhängigkeit bei kategorialen Variablen Ein wichtiger Spezialfall tritt auf, wenn die Variablen X und Y beide binär sind, d.h. jeweils nur zwei mögliche Ausprägungen besitzen. In diesem Fall spricht man bei der Kontingenztafel auch von einer Vierfeldertafel. Dieser Fall ist unter anderem deshalb so wichtig, weil es für ihn ein spezielles Auswertungsverfahren gibt, dass auf Kontingeztafeln höherer Ordnung nicht anwendbar ist (siehe weiter unten). Allgemeines Schema einer Vierfeldertafel: X /Y 1 2 1 n11 n21 n•1 2 n12 n22 n•2 n1• n2• n 28 / 33 Abhängigkeit bei kategorialen Variablen Für den Fall zweier binärer Variablen X und Y kann man auf die approximativen Testverfahren verzichten, denn hierfür ist sogar ein exakter Test möglich, nämlich Fishers exakter Test auf Unabhängigkeit Die obigen Faustregeln für eine ausreichende Güte des Tests sind in diesem Fall also nicht zu beachten – die Zellenbesetzung in einer Vierfeldertafel kann demzufolge auch sehr dünn sein. Die Nullhypothese H0 ist hier die gleiche wie beim χ2 -Test, die Teststatistik ist in diesem Fall sehr einfach definiert durch TF := n11 also genau der Wert in der linken oberen Zelle. Die Teststatistik TF ist unter H0 hypergeometrisch verteilt gemäß H(n, n1· , n·1 ). 29 / 33 Abhängigkeit bei kategorialen Variablen Fishers exakter Test in SPSS → Führe den χ2 -Unabhängigkeitstest durch wie auf Folie 26 beschrieben. → Im Fall einer Vierfeldertafel wird in der SPSS-Ausgabe automatisch zusätzlich zum bekannten Output noch das Ergebnis des exakten Test nach Fisher angegeben. 30 / 33 Abhängigkeit bei kategorialen Variablen Aufgaben zur Vertiefung I Aufabe zum Datensatz Titanic.sav Der Datensatz enthält Informationen über die Klassenzugehörigkeit, das Geschlecht und das Alter aller Passagiere der Titanic. (i) Gibt es einen Zusammenhang zwischen dem Überleben des Schiffsuntergangs und der Klasse? (ii) Gibt es einen Zusammenhang zwischen Überleben und Geschlecht? (iii) Gibt es einen Zusammenhang zwischen Überleben und dem Alter? Erstellen Sie hierfür eine neue Variable mit zwei Kategorien: Passagiere unter 18 Jahre und Passagiere über 18 Jahre. 31 / 33 Abhängigkeit bei kategorialen Variablen Aufgaben zur Vertiefung II Aufabe zum Datensatz Suizid.sav Der Datensatz enthält Informationen über die Todesart von Personen, die einen Suizid begangen haben. Gibt es einen Zusammenhang zwischen der die Todesart des Selbstmords und dem Geschlecht? Aufabe zum Datensatz Interesse.sav Das Ergebnis einer Umfrage nach den Interesse an Fußball ist im Datensatz Interesse.sav dokumentiert. Gibt es einen Zusammenhang zwischen dem Interesse an Fußball und dem Geschlecht der befragten Personen? 32 / 33 Abhängigkeit bei kategorialen Variablen Aufgaben zur Vertiefung III Aufabe zum Datensatz Kopfschmerzen.sav Ein neues Medikament (Medikament1) gegen Kopfschmerzen wird gegen ein bereits auf dem Markt zugelassenes Medikament (Medikament2) getestet. Von allen Teilnehmern wird außerdem aufgezeichnet, ob sich ihre Kopfschmerzen durch das Medikament verbessert haben (Behandlungserfolg). Untersuche die Fragestellung ob das neue Medikament besser wirkt, als das bereits zugelassene. Aufabe zum Datensatz Kino.sav Öffne den Datensatz kino.sav und definiere die Variable alter codiert nach dem Schema alter ≤ 37 → jung“ ” alter > 37 → alt“. ” Gibt es einen Zusammenhang zwischen gender und alter codiert? 33 / 33