Abhängigkeit zweier Merkmale

Transcription

Abhängigkeit zweier Merkmale
Abhängigkeit zweier Merkmale
Johannes Hain
Lehrstuhl für Mathematik VIII – Statistik
1 / 33
Allgemeine Situation
Neben der Untersuchung auf Unterschiede zwischen zwei oder
mehreren Untersuchungsgruppen hinsichtlich eines bestimmten
Merkmals, kann unter Umständen das Gegenteil von Interesse sein
– nämlich die Frage, ob ein bestimmter Zusammenhang zwischen
zwei Merkmalen besteht.
Die Frage nach dem Zusammenhang lässt sich aus statistischer
Sicht wieder sowohl explorativ, als auch mit Hilfe von
Signifikanztests untersuchen. Dabei unterschiedet man im
Wesentlichen die folgenden Fälle:
(i) Die Daten sind metrisch:
Normalverteilte Stichproben
Nicht normalverteilte Stichproben
(ii) Die Daten sind kategorial
2 / 33
Abhängigkeit bei metrischen Variablen
Voraussetzungen
Für zwei Zufallsvariablen X und Y vom stetigen Typ, d.h. entweder
intervall- oder sogar verhältnisskalierte Variablen, liegt eine
unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom Umfang n vor.
Die Abhängigkeitsstruktur von X und Y kann man mit einem
Scatterplot grafisch untersuchen. Hierbei werden die beiden
Variablen X und Y gegeneinander in einem Diagramm eingetragen.
Je nach dem wie stark der Zusammenhang zwischen den beiden
Variablen ist, kann man mit einem Scatterplot schon eine Struktur
in den Daten erkennen.
3 / 33
Abhängigkeit bei metrischen Variablen
Beispiel: Scatterplot der Ehepaar-Daten, X = Alter des Mannes,
Y = Alter der Frau.
4 / 33
Abhängigkeit bei metrischen Variablen
Erstellung eines Scatterplots in SPSS
→ Diagramme
→ Veraltete Dialogfelder
→ Streu-/Punkt-Diagramm
→ Definiere ein Einfaches Streudiagramm und wähle die beiden
gewünschten Variablen in die X-Achse und die Y-Achse.
5 / 33
Abhängigkeit bei metrischen Variablen
Eng mit dem Begriff der Abhängigkeit verwandt ist in der Statistik
die Korrelation zwischen zwei Variablen. Mit der Korrelation lässt
sich der Zusammenhang quantifizieren und somit auch statistisch
genauer untersuchen.
Die Korrelation zwischen X und Y ist dann wie folgt definiert:
Corr (X , Y ) =
Cov (X , Y )
∈ [−1; 1].
σX · σY
=⇒ Die Korrelation ist auf dem Intervall [−1, +1] standardisiert
und kann deshalb viel leichter interpretiert werden.
6 / 33
Abhängigkeit bei metrischen Variablen
Interpretation der Korrelation:
Eine hohe positive (negative) Korrelation bedeutet, dass
tendenziell ein überdurchschnittlich hoher Wert von X mit einem
überdurchschnittlich hohen (niedrigen) Wert von Y einhergeht.
Richtlinien für die Stärke der Korrelation
Corr (X , Y ) ≈ 0: vernachlässigbare lineare Abhängigkeit
zwischen X und Y .
0.3 < |Corr (X , Y )| < 0.7: schwacher linearer Zusammenhang
zwischen X und Y .
|Corr (X , Y )| > 0.7: starker linearer Zusammenhang zwischen
X und Y .
7 / 33
Abhängigkeit bei metrischen Variablen
Zusammenhang zwischen Abhängigkeit und Korrelation:
Es gilt:
X und Y unabhängig
⇒
X und Y unkorreliert.
⇒
X und Y unabhängig.
Achtung:
X und Y unkorreliert
gilt im Allgemeinen aber NICHT!
Merke:
Die Korrelation misst nur die lineare Abhängigkeit. Es gibt
auch andere Arten von Abhängigkeiten zwischen Variablen,
z.B. quadratische oder logarithmische.
Gilt |Corr (X , Y ) = 1|, spricht man auch von einem perfekten
postiven (negativen) Zusammenhang. In der Praxis kommt ein
solcher Koeffizient aber eigentlich nicht vor.
8 / 33
Abhängigkeit bei metrischen Variablen
Normalverteilte Stichproben
Um nun konkrete statistische Aussagen über die Stärke des
Zusammenhangs zweier Variablen zu machen, berechnet man aus
der vorliegenden Stichproben den empirischen
Korrelationskoeffizienten nach Pearson:
P
P
P
d (X , Y )
( n1 ni=1 Xi Yi ) − ( n1 ni=1 Xi )( n1 ni=1 Yi )
Cov
= q P
ρ :=
P
σ̂X σ̂Y
( n1 ni=1 (Xi − X̄ )2 )( n1 ni=1 (Yi − Ȳ )2 )
Interpretation von ρ
Wenn der Wert der einen Variablen, z.B. von X um eine Einheit
ansteigt, dann verändert sich der Wert der anderen Variablen, also
Y , um ρ Einheiten. Je nach dem Vorzeichen geht der Wert von Y
um ρ Einheiten nach oben oder nach unten.
9 / 33
Abhängigkeit bei metrischen Variablen
Normalverteilte Stichproben
Um festzustellen, ob der Zusammenhang zwischen zwei Variablen
X und Y nicht nur zufällig sondern systematisch ist, kann man
einen Signifikanztest durchführen.
Voraussetzungen
Gegeben sind zwei metrisch-skalierte Stichproben X1 , . . . , Xn und
Y1 , . . . , Yn , die durch die Bildung von Paaren (Xi , Yi ), i = 1, . . . , n
erhoben wurden.
Die beiden Stichproben sind außerdem normalverteilt, d.h.
X1 , . . . , Xn ∼ N(µX , σ 2 ) und Y1 , . . . , Yn ∼ N(µY , σ 2 ).
=⇒ Es reicht bei diesem Test also nicht aus, dass intervallskalierte
Daten vorliegen, sondern die Daten müssen zusätzlich auch
noch beide normalverteilt sein!
10 / 33
Abhängigkeit bei metrischen Variablen
Normalverteilte Stichproben
Die zugehörige Nullhypothese für diesen Test lautet
H0 : ρ = 0,
d.h. es wird überprüft, ob überhaupt ein Zusammenhang zwischen
X und Y vorliegt. Die zugehörige Teststatistik
T := p
ρ
1 − ρ2
√
n−2
ist unter H0 t-verteilt mit (n − 2) Freiheitsgraden. Wird H0 nun
verworfen, kann man anhand des Vorzeichens von ρ erkennen, in
welche Richtung der Zusammenhang geht.
11 / 33
Abhängigkeit bei metrischen Variablen
Normalverteilte Stichproben
Pearson’scher Korrelationskoeffizient in SPSS
→ Analysieren
→ Korrelation
→ Bivariat
→ Wähle die gewünschten Variablen aus und klicke im Feld
Korrelationskoeffizienten den Koeffizienten nach Pearson an.
12 / 33
Abhängigkeit bei metrischen Variablen
Nicht normalverteilte Stichproben
Voraussetzungen
Für zwei metrische Zufallsvariablen X und Y liegt eine
unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom Umfang n vor.
Im Fall nicht normalverteilter Daten, kann ebenfalls ein
Korrelationskoeffizient berechnet werden, der sogenannte
Spearman Rangkorrelationskoeffizient.
Vorgehen zur Berechnung:
Ordne die X1 , . . . , Xn und die Y1 , . . . , Yn jeweils der Größe
nach an.
Jeder Messwert Xi und Yi erhält einen Rang rX ,i und rY ,i .
Berechne den Spearman’schen Rangkorrelationskoeffizienten:
P
6 ni=1 (rX ,i − rY ,i )2
∈ [−1; 1].
rS :=
n(n2 − 1)
13 / 33
Abhängigkeit bei metrischen Variablen
Nicht normalverteilte Stichproben
Wie beim Korrelationkoeffizienten nach Pearson wird auch hier die
Nullhypothese
H0 : rS = 0
getestet, also ob die beiden Variablen signifikant zusammenhängen
– in welche Richtung auch immer.
Die Teststatistik
T := q
rS
1 − rS2
√
n−2
ist dann für n > 30 approximativ t-verteilt mit (n − 2)
Freiheitsgraden. Für n ≤ 30 berechnet SPSS den p-Wert basierend
auf Tafelwerken.
14 / 33
Abhängigkeit bei metrischen Variablen
Nicht normalverteilte Stichproben
Spearman’scher Korrelationskoeffizient in SPSS
→ Analysieren
→ Korrelation
→ Bivariat
→ Wähle die gewünschten Variablen aus und klicke im Feld
Korrelationskoeffizienten den Koeffizienten nach Spearman an.
15 / 33
Abhängigkeit bei metrischen Variablen
Aufgaben zur Vertiefung I
Aufgabe zum Datensatz Kino.sav
Gibt es einen Zusammenhang zwischen dem Alter und der Anzahl
der Kinobesuche?
Stelle die Daten grafisch dar, berechne ein geeignetes
Zusammenhangsmaß und führe dazu einen Signifikanztest durch.
Aufgabe zum Datensatz Fussball.sav
Wie hoch ist die Korrelation zwischen den Punkten am Saisonende
und dem Etat des jeweiligen Vereins?
Überprüfe die Signifikanz mit dem korrekten Testverfahren und
versuche die Daten grafisch zu veranschaulichen.
16 / 33
Abhängigkeit bei metrischen Variablen
Aufgaben zur Vertiefung II
Aufgabe zum Datensatz Arbeitsbeschaffung.sav
Der Datensatz enthält das Bruttoeinkommen von Erwerbslosen vor
und während einer Arbeitsbeschaffungsmaßnahme. Wie hoch ist
die Korrelation zwischen den beiden Einkommen?
Überprüfe die Signifikanz mit dem korrekten Testverfahren und
versuche die Daten grafisch zu veranschaulichen.
Aufgabe zum Datensatz Pisa.sav
Zwischen welchen der drei Leistungsparameter (Lesen, Mathe,
Naturwissenschaften) gibt es den stärksten linearen
Zusammenhang?
17 / 33
Abhängigkeit bei kategorialen Variablen
Voraussetzungen
Für zwei Zufallsvariablen X und Y mit nominalskalierten Werten
liegt eine unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom
Umfang n vor.
Für Variablen vom diskreten Typ macht die Erstellung eines
Scatterplot natürlich wenig Sinn. Allerdings gibt es auch in diesem
Fall die Möglichkeit der grafischen Veranschaulichung der Daten,
beispielsweise mittels 3D-Balken.
Dabei wird für jede mögliche Merkmalskombination von X und Y
die Häufigkeit in ein dreidimensionales Histogramm gezeichnet.
18 / 33
Abhängigkeit bei kategorialen Variablen
Beispiel: 3D-Histogramm für zwei nominalsaklierte Variablen
19 / 33
Abhängigkeit bei kategorialen Variablen
3D-Histogramm in SPSS
→ Diagramme
→ Veraltete Diaglogfelder
→ 3D-Balken
→ Klicke sowohl für die X-Achse als auch für die Y-Achse die
Auswahl Fallgruppen an und gehe auf das Feld Definieren
→ Wähle die beiden gewünschten Variablen in die Felder
Kategorieachse X und Kategorieachse Z
20 / 33
Abhängigkeit bei kategorialen Variablen
Die nominalskalierten Variablen X und Y mit einem statistischen
Verfahren auf ihren Zusammenhang zu testen kann man mit dem
χ2 -Unabhängigkeitstest.
Die zu untersuchende Nullhypothese lautet:
H0 :
X und Y sind voneinander unabhängig
Das Vorgehens des χ2 -Tests kann man sich mit Hilfe von
Kontingenztafeln deutlich machen. Das Resultat jeder Sichprobe
mit paarweisen Beobachtungen (Xi , Yi ) lässt sich mit einer
Kontingenztafel darstellen.
21 / 33
Abhängigkeit bei kategorialen Variablen
Beispiel einer Kontingenztafel
X := Familienstand mit den Ausprägungen
X ∈ {ledig, geschieden, verheiratet}
Y := Schulbildung mit den Ausprägungen
Y ∈ {Gymnasium, Realschule, Hauptschule}
ledig
geschieden
verheiratet
Gesamt
Gymnasium
15
12
22
49
Realschule
14
26
18
58
Hauptschule
9
28
73
110
Gesamt
38
66
113
217
22 / 33
Abhängigkeit bei kategorialen Variablen
Grafische Veranschaulichung
Ein Balkendiagramm, dass für jede Ausprägung der einer Variable
die prozentuale Verteilung der anderen Variablen darstellt,
verdeutlicht ebenso die Vorgehensweise des χ2 -Tests:
Auge
blau
braun
nuss
gruen
100,0%
80,0%
60,0%
40,0%
20,0%
0,0%
rot
braun
blond
schwarz
23 / 33
Abhängigkeit bei kategorialen Variablen
Grafische Veranschaulichung
Balkendiagramm mit SPSS
→ Diagramme
→ Diagrammerstellung...
→ Wähle im Feld Galerie eines der beiden ”gruppierten
Balkendiagrammsymbole”mit einem Doppelklick aus.
→ Ziehe die Variable Haar in das Feld X-Achse? und die Variable
Auge in das Feld Clustervariable...
→ Aktiviere das Fenster Elementeigenschaften. Ändere im Feld
Statistiken unter Statistik die Auswahl von Anzahl zu
Prozentsatz ()
→ Klicke auf das Feld Parameter festlegen... und wähle im neu
erscheinenden Dialogfeld Gesamt für jede X-Achsen-Kategorie
aus und gehe auf Weiter
→ Gehe auf Zuweisen und danach im Fenster
Diagrammerstellung auf OK
24 / 33
Abhängigkeit bei kategorialen Variablen
Grundlegender Gedanke
Vorgehen beim χ2 -Test
Ausgehend von den vorliegenden Daten berechnet man beim
χ2 -Test die erwarteten Häufigkeiten jeder
Faktorstufenkombination unter der Annahme, dass X und Y
unabhängig sind. Diese erwarteten Häufigkeiten werden dann mit
den tatsächlichen Häufigkeiten vergleichen. Trifft H0 zu, sollte
die Differenz der beiden Werte nahe bei Null liegen.
Die zugehörige Teststatistik X 2 ist etwas komplizierter –
vereinfacht gesprochen werden die quadrierten Differenzen für jede
Faktorstufenkombination aufsummiert:
n n 2
J
I X
X
nij − •jn i •
2
.
X :=
n•j ni •
i =1 j=1
n
Wird diese Gesamtsumme zu groß wird die Nullhypothese
verworfen.
25 / 33
Abhängigkeit bei kategorialen Variablen
Der χ2 -Unabhängigkeitstest in SPSS
→ Analysieren
→ Deskriptive Statistiken
→ Kreuztabellen
→ Ziehe eine der gewünschen Variablen in das Feld Zeilen, die
andere in das Feld Spalten
→ Klicke das Feld Statistik an und wähle Chi-Quadrat aus
→ Klicke das Feld Zellen und klicke im Feld Häufigkeiten die
Option Erwartet an, um sich zusätzlich noch die erwarteten
Häufigkeiten angeben zu lassen
26 / 33
Abhängigkeit bei kategorialen Variablen
Der χ2 -Unabhängigkeitstest ist ein approximatives Testverfahren –
die zugehörige Teststatistik TP ist nur approximativ χ2 -verteilt mit
(I − 1)(J − 1) Freiheitsgraden. Das gleiche Problem tritt
beispielsweise beim Mann-Whitney-U-Test auf.
Damit die Approximation von ausreichender Güte ist, sollte die
folgende Faustregel erfüllt sein:
Faustregel für den χ2 -Test (Regel von Cochran)
Die erwartete Häufigkeit sollte in jeder Zelle mindestens den Wert
1 betragen und für 80% der Zellen sollte die erwartete Häufigkeit
mindestens den Wert 5 betragen.
Ist die Regel verletzt, gibt es zwei Möglichkeiten:
(i) Weglassen von dünn“ besetzten Kategorien oder
”
(ii) Zusammenfassen von (fachlich ähnlichen) Kategorien.
27 / 33
Abhängigkeit bei kategorialen Variablen
Ein wichtiger Spezialfall tritt auf, wenn die Variablen X und Y
beide binär sind, d.h. jeweils nur zwei mögliche Ausprägungen
besitzen. In diesem Fall spricht man bei der Kontingenztafel auch
von einer Vierfeldertafel.
Dieser Fall ist unter anderem deshalb so wichtig, weil es für ihn ein
spezielles Auswertungsverfahren gibt, dass auf Kontingeztafeln
höherer Ordnung nicht anwendbar ist (siehe weiter unten).
Allgemeines Schema einer Vierfeldertafel:
X /Y
1
2
1
n11
n21
n•1
2
n12
n22
n•2
n1•
n2•
n
28 / 33
Abhängigkeit bei kategorialen Variablen
Für den Fall zweier binärer Variablen X und Y kann man auf die
approximativen Testverfahren verzichten, denn hierfür ist sogar ein
exakter Test möglich, nämlich Fishers exakter Test auf
Unabhängigkeit
Die obigen Faustregeln für eine ausreichende Güte des Tests sind in
diesem Fall also nicht zu beachten – die Zellenbesetzung in einer
Vierfeldertafel kann demzufolge auch sehr dünn sein.
Die Nullhypothese H0 ist hier die gleiche wie beim χ2 -Test, die
Teststatistik ist in diesem Fall sehr einfach definiert durch
TF := n11
also genau der Wert in der linken oberen Zelle.
Die Teststatistik TF ist unter H0 hypergeometrisch verteilt gemäß
H(n, n1· , n·1 ).
29 / 33
Abhängigkeit bei kategorialen Variablen
Fishers exakter Test in SPSS
→ Führe den χ2 -Unabhängigkeitstest durch wie auf Folie 26
beschrieben.
→ Im Fall einer Vierfeldertafel wird in der SPSS-Ausgabe
automatisch zusätzlich zum bekannten Output noch das
Ergebnis des exakten Test nach Fisher angegeben.
30 / 33
Abhängigkeit bei kategorialen Variablen
Aufgaben zur Vertiefung I
Aufabe zum Datensatz Titanic.sav
Der Datensatz enthält Informationen über die
Klassenzugehörigkeit, das Geschlecht und das Alter aller Passagiere
der Titanic.
(i) Gibt es einen Zusammenhang zwischen dem Überleben des
Schiffsuntergangs und der Klasse?
(ii) Gibt es einen Zusammenhang zwischen Überleben und
Geschlecht?
(iii) Gibt es einen Zusammenhang zwischen Überleben und dem
Alter? Erstellen Sie hierfür eine neue Variable mit zwei
Kategorien: Passagiere unter 18 Jahre und Passagiere über 18
Jahre.
31 / 33
Abhängigkeit bei kategorialen Variablen
Aufgaben zur Vertiefung II
Aufabe zum Datensatz Suizid.sav
Der Datensatz enthält Informationen über die Todesart von
Personen, die einen Suizid begangen haben. Gibt es einen
Zusammenhang zwischen der die Todesart des Selbstmords und
dem Geschlecht?
Aufabe zum Datensatz Interesse.sav
Das Ergebnis einer Umfrage nach den Interesse an Fußball ist im
Datensatz Interesse.sav dokumentiert. Gibt es einen
Zusammenhang zwischen dem Interesse an Fußball und dem
Geschlecht der befragten Personen?
32 / 33
Abhängigkeit bei kategorialen Variablen
Aufgaben zur Vertiefung III
Aufabe zum Datensatz Kopfschmerzen.sav
Ein neues Medikament (Medikament1) gegen Kopfschmerzen wird
gegen ein bereits auf dem Markt zugelassenes Medikament
(Medikament2) getestet. Von allen Teilnehmern wird außerdem
aufgezeichnet, ob sich ihre Kopfschmerzen durch das Medikament
verbessert haben (Behandlungserfolg). Untersuche die
Fragestellung ob das neue Medikament besser wirkt, als das bereits
zugelassene.
Aufabe zum Datensatz Kino.sav
Öffne den Datensatz kino.sav und definiere die Variable
alter codiert nach dem Schema
alter ≤ 37 → jung“
”
alter > 37 → alt“.
”
Gibt es einen Zusammenhang zwischen gender und
alter codiert?
33 / 33

Documents pareils