Abhängigkeit zweier Merkmale

Transcription

Abhängigkeit zweier Merkmale
Johannes Hain
Lehrstuhl für Mathematik VIII – Statistik
1 / 33
Allgemeine Situation
Neben der Untersuchung auf Unterschiede zwischen zwei oder
mehreren Untersuchungsgruppen hinsichtlich eines bestimmten
Merkmals, kann unter Umständen das Gegenteil von Interesse sein
– nämlich die Frage, ob ein bestimmter Zusammenhang zwischen
zwei Merkmalen besteht.
Die Frage nach dem Zusammenhang lässt sich aus statistischer
Sicht wieder sowohl explorativ, als auch mit Hilfe von
Signifikanztests untersuchen. Dabei unterschiedet man im
Wesentlichen die folgenden Fälle:
(i) Die Daten sind metrisch:
Normalverteilte Stichproben
Nicht normalverteilte Stichproben
(ii) Die Daten sind kategorial
2 / 33
Abhängigkeit bei metrischen Variablen
Voraussetzungen
Für zwei Zufallsvariablen X und Y vom stetigen Typ, d.h. entweder
intervall- oder sogar verhältnisskalierte Variablen, liegt eine
unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom Umfang n vor.
Die Abhängigkeitsstruktur von X und Y kann man mit einem
Scatterplot grafisch untersuchen. Hierbei werden die beiden
Variablen X und Y gegeneinander in einem Diagramm eingetragen.
Je nach dem wie stark der Zusammenhang zwischen den beiden
Variablen ist, kann man mit einem Scatterplot schon eine Struktur
in den Daten erkennen.
3 / 33
Beispiel: Scatterplot der Ehepaar-Daten, X = Alter des Mannes,
Y = Alter der Frau.
4 / 33
Erstellung eines Scatterplots in SPSS
→ Diagramme
→ Veraltete Dialogfelder
→ Streu-/Punkt-Diagramm
→ Definiere ein Einfaches Streudiagramm und wähle die beiden
gewünschten Variablen in die X-Achse und die Y-Achse.
5 / 33
Eng mit dem Begriff der Abhängigkeit verwandt ist in der Statistik
die Korrelation zwischen zwei Variablen. Mit der Korrelation lässt
sich der Zusammenhang quantifizieren und somit auch statistisch
genauer untersuchen.
Die Korrelation zwischen X und Y ist dann wie folgt definiert:
Corr (X , Y ) =
Cov (X , Y )
∈ [−1; 1].
σX · σY
=⇒ Die Korrelation ist auf dem Intervall [−1, +1] standardisiert
und kann deshalb viel leichter interpretiert werden.
6 / 33
Interpretation der Korrelation:
Eine hohe positive (negative) Korrelation bedeutet, dass
tendenziell ein überdurchschnittlich hoher Wert von X mit einem
überdurchschnittlich hohen (niedrigen) Wert von Y einhergeht.
Richtlinien für die Stärke der Korrelation
Corr (X , Y ) ≈ 0: vernachlässigbare lineare Abhängigkeit
zwischen X und Y .
0.3 < |Corr (X , Y )| < 0.7: schwacher linearer Zusammenhang
zwischen X und Y .
|Corr (X , Y )| > 0.7: starker linearer Zusammenhang zwischen
X und Y .
7 / 33
Zusammenhang zwischen Abhängigkeit und Korrelation:
Es gilt:
X und Y unabhängig
⇒
X und Y unkorreliert.
⇒
X und Y unabhängig.
Achtung:
X und Y unkorreliert
gilt im Allgemeinen aber NICHT!
Merke:
Die Korrelation misst nur die lineare Abhängigkeit. Es gibt
auch andere Arten von Abhängigkeiten zwischen Variablen,
z.B. quadratische oder logarithmische.
Gilt |Corr (X , Y ) = 1|, spricht man auch von einem perfekten
postiven (negativen) Zusammenhang. In der Praxis kommt ein
solcher Koeffizient aber eigentlich nicht vor.
8 / 33
Um nun konkrete statistische Aussagen über die Stärke des
Zusammenhangs zweier Variablen zu machen, berechnet man aus
der vorliegenden Stichproben den empirischen
Korrelationskoeffizienten nach Pearson:
P
P
P
d (X , Y )
( n1 ni=1 Xi Yi ) − ( n1 ni=1 Xi )( n1 ni=1 Yi )
Cov
= q P
ρ :=
P
σ̂X σ̂Y
( n1 ni=1 (Xi − X̄ )2 )( n1 ni=1 (Yi − Ȳ )2 )
Interpretation von ρ
Wenn der Wert der einen Variablen, z.B. von X um eine Einheit
ansteigt, dann verändert sich der Wert der anderen Variablen, also
Y , um ρ Einheiten. Je nach dem Vorzeichen geht der Wert von Y
um ρ Einheiten nach oben oder nach unten.
9 / 33
Um festzustellen, ob der Zusammenhang zwischen zwei Variablen
X und Y nicht nur zufällig sondern systematisch ist, kann man
einen Signifikanztest durchführen.
Voraussetzungen
Gegeben sind zwei metrisch-skalierte Stichproben X1 , . . . , Xn und
Y1 , . . . , Yn , die durch die Bildung von Paaren (Xi , Yi ), i = 1, . . . , n
erhoben wurden.
Die beiden Stichproben sind außerdem normalverteilt, d.h.
X1 , . . . , Xn ∼ N(µX , σ 2 ) und Y1 , . . . , Yn ∼ N(µY , σ 2 ).
=⇒ Es reicht bei diesem Test also nicht aus, dass intervallskalierte
Daten vorliegen, sondern die Daten müssen zusätzlich auch
noch beide normalverteilt sein!
10 / 33
Die zugehörige Nullhypothese für diesen Test lautet
H0 : ρ = 0,
d.h. es wird überprüft, ob überhaupt ein Zusammenhang zwischen
X und Y vorliegt. Die zugehörige Teststatistik
T := p
ρ
1 − ρ2
√
n−2
ist unter H0 t-verteilt mit (n − 2) Freiheitsgraden. Wird H0 nun
verworfen, kann man anhand des Vorzeichens von ρ erkennen, in
welche Richtung der Zusammenhang geht.
11 / 33
Pearson’scher Korrelationskoeffizient in SPSS
→ Analysieren
→ Korrelation
→ Bivariat
→ Wähle die gewünschten Variablen aus und klicke im Feld
Korrelationskoeffizienten den Koeffizienten nach Pearson an.
12 / 33
Voraussetzungen
Für zwei metrische Zufallsvariablen X und Y liegt eine
unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom Umfang n vor.
Im Fall nicht normalverteilter Daten, kann ebenfalls ein
Korrelationskoeffizient berechnet werden, der sogenannte
Spearman Rangkorrelationskoeffizient.
Vorgehen zur Berechnung:
Ordne die X1 , . . . , Xn und die Y1 , . . . , Yn jeweils der Größe
nach an.
Jeder Messwert Xi und Yi erhält einen Rang rX ,i und rY ,i .
Berechne den Spearman’schen Rangkorrelationskoeffizienten:
P
6 ni=1 (rX ,i − rY ,i )2
∈ [−1; 1].
rS :=
n(n2 − 1)
13 / 33
Wie beim Korrelationkoeffizienten nach Pearson wird auch hier die
Nullhypothese
H0 : rS = 0
getestet, also ob die beiden Variablen signifikant zusammenhängen
– in welche Richtung auch immer.
Die Teststatistik
T := q
rS
1 − rS2
√
n−2
ist dann für n > 30 approximativ t-verteilt mit (n − 2)
Freiheitsgraden. Für n ≤ 30 berechnet SPSS den p-Wert basierend
auf Tafelwerken.
14 / 33
Spearman’scher Korrelationskoeffizient in SPSS
→ Analysieren
→ Korrelation
→ Bivariat
→ Wähle die gewünschten Variablen aus und klicke im Feld
Korrelationskoeffizienten den Koeffizienten nach Spearman an.
15 / 33
Aufgaben zur Vertiefung I
Aufgabe zum Datensatz Kino.sav
Gibt es einen Zusammenhang zwischen dem Alter und der Anzahl
der Kinobesuche?
Stelle die Daten grafisch dar, berechne ein geeignetes
Zusammenhangsmaß und führe dazu einen Signifikanztest durch.
Aufgabe zum Datensatz Fussball.sav
Wie hoch ist die Korrelation zwischen den Punkten am Saisonende
und dem Etat des jeweiligen Vereins?
Überprüfe die Signifikanz mit dem korrekten Testverfahren und
versuche die Daten grafisch zu veranschaulichen.
16 / 33
Aufgaben zur Vertiefung II
Aufgabe zum Datensatz Arbeitsbeschaffung.sav
Der Datensatz enthält das Bruttoeinkommen von Erwerbslosen vor
und während einer Arbeitsbeschaffungsmaßnahme. Wie hoch ist
die Korrelation zwischen den beiden Einkommen?
Überprüfe die Signifikanz mit dem korrekten Testverfahren und
versuche die Daten grafisch zu veranschaulichen.
Aufgabe zum Datensatz Pisa.sav
Zwischen welchen der drei Leistungsparameter (Lesen, Mathe,
Naturwissenschaften) gibt es den stärksten linearen
Zusammenhang?
17 / 33
Abhängigkeit bei kategorialen Variablen
Voraussetzungen
Für zwei Zufallsvariablen X und Y mit nominalskalierten Werten
liegt eine unabhängige Stichprobe (X1 , Y1 ), . . . , (Xn , Yn ) vom
Umfang n vor.
Für Variablen vom diskreten Typ macht die Erstellung eines
Scatterplot natürlich wenig Sinn. Allerdings gibt es auch in diesem
Fall die Möglichkeit der grafischen Veranschaulichung der Daten,
beispielsweise mittels 3D-Balken.
Dabei wird für jede mögliche Merkmalskombination von X und Y
die Häufigkeit in ein dreidimensionales Histogramm gezeichnet.
18 / 33
Beispiel: 3D-Histogramm für zwei nominalsaklierte Variablen
19 / 33
3D-Histogramm in SPSS
→ Diagramme
→ Veraltete Diaglogfelder
→ 3D-Balken
→ Klicke sowohl für die X-Achse als auch für die Y-Achse die
Auswahl Fallgruppen an und gehe auf das Feld Definieren
→ Wähle die beiden gewünschten Variablen in die Felder
Kategorieachse X und Kategorieachse Z
20 / 33
Die nominalskalierten Variablen X und Y mit einem statistischen
Verfahren auf ihren Zusammenhang zu testen kann man mit dem
χ2 -Unabhängigkeitstest.
Die zu untersuchende Nullhypothese lautet:
H0 :
X und Y sind voneinander unabhängig
Das Vorgehens des χ2 -Tests kann man sich mit Hilfe von
Kontingenztafeln deutlich machen. Das Resultat jeder Sichprobe
mit paarweisen Beobachtungen (Xi , Yi ) lässt sich mit einer
Kontingenztafel darstellen.
21 / 33
Beispiel einer Kontingenztafel
X := Familienstand mit den Ausprägungen
X ∈ {ledig, geschieden, verheiratet}
Y := Schulbildung mit den Ausprägungen
Y ∈ {Gymnasium, Realschule, Hauptschule}
ledig
geschieden
verheiratet
Gesamt
Gymnasium
15
12
22
49
Realschule
14
26
18
58
Hauptschule
9
28
73
110
Gesamt
38
66
113
217
22 / 33
Grafische Veranschaulichung
Ein Balkendiagramm, dass für jede Ausprägung der einer Variable
die prozentuale Verteilung der anderen Variablen darstellt,
verdeutlicht ebenso die Vorgehensweise des χ2 -Tests:
Auge
blau
braun
nuss
gruen
100,0%
80,0%
60,0%
40,0%
20,0%
0,0%
rot
braun
blond
schwarz
23 / 33
Grafische Veranschaulichung
Balkendiagramm mit SPSS
→ Diagramme
→ Diagrammerstellung...
→ Wähle im Feld Galerie eines der beiden ”gruppierten
Balkendiagrammsymbole”mit einem Doppelklick aus.
→ Ziehe die Variable Haar in das Feld X-Achse? und die Variable
Auge in das Feld Clustervariable...
→ Aktiviere das Fenster Elementeigenschaften. Ändere im Feld
Statistiken unter Statistik die Auswahl von Anzahl zu
Prozentsatz ()
→ Klicke auf das Feld Parameter festlegen... und wähle im neu
erscheinenden Dialogfeld Gesamt für jede X-Achsen-Kategorie
aus und gehe auf Weiter
→ Gehe auf Zuweisen und danach im Fenster
Diagrammerstellung auf OK
24 / 33
Grundlegender Gedanke
Vorgehen beim χ2 -Test
Ausgehend von den vorliegenden Daten berechnet man beim
χ2 -Test die erwarteten Häufigkeiten jeder
Faktorstufenkombination unter der Annahme, dass X und Y
unabhängig sind. Diese erwarteten Häufigkeiten werden dann mit
den tatsächlichen Häufigkeiten vergleichen. Trifft H0 zu, sollte
die Differenz der beiden Werte nahe bei Null liegen.
Die zugehörige Teststatistik X 2 ist etwas komplizierter –
vereinfacht gesprochen werden die quadrierten Differenzen für jede
Faktorstufenkombination aufsummiert:
n n 2
J
I X
X
nij − •jn i •
2
.
X :=
n•j ni •
i =1 j=1
n
Wird diese Gesamtsumme zu groß wird die Nullhypothese
verworfen.
25 / 33
Der χ2 -Unabhängigkeitstest in SPSS
→ Analysieren
→ Deskriptive Statistiken
→ Kreuztabellen
→ Ziehe eine der gewünschen Variablen in das Feld Zeilen, die
andere in das Feld Spalten
→ Klicke das Feld Statistik an und wähle Chi-Quadrat aus
→ Klicke das Feld Zellen und klicke im Feld Häufigkeiten die
Option Erwartet an, um sich zusätzlich noch die erwarteten
Häufigkeiten angeben zu lassen
26 / 33
Der χ2 -Unabhängigkeitstest ist ein approximatives Testverfahren –
die zugehörige Teststatistik TP ist nur approximativ χ2 -verteilt mit
(I − 1)(J − 1) Freiheitsgraden. Das gleiche Problem tritt
beispielsweise beim Mann-Whitney-U-Test auf.
Damit die Approximation von ausreichender Güte ist, sollte die
folgende Faustregel erfüllt sein:
Faustregel für den χ2 -Test (Regel von Cochran)
Die erwartete Häufigkeit sollte in jeder Zelle mindestens den Wert
1 betragen und für 80% der Zellen sollte die erwartete Häufigkeit
mindestens den Wert 5 betragen.
Ist die Regel verletzt, gibt es zwei Möglichkeiten:
(i) Weglassen von dünn“ besetzten Kategorien oder
”
(ii) Zusammenfassen von (fachlich ähnlichen) Kategorien.
27 / 33
Ein wichtiger Spezialfall tritt auf, wenn die Variablen X und Y
beide binär sind, d.h. jeweils nur zwei mögliche Ausprägungen
besitzen. In diesem Fall spricht man bei der Kontingenztafel auch
von einer Vierfeldertafel.
Dieser Fall ist unter anderem deshalb so wichtig, weil es für ihn ein
spezielles Auswertungsverfahren gibt, dass auf Kontingeztafeln
höherer Ordnung nicht anwendbar ist (siehe weiter unten).
Allgemeines Schema einer Vierfeldertafel:
X /Y
1
2
1
n11
n21
n•1
2
n12
n22
n•2
n1•
n2•
n
28 / 33
Für den Fall zweier binärer Variablen X und Y kann man auf die
approximativen Testverfahren verzichten, denn hierfür ist sogar ein
exakter Test möglich, nämlich Fishers exakter Test auf
Unabhängigkeit
Die obigen Faustregeln für eine ausreichende Güte des Tests sind in
diesem Fall also nicht zu beachten – die Zellenbesetzung in einer
Vierfeldertafel kann demzufolge auch sehr dünn sein.
Die Nullhypothese H0 ist hier die gleiche wie beim χ2 -Test, die
Teststatistik ist in diesem Fall sehr einfach definiert durch
TF := n11
also genau der Wert in der linken oberen Zelle.
Die Teststatistik TF ist unter H0 hypergeometrisch verteilt gemäß
H(n, n1· , n·1 ).
29 / 33
Fishers exakter Test in SPSS
→ Führe den χ2 -Unabhängigkeitstest durch wie auf Folie 26
beschrieben.
→ Im Fall einer Vierfeldertafel wird in der SPSS-Ausgabe
automatisch zusätzlich zum bekannten Output noch das
Ergebnis des exakten Test nach Fisher angegeben.
30 / 33
Aufgaben zur Vertiefung I
Aufabe zum Datensatz Titanic.sav
Der Datensatz enthält Informationen über die
Klassenzugehörigkeit, das Geschlecht und das Alter aller Passagiere
der Titanic.
(i) Gibt es einen Zusammenhang zwischen dem Überleben des
Schiffsuntergangs und der Klasse?
(ii) Gibt es einen Zusammenhang zwischen Überleben und
Geschlecht?
(iii) Gibt es einen Zusammenhang zwischen Überleben und dem
Alter? Erstellen Sie hierfür eine neue Variable mit zwei
Kategorien: Passagiere unter 18 Jahre und Passagiere über 18
Jahre.
31 / 33
Aufgaben zur Vertiefung II
Aufabe zum Datensatz Suizid.sav
Der Datensatz enthält Informationen über die Todesart von
Personen, die einen Suizid begangen haben. Gibt es einen
Zusammenhang zwischen der die Todesart des Selbstmords und
dem Geschlecht?
Aufabe zum Datensatz Interesse.sav
Das Ergebnis einer Umfrage nach den Interesse an Fußball ist im
Datensatz Interesse.sav dokumentiert. Gibt es einen
Zusammenhang zwischen dem Interesse an Fußball und dem
Geschlecht der befragten Personen?
32 / 33
Aufgaben zur Vertiefung III
Aufabe zum Datensatz Kopfschmerzen.sav
Ein neues Medikament (Medikament1) gegen Kopfschmerzen wird
gegen ein bereits auf dem Markt zugelassenes Medikament
(Medikament2) getestet. Von allen Teilnehmern wird außerdem
aufgezeichnet, ob sich ihre Kopfschmerzen durch das Medikament
verbessert haben (Behandlungserfolg). Untersuche die
Fragestellung ob das neue Medikament besser wirkt, als das bereits
zugelassene.
Aufabe zum Datensatz Kino.sav
Öffne den Datensatz kino.sav und definiere die Variable
alter codiert nach dem Schema
alter ≤ 37 → jung“
”
alter > 37 → alt“.
”
Gibt es einen Zusammenhang zwischen gender und
alter codiert?
33 / 33

Abhängigkeit zweier Merkmale

Transcription

Documents pareils

Blatt 10

Probe-Klausur zur Theorie gewöhnlicher Differentialgleichungen

Leitfaden zur Anonymisierung der Einkommens

Lösung - Freie Universität Berlin

Der Graphiktaschenrechner Casio CFX

Lösung Aufgabe 1 (a) stetig, metrisch/kardinalskaliert

Hauptkomponentenanalyse

Logit-“ und ” Probit“-Modelle

Seite 1 von 2 Wissenschaftliche Rechner - FX-82ES