Die binäre Logistische Regression è ein vielseitiges und robustes

Transcription

Die binäre Logistische Regression è ein vielseitiges und robustes
Die binäre Logistische Regression –
ein vielseitiges und robustes
Analyseinstrument
sozialwissenschaftlicher Forschung
Eine Einführung für Anwender
- Marcel Erlinghagen -
Gelsenkirchen, Oktober 2003
Gliederung
1
2
3
4
5
6
7
8
Was heißt „Regression“?
Das Regressionsprinzip am Beispiel der „linearen
Einfachregression“
Warum logistische Regression?
Datenvoraussetzungen und Datenvorbereitung
für die logistische Regression
Interpretation der Regressionsergebnisse
Die Regressionsanalyse als iteratives Verfahren
„Odd Ratios“ – eine weitere Darstellungsform
der Schätzergebnisse
Ausblick
1
1
Was heißt „Regression“?
Ziel von Wissenschaft:
Klärung von Zusammenhängen
unterschiedlichen Sachverhalten
zwischen
2
Es gibt zwei Arten von Zusammenhängen:
a) exakte Zusammenhänge (bspw. „Naturgesetze“)
mathematisch darstellbar als Funktionsgleichung;
bspw.: y = f(x)
b) zufallsabhängige („stochastische“) Zusammenhänge
mathematisch darstellbar als Regressionsgleichung;
bspw.: y = bx + a
„Regression“ (engl. regression = Zurückentwicklung,
Rückbildung) Inwiefern lässt sich die Ausprägung
einer abhängigen Variable auf die Ausprägung einer
unabhängigen Variable zurückführen („regressieren“)?
2
Das Regressionsprinzip am
Beispiel der
„linearen Einfachregression“
3
Beispiel 1
Wie hängt das Einkommen einer Personen mit der
Dauer des Schulbesuches zusammen?
1. Schritt: Modellbildung
„Das Einkommen einer Person steigt proportional zur
Schulbesuchsdauer“ (linearer Zusammenhang)
oder auch
geschätzte Einkommenshöhe = unbekannter Faktor
multipliziert mit der Schulbesuchsdauer zuzüglich einer
unbekannten Störgröße
oder auch
y = bx + a
2. Schritt: Beobachtungsdaten gewinnen
Person
Herr Müller
Frau Meier
Herr Schulz
Herr Schmidt
Frau Mustermann
Herr Kleinknecht
Frau Dorfner
Herr Beier
Herr Dudenhofen
Schuljahre
8
10
13
9
10
15
13
8
10
Einkommen
1400
2100
2100
1800
1900
2000
2200
1600
1600
4
3. Schritt: Regressionsparameter schätzen
Unter der Modellvoraussetzung y = bx + a
Wie groß ist a und b?
“Es gilt eine Gleichung zu finden, mit deren Hilfe die Werte der
abhängigen Variablen [...] aufgrund der Werte der explikativen
Variablen [...] so geschätzt werden können, dass die Schätzfehler
minimal sind” (Kromrey 2000: 474).
3000
2500
Einkommen
2000
1500
1000
500
0
0
5
10
15
Schuljahre
20
Die Regressionsparameter a (Störfaktor; Achsenabschnitt) und b (Regressionskoeffizient; Steigung) werden
aus den Beobachtungswerten mittels der „Methode der
kleinsten Quadrate“ (Ordinary-Least-Square- oder OLSRegression) geschätzt.
In unserem Beispiel ergibt sich dabei:
y = 82,639x + 974,07
3000
y = 82,639x + 974,07
2
R = 0,5443
Einkommen
2500
2000
1500
1000
500
0
0
5
10
Schuljahre
15
20
5
3
Warum logistische Regression?
Beispiel 2
Wie hängt die Besetzung einer betrieblichen
Führungsposition mit der Dauer des Schulbesuches
einer Person zusammen?
1. Schritt: Modellbildung
„Die Wahrscheinlichkeit, dass eine Person eine
betriebliche Führungsposition inne hat, steigt mit der
Dauer des Schulbesuchs.“ (linearer Zusammenhang
????)
6
2. Schritt: Beobachtungsdaten gewinnen
Person
Herr Müller
Frau Meier
Herr Schulz
Herr Schmidt
Frau Mustermann
Herr Kleinknecht
Frau Dorfner
Herr Beier
Herr Dudenhofen
Schuljahre
8
10
13
9
10
15
13
8
10
Führungsposition
nein
ja
ja
ja
nein
nein
ja
nein
ja
„binäre“ Kodierung: nein = 0 / ja = 1
3. Schritt: Regressionsparameter schätzen
1. Versuch: lineare Regression y = bx + a
1,2
y = 0,0347x + 0,1852
2
R = 0,026
1,0
0,8
0,6
0,4
0,2
0,0
-15
-10
-5
0
5
10
15
20
25
30
-0,2
7
Zur Analyse kategorialer Daten (hier: Führungsposition ja/nein) ist die lineare Regression nicht brauchbar
Binäre Logistische Regression
Vorteile:
• Schätzwerte können nie > 1 oder < 0 werden
• Die Regressionsgleichung simmuliert eine allmähliche
Annäherung an die Extremwerte 0 und 1 (kein linearer
Zusammenhang) („Maximum-Likelihood-Schätzung“)
Lineare Reg.gleichung:
logistische Reg.gleichung:
y = bx + a
e β0 + β1x
π1 =
1 + e β0 + β1x
Besonders wichtig!
Bei der linearen Regression wird der
Einfluss der erklärenden Variablen auf
die abhängige Variable direkt geschätzt.
Bei der logistischen Regression wird der
Einfluss der erklärenden Variablen auf
die Wahrscheinlichkeit geschätzt, dass
die abhängige Variable den Wert ‚1‘
annimmt.
8
Lineare und Logistische Regression im Vergleich
1,2
1,0
0,8
0,6
y = 0,0347 x + 0,1852
0,4
y =
0,2
e 0 , 671 + 0 , 223 x
1 + e 0 , 671 + 0 , 223 x
0,0
-15
-10
-5
0
5
10
15
20
25
30
-0,2
Die Beziehung zwischen abhängiger (y) und
erklärender Variable (x) als Wahrscheinlichkeitswert
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0
5
10
15
20
25
30
9
Die Logitische Regression wird in der Praxis
nicht in „Zwei-Variablen-Fällen“ wie dem
Beispiel angewendet. Der Vorteil des
Verfahrens besteht vielmehr darin, dass die
Einflüsse mehrerer erklärender Variablen
auf eine abhängige Variable gleichzeitig
untersucht werden können. Das Verfahren
bietet die Möglichkeit, die jeweils nicht
interessierenden Variablen zu kontrollieren.
4
Datenvoraussetzungen und
Datenvorbereitung für die
logistische Regression
10
Datenvoraussetzungen
Die abhängige Variable muss als dichotome
Dummy-Variable zerlegbar sein typische ja/nein
Fragestellung (Kodierung 0/1)
Die unabhängigen (erklärenden) Variablen können
jedwedes Messniveau besitzen. Sowohl metrische
als auch nominal skalierte Daten können
einfließen
Die Abhängige Variable
Beispielfragestellung:
„Welche Faktoren beeinflussen die Wahrscheinlichkeit,
zwischen 1992 und 1996 ehrenamtlich aktiv zu werden?“
(Quelle der Beispieldaten: SOEP)
Kodierung der abhängigen Variable EHRE:
0 = nicht ehrenamtlich aktiv geworden
1 = ehrenamtlich aktiv geworden
ACHTUNG: Es dürfen nur solche Fälle (Personen) in die
Untersuchung aufgenommen werden, die prinzipiell „im
Risiko sind“ ehrenamtlich aktiv zu werden. Das heißt,
dass Personen, die bereits zum Beginn des
Untersuchungszeitraums ehrenamtlich aktiv sind, aus
der Untersuchung ausgeschlossen werden müssen.
11
Die erklärenden Variablen
Welche
erklärenden
Variablen
in
die
Untersuchung einbezogen werden, hängt vom
Modell (oder von unserer Theorie) ab. Hier: Wir
nehmen an, dass folgende Variablen die
Ehrenamts-Aufnahme-Wahrscheinlichkeit
beeinflussen:
•Geschlecht
•Erwerbsstatus
•Alter
•Haushaltskontext
•Qualifikation
Vorbereitung der Ursprungsdaten für die
Regressionsschätzung
metrische Variablen müssen nicht verändert werden
dichotome Variablen (bspw. Geschlecht) müssen nicht
verändert werden (wenn Kodierung 0/1)
kategoriale Variablen mit mehr als 2 Ausprägungen
müssen in dichotome Dummy-Variablen zerlegt
werden
12
Beispiel für die Variablenzerlegung
Höchster Schulabschluss (SCHULE) mit den Ursprungswerten 1 =
Hauptschule, 2 = Realschule und 3 = Gymnasium wird zerlegt in 3
Einzelvariablen
SCHULE1 (Hauptschule ja/nein):
1 wenn Hauptschulabschluss; alle anderen 0
SCHULE2 (Realschule ja/nein):
1 wenn Realschulabschluss; alle anderen 0
SCHULE3 (Abitur ja/nein):
1 wenn Abitur; alle anderen 0
ACHTUNG: Missing-Werte müssen in einer eigenen
Dummy-Variable in die Schätzung einbezogen werden,
also wenn SCHULE=missing, dann SCHULMIS=1 wenn
kein Schulabschluss bekannt; alle anderen 0 !!!
Variablenzerlegung im Beispieldatensatz
Dummy
Geschlecht
Mann*
Frau
Alter
16-25 Jahre
26-40 Jahre
41-60 Jahre*
älter als 60 Jahre
Haushalt
alleinstehend
Paar ohne Kind*
alleinerziehend
Paar + 1 Kind
Paar + 2 Kinder
Paar + 3 o. mehr Kinder
sonstige
R_SEX
Kodierung
0
1
R_AGE1
R_AGE2
R_AGE3
R_AGE4
0/1
0/1
0/1
0/1
R_HH1
R_HH2
R_HH3
R_HH4
R_HH5
R_HH6
R_HH7
0/1
0/1
0/1
0/1
0/1
0/1
0/1
Erwerbsstatus
voll erwerbstätig*
unregelm./teilzeit erwerbst.
arbeitslos
Rentner
sonst. Nicht-Erwerbstätige
Schulabschluss
missing
kein Abschluss
Hauptschulabschluss
Realschulabschluss*
(Fach-)Hochschulreife
Abschluss verbessert
Dummy
Kodierung
R_ES1
R_ES2
R_ES3
R_ES4
R_ES5
0/1
0/1
0/1
0/1
0/1
R_SCH1
R_SCH2
R_SCH3
R_SCH4
R_SCH5
R_SCH5
0/1
0/1
0/1
0/1
0/1
0/1
* Referenzgruppe
13
ACHTUNG 1: Referenzkategorie auswählen
Nicht alle erklärenden Variablen werden in die
Rechnung
einbezogen.
Um
die
späteren
Schätzergebnisse interpretieren zu können, muss in
jedem
Variablenblock
eine
Referenzkategorie
ausgewählt werden. Alle Ergebnisse sind nur im
Hinblick auf diese Referenzkategorie zu interpretieren
Auswahlkriterien:
• die bestbesetzte Kategorie
• Interpretatorische Gründe
ACHTUNG 2: „Strukturelle Nullen“ vermeiden
Es sind sogenannte „Strukturelle Nullen“ zu vermeiden.
„Strukturelle Nullen“ entstehen dann, wenn einzelne
Kategorien der erklärenden Variablen sich logisch
ausschließen.
Bsp.: Kategorie Alter mit einer Ausprägung „jünger als
16 Jahre“ und Kategorie Berufsabschluss mit einer
Ausprägung „Hochschulabschluss“.
Solche Effekte sind nicht immer zu vermeiden, sollten
aber auf jeden Fall bewußt sein und bei der
Interpretation berücksichtigt werden.
Außerdem empfiehlt sich ein Kreuztabellentest zwischen
jeder einzelnen kategorialen erklärenden Variable und
der abhängigen Variable.
14
Checkliste
Nur Fälle einbeziehen, die „im Risiko“ sind
abhängige Variable als dichotome Dummy-Variable
nach Meßniveau und Modellannahmen sind
Je
erklärenden Variablen aufzubereiten
die
Nicht
zuviele
erklärende
Variablen
einführen.
Faustregel: Pro 100 Analysefälle eine erklärende
Variable. In unserem Beispielfall: ca. 6000 Personen im
Analysedatensatz, d.h. es sollten nicht mehr als
maximal 60 erklärende Variablen einbezogen werden
(wir haben 23 ausgewählt)
Sensible Auswahl der Referenzkategorie
„Strukturelle Nullen“ vermeiden
5
Interpretation der
Regressionsergebnisse
15
Koeffizient Signifikanz
Geschlecht
Männer
Frauen
Erwerbsstatus
regelm. Vollzeit
unregelm./Teilzeit
arbeitslos
Rentner
sonst. nicht-erwerbstätige
Alter
16-25 Jahre
26-40 Jahre
41-60 Jahre
älter als 60 Jahre
Haushaltstyp
Ein-Personen-Haushalt
Paar ohne Kinder
Alleinerziehend
Paar mit einem Kind
Paar mit zwei Kindern
Paar mit drei Kindern +
sonst. Haushalte
Schulabschluss
missing
kein Abschluss
Hauptschulabschluss
Realschulabschluss
(Fach-)Hochschulreife
Abschluss verbessert
Konstante
n
Pseudo R2
RG = Referenzgruppe
RG
-0,278***
–
0,000
RG
0,189
-0,199
-0,051
0,358***
–
0,132
0,218
0,713
0,003
-0,006
0,033
RG
-0,374***
0,968
0,697
–
0,008
-0,314**
RG
-0,214
-0,026
0,284***
0,379***
-0,273
0,011
–
0,225
0,801
0,006
0,010
0,139
0,317
-0,588**
-0,116
RG
0,057
0,357
-1,291***
6012
0,043
0,338
0,016
0,161
–
0,589
0,142
0,000
Signifikanz
***: p <= 0,01
**: 0,01 < p <= 0,05
*: 0,05 < p <= 0,1
Abhängige Variable: Ehrenamt aufgenommen
Haushaltstyp
Ein-Personen-Haushalt
Paar ohne Kinder
Alleinerziehend
Paar mit einem Kind
Paar mit zwei Kindern
Paar mit drei Kindern +
sonst. Haushalte
Schulabschluss
missing
kein Abschluss
Hauptschulabschluss
Realschulabschluss
(Fach-)Hochschulreife
Abschluss verbessert
-0,314**
RG
-0,214
-0,026
0,284***
0,379***
-0,273
0,317
-0,588**
-0,116
RG
0,057
0,357
16
Checkliste
Wichtig sind insbesondere zwei Werte: Die
Koeffizienten (SPSS: „Regressionskoeffizient B“) und
das Signivikanzniveau (SPSS: „Sig.“).
Negative (positive) Koeffizienten bedeuten einen
negativen (positiven) Zusammenhang Bei
kategorialen Dummies: Wenn Ausprägung zutrifft,
reduziert (erhöht) sich die Wahrscheinlichkeit, dass
die abhäbngige Variable den Wert 1 annimmt. Bei
metrischen Variablen: Wenn sich die unabhängige
Variable um eine Einheit erhöht, dann erhöht
(verringert) sich die Wahrscheinlichkeit, dass die
abhängige Variable den Wert 1 annimmt.
Checkliste (Fortsetzung)
Koeffizienten sind nur in der Richtung des
Zusammenhangs zu interpretieren („eine Variabel
erhöht/vermindert die Wahrscheinlichkeit, dass ...“)
Koeffizienten sind nur in Bezug auf die jeweilige
Referenzgruppe zu interpretieren.
Es können nur statistisch
interpretiert werden.
Ab welchem Signifikanzniveau Zusammenhänge als
bestätigt gelten, ist Definitionssache (allerdings
„Signifikanzgrenze“ > 0,1 in der Forschungsliteratur
unüblich).
signifikante Ergebnisse
17
6
Die Regressionsanalyse als
iteratives Verfahren
1. Empfehlung
Es empfiehlt sich, nicht nur ein einziges Modell
zu schätzen, sondern iterativ vorzugehen, in
dem
man
nach
und
nach
einzelne
„Variablenblöcke“
in
die
Schätzungen
einbezieht.
Dabei ist darauf zu achten:
a) Wie verändern sich die Koeffizienten
(Vorzeichenwechsel)?
b) Wie verändert sich die Signifikanz?
18
Schätzung Schätzung Schätzung Schätzung
1
2
3
4
Geschlecht
Männer
Frauen
Erwerbsstatus
regelm. Vollzeit
unregelm./Teilzeit
arbeitslos
Rentner
sonst. Nicht-erwerbstät.
Alter
16-25 Jahre
26-40 Jahre
41-60 Jahre
älter als 60 Jahre
Haushaltstyp
Ein-Personen-Haushalt
Paar ohne Kinder
Alleinerziehend
Paar mit einem Kind
Paar mit zwei Kindern
Paar mit drei Kindern +
sonst. Haushalte
Schulabschluss
missing
kein Abschluss
Hauptschulabschluss
Realschulabschluss
(Fach-)Hochschulreife
Abschluss verbessert
Konstante
n
Pseudo R2
RG = Referenzgruppe
RG
RG
RG
RG
-0,292*** -0,320*** -0,285*** -0,278***
RG
0,220*
-0,202
-0,497***
0,454***
RG
0,262**
-0,193
-0,057
0,459***
RG
0,203
-0,208
-0,067
0,400***
RG
0,189
-0,199
-0,051
0,358***
0,067
0,074
-0,006
0,114
0,054
0,033
RG
RG
RG
-0,507*** -0,384*** -0,374***
-0,302**
RG
-0,224
-0,020
0,308***
0,383***
-0,273
-0,314**
RG
-0,214
-0,026
0,284***
0,379***
-0,273
0,317
-0,588**
-0,116
RG
0,057
0,357
-1,293*** -1,322*** -1,358*** -1,291***
6012
6012
6012
6012
0,024
0,029
0,039
0,043
2. Empfehlung
Es empfiehlt sich, nach der Schätzung eines
Gesamtmodells u.U. weitere differenziertere
Schätzungen vorzunehmen. Beispielsweise
bietet es sich in unserem Beispiel an, alle
Modelle jeweils nochmals getrennt für Männer
und Frauen zu berechnen.
Begründung: Durch die gemeinsame Schätzung
können gegenläufige Einflüsse sich gegenseitig
aufheben und daher nicht erkannt werden.
ACHTUNG: Auf Fallzahlen achten !
19
Erwerbsstatus
regelm. Vollzeit
unregelm./Teilzeit
arbeitslos
Rentner
sonst. nicht-erwerbstätige
Alter
16-25 Jahre
26-40 Jahre
41-60 Jahre
älter als 60 Jahre
Haushaltstyp
Ein-Personen-Haushalt
Paar ohne Kinder
Alleinerziehend
Paar mit einem Kind
Paar mit zwei Kindern
Paar mit drei Kindern +
sonst. Haushalte
Schulabschluss
missing
kein Abschluss
Hauptschulabschluss
Realschulabschluss
(Fach-)Hochschulreife
Abschluss verbessert
Konstante
n
Pseudo R2
RG = Referenzgruppe
Männer
Frauen
RG
0,481
-0,174
-0,219
0,214
RG
0,192
-0,210
0,076
0,443***
0,017
0,016
RG
-0,330
-0,053
0,010
RG
-0,345*
-0,183
RG
-0,211
-0,079
0,217
0,318
-0,112
-0,447***
RG
-0,181
0,029
0,334**
0,432**
-0,463*
0,776*
-0,342
-0,044
RG
-0,156
0,356
-1,258***
2586
0,026
-0,273
-0,858**
-0,203*
RG
0,321**
0,440
-1,603***
3426
0,057
7
„Odd Ratios“–
eine weitere Darstellungsformen
der Schätzergebnisse
20
Problem
Durch die Schätzung der Koeffizienten können wir zwar
die Signifikanz und die Richtung des Zusammenhangs
zwischen abhängiger und unabhängiger Variable
bestimmen, aber es sind keine Aussagen über die
Stärke des Zusammenhangs möglich!
Alternative: Berechnung von „Odd Ratios“
Exkurs: Was sind „Odd Ratios“ und wie werden sie
interpretiert?
Beispiel (a) zur Berechnung und Interpretation von „Odd Ratios“
A
1
2
3
4
5
6
7
8
9
10
11
12
Männer
Frauen (RG)
B
C
sonstige
Todesursache Hirntumor
60000
100
35000
24
Prozentsatzdifferenz MännerFrauen
0,097865
Differenz der beiden Odds
0,000981
Odd Ratio Mann/Frau (RG)
2,430556
"Wahrscheinlichkeits-Ratio"
2,428175
Diff. Zw. Odd &
Wahrscheinlichkeits-Ratio
0,002380
D
n
60100
35024
E
F
Wahrscheinlichkeit d.
GegenwahrscheinTodes durch HT (in %) lichkeit sonst. Tod (in %)
0,166389
99,833611
0,068524
99,931476
G
Odds (Tod durch
HT/sonst. Gründe)
0,001667
0,000686
Die Wahrscheinlichkeit von Männern, an
einem Gehirntumor zu sterben, ist rund
2,4mal so groß wie die Wahrscheinlichkeit
von Frauen, an einem Gehirntumor zu
sterben
21
Beispiel (b) zur Berechnung und Interpretation von „Odd Ratios“
A
1
2
3
4
5
6
7
8
9
10
11
12
Männer
Frauen (RG)
B
C
sonstige
Todesursache Hirntumor
60000
1500
35000
240
Prozentsatzdifferenz MännerFrauen
1,757980
Differenz der beiden Odds
0,018143
Odd Ratio Mann/Frau (RG)
3,645833
"Wahrscheinlichkeits-Ratio"
3,581301
Diff. Zw. Odd &
Wahrscheinlichkeits-Ratio
0,064533
D
n
61500
35240
E
F
Wahrscheinlichkeit d.
GegenwahrscheinTodes durch HT (in %) lichkeit sonst. Tod (in %)
2,439024
97,560976
0,681044
99,318956
G
Odds (Tod durch
HT/sonst. Gründe)
0,025000
0,006857
Die Wahrscheinlichkeit von Männern, an
einem Gehirntumor zu sterben, ist rund
3,6mal so groß wie die Wahrscheinlichkeit
von Frauen, an einem Gehirntumor zu
sterben
Beispiel (c) zur Berechnung und Interpretation von „Odd Ratios“
A
1
2
3
4
5
6
7
8
9
10
11
12
Männer
Frauen (RG)
B
C
sonstige
Todesursache Hirntumor
60000
1000
35000
1000
Prozentsatzdifferenz MännerFrauen
-1,138434
Differenz der beiden Odds
-0,011905
Odd Ratio Mann/Frau (RG)
0,583333
"Wahrscheinlichkeits-Ratio"
0,590164
Diff. Zw. Odd &
Wahrscheinlichkeits-Ratio
D
n
61000
36000
E
F
Wahrscheinlichkeit d.
GegenwahrscheinTodes durch HT (in %) lichkeit sonst. Tod (in %)
1,639344
98,360656
2,777778
97,222222
G
Odds (Tod durch
HT/sonst. Gründe)
0,016667
0,028571
-0,006831
Die Wahrscheinlichkeit von Männern, an
einem Gehirntumor zu sterben, ist rund
0,6mal so groß wie die Wahrscheinlichkeit
von Frauen, an einem Gehirntumor zu
sterben
22
Wie sind Odd Ratios im Regressionsmodell zu
interpretieren?
Die Werte von Odd Ratios (OR) liegen theoretisch
zwischen 0 und unendlich.
OR < 1 bedeutet für die Analysegruppe eine geringere
Wahrscheinlichkeit, dass die abhängige Variable „1“
ergibt, als die Referenzgruppe.
OR > 1 bedeutet für die Analysegruppe eine höhere
Wahrscheinlichkeit, dass die abhängige Variable „1“
ergibt, als die Referenzgruppe.
Was ist bei der Interpretation von Odd Ratios im
Regressionsmodell zu beachten?
a) Der „einfache“ Fall: OR > 1
ORs mit einem Wert > 1 sind relativ einfach zu interpretieren.
Bsp.: Frau: Referenzgruppe / Mann: OR= 1,432***
Abhängige Variable: Ehrenamtsaufnahme
„Männer haben (unter Kontrolle aller anderen Variablen im Modell)
gegenüber Frauen eine um 43,2 % erhöhte Wahrscheinlichkeit, ein
Ehrenamt aufzunehmen.“
23
b) Der „knifflige“ Fall: OR < 1
ORs mit einem Wert < 1 sind schwieriger zu interpretieren.
Bsp.: Frau: Referenzgruppe / Mann: OR= 0,650***
Abhängige Variable: Ehrenamtsaufnahme
„Männer haben (unter Kontrolle aller anderen Variablen im Modell)
gegenüber Frauen eine 0,650mal so große Wahrscheinlichkeit, ein
Ehrenamt aufzunehmen.“
ACHTUNG: Das heißt NICHT, dass Männer eine um 35 %
verringerte Wahrscheinlichkeit der Ehrenamtsaufnahme
gegenüber Frauen aufweisen (also nicht 1 - 0,650 = 0,350) !!!
Interpretationsbeispiele bei OR < 1
P = (1 / 0,95)-1= 0,0526
OR
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
1-OR (Falsch!)
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
45,00
50,00
55,00
60,00
65,00
70,00
%
5,26
11,11
17,65
25,00
33,33
42,86
53,85
66,67
81,82
100,00
122,22
150,00
185,71
233,33
P = (1 / 0,70)-1= 0,4286
P = (1 / 0,50)-1= 1
! VORSICHT !
??? A hat eine um 100 % verringerte
Wahrscheinlichkeit als B ???
24
Der „noch kniffligere“ Fall: OR <= 0,5
Interpretationsbeispiele
Bei OR Werten <= 0,5 bietet sich eine umgekehrte Interpretation an.
OR
0,95
0,90
0,85
0,80
0,75
0,70
0,65
0,60
0,55
0,50
0,45
0,40
0,35
0,30
1-OR (Falsch!)
5,00
10,00
15,00
20,00
25,00
30,00
35,00
40,00
45,00
50,00
55,00
60,00
65,00
70,00
%
5,26
11,11
17,65
25,00
33,33
42,86
53,85
66,67
81,82
100,00
122,22
150,00
185,71
233,33
Die Referenzgruppe hat eine
doppelt so hohe Wahrscheinlichkeit
wie die Analysegruppe
Die Referenzgruppe hat eine um
122 % erhöhte Wahrscheinlichkeit
gegenüber der Analysegruppe
8
Ausblick
25
Die weiteren Sitzungen
3. Sitzung (Praxis)
Donnerstag, 27.11.2003, 9.30-12.00 Uhr
• Kurze Wiederholung der wichtigen methodischen Punkte
• Gemeinsame Begutachtung der „Übungs-Rohdaten“ und Plan zur Aufbereitung der Daten
für die logistische Regression
4. Sitzung (Praxis)
Donnerstag, 11.12.2003, 9.30-12.00 Uhr
• Einführung in STATA
• Aufbereitung der Daten in STATA
5. Sitzung (Praxis)
Donnerstag, 29.01.2004, 9.30-12.00 Uhr
• Anwendung der eigentlichen Logistischen Regression in STATA
• Diskussion und Interpretation der Schätzergebnisse
6. Sitzung (Praxis) (optional)
Donnerstag, 26.02.2004, 9.30-12.00 Uhr
• Bei Bedarf: Gemeinsamer Einstieg in eine neue Analyse mit anderer Fragestellung und
anderen Daten
7. Sitzung (Theorie)
Donnerstag, 25.03.2004, 9.30-12.00 Uhr
• Ausblick: Weitere multivariate Analyseverfahren (bspw. multiple Logistische Regression,
Übergangsratenmodelle etc.); Gemeinsamkeiten und Unterschiede zur Binären Logistischen
Regression
Schlussbemerkung
Trotz
der
Vorzüge
und
Möglichkeiten
multivariater
Analyseinstrumente insbesondere für die sozialwissenschaftliche
Forschung sollten scheinbar „einfache“ deskriptive Verfahren
nicht vernachlässigt und deren Nutzen nicht unterschätzt
werden:
„Generally, descriptive studies are thus much more
relevant for sociology as an explanatory enterprise than
current journals and university curricula would have us
belief.“
(Wippler/Lindenberg 1987: 159)
26