Logistische Regression

Transcription

Logistische Regression
Logistische Regression
Tutorium 10
Lineare Modelle
LMU SoSe 2014
David Rügamer
4. Juli 2014
1/8
Motivation
Motivation: Modellierung einer binären Größe (hier Untergewicht von
Säuglingen low Yes=1/No=0 in Abhängigkeit des Alters der Mutter age):
i = 1, . . . , 109
0.4
^
β1
0.0
low
0.8
lowi = β0 + β1 agei + ε,
15
20
25
30
35
40
45
age
→ Problematisch:
I Es werden auch Werte außerhalb von [0, 1] geschätzt
I Heteroskedastizität (vgl. Modelldiagnose)
2/8
Ansatz: Logistisches Regressionmodell (1)
Idee: Modellierung einer Wahrscheinlichkeit, dass binäre Größe = 1 ist in
Abh.k. der Einflussgröße(n) (hier Wahrscheinlichkeit für Untergewicht in
Abh.k. von Alter):
exp(β0 + β1 agei )
,
1 + exp(β0 + β1 agei )
i = 1, . . . , 109
0.4
0.0
low
0.8
P(lowi = 1|agei ) =
15
20
25
30
35
40
45
age
→ Eigenschaften:
I Schätzung von Werten im Bereich [0, 1]
I Annahme: Zielgrößen voneinander unabhängig bei gegebenen
Einflussgrößen
3/8
Ansatz: Logistisches Regressionmodell (2)
→ Logistische Regression natürlich auch mit mehreren Einflussgrößen möglich.
Erweiterung: Modellierung der Wahrscheinlichkeit für Untergewicht in Abh.k.
von Alter und Gewicht d. Mutter (age bzw. lwt) sowie Rauchen während der
Schwangerschaft smoke (Nein=0/Ja=1):
P(lowi = 1|agei , lwti , smokei ) =
exp(β0 + β1 agei + β2 lwti + β3 smokei )
1 + exp(β0 + β1 agei + β2 lwti + β3 smokei )
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
1.36823
1.01426
1.35
0.177
age
-0.03899
0.03273
-1.19
0.233
lwt
-0.01214
0.00613
-1.98
0.048 *
factor(smoke)1 0.67076
0.32588
2.06
0.040 *
--Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
4/8
Bezeichnungen und Interpretation (1)
Definition
πi = P(Yi = 1|xi )
πi
1 − πi
Yi , i = 1, . . . , n
ln
G (t)
=
G (xi0 β)
=
xi0 β
=
=
exp(xi0 β)
1 + exp(xi0 β)
unabhängig (bei gegebenem festen X )
exp(t)
= (1 + exp(−t))−1
1 + exp(t)
Modellkomponenten
Yi : binäre Zielgröße
xi : Vektor der Einflussgrößen
xi0 β: Linearer Prädiktor
πi : Wahrscheinlichkeit für Yi = 1
πi
: Logarithmierte Chance oder Log-Odds
ln 1−π
i
G (t): Response-Funktion oder Inverse Link-Funktion
G (t)−1 : Link-Funktion
5/8
Bezeichnungen und Interpretation (2)
Unterschied in der Interpretation der Koeffizienten
I Multivariat: Interpretation auf Basis
I
I
I
der logarithmierten Chance
der Chance
des Chancenverhältnisses (Odds-Ratio)
I Univariat: Interpretation auch auf Wahrscheinlichkeitsebene möglich, aber
schwierig
Welcher Koeffizient wird für welche Interpretation verwendet?
I Wenn xk um einen Einheit steigt, so ändert sich die logarithmierte
Chance von Y um βk (ceteris paribus).
I Wenn xk um einen Einheit steigt, so ändert sich die Chance von Y um
den Faktor exp(βk ) (ceteris paribus).
I Das Odds Ratio (Chancenverhältnis) zwischen Y bei xk + 1 und Y bei xk
ist exp(βk ) (ceteris paribus).
6/8
Bezeichnungen und Interpretation (3)
Anwendung auf das Beispiel:
coef expCoef
(Intercept)
1.36823 3.9284
age
-0.03899 0.9618
lwt
-0.01214 0.9879
factor(smoke)1 0.67076 1.9557
Für Faktorvariable smoke:
I Chance auf Untergewicht für Kind erhöht sich multiplikativ / um den
Faktor exp(β3 ) ≈ 1.96, wenn Mutter während Schwangerschaft raucht.
I Logarithmierte Chance auf Untergewicht für Kind erhöht sich (additiv)
um β3 ≈ 0.67, wenn Mutter während Schwangerschaft raucht.
I Chancenverhältnis einer Geburt mit Untergewicht zwischen einem Kind,
dessen Mutter während Schwangerschaft raucht und einem Kind, dessen
Mutter nicht raucht, ist exp(β3 ) ≈ 1.96, also etwa 2 zu 1.
Jeweils unter der Annahme, dass sich andere Einflussgrößen nicht ändern!
7/8
Bezeichnungen und Interpretation (4)
Anwendung auf das Beispiel (cont’d):
coef expCoef
age -0.03899 0.9618
Für metrische Variable age:
I Chance auf Untergewicht für Kind erhöht sich multiplikativ / um den
Faktor exp(β1 ) ≈ 0.96 (sinkt also multiplikativ um ≈ 1/0.96 = 1.04),
wenn sich das Alter der Mutter um ein Jahr erhöht.
I Logarithmierte Chance auf Untergewicht für Kind reduziert sich (additiv)
um β1 ≈ −0.04, wenn sich das Alter der Mutter um ein Jahr erhöht.
I Chancenverhältnis einer Geburt mit Untergewicht zwischen einem Kind,
dessen Mutter während Schwangerschaft x + 1 Jahre alt ist, und einem
Kind dessen Mutter x Jahre alt ist, ist β1 ≈ 0.96, also fast 1 zu 1.
Wieder jeweils unter der Annahme, dass sich andere Einflussgrößen nicht
ändern!
Hinweis: Chancen-Interpretation, wenn sich Alter beispielsweise um 10 Jahre
ändert ist eine multiplikative Änderung um exp(β1 · 10) = exp(β1 )10 ≈ 0.68.
8/8

Documents pareils