Logistische Regression
Transcription
Logistische Regression
Logistische Regression Tutorium 10 Lineare Modelle LMU SoSe 2014 David Rügamer 4. Juli 2014 1/8 Motivation Motivation: Modellierung einer binären Größe (hier Untergewicht von Säuglingen low Yes=1/No=0 in Abhängigkeit des Alters der Mutter age): i = 1, . . . , 109 0.4 ^ β1 0.0 low 0.8 lowi = β0 + β1 agei + ε, 15 20 25 30 35 40 45 age → Problematisch: I Es werden auch Werte außerhalb von [0, 1] geschätzt I Heteroskedastizität (vgl. Modelldiagnose) 2/8 Ansatz: Logistisches Regressionmodell (1) Idee: Modellierung einer Wahrscheinlichkeit, dass binäre Größe = 1 ist in Abh.k. der Einflussgröße(n) (hier Wahrscheinlichkeit für Untergewicht in Abh.k. von Alter): exp(β0 + β1 agei ) , 1 + exp(β0 + β1 agei ) i = 1, . . . , 109 0.4 0.0 low 0.8 P(lowi = 1|agei ) = 15 20 25 30 35 40 45 age → Eigenschaften: I Schätzung von Werten im Bereich [0, 1] I Annahme: Zielgrößen voneinander unabhängig bei gegebenen Einflussgrößen 3/8 Ansatz: Logistisches Regressionmodell (2) → Logistische Regression natürlich auch mit mehreren Einflussgrößen möglich. Erweiterung: Modellierung der Wahrscheinlichkeit für Untergewicht in Abh.k. von Alter und Gewicht d. Mutter (age bzw. lwt) sowie Rauchen während der Schwangerschaft smoke (Nein=0/Ja=1): P(lowi = 1|agei , lwti , smokei ) = exp(β0 + β1 agei + β2 lwti + β3 smokei ) 1 + exp(β0 + β1 agei + β2 lwti + β3 smokei ) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.36823 1.01426 1.35 0.177 age -0.03899 0.03273 -1.19 0.233 lwt -0.01214 0.00613 -1.98 0.048 * factor(smoke)1 0.67076 0.32588 2.06 0.040 * --Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 (Dispersion parameter for binomial family taken to be 1) 4/8 Bezeichnungen und Interpretation (1) Definition πi = P(Yi = 1|xi ) πi 1 − πi Yi , i = 1, . . . , n ln G (t) = G (xi0 β) = xi0 β = = exp(xi0 β) 1 + exp(xi0 β) unabhängig (bei gegebenem festen X ) exp(t) = (1 + exp(−t))−1 1 + exp(t) Modellkomponenten Yi : binäre Zielgröße xi : Vektor der Einflussgrößen xi0 β: Linearer Prädiktor πi : Wahrscheinlichkeit für Yi = 1 πi : Logarithmierte Chance oder Log-Odds ln 1−π i G (t): Response-Funktion oder Inverse Link-Funktion G (t)−1 : Link-Funktion 5/8 Bezeichnungen und Interpretation (2) Unterschied in der Interpretation der Koeffizienten I Multivariat: Interpretation auf Basis I I I der logarithmierten Chance der Chance des Chancenverhältnisses (Odds-Ratio) I Univariat: Interpretation auch auf Wahrscheinlichkeitsebene möglich, aber schwierig Welcher Koeffizient wird für welche Interpretation verwendet? I Wenn xk um einen Einheit steigt, so ändert sich die logarithmierte Chance von Y um βk (ceteris paribus). I Wenn xk um einen Einheit steigt, so ändert sich die Chance von Y um den Faktor exp(βk ) (ceteris paribus). I Das Odds Ratio (Chancenverhältnis) zwischen Y bei xk + 1 und Y bei xk ist exp(βk ) (ceteris paribus). 6/8 Bezeichnungen und Interpretation (3) Anwendung auf das Beispiel: coef expCoef (Intercept) 1.36823 3.9284 age -0.03899 0.9618 lwt -0.01214 0.9879 factor(smoke)1 0.67076 1.9557 Für Faktorvariable smoke: I Chance auf Untergewicht für Kind erhöht sich multiplikativ / um den Faktor exp(β3 ) ≈ 1.96, wenn Mutter während Schwangerschaft raucht. I Logarithmierte Chance auf Untergewicht für Kind erhöht sich (additiv) um β3 ≈ 0.67, wenn Mutter während Schwangerschaft raucht. I Chancenverhältnis einer Geburt mit Untergewicht zwischen einem Kind, dessen Mutter während Schwangerschaft raucht und einem Kind, dessen Mutter nicht raucht, ist exp(β3 ) ≈ 1.96, also etwa 2 zu 1. Jeweils unter der Annahme, dass sich andere Einflussgrößen nicht ändern! 7/8 Bezeichnungen und Interpretation (4) Anwendung auf das Beispiel (cont’d): coef expCoef age -0.03899 0.9618 Für metrische Variable age: I Chance auf Untergewicht für Kind erhöht sich multiplikativ / um den Faktor exp(β1 ) ≈ 0.96 (sinkt also multiplikativ um ≈ 1/0.96 = 1.04), wenn sich das Alter der Mutter um ein Jahr erhöht. I Logarithmierte Chance auf Untergewicht für Kind reduziert sich (additiv) um β1 ≈ −0.04, wenn sich das Alter der Mutter um ein Jahr erhöht. I Chancenverhältnis einer Geburt mit Untergewicht zwischen einem Kind, dessen Mutter während Schwangerschaft x + 1 Jahre alt ist, und einem Kind dessen Mutter x Jahre alt ist, ist β1 ≈ 0.96, also fast 1 zu 1. Wieder jeweils unter der Annahme, dass sich andere Einflussgrößen nicht ändern! Hinweis: Chancen-Interpretation, wenn sich Alter beispielsweise um 10 Jahre ändert ist eine multiplikative Änderung um exp(β1 · 10) = exp(β1 )10 ≈ 0.68. 8/8