Generalisierte Lineare Modelle
Transcription
Generalisierte Lineare Modelle
Generalisierte Lineare Modelle Herwig FRIEDL Institut für Statistik Technische Universität Graz September 2013 Inhaltsverzeichnis 1 Transformation auf Normalverteilung 1.1 Box-Cox Transformationsfamilie . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Maximum-Likelihood Schätzung . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 Die 2.1 2.2 2.3 Exponentialfamilie Maximum Likelihood Schätzung . Mitglieder der Exponentialfamilie Die Quasi-Likelihood Funktion . . 2.3.1 Quasi-Dichten . . . . . . . 3 Das 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 Generalisierte Lineare Modell Maximum-Likelihood-Schätzungen . . . . Asymptotische Eigenschaften des Schätzers Pearson Statistik . . . . . . . . . . . . . . Eigenschaften von Score und Quasi-Score . Deviance und Quasi-Deviance . . . . . . . Parametertests . . . . . . . . . . . . . . . Beispiel: Konstante Varianz . . . . . . . . Beispiel: Gamma-Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Logistische Regression 4.1 Toleranzverteilungen – Linkfunktionen . 4.1.1 Beispiel (Venables & Ripley, Seite 4.2 Interpretation der Parameter . . . . . . . 4.2.1 Beispiel (Agresti, Seite 87) . . . . 4.3 Logit-Modelle . . . . . . . . . . . . . . . 4.3.1 Beispiel . . . . . . . . . . . . . . i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 4 . . . . 9 12 12 15 18 . . . . . . . . 19 20 23 23 24 25 27 27 28 . . . . . . 37 38 39 43 44 46 46 ii INHALTSVERZEICHNIS 4.4 Komplexe Logistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.4.1 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 5 Loglineare Modelle 5.1 Poisson Loglineare Modelle für Anzahlen . . . . 5.1.1 Beispiel . . . . . . . . . . . . . . . . . . 5.2 Loglineare und Multinomiale Response Modelle 5.2.1 Die Multinomialverteilung . . . . . . . . 5.2.2 Vergleich von Poisson-Erwartungen . . . 5.2.3 Multinomiale Responsemodelle . . . . . 5.2.4 Beispiel . . . . . . . . . . . . . . . . . . 5.3 Zweidimensionale Kontingenztafeln . . . . . . . 5.3.1 Unabhängigkeitsmodell . . . . . . . . . . 5.3.2 Saturiertes (volles) Modell . . . . . . . . 5.3.3 Interpretation der Parameter . . . . . . . 5.3.4 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Modelle mit zufälligen Effekten 6.1 Zufällige Prädiktoren . . . . . . . . . . . . . . . . . 6.2 EM Schätzer . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Beispiel: Endliche diskrete Mischungen . . . 6.3 Überdispersionsmodelle . . . . . . . . . . . . . . . . 6.3.1 Normalverteilte zufällige Effekte . . . . . . . 6.3.2 Zufällige Effekte aus unbekannter Verteilung 6.3.3 Prädiktionen bei NPML Schätzung . . . . . 6.3.4 Beispiel: Matched Pairs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 51 51 57 57 59 60 61 64 64 65 67 69 . . . . . . . . 71 71 72 74 77 77 79 80 81 Kapitel 1 Transformation auf Normalverteilung Die statistische Analyse von Daten basiert häufig auf der Annahme, dass diese normalverteilt sind und konstante Varianz widerspiegeln. Falls die Daten diese Annahme nicht unterstützen, besteht die Möglichkeit der Verwendung einer Transformation, um dadurch eine bessere Approximation zu einer konstanten Varianz zu erzielen. Dann könnten auch klassische Methoden wie die Varianzanalyse oder die Lineare Regression auf solche Daten angewendet werden. 1.1 Box-Cox Transformationsfamilie Die Verwendbarkeit der Normalverteilung wird erweitert, indem diese in eine größere Familie von Verteilungsfunktionen eingebettet wird, der Box-Cox Transformationsfamilie (Box und Cox, 1964). Deren allgemeine Form kann für eine positive Response y > 0 repräsentiert werden durch λ y − 1 , falls λ ̸= 0, y(λ) = (1.1) λ log y, falls λ = 0, wobei λ den Parameter der Transformation bezeichnet. Spezialfälle in dieser Familie sind y(−1) = 1 − 1/y und y(1) = y − 1. Darüberhinaus strebt für λ → 0, y(λ) → log y, so dass y(λ) eine stetige Funktion in λ ist. Für Daten (yi , xi ), i = 1, . . . , n, nehmen wir nun an, dass es einen Wert von λ gibt, für den yi (λ) einer Normalverteilung mit identischer Varianz genügt, d.h. ind yi (λ) ∼ N (µi (λ), σ 2 (λ)). Unter dieser Annahme kann man auf die Dichtefunktion der originalen Daten y schließen. 1 2 KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG Diese ist gerade ( (y(λ) − µ(λ))2 f (y, λ, µ(λ), σ(λ)) = √ exp − 2σ 2 (λ) 2πσ 2 (λ) 1 ) d y(λ) . dy (1.2) Die Verwendung der Transformation (1.1) ergibt ( ( )2 ) λ (y − 1)/λ − µ(λ) 1 y λ−1 , falls λ ̸= 0, √2πσ 2 (λ) exp − 2 2σ (λ) ( ) f (y, λ, µ(λ), σ(λ)) = (1.3) 2 1 (log y − µ(λ)) −1 y , falls λ = 0. √2πσ 2 (λ) exp − 2σ 2 (λ) In Regressions Analysen verwendet man häufig ein simples lineares Modell 2 yi (λ) ∼ N (x⊤ i β(λ), σ (λ)), ind wobei β(λ) = (β1 (λ), . . . , βp (λ))⊤ den p×1 Vektor der unbekannten Parameter bezeichnet. Für λ ̸= 0 definiert man den reparameterisierten Vektor β = (β1 , . . . , βp )⊤ bezüglich y λ , mit Intercept β1 = 1 + λβ1 (λ) und Effekten βj = λβj (λ), j = 2, . . . , p, sowie σ = |λ|σ(λ). Damit kann die Dichte (1.3) umgeschrieben werden zu ) ( 1 (y λ − x⊤ β)2 f (y, λ, β, σ) = √ |λ|y λ−1 . exp − 2 2 2σ 2πσ Für λ = 0 verwende βj = βj (λ), j = 1, . . . , p, und σ = σ(λ) als Parameter bezüglich eines linearen Modells für log y. Dann kann man (1.2) schreiben als ) ( 1 (log y − x⊤ β)2 f (y, 0, β, σ) = √ y −1 . exp − 2 2 2σ 2πσ 1.2 Maximum-Likelihood Schätzung Die Log-Likelihood Funktion der n Beobachtungen (yi , xi ) basierend auf die untransformierte Dichte (1.2) ist (auf der originalen Datenskala) l(λ, µ(λ), σ(λ)) = n n ( ) )2 ∑ d 1 ∑( n 2 − log 2πσ (λ) − 2 yi (λ) − µi (λ) + log yi (λ) . (1.4) 2 2σ (λ) i=1 dyi i=1 Mit der Box-Cox Transformation (1.1) ist die Summe der Logarithmen der Jacobi Terme { ∑ n ∑ d (λ − 1) i log yi , falls λ ̸= 0, log yi (λ) = ∑ dy − falls λ = 0. i i log yi , i=1 1.2. MAXIMUM-LIKELIHOOD SCHÄTZUNG 3 Bezüglich der Parameter (β, σ) erhält man l(λ, β, σ) = { − n2 log (2πσ 2 ) − − n2 log (2πσ 2 ) − 1 2σ 2 1 2σ 2 )2 ∑ ( λ ∑ ⊤ y − x β + n log |λ| + (λ − 1) i i i log yi , falls λ ̸= 0, )2 ∑ (1.5) ∑i ( ⊤ falls λ = 0. − i log yi i log yi − xi β Für einen festen Wert von λ lösen die Maximum-Likelihood Schätzer β̂λ und σ̂λ basierend auf (1.5) die Schätzgleichungen { ∑ 1 λ ⊤ falls λ ̸= 0, ∂l(λ, β, σ) i xi (yi − xi β) = 0, σ2 = ∑ 1 ⊤ ∂β i xi (log yi − xi β) = 0, falls λ = 0, σ2 { ∑ 2 − nσ + σ13 i (yiλ − x⊤ falls λ ̸= 0, ∂l(λ, β, σ) i β) = 0, = ∑ n 1 ⊤ 2 ∂σ − σ + σ3 i (log yi − xi β) = 0, falls λ = 0, und sind deshalb gleich { (X ⊤ X)−1 X ⊤ y λ , falls λ ̸= 0, β̂λ = ⊤ −1 ⊤ (X X) X log y, falls λ = 0, { ∑ 1 2 (y λ − x⊤ falls λ ̸= 0, 1 i β̂λ ) , SSEλ (β̂λ ) = n1 ∑i i σ̂λ2 = ⊤ 2 n i (log yi − xi β̂λ ) , falls λ = 0, n wobei y λ (resp. log y) elementeweise gerechnet sind und SSEλ (β̂λ ) die Fehlerquadratsumme von y λ (resp. log y) an der Stelle β̂λ für ein festes λ bezeichnet. Bemerke, dass wegen der obigen Reparameterisierung die Fehlerquadratsumme SSEλ (β̂λ ) in λ = 0 unstetig ist. Substituiert man beide Schätzer in der Log-Likelihood Funktion (1.5) und lässt darin alle konstanten Terme weg, so erhält man die Profile (Log-) Likelihood Funktion { ∑ − n2 log SSEλ (β̂λ ) + n log |λ| + (λ − 1) i log yi , falls λ ̸= 0, pl(λ) = l(λ, β̂λ , σ̂λ ) = (1.6) ∑ − n2 log SSE0 (β̂0 ) − i log yi , falls λ = 0. )−1/2 (∑ n 2 ⊤ . β̂ ) (y − x Für λ = 1 resultiert z.B. pl(1) = −(n/2) log SSE1 (β̂1 ) = n log i 1 i=1 i Obwohl SSEλ (·) in λ = 0 unstetig ist, ist die Profile Likelihood Funktion pl(λ) stetig. Wegen ∑ (y λ − x⊤ β̂λ )2 ∑ n i i pl(λ) = − log + (λ − 1) log yi 2 λ2 i=1 i=1 n n ∑ ∑ n 2 log yi = − log ((yiλ − 1)/λ − x⊤ i β̂(λ)) + (λ − 1) 2 i=1 i=1 n ist limλ→0 pl(λ) = pl(0). n 4 KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG Wegen {2(pl(λ̂) − pl(λ0 )) ∼ χ21 } beinhaltet ein approximatives Konfidenzintervall für den Parameter λ all jene Werte von λ0 , für die pl(λ0 ) innerhalb von 12 χ21−α;1 Einheiten vom Funktionsmaximum entfernt ist (χ20.95;1 = 3.8415, χ20.99;1 = 6.6349). Ein wichtiger Aspekt dieser Variablentransformation ist, dass auf der transformierten Skala das Modell die Variation bezüglich des Erwartungswertes der (auf Normalverteilung) transformierten Variablen repräsentiert, während auf der Originalskala das Modell die Variation bezüglich des Medians der originalen Variablen darstellt. Dies sieht man am 2 einfachsten für die Log-Transformation (λ = 0). Seien log yi ∼ N (x⊤ i β, σ ), dann gilt median(log yi ) = x⊤ i β, ⊤ E(log yi ) = xi β, var(log yi ) = σ 2 . Die originalen Beobachtungen yi unterliegen selbst einer Lognormalverteilung mit median(yi ) = exp(x⊤ i β), 2 E(yi ) = exp(x⊤ i β + σ /2), ( ) 2 var(yi ) = exp(σ 2 ) − 1 exp(2x⊤ i β + σ ). Dies bedeutet, dass das additive Modell für den Erwartungswert (und daher auch für den Median) der log yi ein multiplikatives Modell für die Mediane und Erwartungswerte der yi ist. Für die Erwartungswerte von yi wurde der Intercept Term um σ 2 /2 verschoben und die Varianzen sind nicht mehr konstant. Für eine Transformation y(λ) = y λ mit λ ̸= 0, also für yiλ ∼ N (µi , σ 2 ), folgt 1/λ median(yi ) = µi , ) 1/λ ( E(yi ) ≈ µi 1 + σ 2 (1 − λ)/(2λ2 µ2i ) , 2/λ var(yi ) ≈ µi σ 2 /(λ2 µ2i ). Wiederum ist die offensichtliche Unstetigkeit zwischen λ = 0 und λ ̸= 0 in der Verwendung von y λ anstelle von (y λ − 1)/λ begründet. 1.3 Beispiel n = 31 Black Cherry Trees; verwendbares Holzvolumen V in feet3 (1 foot = 30.48 cm), Baumhöhe H in feet, Durchmesser D in inches (1 inch = 2.54 cm) auf einer Höhe von 4.5 feet über dem Boden. Das Modell sollte das verwendbare Holzvolumen V aus den leicht zu messenden Größen H und D vorhersagen. > %in% > attach(trees); plot(H, V); plot(D, V) # Krümmung (falsche Skala?) > mod <- lm(V ~ D + H) V 40 20 20 40 V 60 5 60 1.3. BEISPIEL 8 10 12 14 16 18 20 65 70 75 80 85 H 0 r 0.15 0.05 -5 0.10 leverages 5 0.20 D 0 5 10 15 20 25 30 Index 8 10 12 14 16 18 20 D Abbildung 1.1: Oben: Volumen gegen Durchmesser (links) und Volumen gegen Höhe (rechts). Unten: Diagonalelemente der Hatmatrix (links) und Residuen gegen Durchmesser (rechts) unter dem linearen Modell für V . Coefficients: (Intercept) H D -57.98766 0.3392512 4.708161 Degrees of freedom: 31 total; 28 residual Residual standard error: 3.881832 > > > > > plot(lm.influence(mod)$hat, ylab = "leverages") # 2 Hebelpunkte abline(2*mod$rank/length(V), 0); abline(v = c(20, 31)) plot(residuals(mod), D); abline(0, 0) # Senke in der Mitte library(MASS, help=T) boxcox(V ~ D + H, lambda = seq(0.0, 0.6, len=18)) # max = -76.08 Das Maximum der Profile Likelihood Funktion tritt in der Nähe von λ = 0.3 auf. Das approximative 95% Konfidenzintervall ist sehr klein, etwa (0.12, 0.49), und beinhaltet weder die Null noch die Eins. Es liegt in der Natur einer Volumenmessung, dass sich diese kubisch bezüglich den linearen Größen Höhe und Durchmesser verhält. Daher erscheint es auch sinnvoll, die Kubikwurzel des Volumens als Response zu verwenden. > plot(D, V**(1/3)) # Krümmung beseitigt KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG 3.5 V^(1/3) 3.0 2.5 -79 -78 95% -80 log-Likelihood -77 4.0 -76 6 0.0 0.1 0.2 0.3 0.4 0.5 0.6 8 10 12 14 16 18 20 D mu^3 V 40 20 20 40 60 60 80 lambda 20 40 60 80 20 mu^3 40 60 80 mu^3 * (1 + (3 * s2)/mu^2) Abbildung 1.2: Oben: Profile Likelihood Schätzung von λ bei der Box-Cox Transformation 1/3 (links) und Durchmesser gegen die yi (rechts). Unten: Gefittete Mediane gegen originale Beobachtungen V (links) und gefittete Mediane gegen gefittete Means (rechts). > mod1 <- lm(V**(1/3) ~ H + D) Coefficients: (Intercept) H D -0.08538814 0.01447169 0.1515163 Degrees of freedom: 31 total; 28 residual Residual standard error: 0.08282697 Die gefitteten Mediane von V unter diesem obigen Modell für µ1/3 = E(y 1/3 ) (mit festem 2 λ = 1/3) sind µ̂31/3 , und die gefitteten Erwartungswerte sind etwa µ̂31/3 (1 + 3σ̂1/3 /µ̂21/3 ). Diese können mit den Beobachtungen y verglichen werden. > > > > mu <- fitted(mod1) s2 <- deviance(mod1)/mod1$df.residual plot(mu**3, V) # Median Modell plot(mu**3*(1+3*s2/mu**2), mu**3) # Median/Mean Andere technische Überlegungen ergeben alternative Modelle. Die unerwünschte Krümmung in der Abbildung 1.1 kann auch durch logarithmische Transformation aller Variablen 7 -77 -78 95% 2.5 -80 -79 3.0 log(V) 3.5 log-Likelihood -76 4.0 -75 1.3. BEISPIEL 2.2 2.4 2.6 2.8 3.0 -0.2 -0.1 log(D) 0.0 0.1 0.2 lambda Abbildung 1.3: Links: log V linear abhängig von log D. Rechts: Profile Likelihood Funktion für V modelliert durch log H + log D. entfernt werden. Dies legt eine Regression von auf log(D) und log(H) nahe. Soll man jetzt jedoch auf der log(V ) Achse modellieren? > plot(log(D), log(V)); lm(log(V) ~ log(D) + log(H)) Coefficients: (Intercept) log(D) log(H) -6.631617 1.98265 1.117123 Degrees of freedom: 31 total; 28 residual Residual standard error: 0.08138607 > boxcox(V ~ log(H) + log(D), lambda = seq(-0.25, 0.25, len = 10)) Die Profile Likelihood Schätzung bei der Box-Box Transformation liefert ein Maximum bei −0.07 und ein 95% Konfidenzintervall von (−0.24, 0.11), welches zwar die Null (logarithmische Transformation), aber nicht mehr die Kubikwurzeltransformation λ = 1/3 oder die Identität λ = 1 beinhaltet. Beide Modelle liefern annähernd dieselben Maxima der Profile Likelihood Funktionen. Welches der beiden ist nun das bessere? Wir können sie durch einen Likelihood Quotienten Test miteinander vergleichen. Dazu werden die Modelle eingebettet in die Familie V ∗ ∼ N (β1 + β2 H ∗ + β3 D∗ , σ 2 ) V ∗ = (V λV − 1)/λV H ∗ = (H λH − 1)/λH D∗ = (DλD − 1)/λD Wir vergleichen nun die maximale Likelihood bezüglich λV = 1/3, λH = λD = 1 mit der maximalen Likelihood des Modells λV = λH = λD = 0. Alle übrigen Parameter sind hierbei nuisance Parameter und die Likelihood Funktion wird über diese in beiden Modellen maximiert. > boxcox(V ~ H + D, lambda = 1/3, plotit=FALSE) 8 KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG $x: 0.3333333 $y: -76.12156 > boxcox(V ~ log(H) + log(D), lambda = 0, plotit=FALSE) $x: 0 $y: -75.33877 Die doppelte Differenz der beiden Maxima beträgt nur −2 ∗ (−76.122 + 75.339) = 1.566, was nicht signifikant verglichen mit χ23 ist. Daher können wir auch nicht überzeugend eines der beiden Modelle wählen. Bemerke aber, dass der Koeffizient für log H nahe bei Eins (1.117) liegt und der zu log D fast Zwei (1.983) ist. Nimmt man an, dass man einen Baum durch einen Zylinder oder Kegel beschreiben kann, so wäre sein Volumen πd2 h/4 (Zylinder) oder πd2 h/12 (Kegel). In beiden Fällen hätte man ein Modell der Form log V = c + log H + 2 log D mit c = log(π/4) (Zylinder) oder c = log(π/12) (Kegel). Jedoch beziehen sich die obigen Überlegungen auf Messungen auf der gleichen Skala. Wir konvertieren daher zuerst D von inches auf feet, d.h. wir betrachten D/12. Als Intercept resultiert −1.705. > lm(log(V) ~ log(D/12) + log(H)) Coefficients: (Intercept) log(D/12) log(H) -1.704917 1.98265 1.117123 Degrees of freedom: 31 total; 28 residual Residual standard error: 0.08138607 Nun fixiert man die beiden Koeffizienten und betrachtet das Modell log V = β1 + log H + 2 log(D/12) Hierbei bezeichnet man 1×[log H +2 log(D/12)] als offset (ein Term mit festem Parameter Eins) und es muss nur noch β1 geschätzt werden. > mod3 <- lm(log(V) ~ 1 + offset(2*log(D/12) + log(H))) > summary(mod3) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.19935 0.01421 -84.42 <2e-16 *** Residual standard error: 0.0791 on 30 degrees of freedom > log(pi/4) [1] -0.2415645 > log(pi/12) [1] -1.340177 Das Holzvolumen eines Baums kann daher eher durch ein Kegelvolumen als durch das eines Zylinders beschrieben werden, hat jedoch ein etwas größeres Volumen als ein Kegel. Kapitel 2 Die Exponentialfamilie Beim Linearen Modell (LM) wird angenommen, dass die abhängigen Variablen (Responses) yi stochastisch unabhängige, normalverteilte Größen sind mit Erwartungen µi = x⊤ i β 2 und konstanter Varianz σ . In manchen Situationen ist die Annahme einer Normalverteilung sicherlich sehr künstlich und nur schwer zu vertreten. Man denke hierbei nur an Modelle für absolute Häufigkeiten oder relative Anteile. Weiters gibt es datengenerierende Mechanismen, die für größere Erwartungswerte auch größere Variabilität induzieren. Hierzu zählen beispielsweise Modelle für konstante Variationskoeffizienten. Da bei einem LM alle Erwartungswerte auf einer Ebene im p-dimensionalen Raum liegen, ist ein solches LM für nicht-negative oder speziell für binäre Responses sicherlich unpassend. Wir wollen nun wegen all dieser Schwachstellen die Klasse der Generalisierten Linearen Modelle (GLM) betrachten, die gerade bezüglich der oben angeführten Restriktionen flexible Verallgemeinerungen anbieten. So wird beim klassischen GLM statt der Normalverteilung eine Verteilung aus der einparametrigen Exponentialfamilie angenommen und dadurch die Varianz als Funktion des Erwartungswertes modelliert (V ar(yi ) = V (µi )). Darüberhinaus wird der Erwartungswert nicht ausschließlich direkt linear modelliert, sondern der lineare Prädiktor ηi = x⊤ i β entspricht einer bekannten Funktion g(µi ), der Linkfunktion. Bevor nun die Exponentialfamilie eingeführt wird, soll an die wesentlichsten Eigenschaften von Score-Funktionen und Informations-Matrizen bei der Maximum-Likelihood Schätzung erinnert werden. Dazu bezeichne f (y, θ) die Wahrscheinlichkeitsfunktion oder Dichtefunktion von y mit unbekannten Parametern θ. Satz 2.1 Für die Ableitung der Log-Likelihood Funktion, d.h. für die Score-Funktion gilt: ( ) ∂ log f (y, θ) E = 0, ∂θ ( 2 ) ( )2 ∂ log f (y, θ) ∂ log f (y, θ) = E − . E ∂θ ∂θ2 9 (2.1) (2.2) 10 KAPITEL 2. DIE EXPONENTIALFAMILIE Mit ∂ log f (y, θ) 1 ∂f (y, θ) = ∂θ f (y, θ) ∂θ ∫ und f (y, θ)dy = 1 R folgt (2.1), denn ( ) ) ∫ ( ∫ ∂f (y, θ) 1 ∂f (y, θ) ∂ ∂ log f (y, θ) =E = E dy = f (y, θ)dy = 0 . ∂θ ∂θ f (y, θ) ∂θ ∂θ R R Weiters ergibt sich (2.2) mittels Kettenregel ( 2 ) ( 2 ) ∂ log f (y, θ) ∂ f (y, θ) 1 ∂f (y, θ) ∂f (y, θ) 1 E − = E − + ∂θ2 ∂θ2 f (y, θ) ∂θ ∂θ f (y, θ)2 ∫ 2 ∫ ∂ f (y, θ) ∂ log f (y, θ) ∂ log f (y, θ) = − dy + f (y, θ)dy 2 ∂θ ∂θ ∂θ R R ( )2 ∂ log f (y, θ) = E . ∂θ Diese Likelihood-Eigenschaften gelten natürlich gerade auch für die Exponentialfamilie, die jetzt definiert wird. Definition 2.1 Eine Zufallsvariable y sei aus einer Verteilung mit Dichte- oder Wahrscheinlichkeitsfunktion ( ) yθ − b(θ) f (y, θ) = exp + c(y, ϕ) a(ϕ) für spezielle bekannte Funktionen a(·), b(·) und c(·) mit a(ϕ) > 0. Kann ϕ als feste Größe betrachtet werden, so bezeichnet man f (y, θ) als einparametrige Exponentialfamilie mit kanonischem Parameter θ. Mit (2.1) resultiert bei der Exponentialfamilie ( ) ( ) 1 ∂ log f (y, θ) = E y − b′ (θ) = 0 E ∂θ a(ϕ) also E(y) = b′ (θ) , und mit (2.2) folgt ) ( ( 2 )2 ∂ log f (y, θ) 1 ′′ 1 ∂ log f (y, θ) +E =− b (θ) + 2 var(y) = 0 . E 2 ∂θ ∂θ a(ϕ) a (ϕ) Diese zwei Identitäten ergeben unmittelbar die beiden ersten Momente (Kumulanten) der Exponentialfamilie E(y) = b′ (θ) var(y) = a(ϕ)b′′ (θ) . 11 Kumulanten höherer Ordnung bestimmt man einfacher mit der Kumulantenerzeugenden Funktion K(t) = log M (t), wobei M (t) die Momentenerzeugende bezeichnet. Die k-te Kumulante κk ist nun gegeben durch K (k) (t)|t=0 und steht mit dem k-ten Moment in einer einfachen Beziehung, denn κ1 (y) κ2 (y) κ3 (y) κ4 (y) = = = = E(y) E(y − µ)2 E(y − µ)3 E(y − µ)4 − 3var2 (y) . Für die Exponentialfamilie gilt ( ∫ 1= exp R ) ( )∫ ) ( yθ − b(θ) b(θ) y + c(y, ϕ) dy = exp − θ + c(y, ϕ) dy , exp a(ϕ) a(ϕ) a(ϕ) R woraus ( exp b(θ) a(ϕ) ) ( ∫ = exp R ) y θ + c(y, ϕ) dy a(ϕ) folgt. Die Momentenerzeugende ist daher gegeben durch ( ) ( )∫ ) y ( b(θ) exp θ + a(ϕ)t + c(y, ϕ) dy M (t) = E(e ) = exp − a(ϕ) a(ϕ) R ) ) ( ( ( ) b θ + a(ϕ)t − b(θ) b θ + a(ϕ)t b(θ) = exp , = exp − exp a(ϕ) a(ϕ) a(ϕ) ty und als Kumulantenerzeugende Funktion resultiert K(t) = log M (t) = ( ) b θ + a(ϕ)t − b(θ) a(ϕ) . Die k-te Kumulante von y, κk (y), ist somit ( ) κk (y) = K (k) (t)|t=0 = a(ϕ)k−1 b(k) θ + a(ϕ)t = a(ϕ)k−1 b(k) (θ) . (2.3) t=0 Sei E(y) = b′ (θ) = µ und var(y) = a(ϕ)b′′ (θ) = a(ϕ)V (µ). Die Varianz von y ist also ein Produkt zweier Funktionen: V (µ) hängt ausschließlich vom Erwartungswert µ ab und a(ϕ) ist von µ unabhängig. V (µ) nennt man Varianzfunktion, während ϕ als Dispersionsparameter bezeichnet wird. Die Funktion b(θ) wird Kumulantenfunktion genannt. 12 2.1 KAPITEL 2. DIE EXPONENTIALFAMILIE Maximum Likelihood Schätzung Liegt eine n-elementige Zufallsstichprobe y1 , . . . , yn aus der Exponentialfamilie vor, so ist der Maximum Likelihood Schätzer von µ die Lösung der Score-Funktion n ∑ ∂ log f (yi , θ) ∂µ i=1 = n ∑ ∂ log f (yi , θ) ∂θ ∂θ i=1 ∂µ = n ∑ yi − b′ (θ) ∂θ i=1 a(ϕ) ∂µ . Mit b′ (θ) = µ und wegen ∂µ ∂b′ (θ) = = b′′ (θ) = V (µ) ∂θ ∂θ vereinfacht sich die obige Score-Funktion zu n ∑ ∂ log f (yi , θ) i=1 ∂µ n n ∑ ∑ yi − µ yi − µ = = . a(ϕ)V (µ) var(y) i=1 i=1 (2.4) Diese recht simple Form resultiert bei der Exponentialfamilie nur bezüglich der Ableitung nach µ. Sie entspricht der Ableitung der Fehlerquadratsumme beim Linearen Modell mit var(yi ) = σ 2 . Generell könnten wir annehmen, dass beobachtungsspezifische ai (·) vorliegen, es aber nur einen globalen Dispersionsparameter ϕ gibt. Falls speziell ai (ϕ) = ai · ϕ mit bekannten Gewichten ai , hängt der Maximum Likelihood Schätzer µ̂ nicht mehr von ϕ ab. 2.2 Mitglieder der Exponentialfamilie Wir werden nun einige wichtige Mitglieder dieser Verteilungsfamilie kennen lernen. Dabei wird eine Parametrisierung verwendet, die den Erwartungswert immer durch µ bezeichnet. Die Varianzen sind dadurch oft proportional zu Potenzen von µ. • Die Normalverteilung y ∼ N (µ, σ 2 ): ( ) 1 (y − µ)2 2 f (y, µ, σ ) = √ exp − 2σ 2 2πσ 2 ) ( y2 1 yµ − µ2 /2 2 − 2 − log(2πσ ) , y ∈ R. = exp σ2 2σ 2 Setzen wir nun θ = µ und ϕ = σ 2 , so führt dies zur Exponentialfamilie mit a(ϕ) = ϕ , b(θ) = θ2 /2 , c(y, ϕ) = − 1 y2 − log(2πϕ) , 2ϕ 2 und mittels (2.3) zu E(y) = b′ (θ) = θ = µ var(y) = a(ϕ)b′′ (θ) = ϕ · 1 = σ 2 κk (y) = 0 für k > 2 . 2.2. MITGLIEDER DER EXPONENTIALFAMILIE 13 • Die Poissonverteilung y ∼ P (µ): f (y, µ) = µy −µ e = exp (y log µ − µ − log y!) , y! y = 0, 1, 2, . . . . Mit θ = log µ und festem ϕ = 1 führt dies zur Exponentialfamilie mit a(ϕ) = ϕ , b(θ) = exp(θ) , c(y, ϕ) = − log y! , und mittels (2.3) zu den Kumulanten E(y) = b′ (θ) = exp(θ) = µ var(y) = a(ϕ)b′′ (θ) = exp(θ) = µ κk (y) = exp(θ) = µ für k > 2 . • Die Gammaverteilung y ∼ G(a, λ): f (y, a, λ) = exp(−λy)λa y a−1 1 , Γ(a) a, λ, y > 0 . Damit gilt E(y) = a/λ und V ar(y) = a/λ2 . Die Reparametrisierung µ = ν/λ mit ν = a liefert E(y) = µ und V ar(y) = µ2 /ν. Die entsprechende Dichtefunktion lautet damit ) ( )ν ( ν 1 ν y ν−1 f (y, µ, ν) = exp − y µ µ Γ(ν) ( ) ν = exp − y + ν log ν − ν log µ + (ν − 1) log y − log Γ(ν) µ ( ) y − µ1 + log µ1 = exp + ν log ν + (ν − 1) log y − log Γ(ν) , 1/ν µ, ν, y > 0 . Mit θ = −1/µ und ϕ = 1/ν führt dies zur Exponentialfamilie mit a(ϕ) = ϕ , b(θ) = − log(−θ) , 1 1 c(y, ϕ) = log + ϕ ϕ ( ) ( ) 1 1 − 1 log y − log Γ ϕ ϕ und mittels (2.3) zu den Kumulanten 1 E(y) = b′ (θ) = − = µ θ 1 1 ′′ var(y) = a(ϕ)b (θ) = ϕ 2 = µ2 θ ν ( µ )k κk (y) = (k − 1)! ν für k > 2 . ν 14 KAPITEL 2. DIE EXPONENTIALFAMILIE • Die Invers-Gaussverteilung y ∼ IG(µ, σ 2 ): ( ( )2 ) 1 y−µ 1 2 f (y, µ, σ ) = √ exp − 2 2σ y µ 2πσ 2 y 3 ( 2 ) ( ) y − 2yµ + µ2 1 2 3 = exp − − log 2πσ y 2σ 2 yµ2 2 ) ( y − 2µ1 2 + µ1 ( ) 1 1 − 2 − log 2πσ 2 y 3 , = exp 2 σ 2σ y 2 y > 0. Mit θ = − 2µ1 2 , (µ = (−2θ)−1/2 ) und ϕ = σ 2 ergibt dies eine Exponentialfamilie mit ( ) ( ) 1 1 1/2 3 a(ϕ) = ϕ, b(θ) = −(−2θ) , c(y, ϕ) = − + log 2πϕy 2 ϕy und mittels (2.3) zu den Kumulanten E(y) = b′ (θ) = (−2θ)−1/2 = µ, var(y) = a(ϕ)b′′ (θ) = ϕ(−2θ)−3/2 = σ 2 µ3 , κ3 (y) = 3σ 4 µ5 , κ4 (y) = 15σ 6 µ7 . • Die standardisierte Binomialverteilung my ∼ B(m, π): ( ) m f (y, m, π) = P (Y = y) = P (mY = my) = π my (1 − π)m−my my ) ( ( ) m + my log π + m(1 − y) log(1 − π) = exp log my ( ( )) π 1 y log 1−π − log 1−π m 1 2 = exp + log , y = 0, , , . . . , 1. 1/m my m m π Mit θ = log 1−π , (π = eθ /(1 + eθ )) und ϕ = 1/m ist dies eine Exponentialfamilie mit (1) 1 a(ϕ) = ϕ, b(θ) = log = log(1 + exp(θ)), c(y, ϕ) = log ϕy , 1−π ϕ und mittels (2.3) zu den Kumulanten exp(θ) = π, 1 + exp(θ) exp(θ) 1 var(y) = a(ϕ)b′′ (θ) = ϕ = π(1 − π) , 2 (1 + exp(θ)) m 1 1 κ3 (y) = (1 − 2π)π(1 − π) , κ4 (y) = 3 (1 − 6π(1 − π))π(1 − π) . 2 m m Das m-fache von y ist eine binomialverteilte Größe, y selbst ein relativer Anteil. E(y) = b′ (θ) = 2.3. DIE QUASI-LIKELIHOOD FUNKTION 2.3 15 Die Quasi-Likelihood Funktion Betrachtet man die Score-Funktion (2.4) zur Exponentialfamilie, so erkennt man, dass der Maximum-Likelihood Schätzer µ̂ nur von der zugrundeliegenden Varianzannahme abhängt. In diesem Abschnitt wird nun untersucht, welche Eigenschaften ein Schätzer für µ aufweist, falls die Score-Funktion auch für Varianzannahmen verwendet wird, die keinen Mitgliedern aus der Exponentialfamilie gehören. Generell spricht man dann von einer Quasi-Score-Funktion. Ohne Verlust der Allgemeinheit wollen wir dazu annehmen, dass die Dispersion gegeben ist durch a(ϕ) = ϕ. Definition 2.2 Für eine Zufallsvariable y mit E(y) = µ und var(y) = ϕV (µ) (mit a(ϕ) = ϕ) und bekannter Varianzfunktion V (·) ist die Quasi-Likelihood-Funktion q(y, µ) (eigentlich Log-Quasi-Likelihood-Funktion) definiert über die Beziehung ∂q(y, µ) y−µ = , ∂µ ϕV (µ) (2.5) oder äquivalent dazu durch ∫ q(y, µ) = µ y−t dt + Funktion in y (und ϕ). ϕV (t) (2.6) Die Ableitung ∂q/∂µ wird als Quasi-Score-Funktion bezeichnet. Verglichen mit (2.1) und (2.2) hat sie folgende Eigenschaften mit der Score-Funktion gemeinsam ( ) ∂q(y, µ) E = 0, ∂µ ( ) ( 2 ) ∂q(y, µ) ∂ q(y, µ) var(y) 1 var = = = −E . ∂µ ϕ2 V 2 (µ) ϕV (µ) ∂µ2 (2.7) (2.8) Satz 2.2 Wedderburn (1974): Für eine Beobachtung y mit E(y) = µ und var(y) = ϕV (µ) hat die Log-Likelihood Funktion l(y, µ) = log f (y, µ) die Eigenschaft y−µ ∂l(y, µ) = , ∂µ ϕV (µ) dann und nur dann, wenn die Dichte bzw. Wahrscheinlichkeitsfunktion von y in der Form ( exp ) yθ − b(θ) + c(y, ϕ) ϕ geschrieben werden kann, wobei θ eine Funktion von µ und ϕ unabhängig von µ ist. 16 KAPITEL 2. DIE EXPONENTIALFAMILIE ⇒: Integration bezüglich µ liefert ∫ ∫ ∂l(y, µ) y−µ l(y, µ) = dµ = dµ ∂µ ϕV (µ) ∫ ∫ y 1 1 µ = dµ − dµ ϕ V (µ) ϕ V (µ) | {z } | {z } θ = b(θ) yθ − b(θ) + c(y, ϕ). ϕ ⇐: Mit (2.3) folgt für die Kumulanten der einparametrigen Exponentialfamilie (a(ϕ) = ϕ) E(Y ) = µ = b′ (θ) und var(Y ) = ϕV (µ) = ϕb′′ (θ). Es gilt daher dµ db′ (θ) = = b′′ (θ) = V (µ). dθ dθ Da aber l(y, µ) = (yθ − b(θ))/ϕ + c(y, ϕ) und θ eine Funktion von µ ist, folgt ∂l(y, µ) y dθ b′ (θ) dθ = − ∂µ ϕ dµ ϕ dµ y−µ = . ϕV (µ) Mit dieser Konstruktionsidee wird für einige Varianzfunktionen der assoziierte Parameter θ hergeleitet, sowie die Quasi-Likelihood-Funktionen bestimmt. • V (µ) = 1, ϕ = σ 2 , y, µ ∈ R, (d.h. y ∼ N (µ, σ 2 )): ∫ θ = dµ = µ, ∫ µ y−t (y − µ)2 q(y, µ) = dt + Funktion in y = − . σ2 2σ 2 • V (µ) = µ, 0 < µ, 0 ≤ y, (d.h. y ∼ P (µ)): ∫ 1 dµ = log µ, θ = µ ∫ µ y−t q(y, µ) = dt = y log µ − µ. t • V (µ) = µ2 , 0 < µ, 0 ≤ y, (d.h. y ∼ G(µ, 1)): ∫ 1 1 dµ = − , θ = µ2 µ ∫ µ y−t y q(y, µ) = dt = − log µ. 2 t µ 2.3. DIE QUASI-LIKELIHOOD FUNKTION 17 • V (µ) = µ3 , 0 < µ, 0 ≤ y, (d.h. y ∼ IG(µ, 1)): ∫ 1 1 dµ = − 2 , 3 µ 2µ ∫ µ y−t y 1 q(y, µ) = dt = − 2 + . 2 t 2µ µ θ = • V (µ) = µk , 0 < µ, 0 ≤ y, k ≥ 3: ∫ 1 1 dµ = − , k µ (k − 1)µk−1 ( 2 ) ∫ µ y−t 1 µ yµ . q(y, µ) = dt = k − tk µ k−2 k−1 θ = • V (µ) = µ(1 − µ), 0 < µ < 1, 0 ≤ y ≤ 1, (d.h. mY ∼ B(m, µ)): ∫ µ 1 dµ = log , µ(1 − µ) 1−µ ∫ µ y−t µ q(y, µ) = dt = y log + log(1 − µ). t(1 − t) 1−µ θ = • V (µ) = µ2 (1 − µ)2 , 0 < µ < 1, 0 ≤ y ≤ 1: ∫ θ = ∫ q(y, µ) = 1 µ 1 1 dµ = 2 log − + , 2 − µ) 1−µ µ 1−µ y−t µ y 1−y dt = (2y − 1) log − − . 2 2 t (1 − t) 1−µ µ 1−µ µ2 (1 µ • V (µ) = µ + µ2 /k, 0 < µ, 0 ≤ y, 0 < k, (d.h. y ∼ N egB(k, µ)): ∫ 1 µ dµ = log , 2 µ + µ /k k+µ ∫ µ µ 1 y−t dt = y log + k log . q(y, µ) = 2 t + t /k k+µ k+µ θ = Während die ersten vier (Normal-, Poisson-, Gamma- und Inverse Gaußverteilung) und das sechste Beispiel (standardisierte Binomialverteilung) zu bereits bekannten Mitgliedern der Exponentialfamilie führen, stellen das fünfte sowie das siebente (speziell für Modelle für Prozentsätze) und achte Beispiel (Negativ-Binomialverteilung) neue (nicht in der Exponentialfamilie inkludierte) Varianzfunktionen dar. Hängt die Varianzfunktion von einem k ab, so muss diese Größe beim Quasi-Likelihood-Ansatz als fest betrachtet werden. Es besteht (noch) keine Möglichkeit, k simultan mit µ zu schätzen. 18 2.3.1 KAPITEL 2. DIE EXPONENTIALFAMILIE Quasi-Dichten Natürlich ist durch die Spezifikation einer Erwartungswert/Varianz-Beziehung auch eine Dichtefunktion spezifizierbar. Aus der (Log)-Quasi-Likelihood Funktion folgt mit der Normalisierungsfunktion ∫ ω(µ) = exp(q(y, µ))dy R als Quasi-Dichte (siehe dazu Nelder & Lee (1992)) fq (y, µ) = exp(q(y, µ)) . ω(µ) (2.9) ω(µ) ist ungleich 1, wenn die Varianz ϕV (µ) zu keiner Verteilung mit Dichte oder Wahrscheinlichkeitsfunktion aus der Exponentialfamilie gehört. Andererseits ist ω(µ) = 1, ∀µ, falls zur Varianz eine Exponentialfamilie existiert. Zur Quasi-Dichte (2.9) korrespondiert nun die Log-Likelihood Funktion lq (y, µ) = log(fq (y, µ)) = q(y, µ) − log(ω(µ)) und ∂lq (y, µ) ∂q(y, µ) ∂ log(ω(µ)) = − . ∂µ ∂µ ∂µ Dieser Score unterscheidet sich vom Quasi-Score genau um ∫ ∂ log(ω(µ)) ∂ exp(q(y, µ)) 1 ∂ω(µ) 1 = = dy ∂µ ω(µ) ∂µ ω(µ) ∂µ ∫ ∫ 1 ∂q(y, µ) y − µ exp(q(y, µ)) = exp(q(y, µ))dy = dy ω(µ) ∂µ ϕV (µ) ω(µ) ) ( ∫ y−µ y−µ µq − µ = fq (y, µ)dy = Eq = . ϕV (µ) ϕV (µ) ϕV (µ) ∫ Hierbei bezeichnet µq = yfq (y, µ)dy den Quasi-Mean von y. Falls µq − µ verglichen mit y − µ sehr klein ist, bedeutet dies, dass der Maximum-Quasi-Likelihood Schätzer sehr nahe dem Maximum-Likelihood Schätzer bezüglich der Quasi-Verteilung ist. Kapitel 3 Das Generalisierte Lineare Modell Unter Annahme der Existenz von E(yi ) und var(yi ) wird in der Klasse der Generalisierten Linearen Modelle (GLM) eine Parametrisierung der Form ind stochastische Komponente: yi ∼ Exponentialfamilie(θi ), E(yi ) = µi = µ(θi ) systematische Komponente: ηi = x⊤ i β Linkfunktion: g(µi ) = ηi betrachtet, wobei der Zufallsvektor y = (y1 , . . . , yn )⊤ aus unabhängigen Komponenten yi aufgebaut ist mit E(yi ) = µi und var(yi ) = ϕi V (µi ). Die Dispersionsparameter ϕi sind gerade die Größen ai (ϕ) von zuvor. Es bezeichnet im weiteren xi = (xi1 , . . . , xip )⊤ den Vektor von bekannten erklärenden Variablen, zusammengefasst zu einer Designmatrix X = (x1 , . . . , xn )⊤ , β = (β1 , . . . , βp )⊤ den Vektor mit den unbekannten Parametern, η = (η1 , . . . , ηn )⊤ den Vektor mit den Linearen Prädiktoren und g(·) eine bekannte Linkfunktion. Die wesentlichen Unterschiede zum herkömmlichen Linearen Modell sind: • Es besteht keine allgemeine Additivität bezüglich nicht-beobachtbarer Fehlerterme ϵi wie beim Linearen Modell, • Eine Abhängigkeit der Varianzstruktur auch vom Erwartungswert ist möglich, • Eine Funktion des Erwartungswertes wird linear modelliert. Dies ist keinesfalls zu verwechseln mit einer einfachen Transformation der Responsevariablen. Unser Hauptinteresse liegt nun in der Konstruktion eines Schätzers für den Parametervektor β, sowie an einem Maß für die Güte der Modellanpassung. Beides ist für MaximumLikelihood-Schätzer besonders einfach und stellt nur eine Verallgemeinerung der Resultate für Lineare Modelle dar. 19 20 3.1 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL Maximum-Likelihood-Schätzungen Falls y1 , . . . , yn unabhängige Responses sind und die yi aus derselben Exponentialfamilie stammen mit Parameter (θi , ϕi ), wobei der Vektor θ = (θ1 , . . . , θn )⊤ die unbekannten Parameter beschreibt welche geschätzt werden sollen, und ϕ = (ϕ1 , . . . , ϕn )⊤ aus (vorerst) bekannten (nuisance) Komponenten besteht, so ist die Log-Likelihood Funktion der Stichprobe gegeben durch ) n ( ∑ yi θi − b(θi ) l(y, θ) = + c(yi , ϕi ) . ϕi i=1 Unter der recht allgemeinen Annahme µ = µ(β) folgt aus (2.4) die Score-Gleichung ∂l(y, θ(β)) ∑ yi − µi ∂µi = = 0, ∂βj ϕ V (µ ) ∂β i i j i=1 n j = 1, . . . , p. Mit der Definition des linearen Prädiktors gilt beim GLM ∂µ ∂µ ∂η ∂µ x = = x= ′ ∂β ∂η ∂β ∂g(µ) g (µ) und deshalb ∂l(y, θ(β)) ∑ yi − µi xij = = 0, ′ (µ ) ∂βj ϕ V (µ ) g i i i i=1 n j = 1, . . . , p. (3.1) Den speziellen Link g(µ) = θ nennt man die kanonische Linkfunktion. Hierbei wird der Parameter θ direkt durch den linearen Prädiktor η modelliert. In diesem Fall ist g(·) die Inverse von b′ (·) und wegen µ = b′ (θ) folgt g ′ (µ) = ∂g(µ) ∂θ 1 1 = = ′′ = . ∂µ ∂µ b (θ) V (µ) Die Score-Gleichung (3.1) vereinfacht sich für eine kanonische Linkfunktion zu ∂l(y, θ(β)) ∑ yi − µi = xij = 0, ∂βj ϕi i=1 n j = 1, . . . , p. (3.2) Für ϕi = ϕ (identische Dispersion) gilt hier bei Modellen mit einem Intercept (xi1 = 1, ∀i) n ∑ i=1 yi = n ∑ µi . i=1 Der Maximum-Likelihood-Schätzer β̂ ist also für den allgemeinen Fall als Lösung des Gleichungssystems (3.1) oder im kanonischen Fall durch (3.2) definiert. Beide Systeme 3.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNGEN 21 können nur iterativ gelöst werden. Einzige Ausnahme bildet das lineare Modell, in dem µ linear in β ist. Für alle anderen Situationen ist µ = g −1 (x⊤ β). Die Newton-Raphson Methode liefert die Iterationsvorschrift β (t+1) =β (t) ( 2 )−1 ∂l(y, θ(β)) ∂ l(y, θ(β)) + − , ⊤ ∂β∂β ∂β t = 0, 1, . . . , (3.3) wobei beide Ableitungen der rechten Seite von (3.3) an der Stelle β (t) betrachtet werden. In Matrixnotation folgt für den Scorevektor ∂l(y, θ(β)) = X ⊤ DW (y − µ), ∂β mit D = diag(di ) und W = diag(wi ), wobei di = g ′ (µi ), 1/wi = ϕi V (µi )(g ′ (µi ))2 . Als negative Hessematrix der Log-Likelihood Funktion resultiert somit ( ) ∂ 2 l(y, θ(β)) ∂DW ∂µ ⊤ − = −X (y − µ) − DW ⊤ X ∂β∂β ⊤ ∂η ⊤ ∂η ( ) ∂DW = X⊤ W − (y − µ) X, ∂η ⊤ wegen ∂µ/∂η = D−1 . Weiters ist i i ′ g (µi ) + ϕi V (µi )g ′′ (µi ) ∂µ ϕi V ′ (µi ) ∂µ ∂di wi ∂ηi ∂ηi = − ∂ηi (ϕi V (µi )g ′ (µi ))2 V ′ (µi )g ′ (µi ) + V (µi )g ′′ (µi ) = − . ϕi V 2 (µi )g ′ 3 (µi ) Fasst man die Elemente wi∗ = wi − (3.4) ∂di wi (yi − µi ) ∂ηi zusammen zur Diagonalmatrix W ∗ , für die E(W ∗ ) = W gilt, so resultiert als NewtonRaphson Vorschrift β (t+1) = β (t) + (X ⊤ W ∗ X)−1 X ⊤ DW (y − µ), t = 0, 1, . . . . (3.5) Mit sogenannten Pseudobeobachtungen (adjusted dependent variates) z = Xβ + W ∗−1 DW (y − µ) (3.6) 22 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL kann (3.5) umgeschrieben werden in eine Iterative (Re)Weighted Least Squares Notation (IWLS- oder IRLS-Prozedur) β (t+1) = (X ⊤ W ∗ X)−1 X ⊤ W ∗ z, (3.7) wobei hier die rechte Seite in β (t) betrachtet wird. Für kanonische Links (g ′ (µ) = 1/V (µ), g ′′ (µ) = −V ′ (µ)/V 2 (µ)) verschwinden die Ableitungen (3.4), da ∂di wi V ′ (µi )/V (µi ) − V ′ (µi )/V (µi ) =− =0 ∂ηi ϕi /V (µi ) und es gilt W ∗ = W . Die Pseudobeobachtungen (3.6) vereinfachen sich deshalb zu z = Xβ + D(y − µ) = Xβ + V −1 (y − µ), (3.8) mit V = diag(V (µi )), weshalb als Iterationsvorschrift β (t+1) = (X ⊤ W X)−1 X ⊤ W z (3.9) folgt. Zur Erinnerung sei noch darauf hingewiesen, dass β̂ = (X ⊤ X)−1 X ⊤ y beim linearen Modell den Least-Squares Schätzer definiert, welcher nicht iterativ gelöst werden muss (W = I). Weiters werden hier die beobachtbaren Responsevariablen y verwendet, während bei GLM’s nicht-beobachtbare Pseudobeobachtungen z diese Rolle übernehmen. Um auch für nicht-kanonische Linkfunktionen ein recht einfaches Schema zu haben, ist es üblich, anstelle der beobachteten negativen Hessematrix in (3.3) deren Erwartungswert (Informationsmatrix) zu verwenden. Da E(X ⊤ W ∗ X) = X ⊤ W X gilt, folgt bei dieser Fisher Scoring Technik wie in (3.9) wiederum als Iterationsvorschrift β (t+1) = (X ⊤ W X)−1 X ⊤ W z mit den Pseudobeobachtungen z = Xβ + D(y − µ). Dafür ist E(z) = Xβ und var(z) = Dvar(y)D = W −1 . Dies bedeutet, dass die Gewichte W gerade die reziproken Varianzen der Pseudobeobachtungen beschreiben. 3.2. ASYMPTOTISCHE EIGENSCHAFTEN DES SCHÄTZERS 3.2 23 Asymptotische Eigenschaften des Schätzers Um die asymptotischen Momente des Schätzers β̂ herzuleiten, ist es angebracht, die ScoreFunktion um den wahren Parameter β zu entwickeln. Aus ∂ log f (y, µ) ∂ 2 log f (y, µ) ∂ log f (y, µ) (β̂ − β) 0= ≈ + ∂β ∂β ∂β∂β ⊤ β β̂ β und nachdem die Ableitung durch deren Erwartungswert −X ⊤ W X ersetzt wurde, folgt β̂ − β ≈ (X ⊤ W X)−1 X ⊤ DW (y − µ). Da var(y) = (DW D)−1 ergibt sich daher E(β̂) ≈ β var(β̂) ≈ (X ⊤ W X)−1 X ⊤ DW var(y)W DX(X ⊤ W X)−1 = (X ⊤ W X)−1 , wobei W im wahren unbekannten Parameter β betrachtet ist. Fahrmeir und Kaufmann (1985) zeigten sogar, dass ) √ ( n→∞ n β̂ − β ∼ Np (0, n(X ⊤ W X)−1 ). (3.10) 3.3 Pearson Statistik Natürlich ist man nicht nur am asymptotischen Ergebnis für die Varianz-Kovarianzmatrix von β̂ interessiert, sondern möchte vor allem diese Matrix auch schätzen. Standardmäßig wird dafür der Plug-in Schätzer verwendet, d.h. der unbekannte Parameter β in W wird durch β̂ geschätzt und man erhält (ϕi = ai · ϕ) var( c β̂) = (X ⊤ W (β̂, ϕ)X)−1 . (3.11) Nun hängt W aber auch vom möglicherweise unbekannten Dispersionsparameter ϕ ab. Bei den linearen Modellen wurde σ 2 durch die biaskorrigierte mittlere Fehlerquadratsumme 1 ∑ σ̂ = (yi − µ̂i )2 n − p i=1 n 2 geschätzt. In GLM’s mit ϕi = ai · ϕ und festem Dispersionsparameter ϕ = var(yi )/ai V (µi ) ist im Falle eines bekannten Parameters β die Größe 1 ∑ (yi − µi )2 n i=1 ai V (µi ) n 24 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL erwartungstreu für ϕ. Natürlich ist β unbekannt. Deshalb verwendet man auch basierend auf die Momentenmethode als Schätzer die biaskorrigierte Größe 1 ∑ (yi − µ̂i )2 1 ϕ̂ = = X 2, n − p i=1 ai V (µ̂i ) n−p n (3.12) welche auch als mittlere (generalisierte) Pearson Statistik X 2 bezeichnet wird und in (3.11) Verwendung findet. Die einzelnen (nicht quadrierten) Summanden von X 2 yi − µ̂i ri = √ ai V (µ̂i ) nennt man Pearson Residuen. Diese entsprechen den gewöhnlichen (nicht standardisierten) Residuen yi − µ̂i beim linearen Modell. 3.4 Eigenschaften von Score und Quasi-Score Für li = log f (yi , θi (β)) resultiert mit g(µi ) = ηi = x⊤ i β ∂li yi − µi ∂µi = , ∂βj ϕi V (µi ) ∂βj ( ) ∂ 2 li 1 ∂µi ∂µi ∂ 2 µi ϕi V ′ (µi ) 1 = − + (yi − µi ) + (y − µ ) , i i ∂βj ∂βk ϕi V (µi ) (ϕi V (µi ))2 ∂βj ∂βk ϕi V (µi ) ∂βj ∂βk ( )2 ∂li ∂li yi − µi ∂µi ∂µi = , ∂βj ∂βk ϕi V (µi ) ∂βj ∂βk mit 1 ≤ j, k ≤ p und ( ) ∂li E ∂βj ( 2 ) ∂ li E ∂βj ∂βk ( ) ∂li ∂li E ∂βj ∂βk i = 1, . . . , n und es folgen dafür als Erwartungswerte = 0, 1 ∂µi ∂µi , ϕi V (µi ) ∂βj ∂βk ( 2 ) var(yi ) ∂µi ∂µi 1 ∂ li ∂µi ∂µi = = = −E . 2 (ϕi V (µi )) ∂βj ∂βk ϕi V (µi ) ∂βj ∂βk ∂βj ∂βk = − Unter der Annahme E(Yi ) = µi und var(Yi ) = ϕi V (µi ), wobei wiederum g(µi ) = x⊤ i β gilt, folgt als Quasi-Score Funktion ∂q(yi , µi (β)) ∂µi yi − µi xij ∂q(yi , µi (β)) = = . ∂βj ∂µi ∂βj ϕi V (µi ) g ′ (µi ) (3.13) Dies entspricht genau dem i-ten Summanden aus (3.1). Man spricht auch bei QuasiLikelihood Ansätzen von einer kanonischen Linkfunktion, falls g ′ (µ) = 1/V (µ) gilt, was 3.5. DEVIANCE UND QUASI-DEVIANCE 25 wiederum zum Score-Gleichungssystem (3.2) führt. Die Quasi-Likelihood Schätzung entspricht daher der Maximum-Likelihood Schätzung, vorausgesetzt dass zur angenommenen Varianz auch ein Mitglied aus der einparametrigen Exponentialfamilie existiert. Sei qi = q(yi , µi (β)) für i = 1, . . . , n, so gilt für jede Parameterkomponente ( ) ( ) ∂qi ∂qi ∂µi E = E = 0, ∂βj ∂µi ∂βj ( 2 ) ) ( 2 ∂ qi ∂µi ∂µi ∂qi ∂ 2 µi 1 ∂µi ∂µi ∂ qi = E + =− , E 2 ∂βj ∂βk ∂µi ∂βj ∂βk ∂µi ∂βj ∂βk ϕi V (µi ) ∂βj ∂βk ) (( ( ) )2 ( 2 ) ∂qi ∂qi ∂µi ∂µi 1 ∂µi ∂µi ∂ qi ∂qi E = E = = −E . ∂βj ∂βk ∂µi ∂βj ∂βk ϕi V (µi ) ∂βj ∂βk ∂βj ∂βk 3.5 Deviance und Quasi-Deviance Um die Güte der Modellanpassung zu beschreiben, betrachtet man die Log-LikelihoodQuotienten Teststatistik (likelihood ratio test) basierend auf dem aktuellen Modell mit p Parametern und einem vollen (saturiertem) Modell, in dem jeder Erwartungswert µi gerade der Beobachtung yi entspricht. Das volle Modell kann daher als Modell mit n Parametern interpretiert werden. Diese Statistik ( ) 1 D(y, µ) = −2 log f (y, µ) − log f (y, y) ϕ (3.14) wird auch skalierte Deviance genannt. Nun gilt für den Maximum-Likelihood Schätzer µ̂, welcher log f (y, µ) maximiert, dass dieser auch die Deviance minimiert, da log f (y, y) ein fester Wert unabhängig vom Parameter ist. Wie die folgenden Beispiele zeigen, ist das Maß der Deviance eine Verallgemeinerung der Fehlerquadratsumme beim linearen Modell unter Annahme normalverteilter Responses. ind Beispiel: Seien yi ∼ N (µi , σ 2 ) und σ 2 fest. So ist } n { n ∑ 1 1 (yi − µi )2 n 1 ∑ (yi − µi )2 2 2 log f (y, µ) = − log(2πσ ) − = − log(2πσ ) − 2 2 σ2 2 2 i=1 σ2 i=1 n log f (y, y) = − log(2πσ 2 ), 2 wobei die zweite Größe den maximal möglichen Wert unter dem vollen Modell beschreibt. Die minimierte skalierte Deviance ist somit (ϕ = σ 2 ) n 1 ∑ 1 1 D(y, µ̂) = 2 (yi − µ̂i )2 = 2 SSE(β̂), ϕ σ i=1 σ also eine χ2n−p -verteilte Größe mit Erwartungswert n − p. 26 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL ind Beispiel: Seien mi yi ∼ B(mi , µi ) mit yi = 0, 1/mi , 2/mi , . . . , 1, dann folgt n { ∑ ( )} µi 1 mi log f (y, µ) = mi yi log − mi log + log 1 − µ 1 − µ mi y i i i i=1 ( )} n { ∑ 1 yi mi − mi log + log log f (y, y) = mi yi log 1 − yi 1 − yi mi y i i=1 und als skalierte Deviance folgt mit ϕ = 1 und ai (ϕ) = 1/mi ) } ( n { ∑ 1 − yi 1 − yi 1 µi D(y, µ) = −2 − mi log mi yi log + log ϕ yi 1 − µi 1 − µi i=1 { } n ∑ 1 − yi yi = 2 mi (1 − yi ) log + yi log 1 − µi µi i=1 Bemerke, dass für yi = 0 oder yi = 1 unabhängig von µ der dazugehörende Teil in der Deviance-Komponente verschwindet. Entsprechend kann man auch eine Quasi-Deviance definieren als n ∫ ) ∑ D(y, µ) = −2ϕ q(y, µ) − q(y, y) = −2 ( i=1 µi yi y−t dt. V (t) (3.15) Diese Größe ist positiv außer an der Stelle y = µ. Natürlich erzeugt auch hier der Maximum-Quasi-Likelihood Schätzer die minimale Quasi-Deviance. Beispiel: Liegen Prozentwerte yi als Responses vor (d.h. man hat keine Informationen über die entsprechenden Gesamtanzahlen), für die eine standardisierte Binomialverteilungs-Variabilität µ(1 − µ) zu groß erscheint, so kann alternativ als Varianzfunktion V (µ) = µ2 (1 − µ)2 verwendet werden. Als Quasi-Likelihood Funktion erhält man für 0 < µ < 1 und 0 ≤ y ≤ 1 ∫ µ µ y 1−y y−t dt = (2y − 1) log − − . q(y, µ) = 2 2 t (1 − t) 1−µ µ 1−µ Die entsprechende Quasi-Deviance ist daher D(y, µ) = −2 n { ∑ i=1 ( 1 − yi yi ) yi − µi (2yi − 1) log − log + (2µi − 1) 1 − µi µi µi (1 − µi ) } . Bemerke, dass jetzt in yi = 0 und yi = 1 die Quasi-Deviance nicht einmal definiert ist, der Maximum-Quasi-Likelihood Schätzer β̂ in diesem Fall jedoch sehr wohl existiert. Dieser ist wiederum definiert als iterative Lösung des Quasi-Score Gleichungssystems q(y, µ(β̂)) = 0, das für die beiden kritischen Beobachtungen unproblematisch ist. 3.6. PARAMETERTESTS 3.6 27 Parametertests Wie schon bei den linearen Modellen können auch jetzt wiederum die Parameter über das Konzept der nested models (ineinandergeschachtelte Submodelle) getestet werden. Dies entspricht dem Testen von Hypothesen der Form H0 : η = βq+1 xq+1 + · · · + βp xp H1 : η = β1 x1 + · · · + βq xq + βq+1 xq+1 + · · · + βp xp (q < p) oder äquivalent dazu einem (multiplen) Test der Hypothese H0 : β 1 = · · · = β q = 0 H1 : β1 , . . . , βq beliebig. Das Modell unter H0 ist ein Untermodell von dem unter H1 , das man erhält indem die ersten q < p Parameter Null gesetzt werden. Bezeichnen µ̂0 und µ̂1 die geschätzten Erwartungsvektoren unter diesen beiden Modellen, so ist die Likelihood-Quotienten Teststatistik ( ) 1( ) −2 log f (y, µ0 ) − log f (y, µ1 ) = D(y, µ0 ) − D(y, µ1 ) , ϕ gerade die Deviance-Reduktion, welche daher asymptotisch χ2 -verteilt ist mit q Freiheitsgraden. Ist ϕ unbekannt, so verwendeten wir wie bei den linearen Modellen die Teststatistik SSE(µ̂0 ) − SSE(µ̂1 ) ∼ Fq,n−p , σ̂ 2 q wobei ϕ durch σ̂ 2 bezüglich des komplexesten Modells geschätzt wird. Ein analoges Vorgehen in GLM’s impliziert die Verwendung von Deviancen anstelle der Fehlerquadratsummen SSE. 3.7 Beispiel: Konstante Varianz Im Beispiel über das Holzvolumen von Bäumen aus dem Kapitel 1 wurde die Responsevariable V einer Box-Cox Transformation unterzogen. Für beide Modelle wurde dann angenommen, dass die transformierte Response V 1/3 oder log V aus einer Normalverteilung stammt. Alternativ dazu könnte man auch annehmen, dass V selbst bereits normalverteilt ist mit Erwartungswert µ und dass dieser Erwartungswert jedoch einem Generalisierten Linearen Modell folgt; d.h. g(µ) = η. Unter der Annahme einer Normalverteilung (konstante Varianz) für V betrachten wir zuerst das Modell mit der Linkfunktion g(µ) = µ1/3 = η (bzw. µ = η 3 ), wobei der lineare Prädiktor durch η = β1 + β2 D + β3 H spezifiziert ist. > attach(trees) 28 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL > glm(V ~ D + H, family = quasi(link=power(1/3), variance="constant"), trace=T, epsilon=1e-8, maxit=15) Deviance = 185.3623 Iterations - 1 Deviance = 184.1578 Iterations - 2 Deviance = 184.1577 Iterations - 3 Deviance = 184.1577 Iterations - 4 Call: glm(formula = V ~ D + H, family = quasi(link = power(1/3), variance = "constant"), trace = T, epsilon = 1e-08, maxit = 15) Coefficients: (Intercept) -0.05132 D 0.15033 H 0.01429 Degrees of Freedom: 30 Total (i.e. Null); Null Deviance: 8106 Residual Deviance: 184.2 AIC: NA 28 Residual Dieses Ergebnis ist fast identisch den entsprechenden Resultaten aus dem Beispiel in 1.3. Wir können auch einen Log-Link anstelle der Annahme einer Lognormal-Verteilung für V verwenden, also die Linkfunktion g(µ) = log µ = η (bzw. µ = exp(η)), jetzt für den linearen Prädiktor η = β1 + β2 log D + β3 log H. Der folgende Aufruf nutzt die kürzere family=gaussian Spezifikation, und spezifiziert nur noch dafür den log-Link. > glm(V ~ log(D) + log(H), family = gaussian(link=log)) Call: glm(formula = V ~ log(D) + log(H), family = gaussian(link = log)) Coefficients: (Intercept) -6.537 log(D) 1.997 log(H) 1.088 Degrees of Freedom: 30 Total (i.e. Null); 28 Residual Null Deviance: 8106 Residual Deviance: 179.7 AIC: 150.4 Diese Schätzer entsprechen jenen aus dem Modell unter der Lognormal-Verteilung. Die Deviance ist etwas geringer als beim obigen Ansatz. 3.8 Beispiel: Gamma-Varianz Ein Feldversuch über Verfahren zur Kontrolle von Insekten produziert n = 140 Insektenanzahlen (counts) von zwei unabhängigen Wiederholungen (plots) in jedem der 10 Blöcke (block) für jedes der sieben Verfahren (treatment). Dabei können die plots als 3.8. BEISPIEL: GAMMA-VARIANZ 29 Replikationen innerhalb der (7 × 10 = 70) Zellen der treatment:block Klassifikation (Interaktion, Wechselwirkung) betrachtet werden. > > > > > > > insects <- read.table("insects.dat") block <- factor(rep(1:10, len=140)); block plot <- factor(rep(rep(1:2, each=10), times=7)); plot treatment <- factor(rep(1:7, each=20)); treatment insects <- data.frame(insects, data.frame(treatment, plot, block)) colnames(insects) <- c("counts", "treatment", "plot", "block") attach(insects) Welche Verteilung liegt den Daten zugrunde? In einer ersten Prüfung betrachten wir in jeder der 70 Zellen das Mittel der beiden counts und deren Standardabweichungen. Wir prüfen dazu die Residuen r eines linearen Models unter Normalverteilungsannahme für die counts. Das Histogramm der Residuen sieht gut aus (symmetrisch), während der QQ-Plot etwas längere Schwänze in der empirischen Verteilung zeigt als es bei der Normalverteilung der Fall ist (siehe Abbildung 3.1 oben). Auch im Scatterplot der Residuen gegen die angepassten Werte sieht man eine leicht zunehmende Dispersion der Residuen. Da gerade 2 Beobachtungen je Zelle vorliegen, ist dieser Plot symmetrisch um Null. Einfacher ist dies im Scatterplot der empirischen Momente zu erkennen (siehe Abbildung 3.1 zweite Zeile, rechts). Deutlich ist ein linearer Zuwachs der Standardabweichungen für wachsende Mittelwerte zu sehen, wenn man diese Schätzungen treatment-spezifisch durchführt und die resultierenden 7 Punkte darstellt (wie in der Abbildung 3.1 unten). Da die Standardabweichungen proportional den Mittelwerten zu sein scheinen, liegt ein quadratisches Modell für die Varianz der counts nahe. Dies erfüllt gerade die Gammaverteilung. > > > > > > > > > > > i.lm <- lm(counts ~ treatment*block) r <- residuals(i.lm); f <- fitted(i.lm) hist(r); qqnorm(r); qqline(r) plot(f, r, xlab="fitted means"); abline(0,0) cell.mean <- tapply(counts, list(treatment, block), mean); cell.mean 1 2 3 4 5 6 7 8 9 10 1 25.0 39.0 33.0 9.5 16 20.0 28.0 22.0 20.0 29.0 2 7.5 18.5 14.0 8.5 9 16.0 20.5 23.0 18.0 14.5 3 7.0 21.0 25.5 7.0 11 17.0 31.5 33.0 27.5 22.5 4 13.0 15.0 12.0 6.5 8 12.0 27.0 12.0 28.0 12.0 5 15.0 12.0 14.0 4.5 16 13.0 29.5 22.5 17.5 34.0 6 15.0 9.5 25.0 4.5 14 11.5 18.0 15.5 20.0 19.5 7 40.5 64.5 41.5 15.5 25 35.5 36.5 48.0 47.5 51.5 cell.sd <- tapply(counts, list(treatment, block), sd); cell.sd plot(cell.mean, cell.sd); abline(mean(cell.sd), 0) abline(lsfit(as.vector(cell.mean), as.vector(cell.sd))) trt.mean <- tapply(counts, treatment, mean) trt.sd <- tapply(counts, treatment, sd) plot(trt.mean, trt.sd); abline(lsfit(trt.mean, trt.sd)) KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL r 0 -15 -10 5 -5 10 0 15 5 20 10 25 15 30 -15 -10 -5 0 5 10 15 -2 -1 r 0 1 2 10 cell.sd 0 0 -15 -10 5 -5 r 5 15 10 20 15 Quantiles of Standard Normal 10 20 30 40 50 60 10 20 30 40 50 60 cell.mean 8 10 trt.sd 12 14 fitted means 15 20 25 30 35 40 trt.mean Abbildung 3.1: Oben: Histogramm der Residuen r aus dem linearen Modell für die counts (links) und deren QQ-Plot (rechts). Mitte: Residuen gegen arithmetische Mittel in den Zellen (links) und zellspezifische Standardabweichungen gegen Mittelwerte (rechts). Unten: treatment-spezifische Standardabweichungen gegen Mittelwerte. 3.8. BEISPIEL: GAMMA-VARIANZ 31 Die reparametrisierte Form der Gammaverteilung G(µ, ϕ) hat außer dem Erwartungswert µ auch einen Dispersionsparameter ϕ, der durch die mittlere Pearsonstatistik bzgl. eines sinnvoll gewählten Maximalmodells (hier: treatment*block) geschätzt wird. Der kanonische Link der Gammaverteilung (in den Programm-Paketen als Defaultlink gesetzt) ist die reziproke (inverse) Funktion. Da hier keine Nullcounts vorliegen, hat man mit diesem Link auch keine Probleme bei der Analyse. Die Stufen der beiden Faktoren im Modell sollen derart kodiert werden, dass die Parameter der Faktorstufen die Abweichungen von der ersten Stufe (treatment=1, block=1) beschreiben. > i.glmmax <- glm(counts ~ treatment * block, family = Gamma) > summary(i.glmmax) Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.0400000 0.0118806 3.367 0.00124 ** treatment2 0.0933333 0.0413458 2.257 0.02711 * treatment3 0.1028571 0.0440627 2.334 0.02245 * treatment4 0.0369231 0.0257517 1.434 0.15608 treatment5 0.0266667 0.0230918 1.155 0.25209 treatment6 0.0266667 0.0230918 1.155 0.25209 treatment7 -0.0153086 0.0139618 -1.096 0.27663 block2 -0.0143590 0.0141120 -1.017 0.31242 block3 -0.0096970 0.0149050 -0.651 0.51744 block4 0.0652632 0.0334460 1.951 0.05502 . block5 0.0225000 0.0220398 1.021 0.31083 block6 0.0100000 0.0190183 0.526 0.60068 block7 -0.0042857 0.0159271 -0.269 0.78866 block8 0.0054545 0.0179838 0.303 0.76256 block9 0.0100000 0.0190183 0.526 0.60068 block10 -0.0055172 0.0156859 -0.352 0.72609 treatment2:block2 -0.0649203 0.0450026 -1.443 0.15360 : treatment7:block10 0.0002434 0.0182508 0.013 0.98940 --(Dispersion parameter for Gamma family taken to be 0.1764366) Null deviance: 59.825 Residual deviance: 16.115 AIC: 1033.1 on 139 on 70 degrees of freedom degrees of freedom Number of Fisher Scoring iterations: 6 Der Dispersionsparameter wird nun aus diesem Modell geschätzt und für die weiteren Modelle festgehalten. > r <- residuals(i.glmmax, type = "pearson") # Pearson Residuals 32 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL > s.glmmax <- summary(i.glmmax) # generate summary object > (df.max <- s.glmmax$df[2]) # [1]=#(parameters), [2]=df 70 > (scale <- sum(r^2)/df.max) # mean Pearson statistic 0.1764366 > (dev.max <- s.glmmax$deviance/scale) # scaled Deviance 91.33322 > plot(f, r, vlab = "fitted means"); abline(0, 0) Eine Vorgabe für den Wert des Dispersionsparameter kann nicht direkt in glm gemacht werden, jedoch ist dieses Fixieren durch summary(glm.object, dispersion = scale) möglich. Dies hat jedoch keinen Einfluss auf die (Residual) Deviance, die immer unskaliert ausgegeben wird. Prüft man die Residuen zu diesem Modell, so scheinen sich diese jetzt gerade anders zu verhalten. Deren Variabilität scheint jetzt mit den Means abzunehmen (siehe Abbildung 3.2 links). Möglicherweise ist doch die Varianz der Gammaverteilung zu groß gewählt. Wir wollen aber dabei bleiben und eine Analysis of Deviance Tabelle konstruieren, um den Grad der Erklärung der beiden Faktoren zu prüfen. Als Teststatistiken für Modellvergleiche müssen wir die Differenzen der (durch den selben Dispersionsparameter scale) skalierten Deviancen (Likelihood-Quotienten-Tests) verwenden. > > > > > > # main effects model i.glmmain <- glm(counts ~ treatment + block, family = Gamma) s.glmmain <- summary(i.glmmain) (df.main <- s.glmmain$df[2]) # 124 (dev.main <- s.glmmain$deviance / scale) # 153.5404 1 - pchisq(dev.main - dev.max, df.main - df.max) # 0.207146 > > > > > > # treatment main effect only i.glmt <- glm(counts ~ treatment, family=Gamma) s.glmt <- summary(i.glmt) (df.t <- s.glmt$df[2]) # 133 (dev.t <- s.glmt$deviance / scale) # 235.8278 1 - pchisq(dev.t - dev.main, df.t - df.main) # 5.67324e-14 > > > > > > # block main effect only i.glmb <- glm(counts ~ block, family = Gamma) s.glmb <- summary(i.glmb) (df.b <- s.glmb$df[2]) # 130 (dev.b <- s.glmb$deviance / scale) # 248.4377 1 - pchisq(dev.b - dev.main, df.b - df.main) # 0 Mit diesen Modellen ist es nun möglich, die gesamte Analysis of Deviance zu rechnen. Die beiden Haupteffekte block und treatment sind hoch signifikant, während die Interaktion 3.8. BEISPIEL: GAMMA-VARIANZ 33 treatment:block auf dem Niveau p > 0.2 zu vernachlässigen ist. Wir erhalten im Detail: 1) 2) (2-1) 3) (3-2) 4) (4-2) Modell skalierte Deviance df Haupteffekte und Interaktionen 91.33 70 beide Haupteffekte 153.54 124 Test auf Interaktionen 62.21 54 nur Behandlungseffekt 235.83 133 Test auf Behandlungseffekt 82.29 9 nur Blockeffekt 248.44 130 Test auf Blockeffekt 94.90 6 p 0.207 5.67e-014 0 Tabelle 3.1: Analysis of Deviance Tabelle des Gammamodells mit reziprokem Link. Viel einfacher ist es, dafür wiederum die Funktion anova( ) zu verwenden. Diese liefert äquivalent dazu die passende Zerlegung des maximalen Modells. Durch die Angabe dispersion=scale wird als Dispersion die Größe scale verwendet. Dies entspricht eigentlich der Defaultoption, denn scale ist in diesem Beispiel gerade der geschätzte Dispersionsparameter des betrachteten Modells. > anova(glm(counts ~ treatment * block, family = Gamma), dispersion=scale, test="Chisq") Analysis of Deviance Table Model: Gamma, link: inverse Response: counts Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 139 59.825 treatment 6 18.217 133 41.609 5.267e-20 block 9 14.519 124 27.090 5.669e-14 treatment:block 54 10.976 70 16.115 0.207 Möchte man den Dispersionsschätzer frei schätzen, dann sollte besser als Option test="F" verwendet werden. Hier liefert dies > anova(glm(counts ~ treatment * block, family = Gamma), test="F") Analysis of Deviance Table Model: Gamma, link: inverse Response: counts Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 139 59.825 treatment 6 18.217 133 41.609 17.208 4.124e-12 *** block 9 14.519 124 27.090 9.143 5.234e-09 *** treatment:block 54 10.976 70 16.115 1.152 0.2868 34 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL Wir bleiben beim Modell mit den beiden Haupteffekten (ohne Interaktion) und verwenden den Dispersionsschätzer vom maximalen Modell. Aus dem summary Objekt s.glmmain erhält man u.a. auch die Parameterschätzer und deren geschätzten Eigenschaften. > s.glmmain$coefficients Estimate (Intercept) 0.049673203 treatment2 0.023936588 treatment3 0.007280651 treatment4 0.025692224 treatment5 0.013774690 treatment6 0.022682067 treatment7 -0.015040997 block2 -0.015768459 block3 -0.012901944 block4 0.065790437 block5 0.012934969 block6 -0.000837096 block7 -0.017670453 block8 -0.015128536 block9 -0.015588740 block10 -0.016378610 Std. Error 0.006789474 0.006967469 0.005646622 0.007112368 0.006147877 0.006864447 0.004184305 0.007095390 0.007319928 0.014768088 0.009576332 0.008333513 0.006951687 0.007144759 0.007109207 0.007048774 t value 7.3162084 3.4354780 1.2893817 3.6123303 2.2405604 3.3042817 -3.5946225 -2.2223526 -1.7625780 4.4549055 1.3507227 -0.1004493 -2.5418944 -2.1174314 -2.1927536 -2.3236113 Pr(>|t|) 2.784915e-11 8.052590e-04 1.996653e-01 4.392207e-04 2.683468e-02 1.245054e-03 4.671507e-04 2.807256e-02 8.043550e-02 1.851507e-05 1.792440e-01 9.201498e-01 1.225720e-02 3.622055e-02 3.019127e-02 2.177421e-02 Die unter diesem Modell geschätzten treatment Mittel und ihre (punktweisen) 95% Konfidenzgrenzen können für jeden block berechnet werden. Wir nehmen block 1 und machen eine Vorhersage für alle treatment. Verzichtet man jetzt auf den ursprünglichen Dispersionsparameter und verwendet den zu diesem Modell aktuellen, führt dies zu den Means mit Konfidenzlimits in der Abbildung 3.2 rechts. > new.i <- data.frame(treatment = factor(1:7), block = factor(rep(1,7))) > new.i treatment block 1 1 1 2 2 1 3 3 1 4 4 1 5 5 1 6 6 1 7 7 1 > i.pred <- predict.glm(i.glmmain, newdata = new.i, type = "response", se.fit = T); i.pred > fit <- i.pred$fit > upper <- fit + qt(0.975, df.main)*i.pred$se.fit > lower <- fit - qt(0.975, df.main)*i.pred$se.fit > fit 3.8. BEISPIEL: GAMMA-VARIANZ 35 1 2 3 4 5 6 7 20.13158 13.58515 17.55807 13.26868 15.76096 13.82069 28.87486 > lower 1 2 3 4 5 6 7 14.68531 10.58549 13.18339 10.36520 12.04814 10.74824 18.58768 > upper 1 2 3 4 5 6 7 25.57785 16.58481 21.93276 16.17217 19.47379 16.89314 39.16203 > plot(new.i$treatment, upper, style="box", xlab="Treatment", ylab="mean count", ylim=c(0.0,40.0), main="Block 1") > par(new=TRUE); plot(new.i$treatment, fit, style="box", ylim=c(0.0,40.0)) > par(new=TRUE); plot(new.i$treatment, lower, style="box", ylim=c(0.0,40.0)) Wie es scheint sind die Treatment Unterschiede hauptsächlich auf die geringeren Effektivitäten der Treatments 1 und 7 zurückzuführen. Dabei hat es den Anschein, dass die mit Treatment 7 (einziger negativer Treatmentparameter) behandelten Einheiten die mit Abstand höchste Anzahl von Insekten aufweist. Aus der Tabelle mit den geschätzten Koeffizienten ist ersichtlich, dass sich für alle übrigen Blöcke zwar dasselbe Muster ergibt (da keine Wechselwirkungen im Modell), jedoch die Blöcke 4 und 5 wegen des verwendeten reziproken Links (µ = 1/η) im Mittel geringere Anzahlen als Block 1 aufweisen. Alle übrigen Blöcke (negative Blockparameter) ziehen sogar etwas mehr Insekten an als der Block 1 (neutraler Nullparameter: Referenzkategorie). 30 20 mittlere Anzahl 0.0 r 0.5 40 Block 1 x x x x x x 0 -0.5 10 x 10 20 30 40 f 50 60 Trtm1 Trtm2 Trtm3 Trtm4 Trtm5 Trtm6 Trtm7 Treatment Abbildung 3.2: Pearson Residuen r aus dem (maximalen) Gammamodell gegen die vorhergesagten Erwartungswerte f (links). Geschätzte Erwartungswerte mit 95% Konfidenzlimits für das Gammamodell mit Haupteffekten am Beispiel Block 1(rechts). 36 KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL Kapitel 4 Logistische Regression ind Seien dazu mi yi ∼ Binomial(mi , µi ). Wie bereits gezeigt, gilt dafür exp(θi ) = µi 1 + exp(θi ) 1 exp(θi ) 1 var(yi ) = ϕi b′′ (θi ) = = µi (1 − µi ) 2 mi (1 + exp(θi )) mi E(yi ) = b′ (θi ) = und als kanonische Linkfunktion (g = (b′ )−1 ) resultiert der Logitlink logit(µ) = log mµ µ = log = θ = η, 1−µ m − mµ also µ= exp(η) . 1 + exp(η) Diese Bezeichnung bezieht sich auf die Verteilungsfunktion einer logistisch verteilten Zufallsvariablen mit Dichte exp((y − µ)/τ ) f (y|µ, τ ) = ( )2 . τ 1 + exp((y − µ)/τ ) (4.1) Bezeichnen X1 und X2 zwei unabhängige Exponential(1)-verteilte Zufallsvariablen, so ist die Dichte von Y = log(X1 /X2 ) gleich f (y) = ( exp(y) )2 , 1 + exp(y) sowie F (y) = exp(y) 1 + exp(y) und die Verteilungsfunktion F (y) entspricht dem inversen Logitlink. Prinzipiell kann in dieser Modellklasse wegen µ = g −1 (η) und 0 < µ < 1 anstelle des inversen Logitlinks auch eine beliebige andere Verteilungsfunktion verwendet werden. So spricht man beispielsweise bei der Wahl g −1 (η) = Φ(η) vom Probitmodell. 37 38 KAPITEL 4. LOGISTISCHE REGRESSION Als Log-Likelihood Funktion und für die (skalierte) Deviance erhält man ( )} n { ∑ µi 1 mi l(y, µ) = mi yi log − mi log + , 1 − µi 1 − µi mi y i i=1 { } n ∑ 1 − yi yi D(y, µ) = 2 mi (1 − yi ) log + yi log . 1 − µi µi i=1 Ein Spezialfall der logistischen Regression ist die Modellierung binärer Daten yi ∈ {0, 1} (mi = 1 für alle i). Hier gilt für den relevanten Teil der Log-Likelihood Funktion { log(1 − µi ) für yi = 0 , l(yi , µi ) = log µi für yi = 1 und { D(yi , µi ) = −2 log(1 − µi ) für yi = 0 , −2 log µi für yi = 1 . Das Deviance-Inkrement D(yi , µi ) beschreibt also den Anteil einer binären Beobachtung an der Log-Likelihood Funktion der Stichprobe l(y, µ) = n ∑ i=1 4.1 1∑ l(yi , µi ) = − D(yi , µi ) . 2 i=1 n Toleranzverteilungen – Linkfunktionen Historisch gesehen entwickelten sich die Modelle für binäre Responses aus der Notwendigkeit einer experimentellen Untersuchung, dem biologischen Assay oder kurz Bioassay. Typischerweise wurde hierbei die Wirkung verschiedener Konzentrationen einer chemischen Verbindung in Tierversuchen erprobt. Die Anzahl der Tiere, welche darauf angesprochen haben wurde aufgezeichnet und als Realisierung einer binomialen Response betrachtet. So wird zum Beispiel in einem insektentötenden Versuch ein spezielles Insektizid in mehreren bekannten Konzentrationen auf Insektengruppen (batches) von bekannten Umfängen angewendet. Falls einer Insektengruppe eine sehr niedrige Dosis verabreicht wird, wird wahrscheinlich keines dieser Insekten daran sterben. Wird jedoch einer anderen Insektengruppe eine sehr hohe Dosis gegeben, so werden sehr viele (wenn nicht alle) daran sterben. Ob nun ein spezielles Insekt bei einer gegebenen Dosis verstirbt oder nicht, hängt von der Toleranz dieses Individuums ab. Insekten mit einer geringen Toleranz werden bei einer gewissen Dosis eher sterben als andere mit einer großen Toleranz. Nun nimmt man an, dass es für die gesamte Insektenpopulation (aus der auch die Versuchstiere stammen) eine Verteilung der Toleranzstufen gibt. Insekten mit einer Toleranz kleiner als di werden bei einer verabreichten Dosis di daran sterben. Sei U die Zufallsvariable, welche mit der Toleranzverteilung assoziiert ist, und sei u die Toleranz eines speziellen 4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN 39 Tieres. Die entsprechende Dichtefunktion sei f (u). Somit ist die Wahrscheinlichkeit eines Insektes, bei einer Dosis di daran zu sterben, gegeben durch ∫ pi = P (U ≤ di ) = di f (u) du. −∞ Falls nun die Toleranzen normalverteilt sind mit Erwartungswert µ und Varianz σ 2 folgt dafür ( ) di − µ pi = Φ . σ Bezeichnet β1 = −µ/σ und β2 = 1/σ, so erhält man pi = Φ (β1 + β2 di ) , oder probit(pi ) = Φ−1 (pi ) = β1 + β2 di , also ein Probitmodell für die Beziehung zwischen der Sterbewahrscheinlichkeit pi und der dafür verabreichten Dosis des Insektizids di . Für U logistisch verteilt mit Dichte (4.1), wobei E(U ) = µ und var(U ) = π 2 τ 2 /3, so entspricht dies ∫ pi = P (U ≤ di ) = di −∞ exp((di − µ)/τ ) . )2 du = 1 + exp((di − µ)/τ ) τ 1 + exp((u − µ)/τ ) ( exp((u − µ)/τ ) Mit β1 = −µ/τ und β2 = 1/τ wie zuvor folgt pi = exp(β1 + β2 di ) 1 + exp(β1 + β2 di ) oder logit(pi ) = β1 + β2 di . Die Annahme einer logistischen Toleranzverteilung führt zu einem logistischen Modell für pi . 4.1.1 Beispiel (Venables & Ripley, Seite 218) Untersucht wird die Wirkung eines Giftes auf einen Wurm, der die Knospen von Tabakpflanzen schädigt. Gruppen zu je 20 Motten beiderlei Geschlechts (sex) wurden dazu drei Tage lang verschieden hohe Dosen eines Giftes ausgesetzt und die Anzahl der daran verstorbenen Tiere wurde gezählt. Dosis in Geschlecht 1 2 4 8 männlich 1 4 9 13 weiblich 0 2 6 10 µg 16 32 18 20 12 16 Da die Dosen Potenzen von 2 sind, verwenden wir als Prädiktorvariable log2 (Dosis). 40 KAPITEL 4. LOGISTISCHE REGRESSION > (ldose <- rep(0:5, 2)) [1] 0 1 2 3 4 5 0 1 2 3 4 5 > (dead <- c(1,4,9,13,18,20,0,2,6,10,12,16)) [1] 1 4 9 13 18 20 0 2 6 10 12 16 > (sex <- factor(rep(c("M", "F"), c(6, 6)))) [1] M M M M M M F F F F F F Levels: F M > (SF <- cbind(dead, alive = 20-dead)) dead alive [1,] 1 19 [2,] 4 16 : [12,] 16 4 > summary(budworm.lg <- glm(SF ~ sex*ldose, family = binomial)) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -2.9935 0.5527 -5.416 6.09e-08 *** sexM 0.1750 0.7783 0.225 0.822 ldose 0.9060 0.1671 5.422 5.89e-08 *** sexM:ldose 0.3529 0.2700 1.307 0.191 --(Dispersion parameter for binomial family taken to be 1) Null deviance: 124.8756 on 11 degrees of freedom Residual deviance: 4.9937 on 8 degrees of freedom AIC: 43.104 Number of Fisher Scoring iterations: 4 Für derartige Modelle muss auch die Anzahl der Tiere mi spezifiziert sein. In glm mit family = binomial kann dies unterschiedlich gemacht werden. Wir haben dazu die Matrix SF (success/failure) verwendet, deren erste (zweite) Spalte die Anzahl der Erfolge (Misserfolge) enthält. Das Ergebnis weist auf eine signifikante Steigung hin. Die erste Stufe von sex bezieht sich auf die weiblichen Tiere (alphabetische Reihenfolge der Stufen, "F" vor "M") und wird somit durch den Intercept beschrieben. Der Parameter sexM:ldose repräsentiert einen (nicht signifikant) größeren Anstieg für männliche Tiere, während der Parameter sexM den (nicht signifikant) Unterschied in den Konstanten beschreibt. Die Daten und die Modellschätzung sind in der Abbildung 4.1 dargestellt. > > > > plot(c(1,32), c(0,1), type="n", xlab="dose", ylab="prob", log="x") text(2^ldose, dead/20, as.character(sex)) ld <- seq(0, 5, 0.1); n.p <- length(ld) lines(2**ld, predict(budworm.lg, data.frame(ldose=ld, sex=rep("M",n.p)), type="response")) > lines(2**ld, predict(budworm.lg, data.frame(ldose=ld, sex=rep("F",n.p)), type="response")) 1.0 4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN 41 M 0.8 M F 0.6 M prob F F 0.4 M 0.2 F M 0.0 F M F 1 5 10 dose Abbildung 4.1: Beobachtete und geschätzte Ausfallsraten beim Tabakwurm. Der Parameter sexM scheint irrelevant zu sein. Dieser beschreibt jedoch gerade den Unterschied bei der Dosis 1µg (log2 Dosis = 0). Ist man am Unterschied bei 8µg interessiert, erhält man > summary(budworm.lg8 <- update(budworm.lg, . ~ sex*I(ldose-3))) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.2754 0.2305 -1.195 0.23215 sexM 1.2337 0.3770 3.273 0.00107 ** I(ldose - 3) 0.9060 0.1671 5.422 5.89e-08 *** sexM:I(ldose - 3) 0.3529 0.2700 1.307 0.19117 Also doch ein signifikanter Geschlechtsunterschied bei einer Dosis von 8µg. Das Modell selbst scheint ausgezeichnet zu passen (Deviance von 5 bei 8 Freiheitsgraden). Die Analysis of Deviance Tabelle bestätigt dies. Auf eine Interaktion kann verzichtet werden. Auch die Hinzunahme eines quadratischen Terms ist nicht notwendig. > anova(budworm.lg, test = "Chisq") Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 11 124.876 sex 1 6.077 10 118.799 0.014 ldose 1 112.042 9 6.757 3.499e-26 sex:ldose 1 1.763 8 4.994 0.184 42 KAPITEL 4. LOGISTISCHE REGRESSION > anova(update(budworm.lg, . ~ . + Df Deviance Resid. NULL sex 1 6.077 ldose 1 112.042 I(ldose^2) 1 0.907 sex:ldose 1 1.240 sex:I(ldose^2) 1 1.439 sex*I(ldose**2)), test = "Chisq") Df Resid. Dev P(>|Chi|) 11 124.876 10 118.799 0.014 9 6.757 3.499e-26 8 5.851 0.341 7 4.611 0.266 6 3.172 0.230 Diese Ergebnisse hängen von der Reihenfolge der Parameter ab. Durch test = "Chisq" wird die Deviancedifferenz der nested models mit jeweiligen Skalenparameter 1 (bekannt bei der Binomialverteilung) verwendet. Es zeigt, dass weder die Interaktion noch ein quadratischer Dosiseffekt notwendig sind. Unsere Analyse empfiehlt daher ein Modell mit zwei parallelen Geraden bezüglich der Prädiktor- (logit)-Achse, eine für jedes Geschlecht. Oft ist man auch an einer Schätzung der Dosis für eine vorgegebene Sterbewahrscheinlichkeit interessiert. Dazu reparametrisieren wir zuerst das Modell, sodass wir für beiderlei Geschlecht einen eigenen Intercept bekommen. > summary(budworm.lg0 <- glm(SF ~ sex + ldose - 1, family = binomial)) Coefficients: Estimate Std. Error z value Pr(>|z|) sexF -3.4732 0.4685 -7.413 1.23e-13 *** sexM -2.3724 0.3855 -6.154 7.56e-10 *** ldose 1.0642 0.1311 8.119 4.70e-16 *** --(Dispersion parameter for binomial family taken to be 1) Null deviance: 126.227 on 12 degrees of freedom Residual deviance: 6.757 on 9 degrees of freedom AIC: 42.867 Sei nun ξp jene log2 -Dosis für die die Response Wahrscheinlichkeit gerade p ist. Also beschreibt 2ξ0.5 die 50% Sterbe-Dosis (50% lethal dose oder LD50). Für diese Dosis hält bei einer allgemeinen Linkfunktion g(p) = β1 + β2 ξp , also ξp = g(p) − β1 . β2 Nun hängt die Dosis vom Parameter β = (β1 , β2 ) ab, also ξp = ξp (β). Ersetzt man ihn durch seinen Schätzer, liefert dies den Schätzer ξˆp = ξp (β̂) wofür approximativ gilt ∂ξp (β) ξˆp = ξp + (β̂ − β)⊤ ∂β Da β̂ erwartungstreu ist für β, folgt approximativ auch E(ξˆp ) = ξp . Weiters resultiert als Varianz (Delta-Methode) var(ξˆp ) = ∂ξp (β) ∂ξp (β) var(β̂) ⊤ ∂β ∂β 4.2. INTERPRETATION DER PARAMETER mit ∂ξp 1 =− , ∂β1 β2 43 ξp ∂ξp g(p) − β1 =− =− . 2 ∂β2 β2 β2 Die Funktion dose.p aus der Bibliothek MASS benutzt die obigen Resultate und liefert für weibliche und für männliche Motten > library(MASS) > dose.p(budworm.lg0, cf = c(1,3), p = 1:3/4) # female Dose SE p = 0.25: 2.231265 0.2499089 p = 0.50: 3.263587 0.2297539 p = 0.75: 4.295910 0.2746874 > dose.p(budworm.lg0, cf = c(2,3), p = 1:3/4) # male Dose SE p = 0.25: 1.196939 0.2634488 p = 0.50: 2.229262 0.2259159 p = 0.75: 3.261585 0.2548981 Man benötigt also eine geschätzte Dosis von log2 (Dosis) = 3.26, also Dosis = 9.6, um 50% der weiblichen Schädlinge zu vernichten, und Dosis = 4.7 für 50% der Männchen. Alternativ kann auch ein Probitmodell gerechnet werden. Diese Linkfunktion ist im zentralen Bereich sehr ähnlich dem Logitlink und unterscheidet sich nur in den Schwänzen. Man erhält unter diesem Modell sehr ähnliche Resultate z.B. für weibliche Motten. > dose.p(update(budworm.lg0, family=binomial(link=probit)), cf=c(1,3), p=1:3/4) Dose SE p = 0.25: 2.191218 0.2384103 p = 0.50: 3.257703 0.2240499 p = 0.75: 4.324187 0.2668534 4.2 Interpretation der Parameter Hängt der Erwartungswert binärer Daten nur von einem erklärenden zweistufigen Faktor x ab, so können die Parameter sehr einfach interpretiert werden. Dazu betrachtet man die folgende Kontingenztafel mit den Zellwahrscheinlichkeiten: x=1 x=0 y=1 π1 π2 y = 0 1 − π1 1 − π2 Im Falle x = 1 bezeichnet π1 /(1 − π1 ) die Quote, Chance (odds) für das Eintreten von y = 1 zu y = 0. Die Log-Transformation dieser Quote bei x = 1 log π1 /(1 − π1 ) = logit(1) 44 KAPITEL 4. LOGISTISCHE REGRESSION nennt man log-odds oder Logit. Den Quotienten der Quote unter x = 1 zur Quote unter x = 0 nennt man odds-ratio π1 /(1 − π1 ) ψ= , π2 /(1 − π2 ) und deren Log-Transformation ergibt das log-odds ratio oder die Logit-Differenz log ψ = log π1 /(1 − π1 ) = logit(1) − logit(0) . π2 /(1 − π2 ) Bezeichne nun µ(x) = P (y = 1|x) und 1 − µ(x) = P (y = 0|x) mit x ∈ {0, 1}. Falls dafür zusätzlich das Modell µ(x) log = β1 + β2 x 1 − µ(x) hält, so bekommt man für die Zellwahrscheinlichkeiten x=1 y=1 µ(1) = exp(β1 + β2 ) 1 + exp(β1 + β2 ) y = 0 1 − µ(1) = x=0 µ(0) = exp(β1 ) 1 + exp(β1 ) 1 1 1 − µ(0) = 1 + exp(β1 + β2 ) 1 + exp(β1 ) Dies liefert auch als log-odds-ratio log ψ = log µ(1)/(1 − µ(1)) exp(β1 + β2 ) = log = β2 . µ(0)/(1 − µ(0)) exp(β1 ) Weiters gilt für eine allgemeine Größe x mit dieser Parametrisierung P (y = 1|x) µ(x) = = exp(β1 + β2 x) = exp(β1 ) exp(β2 )x , P (y = 0|x) 1 − µ(x) d.h., wächst x um eine Einheit, so erhöht sich die Eintrittsquote von y = 1 multiplikativ um exp(β2 ). 4.2.1 Beispiel (Agresti, Seite 87) An 27 Krebspatienten wird beobachtet, ob es nach einer Injektionsbehandlung zum Abklingen des Karzinoms kommt. Die wichtigste erklärende Variable LI, der Labelling Index, beschreibt die Zellteilungsaktivität nach dieser Behandlung (Anteil der Zellen, welche “gepolt” wurden). Dabei ergaben sich n = 14 unterschiedliche LI Werte. Die ResponseVariablen mi yi beschreiben die Anzahl erfolgreicher Rückbildungen bei mi Patienten mit jeweiliger Zellaktivität LIi . 4.2. INTERPRETATION DER PARAMETER LIi 8 10 12 14 16 mi 2 2 3 3 3 mi y i 0 0 0 0 0 LIi 18 20 22 24 26 mi 1 3 2 1 1 mi yi 1 2 1 0 1 45 LIi 28 32 34 38 mi 1 1 1 3 mi yi 1 0 1 2 Es wird angenommen, dass sich die Patienten einer LIi Gruppe homogen verhalten, d.h. µi ind mi yi ∼ Binomial(mi , µi ) , mit log = β1 + β2 LIi . 1 − µi Als MLE erhält man dafür > > > > > li <- c(seq(8, 28, 2), 32, 34, 38) total <-c(2, 2, 3, 3, 3, 1, 3, 2, 1, 1, 1, 1, 1, 3) back <-c(0, 0, 0, 0, 0, 1, 2, 1, 0, 1, 1, 0, 1, 2) SF <- cbind(back, nonback = total - back) summary(carcinoma <- glm(SF ~ li, family=binomial)) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -3.77714 1.37863 -2.740 0.00615 ** li 0.14486 0.05934 2.441 0.01464 * --Null deviance: 23.961 on 13 degrees of freedom Residual deviance: 15.662 on 12 degrees of freedom > anova(carcinoma, test="Chisq") Df Deviance Resid. Df Resid. Dev P(>|Chi|) NULL 13 23.9610 li 1 8.2988 12 15.6622 0.0040 Nimmt LI um eine Einheit zu, so wird die geschätzte Quote für eine Rückbildung mit exp(0.145) = 1.156 multipliziert. Die unter dem Modell geschätzte Wahrscheinlichkeit für eine Rückbildung ist 1/2 falls η̂ = 0, also für LI = −β̂1 /β̂2 = 26.05. ∑ Das Mittel aller LI-Werte ist i LIi mi /27 = 20.07, wofür sich als linearer Prädiktor β̂1 + β̂2 20.07 = −0.866 ergibt, was einer Heilungswahrscheinlichkeit von 29.6% entspricht. Beobachtet konnten 9 Erfolge aus 27 Patienten werden, also 33.3%. Für die Regressionskurve gilt ∂µ(x)/∂x = β2 µ(x)(1−µ(x)). Der stärkste Anstieg ist daher an der Stelle µ(x) = 1/2, also in LI = 26.05, und beträgt dort β̂2 /4 = 0.036. Es stellt sich auch die Frage, ob die Rückbildung vom LI-Wert abhängt. Der entsprechende p-Wert von 1.5% scheint dies klar zu bestätigen. Für das Unabhängigkeitsmodell (NULL) resultiert als Deviance 23.96 (df = 13). Die Deviance-Differenz 8.3 bei einem Verlust von einem Freiheitsgrad entspricht einem χ21 Quantil mit α = 0.004. Dieses Ergebnis ist noch deutlicher als das Resultat des WaldTests. In beiden Fällen wird die positive Assoziation zwischen LI und dem Rückbildungsverhalten bestätigt. 46 4.3 KAPITEL 4. LOGISTISCHE REGRESSION Logit-Modelle In diesem Spezialfall der logistischen Regression bei binären Beobachtungen sind nur Faktoren und keine Variablen im linearen Prädiktor beinhaltet. 4.3.1 Beispiel Untersuchungen von 313 Frauen nach einer Operation des Zervixkarzinoms ergaben 123 Rezidive. Von welchen Risikogrößen hängt der Rezidiveintritt ab? Die Anzahl der befallenen Lymphknotenstationen (LK) und der Befall der Zervix-Grenzzone (GZ) wurden zum Zeitpunkt der Operation festgestellt und stellen potentielle Risikogrößen dar. In einer Tabelle sind die Rezidivfälle (yij /mij ) als 3 × 4 Kontingenztafel angegeben. GZ nicht befallen GZ befallen über GZ befallen befallene LK-Stationen 0 1 2 ≥3 21/124 7/21 9/16 13/13 18/ 58 6/12 5/ 7 5/ 5 4/ 14 16/19 9/12 10/12 Falls ein lineares Verhalten beider Risikofaktoren gewährleistet ist, kann LK mit 0,1,2,3 und GZ mit 0,1,2 kodiert werden und das logistische Modell für die n = 12 Zellen logit(µi ) = β1 + β2 LKi + β3 GZi , i = 1, . . . , n ergibt die Maximum-Likelihood Schätzer > > > > > rez <- c(21, 7, 9, 13, 18, 6, 5, 5, 4, 16, 9, 10) total <- c(124, 21, 16, 13, 58, 12, 7, 5, 14, 19, 12, 12) SF <- cbind(rez, nonrez=total-rez) LK <- rep(0:3, 3); GZ <- rep(0:2, each=4) rez.glm <- glm(SF ~ LK + GZ, family = binomial); summary(rez.glm) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -1.5508 0.1984 -7.817 5.43e-15 *** LK 1.0687 0.1537 6.954 3.56e-12 *** GZ 0.5860 0.1782 3.288 0.00101 ** --(Dispersion parameter for binomial family taken to be 1) Null deviance: 103.493 on 11 degrees of freedom Residual deviance: 13.332 on 9 degrees of freedom AIC: 51.214 Besser ist die Verwendung zweier Faktoren L und G. Sei dazu mij yij ∼ Binomial(mij , µij ), wobei µij die Wahrscheinlichkeit eines Rezidivs bei LK-Status i (i = 1, 2, 3, 4) und GZ-Befall 4.3. LOGIT-MODELLE 47 j (j = 1, 2, 3) beschreibt. Wir unterscheiden folgende Modelle logit(µij ) logit(µij ) logit(µij ) logit(µij ) logit(µij ) = = = = = (L ∗ G)ij , Li + Gj , Li , Gj , 1. Das Modell L∗G beinhaltet die ganze Information der Daten und ist daher voll (saturiert), d.h. 12 Parameter bei 12 Beobachtungen. > L <- factor(LK); G <- factor(GZ); rez.1 <- glm(SF~1, family=binomial) > rez.L <- glm(SF~L, family=binomial); rez.G <- glm(SF~G, family=binomial) > rez.LG <- glm(SF~L+G,family=binomial); rez.sat <- glm(SF~L*G,family=binomial) > anova(rez.1, rez.L, rez.LG, rez.sat, test="Chisq") Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 11 103.493 2 8 21.373 3 82.120 1.077e-17 3 6 10.798 2 10.575 0.005 4 0 4.743e-10 6 10.798 0.095 Aus der Analysis of Deviance folgt als minimales Modell L + G mit den Schätzungen > coef(rez.LG) (Intercept) -1.6041 L1 1.2873 L2 1.7785 L3 3.7979 G1 0.7285 G2 1.0735 und somit das Prognosemodell η̂ = −1.60 + 1.29(L = 1) + 1.78(L = 2) + 3.80(L = 3) + 0.73(G = 1) + 1.07(G = 2) . Alle Parameter zu höheren Faktorstufen sind positiv. Dies bedeutet, dass das Risiko eines Rezidivs steigt je mehr Lymphknoten befallen sind und je intensiver der Grenzzonenbefall ausgeprägt ist. Die durch dieses Modell geschätzten Wahrscheinlichkeiten für ein Rezidiv sind GZ nicht befallen GZ befallen über GZ befallen befallene LK-Stationen 0 1 2 ≥3 0.1674 0.4214 0.5435 0.8997 0.2941 0.6015 0.7115 0.9489 0.3704 0.6806 0.7769 0.9633 > plot(as.numeric(L), rez.LG$y, type="p", xlab="L", ylab="prob", ylim=c(0,1), main="L+G") > lines(as.numeric(L)[G==0], fitted(rez.LG)[G==0], type="l") > lines(as.numeric(L)[G==1], fitted(rez.LG)[G==1], type="l") > lines(as.numeric(L)[G==2], fitted(rez.LG)[G==2], type="l") 48 KAPITEL 4. LOGISTISCHE REGRESSION L+G 0.6 prob 0.0 0.2 0.2 0.4 0.4 prob 0.6 0.8 0.8 1.0 1.0 L*G 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 2.5 L L L G 3.0 3.5 4.0 3.0 3.5 4.0 0.8 0.6 prob 0.4 0.2 0.0 0.0 0.2 0.4 prob 0.6 0.8 1.0 1.5 1.0 1.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 1.0 1.5 2.0 L 2.5 L 0.0 0.2 0.4 prob 0.6 0.8 1.0 1 1.0 1.5 2.0 2.5 3.0 3.5 4.0 L Abbildung 4.2: Geschätzte Rezidiveintrittswahrscheinlichkeiten beim Logit-Modell. 4.4. KOMPLEXE LOGISTISCHE MODELLE 4.4 49 Komplexe Logistische Modelle Der Prädiktor beinhaltet jetzt sowohl erklärende Faktoren als auch erklärende Variablen. 4.4.1 Beispiel Wir betrachten ein Modell, welches sich auf die lineare Variable LK (1 Parameter) und den kategorialen Faktor G (3 Parameter) bezieht. Aus dem vorigen Schätzergebnis ist ersichtlich, dass im Vergleich zur L-Referenzklasse keine Lymphknoten befallen das Risiko beim Befall einer Station (relativ) um 1.3 Einheiten auf der Prädiktorachse ansteigt. Bei einem Befall von zwei Stationen nimmt das Risiko absolut um 1.8 Einheiten (relativ um 0.5) zu, während es für den Fall von drei oder mehreren befallenen Stationen zu einem Anstieg um 3.8 Einheiten (relativ um 2.0) kommt. Obwohl dies nicht linear zu sein scheint, wollen wir es aus Gründen der Sparsamkeit versuchen. Sei dazu mi yi ∼ Binomial(mi , µi ), wobei hier i = 1, 2, 3 die drei Stufen des Faktors G durchläuft. Folgende fünf Modelle sind wiederum relevant: logit(µi ) logit(µi ) logit(µi ) logit(µi ) logit(µi ) = = = = = Gi + βi LK , Gi + β LK , Gi , β LK , 1. Eine Analyse der Deviance ergibt > rez.LK <- glm(SF ~ LK, family = binomial) > rez.LKG <- glm(SF ~ LK + G, family = binomial) > rez.LKGi <- glm(SF ~ LK * G, family = binomial) > anova(rez.1, rez.LK, rez.LKG, rez.LKGi, test="Chisq") Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 11 103.5 2 10 24.4 1 79.1 5.8e-19 3 8 13.0 2 11.4 3.4e-03 4 6 12.0 2 1.1 0.6 Daher wählen wir wiederum das Modell LK + G mit > coef(rez.LKG) (Intercept) -1.5940 LK 1.0859 G1 0.7329 G2 1.1064 und erhalten als Schätzer für den linearen Prädiktor η̂i = −1.59 + 1.086LK + 0.73(G = 1) + 1.11(G = 2) . 50 KAPITEL 4. LOGISTISCHE REGRESSION Die zu diesem Modell assoziierten Rezidiveintrittswahrscheinlichkeiten sind GZ nicht befallen GZ befallen über GZ befallen befallene LK-Stationen 0 1 2 ≥3 0.1688 0.3756 0.6405 0.8407 0.2971 0.5560 0.7876 0.9166 0.3805 0.6453 0.8434 0.9410 Die Abbildung 4.3 (rechts) zeigt die durch das Modell prognostizierten Wahrscheinlichkeiten für das Auftreten eines Rezidivs in Abhängigkeit von den Stufen des Grenzzonenbefalls. Der linke Teil der Abbildung zeigt die Prognosen unter dem Modell rez.LKGi, in dem auch die Wechselwirkung zwischen der Variablen LK und dem Faktor G inkludiert ist. 0.8 0.6 prob 0.4 0.2 0.0 0.0 0.2 0.4 prob 0.6 0.8 1.0 LK+G 1.0 LK*G 1.0 1.5 2.0 2.5 LK 3.0 3.5 4.0 1.0 1.5 2.0 2.5 3.0 3.5 4.0 LK Abbildung 4.3: Geschätzte Rezidiveintrittsraten beim komplexen Logistischen Modell links: maximales Modell, rechts: Modell ohne Interaktion. Hatte man beim entsprechenden Logitmodell eine Deviance von 10.8 bei 6 Freiheitsgraden, so ist jetzt beim komplexen Modell die Deviance 13.0 bei 8 Freiheitsgraden. Vergleichen wir die Werte der Deviance mit den (1 − α)-Quantilen einer χ2 -Verteilung resultieren α = 0.095 sowie α = 0.112, was auf eine leichte Bevorzugung für das Logitmodell hindeutet. Dies stellt jedoch keine konfirmatorische Entscheidung dar! Zum Vergleich ergab das Logistische Regressionsmodell (LK+GZ) eine Deviance von 13.3 bei 9 Freiheitsgraden (α = 0.148). Kapitel 5 Loglineare Modelle 5.1 Poisson Loglineare Modelle für Anzahlen Bei der Binomialverteilung wird die Anzahl der Versuche vor der Durchführung der Experimente fixiert. Danach wird erst beobachtet, in wie vielen Fällen davon ein Ereignis eingetreten ist. Man spricht bei dieser Art Daten von der Modellierung relativer oder absoluter Häufigkeiten. Wird jedoch die Anzahl der Versuche vor den Experimenten nicht fixiert, so spricht man von Zählvariablen oder counts yi . Standardmäßig wird dafür die Poissonverteilung angenommen, für die die Erwartung µi der Varianz entspricht und als kanonischer Link der Loglink verwendet, also ind yi ∼ Poisson(µi ) , mit log(µi ) = ηi . Die (skalierte) Deviance ist hierbei wegen ϕ = 1 gleich } n { ∑ yi D(y, µ) = 2 yi log − (yi − µi ) . µi i=1 Falls im Modell auch eine Konstante enthalten ist, so reduziert sich dies auf D(y, µ) = 2 n ∑ i=1 yi log yi . µi Der Deviance-Anteil der i-ten Beobachtung verschwindet für yi = 0 unabhängig von µi . 5.1.1 Beispiel Die folgenden Daten stammen aus einer Studie über die Aufbewahrbarkeit von Mikroorganismen im tiefgekühlten Zustand (−70o C). Die Beobachtungen beschreiben die Bakterienkonzentrationen (Anzahl auf einer konstanten Fläche) am Anfang und nach 1, 2, 6 und 12 Monaten. 51 52 KAPITEL 5. LOGLINEARE MODELLE Zeit T Anzahl 0 1 2 6 12 31 26 19 15 20 log(count) 3.0 20 0 2.8 10 count 3.2 30 3.4 40 Es soll ein passendes Modell gefunden werden, mit dem die Konzentrationsänderung in Abhängigkeit von der Zeit beschrieben werden kann, um Aussagen darüber zu ermöglichen, wie lange Bakterien durchschnittlich aufbewahrt werden können. 0 2 4 6 8 10 12 0 2 4 t 6 8 10 12 t Abbildung 5.1: Bakterienanzahlen und deren Logarithmus in Abhängigkeit von der Zeit. Eigentlich hätte man in den Daten, dargestellt in Abbildung 5.1 links, eine exponentielle Abnahme erwartet, jedoch wird dies nicht von den Beobachtungen unterstützt, da der letzte Wert sogar größer ist als die beiden Werte zuvor. Natürlich könnte die wahre Konzentration sehr wohl einer exponentiellen Kurve folgen, und die Beobachtungen weichen davon nur wegen des Messfehlers ab. Falls dies der Fall ist, müsste der Logarithmus der Konzentrationen eine lineare Beziehung zur Zeit aufweisen. Die einfachste Art zu testen, ob die erkennbare Krümmung mehr als zufällig ist, besteht in der Modellierung mit einem zusätzlichen quadratischen Zeitterm. Dazu nehmen wir vorerst an, dass die Anzahlen yi einer N (µi , σ 2 )-Verteilung und einem linearen Modell genügen. > summary(mo.lm <- lm(count ~ t + I(t^2))) Estimate Std. Error t value Pr(>|t|) (Intercept) 29.80042 1.88294 15.827 0.00397 ** t -4.61601 1.00878 -4.576 0.04459 * I(t**2) 0.31856 0.08049 3.958 0.05832 . --Residual standard error: 2.438 on 2 degrees of freedom Multiple R-Squared: 0.9252, Adjusted R-squared: 0.8503 F-statistic: 12.36 on 2 and 2 DF, p-value: 0.07483 Der quadratische Term scheint daher im Modell notwendig (p-Wert 0.058). Zuvor sollte noch die getroffene Verteilungsannahme mittels Normalplot der Residuen ri = yi − µ̂i 53 -3 -2 -1 residuals 0 1 2 5.1. POISSON LOGLINEARE MODELLE FÜR ANZAHLEN -3 -2 -1 0 1 2 Quantiles of Standard Normal Abbildung 5.2: Normalplot der Residuen aus dem linearen Modell. geprüft werden. Der Punktverlauf in der Abbildung 5.2 weicht von einer Geraden ab, sodass die Annahme einer Normalverteilung nicht gerechtfertigt erscheint. > qqnorm(r <- residuals(mo.lm)); qqline(r) Daher versuchen wir jetzt ein Poisson-Modell. Für gewöhnlich werden hierbei die PoissonErwartungen linear auf einer Log-Skala modelliert. Dies bedeutet, dass für den Fall einer exponentiellen Abnahme die Erwartungen auf der Log-Skala modelliert werden während die Verteilung um diese Erwartungen als Poissonvariablen auf der Originalskala modelliert sind. Der rechte Teil der Abbildung 5.1 zeigt noch immer eine beachtliche Krümmung, weshalb auch hier wiederum ein quadratischer Zeitterm in das Modell genommen wird. > summary(mo.P0 <- glm(count ~ t + I(t^2), family=poisson)) Estimate Std. Error z value Pr(>|z|) (Intercept) 3.423818 0.149027 22.975 <2e-16 *** t -0.221389 0.095623 -2.315 0.0206 * I(t^2) 0.015527 0.007731 2.008 0.0446 * --(Dispersion parameter for poisson family taken to be 1) Null deviance: 7.0672 on 4 degrees of freedom Residual deviance: 0.2793 on 2 degrees of freedom AIC: 30.849 > r <- residuals(mo.P0, type="pearson"); sum(r^2) [1] 0.2745424 Die Deviance und die Pearson-Statistik X 2 sollten unter dem wahren Modell ihrem Freiheitsgrad n − p = 2 entsprechen und stellen einen Test auf Güte der Anpassung dar. Kleine Werte zeugen von einer recht guten Anpassung, während große auf eine schlechte Anpassung hinweisen. Da hier beide Werte sehr klein sind, spricht nichts gegen die Poisson-Annahme. KAPITEL 5. LOGLINEARE MODELLE 30 0 -1.0 10 20 count 0.0 -0.5 residuals 0.5 40 1.0 54 15 20 25 30 fitted 0 2 4 6 8 10 12 t Abbildung 5.3: Residuenplot (links) sowie geschätztes Poissonmodell (rechts). Auch der Residuenplot in der Abbildung 5.3 zeigt dies. Falls die Varianz der Erwartung entspricht, ist ein Schätzer für die Varianz der Residuen unter dem wahren Modell gerade der geschätzte Erwartungswert. Daher sollten die Pearson-Residuen ri Erwartung 0 und Varianz 1 aufweisen. Da dieser Residuenplot relativ (n = 5) horizontal ist, erscheint die Poisson-Annahme auch passend. Um die Modellgüte zu zeigen, werden beobachtete und modellierte Werte gegen die Zeit aufgetragen. Natürlich muss sich das 3 Parameter Polynom im rechten Teil der Abbildung 5.3 sehr gut an die 5 Beobachtungen anpassen. > > > > f <- fitted(mo.P0) plot(f, r); abline(0,0) plot(t, count, ylim=c(0,40)); t.new <- seq(0, 12, 1/2) lines(t.new, predict(mo.P0, data.frame(t=t.new), type="response")) Obwohl Messfehler auch zu einem Zuwachs der Anzahl führen können, sollte dies aber in der Realität unmöglich sein. Wir testen daher die Notwendigkeit des quadratischen Terms mittels eines Modellvergleichs. > mo.P1 <- glm(count ~ t, family=poisson) > anova(mo.P1, mo.P0, test="Chisq") Analysis of Deviance Table Model 1: count ~ t Model 2: count ~ t + I(t^2) Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 3 4.5249 2 2 0.2793 1 4.2456 0.0394 Die Differenz der beiden Deviancen weist zwar auf diese Notwendigkeit hin und die Krümmung ist wohl mehr als zufällig. Wir wissen aber, dass ein quadratisches Modell nicht Sinn macht. Möglicherweise erreicht man ein realistischeres und einfacheres Modell durch Transformation der Zeitachse. 55 -1.0 1.85 -0.5 0.0 residuals(mo.P3) 1.95 1.90 deviance 2.00 0.5 2.05 1.0 5.1. POISSON LOGLINEARE MODELLE FÜR ANZAHLEN 0.0 0.1 0.2 0.3 c 0.4 0.5 18 20 22 24 26 28 30 fitted(mo.P3) Abbildung 5.4: Abhängigkeit der Deviance von c (links) und Residuenplot (rechts). Falls der Zeiteffekt multiplikativ wirkt, sollte eine logarithmierte Zeitachse betrachtet werden. Jedoch stellt sich dann das Problem des Nullpunktes, log(0). Die benötigte Transformation ist daher log(t + c) mit unbekanntem 0 < c. Eine Möglichkeit c zu bestimmen, ist die Deviance in Abhängigkeit von c zu minimieren, was in der Abbildung 5.4 dargestellt ist. Der optimale Wert liegt für das Modell 1 + log(t + c) um c = 0.105 und log(t + 0.105) wird ab jetzt als Prädiktor verwendet. > c <- d <- 1:100 > for (i in 1:100) { c[i] <- i/200 d[i] <- deviance(glm(count ~ 1 + log(t+c[i]), family=poisson)) } > plot(c, d, type="l", ylab="deviance") > c[d==min(d)] [1] 0.105 Zunächst ist es ratsam ein Modell zu betrachten, das auch einen quadratischen Term beinhaltet, um zu testen, ob noch immer eine verbleibende Krümmung vorhanden ist. > tc <- t + 0.105 > mo.P2 <- glm(count ~ 1 + log(tc) + I(log(tc)**2), family=poisson) > summary(mo.P3 <- glm(count ~ 1 + log(tc), family=poisson)) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.15110 0.09565 32.945 <2e-16 *** log(tc) -0.12751 0.05493 -2.321 0.0203 * --(Dispersion parameter for poisson family taken to be 1) Null deviance: 7.0672 on 4 degrees of freedom Residual deviance: 1.8335 on 3 degrees of freedom AIC: 30.403 56 KAPITEL 5. LOGLINEARE MODELLE > anova(mo.P3, mo.P2, test="Chisq") Analysis of Deviance Table Model 1: count ~ 1 + log(tc) Model 2: count ~ 1 + log(tc) + I(log(tc)^2) Resid. Df Resid. Dev Df Deviance P(>|Chi|) 1 3 1.83354 2 2 1.79245 1 0.04109 0.83936 > plot(fitted(mo.P3), residuals(mo.P3), ylim=c(-1,1)); abline(0,0) Der Parameter des quadratischen Terms ist nicht mehr signifikant. Wegen der geringen Deviance-Differenz von 0.041 entfernen wir den quadratischen Term aus dem Modell. Es scheint, dass mit der transformierten Zeitachse ein linearer Trend ausreicht. Der Verlauf der Pearson-Residuen des Modells 1 + log(t + 0.105) zeigt in der Abbildung 5.4, dass diese ziemlich horizontal sind mit relativ konstanter Streuung. Interessant ist auch, den approximativen (zweiseitigen) punktweisen Konfidenzbereich für die Modellkurve µ0 = exp(η0 ) einer neuen Beobachtung x0 zu betrachten. Eine Möglichkeit besteht darin, η̂0 = xt0 β̂ zusammen mit sd .e.(η̂0 ) dafür zu verwenden. Das transformierte 95% Intervall ist damit ( ( )) KIV (µ0 ) = exp η̂0 ± 1.96 × sd .e.(η̂0 ) , was in Abbildung 5.5 dargestellt ist. ′ Alternativ liefert die Delta Methode var(µ̂0 ) ≈ var(η̂0 ) × [exp(η̂0 )] 2 und es folgt somit sd .e.(µ̂0 ) ≈ sd .e.(η̂0 ) × µ̂0 , also das symmetrische Intervall basierend auf eine Normalverteilungsanname für µ̂0 ( ) KIV (µ0 ) = µ̂0 ± 1.96 × sd .e.(µ̂0 ) . Natürlich können beide Ideen unterschiedliche Intervallsgrenzen liefern. > tc.new <- data.frame(tc = seq(0, 12, 0.005) + 0.105) > mo.pred <- predict.glm(mo.P3, newdata=tc.new, type="response", se.fit=T) > attributes(mo.pred) # Delta-Method $names [1] "fit" "se.fit" "residual.scale" > fit <- mo.pred$fit > upper <- fit + qnorm(0.975) * mo.pred$se.fit > lower <- fit - qnorm(0.975) * mo.pred$se.fit > plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms") > lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower) > mo.peta <- predict.glm(mo.P3, newdata=tc.new, type="link", se.fit=T) > fit <- exp(mo.peta$fit) 57 30 20 0 10 micro-organisms 40 50 5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE 0 2 4 6 8 10 12 t Abbildung 5.5: 95% Konfidenzbereiche unter dem Poissonmodell. > > > > upper <- exp(mo.peta$fit + qnorm(0.975) * mo.peta$se.fit) lower <- exp(mo.peta$fit - qnorm(0.975) * mo.peta$se.fit) plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms") lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower) 5.2 Loglineare und Multinomiale Response Modelle Hier wird der Zusammenhang zwischen einem loglinearen Modell für Anzahlen und einem multinomialen (binomialen) Response Modell für Häufigkeiten behandelt. Diese Beziehung stammt von der Tatsache, dass die Multinomialverteilung aus einer Serie unabhängiger Poissonvariablen generiert werden kann, wenn deren Totalsumme fixiert ist. 5.2.1 Die Multinomialverteilung Die Objekte einer Population weisen genau eines von k Merkmalen auf, beispielsweise die Haarfarbe oder eine Todesursache. Aus dieser Population zieht man eine Stichprobe und ist an der Anzahl Yj aller Beobachtungen mit Ausprägung j = 1, . . . , k interessiert. Zwei verschiedene Komponenten Yj und Yj ′ sind hier abhängige Zufallsvariablen. Die Multinomialverteilung beschreibt die gemeinsame Verteilung des Vektors (Y1 , . . . , Yk ) und 58 KAPITEL 5. LOGLINEARE MODELLE es gilt y+ ! P (Y1 = y1 , . . . , Yk = yk ) = ∏k k ∏ j=1 yj ! j=1 y πj j . (5.1) ∑ Hier bezeichnen π1 , . . . , πk , mit j πj = 1, die Wahrscheinlichkeiten der Merkmale in der Population. ∑ Der Stichprobenraum ist die Menge aller ganzzahligen k-Vektoren mit 0 ≤ yj , wobei y+ = j yj . Eine alternative Herleitung dieser Verteilung erfolgt über k unabhängige Poissonvariablen Y1 , . . . , Yk mit Erwartungen µ1 , . . . , µk , also y µj j P (Yj = yj ) = exp(−µj ) , yj ! j = 1, . . . , k . ∑ ∑ Die Summe Y+ = j Yj ist wiederum Poissonverteilt mit Erwartung µ+ = j µj . Als bedingte Wahrscheinlichkeit der (Y1 , . . . , Yk ), gegeben deren Summe Y+ , resultiert ∏k y µj j j=1 yj ! P (Y1 = y1 , . . . , Yk = yk |Y+ ) = exp(−µj ) y µ++ y+ ! exp(−µ+ ) = ∏k yj j=1 µj y ∏ µ++ kj=1 yj ! y+ ! y+ ! = ∏k j=1 k ( ∏ µj )yj yj ! j=1 µ+ . Somit entspricht dies der Multinomialverteilung (5.1) mit πj = µj /µ+ . Der Erwartungswert µj bezeichnet bei der Poissonverteilung die theoretische Durchschnittsanzahl der Ereignisse vom Typ j während πj bei der Multinomialverteilung den theoretischen Anteil der Ereignisse dieses Typs beschreibt. Gegeben sei nun eine Stichprobe y1 , . ∑ . . , yn von n unabhängigen Multinomialvektoren yi = (yi1 , . . . , yik ), und sei yi+ = j yij fest für jedes i. Zu jedem yi korrespondiert ein Vektor πi = (πi1 , . . . , πik ). Der für die Schätzung von πi relevante Beitrag der i-ten Beobachtung an der Log-Likelihood ist laut (5.1) ℓ(πi |yi ) = k ∑ yij log πij , mit j=1 k ∑ πij = 1 . j=1 Wegen der Unabhängigkeit der Vektoren yi resultiert als Log-Likelihood der Stichprobe ℓ(π|y) = n ∑ ℓ(πi |yi ) = i=1 n ∑ k ∑ yij log πij . i=1 j=1 Für die Maximierung von ℓ(π|y) folgt unter den Bedingungen ∑ j πij = 1, ∀i = 1, . . . , n, )) y ∑ (∑ ∂ ( ij ℓ(π|y) − λi − λi , πij − 1 = ∂πij πij i=1 j=1 n k 5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE also π̂ij = yij /λ̂i . Somit ist 1 = Funktion ist somit ∑ j π̂ij = ∑ j 59 yij /λ̂i = yi+ /λ̂i , also λ̂i = yi+ . Die Score- yij − yi+ πij ∂ℓ(π|y) = . ∂πij πij Verwendet man zusätzlich ein loglineares Modell mit linearem Prädiktor der Form ∑ log πij = xijr βr , r so ist wegen ∂πij /∂βr = xijr πij ∂ℓ(π|y) ∑ ∑ yij − yi+ πij ∂πij ∑ ∑ = = xijr (yij − yi+ πij ) . ∂βr πij ∂βr i=1 j=1 i=1 j=1 n 5.2.2 k n k Vergleich von Poisson-Erwartungen Betrachte unabhängige Yj ∼ Poisson(µj ) und teste H0 : log µ1 = · · · = log µk = β1 gegen H1 : log µj = β1 + β2 xj , für alle j = 1, . . . , k für gegebene Konstanten xj und für ein unbekanntes β2 . Der relevante Teil der PoissonLog-Likelihood Funktion k ( ) ∑ yj log µj − µj ℓ(µ|y) = j=1 entspricht hier unter der Alternative ℓ(β1 , β2 |y) = k ( ∑ ) yj (β1 + β2 xj ) − exp(β1 + β2 xj ) . j=1 Um zu sehen, wie dies zu einem multinomialen Modell transformiert, verwende µ+ = k ∑ µj = j=1 k ∑ exp(β1 + β2 xj ) = exp(β1 ) j=1 k ∑ exp(β2 xj ) , j=1 also log µ+ = β1 + log k (∑ ) exp(β2 xj ) , β1 = log µ+ − log bzw. n (∑ j=1 ) exp(β2 xj ) . j=1 Bezüglich (µ+ , β2 ) erhält man } { k k ( (∑ ) ) ∑ ℓ(µ+ , β2 |y) = yj log µ+ − log exp(β2 xj ′ ) + β2 xj − µ+ j ′ =1 j=1 = log µ+ k ∑ j=1 yj − k ∑ j=1 yj log k (∑ k ) ∑ exp(β2 x ) + β2 xj yj − µ+ , j′ j ′ =1 j=1 60 KAPITEL 5. LOGLINEARE MODELLE was mittels y+ = ∑ j yj geschrieben werden kann als k k { } {∑ (∑ )} β2 xj yj − y+ log exp(β2 xj ) ℓ(µ+ , β2 |y) = y+ log µ+ − µ+ + j=1 j=1 = ℓ(µ+ |y+ ) + ℓ(β2 , y|y+ ) . Die Log-Likelihood zerfällt unter H1 in zwei Komponenten. Die Komponente ℓ(µ+ |y+ ) entspricht der Log-Likelihood zu Y+ ∼ Poisson(µ+ ). Um die zweite Komponente zu untersuchen, verwenden wir wiederum die Parametrisierung πj = µj exp(β1 + β2 xj ) exp(β2 xj ) =∑ =∑ . µ+ j ′ exp(β1 + β2 xj ′ ) j ′ exp(β2 xj ′ ) Wegen log πj = β2 xj − log (∑ ) exp(β2 xj ′ ) , j′ ist der zweite Term in der obigen Log-Likelihood gleich ℓ(β2 , y|y+ ) = k ∑ yj log πj , j=1 was einer multinomialen Log-Likelihood entspricht, also der konditionalen Poisson-LogLikelihood von y gegeben die Gesamtanzahl y+ . Die wichtigste Erkenntnis hierbei ist, dass die marginale Likelihood von Y+ nur von µ+ abhängt während die konditionale Likelihood zu (Y1 , . . . , Yk )|(Y+ = y+ ) von π abhängt, also nur von β2 . Vorausgesetzt dass keine Information bezüglich des Wertes von β1 (und daher auch nicht für µ+ ) vorliegt, folgert man, dass die gesamte Information bezüglich β2 in der konditionalen Likelihood zu y|y+ enthalten ist. 5.2.3 Multinomiale Responsemodelle Mit diesen Ergebnissen kann man zeigen, dass bestimmte loglineare Modelle äquivalent zu multinomialen Modellen sind. Dazu ordnet man die Beobachtungen Yij den Zellen einer zweidimensionalen Kontingenztafel zu und betrachtet das Modell log µij = ϕi + xtij β , i = 1, . . . , n, j = 1, . . . , k (5.2) mit µij = E(Yij ) und bekannten p-dimensionalen Vektoren xij . Natürlich interessiert uns ausschließlich der Parameter β während ϕi Nebenparameter (incidental parameters) sind. In diesem Modell wächst die Dimension des Parameterraumes n + p mit n → ∞ für festes p. Daher ist auch für n → ∞ nicht garantiert, dass der Maximum-Likelihood Schätzer 5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE 61 effizient oder konsistent ist. Es wird nun gezeigt, dass die konditionale Likelihood nur von β und nicht von ϕ abhängt. Wie zuvor ist die Log-Likelihood ℓ(ϕ, β|y) = n ∑ k ( ∑ ) yij (ϕi + xtij β) − exp(ϕi + xtij β) i=1 j=1 = n ∑ ϕi yi+ + i=1 n ∑ k ∑ − yij xtij β n ∑ k ∑ exp(ϕi + xtij β) . i=1 j=1 i=1 j=1 Wir fixieren die i-te Zeilensumme yi+ und machen die Transformation µi+ = k ∑ µij = exp(ϕi ) j=1 k ∑ exp(xtij β) , also ϕi = log µi+ − log k (∑ j=1 ) exp(xtij β) . j=1 Die Log-Likelihood als Funktion in (µ+ , β) ist somit k k n {∑ n { )} (∑ } ∑ ∑ t exp(xtij ′ β) yij xij β − yi+ log yi+ log µi+ − µi+ + ℓ(µ+ , β|y) = i=1 i=1 j=1 j ′ =1 = ℓ(µ+ |y+ ) + ℓ(β, y|y+ ) . Der erste Term ist wieder die Poisson-Log-Likelihood zur Zeilensumme Yi+ ∼ Poisson(µi+ ). Die zweite Größe ist die konditionale Log-Likelihood gegeben {Yi+ } und hängt nur von β und nicht von ϕ ab. Die ganze Information bezüglich β ist in der zweiten Komponente. Daher ist es klar, dass β̂ und var(β̂) basierend auf die Maximierung von ℓ(β, y|y+ ) identisch den entsprechenden Resultaten unter Verwendung der vollen Log-Likelihood ist. In anderen Worten ist das loglineare Modell (5.2) äquivalent dem multinomialen Modell mit exp(xtij β) µij µij πij = =∑ = . t µi+ µi+ l exp(xil β) 5.2.4 (5.3) Beispiel Es werden wiederum die Häufigkeiten von Rezidiven analysiert. Hatten wir dafür in 4.3.1 unabhängige binomialverteilte Responses mit dem Logitlink verwendet, so werden nun Poissonvariablen mit dem Loglink das Modell bilden. Wir betrachten somit eine Tabelle mit n = 24 Zellen: 0 GZ nicht befallen GZ befallen über GZ befallen R=0 103 40 10 R=1 21 18 4 befallene LK-Stationen 1 2 R=0 R=1 R=0 R=1 14 7 7 9 6 6 2 5 3 16 3 9 ≥3 R=0 R=1 0 13 0 5 2 10 62 KAPITEL 5. LOGLINEARE MODELLE Um die gleichen Ergebnisse wie beim logistischen Modell mit Prädiktor L + G zu erhalten, muss die Summe der beiden Poisson-Beobachtungen in den von L und G aufgespannten Zellen (in jeder Zelle befindet sich jeweils eine R = 0 und eine R = 1 Beobachtung) fixiert werden. Das erreicht man durch Aufnahme der Interaktion L*G in den Prädiktor. Das eigentliche Modell für den Erwartungswert geht als Interaktion mit R in den Prädiktor ein, also betrachtet man log µ = R ∗ (L + G) + L ∗ G . > > > > y <- c(rez, total-rez); R <- gl(2, 12, labels=1:0) L <- factor(rep(rep(0:3, 3), 2)); G <- factor(rep(rep(0:2, each=4), 2)) rezidiveMN <- data.frame(y, R, L, G); attach(rezidiveMN) summary(MN.glm <- glm(y ~ R*(L+G) + L*G, family=poisson)) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.032932 0.203404 14.911 < 2e-16 *** R0 1.604143 0.219202 7.318 2.51e-13 *** L1 -0.852487 0.328546 -2.595 0.009467 ** L2 -0.870085 0.352170 -2.471 0.013487 * L3 -0.573696 0.349225 -1.643 0.100431 G1 -0.196387 0.286157 -0.686 0.492530 G2 -1.387115 0.382373 -3.628 0.000286 *** R0:L1 -1.287280 0.347971 -3.699 0.000216 *** R0:L2 -1.778549 0.412032 -4.317 1.59e-05 *** R0:L3 -3.797851 0.761597 -4.987 6.14e-07 *** R0:G1 -0.728501 0.312710 -2.330 0.019825 * R0:G2 -1.073534 0.381676 -2.813 0.004913 ** L1:G1 -0.007513 0.410137 -0.018 0.985385 L2:G1 -0.360864 0.502329 -0.718 0.472522 L3:G1 -0.705828 0.592756 -1.191 0.233749 L1:G2 1.766372 0.441979 3.997 6.43e-05 *** L2:G2 1.456786 0.503794 2.892 0.003833 ** L3:G2 1.375382 0.546435 2.517 0.011836 * --(Dispersion parameter for poisson family taken to be 1) Null deviance: 434.130 on 23 degrees of freedom Residual deviance: 10.798 on 6 degrees of freedom AIC: 134.75 Number of Fisher Scoring iterations: 6 Der Term L∗G fixiert nur die Ränder bezüglich L und G, während die erklärenden Faktoren des Logit-Modells in den Wechselwirkungen mit R (hier L + G) zu finden sind. Das Modell beinhaltet daher p = 18 Parameter. Man bemerke, dass die relevanten Parameter zu R0, R0:L1, R0:L2, R0:L3, R0:G1 und R0:G2 gehören und exakt jenen im Logit-Modell entsprechen. Natürlich haben sich Deviance und Freiheitsgrade auch nicht geändert. Als Prognosewerte erhält man 5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE 63 > grid <- list(R=levels(R), L=levels(L), G=levels(G)) > MN.p <- predict(MN.glm, expand.grid(grid), type="response") > options(digits=4); t(matrix(MN.p, 8)) [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 20.758 103.242 8.850 12.150 8.696 7.304 11.696 1.3041 [2,] 17.057 40.943 7.218 4.782 4.981 2.019 4.745 0.2553 [3,] 5.185 8.815 12.932 6.068 9.323 2.677 11.559 0.4405 Durch das Fixieren der Ränder die Summe ∑ist in jeder Zelle (für jede L-G Kombination) ∑ der geschätzten Erwartungen r µ̂ijr gleich der beobachteten Gesamtanzahl r yijr . Das Modell logit(µ) = 1 entspricht beispielsweise dem Modell log µ = R + L ∗ G . Man erhält ein Modell mit p = 13 Parametern. Wiederum fixiert L ∗ G nur die Ränder und R = R ∗ 1 steht nur in ’Wechselwirkung’ mit dem Intercept. > summary(MN.glm1 <- glm(y ~ R + L*G, family=poisson))$deviance [1] 103.5 > MN.p1 <- predict(MN.glm1, expand.grid(grid), type="response") > (pred <- t(matrix(MN.p1, 8))) [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [1,] 48.728 75.272 8.252 12.748 6.288 9.712 5.109 7.891 [2,] 22.792 35.208 4.716 7.284 2.751 4.249 1.965 3.035 [3,] 5.502 8.498 7.466 11.534 4.716 7.284 4.716 7.284 > pred[1,1]/pred[1,2] [1] 0.6474 Jetzt ist die Wahrscheinlichkeit eines Rezidivs in jeder Zelle gleich, also die Verhältnisse 48.7/75.3 = 22.8/35.2 = 5.5/8.5 = · · · = 0.647. Eine sehr einfache Alternative zum loglinearen Poissonmodell mit allen Interaktionen stellt die Funktion multinom in der Bibliothek nnet dar. Hiermit können multinomiale Daten direkt modelliert werden. > library(nnet) > summary(MN.direkt <- multinom(R ~ L+G, weights=y)) Coefficients: Values Std. Err. (Intercept) 1.6041 0.2192 L1 -1.2873 0.3480 L2 -1.7785 0.4120 L3 -3.7979 0.7616 G1 -0.7285 0.3127 G2 -1.0735 0.3817 Residual Deviance: 326.8 AIC: 338.8 64 KAPITEL 5. LOGLINEARE MODELLE Hierbei vergleicht die Deviance das Modell mit einem Modell, das jedes der 313 einzelnen Subjekte korrekt vorhersagt, und nicht mit dem saturierten Modell zu den 12 Eintragungen der 3 × 4 Tabelle. > MN.direkt.sat <- multinom(R ~ L*G, weights=y) > anova(MN.direkt, MN.direkt.sat) # resulting deviance difference Model Resid. df Resid. Dev Test Df LR stat. Pr(Chi) 1 L + G -6 326.7615 NA NA NA 2 L * G -12 315.9636 1 vs 2 6 10.79786 0.0948282 # the multinomial deviance can be derived by > MN.direkt$deviance - MN.direkt.sat$deviance [1] 10.79786 # this value exactly compares with the Binomial logistic deviance 5.3 5.3.1 Zweidimensionale Kontingenztafeln Unabhängigkeitsmodell Wir nehmen nun an, dass eine multinomialverteilte Stichprobe mit Umfang n vorliegt, die auf N = I × J Zellen einer Kontingenztafel verteilt ist. Die Wahrscheinlichkeiten {πij } dieser Multinomialverteilung stellen die gemeinsame Verteilung der beiden kategorialen Responses dar. Diese sind stochastisch unabhängig, falls πij = πi+ π+j , ∀i = 1, . . . , I , j = 1, . . . , J . In diesem Fall gilt für die zu erwartenden Häufigkeiten mij = nπij mij = nπi+ π+j , ∀i = 1, . . . , I , j = 1, . . . , J . Auf der logarithmischen Skala hat dieses Modell folgendes Aussehen log mij = log n + log πi+ + log π+j . Der Logarithmus des Erwartungswertes für die Zelle (i, j) ist daher eine additive Funktion des i-ten Zeileneffekts und des j-ten Spaltenffekts. Bezeichnet X den zeilen- und Y den spaltenbildenden Faktor, so ist dieses Modell äquivalent mit log mij = µ + λxi + λyj , (5.4) 5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN 65 wobei mit der Kontrast Parametrisierung folgt 1∑ log πh+ I h=1 I λxi = log πi+ − λyj = log π+j J 1∑ − log π+h J h=1 I J 1∑ 1∑ µ = log n + log πh+ + log π+h . I h=1 J h=1 Mit dieser gewählten Parametrisierung gilt } { J I I I ∑ ∑ ∑ ∑ 1 λxi = log πi+ − log πh+ = 0 = λyj . I i=1 i=1 j=1 h=1 Modell (5.4) wird loglineares Unabhängigkeitsmodell genannt. Durch diese beiden Restriktionen sind nur I − 1 Zeilen- sowie J − 1 Spaltenparameter frei schätzbar. 5.3.2 Saturiertes (volles) Modell Falls keine Unabhängigkeit angenommen werden kann, definiere ηij = log mij und ηi+ J 1∑ = ηij J j=1 1∑ ηij I i=1 I η+j = η++ = µ = I J 1 ∑∑ ηij . IJ i=1 j=1 Der Parameter µ = η++ bezeichnet hier den sogenannten grand mean der log mij . Wir definieren den Zeileneffekt λxi , Spalteneffekt λyj und Interaktionseffekt (Wechselwirkung) λxy ij als λxi = ηi+ − η++ λyj = η+j − η++ λxy = ηij − ηi+ − η+j + η++ = (ηij − η++ ) − (ηi+ − η++ ) − (η+j − η++ ) ij {z } | {z } | {z } | ηij −µ λx i λyj 66 KAPITEL 5. LOGLINEARE MODELLE so dass damit das obige Modell geschrieben werden kann als log mij = µ + λxi + λyj + λxy ij . (5.5) Hierbei bezeichnen {λxi } und {λyj } Abweichungen von µ. Die Wechselwirkung {λxy ij } ist einfach der um den Zeilen- wie auch Spalteneffekt bereinigte Zelleneffekt. Wegen I ∑ λxi = J ∑ λyj = 0 j=1 i=1 hat man I − 1 (bzw. J − 1) unabhängige Zeilenparameter (bzw. Spaltenparameter). Falls λxi > 0, ist die durchschnittliche (log) erwartete Häufigkeit für Zellen der i-ten Zeile größer als die durchschnittliche (log) erwartete Häufigkeit über die ganze Tabelle. Weiters gilt I ∑ i=1 λxy = ij I ∑ ηij − i=1 = Iη+j 1 − J I ∑ ηi+ − Iη+j + Iη++ i=1 I ∑ J ∑ ηij − Iη+j i=1 j=1 I J J ∑ 1 ∑∑ +I ηij = 0 = λxy ij . IJ i=1 j=1 j=1 Falls die Parameter {λxy ij } in den (I − 1)(J − 1) Zellen der ersten (I − 1) Spalten und ersten (J − 1) Zeilen gegeben sind, so resultieren sofort die restlichen Parameter {λxy ij }. Daraus folgt, dass (I − 1)(J − 1) dieser Parameter linear unabhängig sind. Das Unabhängigkeitsmodell (5.4) ist ein Spezialfall des saturierten Modells (5.5) mit xy λxy ij = 0, ∀(i, j). Die zusätzlichen Parameter λij sind jetzt Assoziations-Parameter, welche die Abweichungen von der Unabhängigkeit zwischen X und Y beschreiben. Die totale Anzahl linear unabhängiger Parameter ist Unabhängigkeitsmodell: Abhängigkeitsmodell: 1 + (I − 1) + (J − 1) = I + J − 1 1 + (I − 1) + (J − 1) + (I − 1)(J − 1) = I × J = N . In R arbeitet man standardmäßig mit einer anderen Kontrastierung, der sogenannten treatment Kontrastierung. Möchte man mit der obigen Parametrisierung Modelle interpretieren, so ist dazu folgender Aufruf notwendig > options(contrasts=c("contr.sum", "contr.poly")) Die Default-Einstellung von R ist jedoch > options(contrasts=c("contr.treatment", "contr.poly")) 5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN 5.3.3 67 Interpretation der Parameter Ein spezieller Fall liegt vor, wenn binäre Variablen modelliert werden. Für die (I ×2)-Tafel i 1 2 1 π11 π12 .. .. .. . . . i πi1 πi2 .. .. .. . . . I πI1 πI2 resultieren unter der Annahme der Unabhängigkeit für alle i = 1, . . . , I die log-odds log Da wiederum ∑2 j=1 πi1 πi1 mi1 = log = log = log mi1 − log mi2 πi2 1 − πi1 mi2 = (µ + λxi + λy1 ) − (µ + λxi + λy2 ) = λy1 − λy2 . λyj = 0 gilt, also λy1 + λy2 = 0, folgt λy2 = −λy1 und damit für alle Zeilen log πi1 = λy1 − λy2 = 2λy1 . 1 − πi1 Somit ist die Quote (odds) dafür, dass die Spalten-Klassifikation Kategorie 1 ergibt im Vergleich zu Kategorie 2 πi1 = exp(2λy1 ) . 1 − πi1 Hat man sogar nur eine (2 × 2)-Tafel wie i 1 2 1 m11 m12 2 m21 m22 so ist das odds-ratio der erwarteten Häufigkeiten ψ= m11 /m12 m11 m22 = m21 /m22 m21 m12 und unter dem saturierten Modell resultiert als log-odds-ratio log ψ = log m11 + log m22 − log m12 − log m21 y xy x = (µ + λx1 + λy1 + λxy 11 ) + (µ + λ2 + λ2 + λ22 ) y xy x −(µ + λx1 + λy2 + λxy 12 ) − (µ + λ2 + λ1 + λ21 ) xy xy xy = λxy 11 + λ22 − λ12 − λ21 . 68 Mit KAPITEL 5. LOGLINEARE MODELLE ∑ i λxy ij = ∑ j λxy ij = 0, folgt xy λxy 11 + λ21 xy λxy 11 + λ12 xy λxy 12 + λ22 xy λxy 21 + λ22 =0 =0 =0 =0 → → → → λxy 11 λxy 11 λxy 12 λxy 21 = −λxy 21 = −λxy 12 = −λxy 22 = −λxy 22 xy xy xy also λxy 11 = λ22 = −λ12 = −λ21 und somit log ψ = 4λxy 11 . Daher ist es sinnvoll, hier eine alternative Parametrisierung zu verwenden. Setzt man statt dem + eine 1, so verwendet man die erste Zelle als Vergleichsreferenz, und es folgt µ λxi λyj λxy ij = = = = η11 ηi1 − η11 η1j − η11 (ηij − η11 ) − (ηi1 − η11 ) − (η1j − η11 ) = ηij − ηi1 − η1j + η11 . | {z } | {z } λx i λyj Es resultiert wieder log mij = µ + λxi + λyj + λxy ij , jedoch ist jetzt λx1 λy1 λxy i1 λxy 1j = = = = η11 − η11 = 0 η11 − η11 = 0 ηi1 − η11 − λxi − λy1 = 0 η1j − η11 − λx1 − λyj = 0, also allgemein log m11 mij = m1j mi1 y xy x (µ + λx1 + λy1 + λxy 11 ) + (µ + λi + λj + λij ) y xy x −(µ + λx1 + λyj + λxy 1j ) − (µ + λi + λ1 + λi1 ) = λxy ij . Die Assoziations-Parameter beschreiben jetzt das log-odds-ratio. Falls λxy ij = 0 dann folgt m11 mij = exp(λxy ij ) = 1 , m1j mi1 und damit ist das odds-ratio beim Unabhängigkeitsmodell gleich 1. 5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN 5.3.4 69 Beispiel Untersuche, ob der Lymphknotenbefall und die Rezidivbildung unabhängig sind. R=0 R=1 L=0 153 43 L=1 23 29 L=2 12 23 L=3 2 28 Das loglineare Unabhängigkeitsmodell L + R ergibt unter Annahme der Poissonverteilung eine Deviance von 82.12 bei 3 Freiheitsgraden. Die Pearson-Statistik 2 ∑ 4 ∑ (yij − µ̂ij )2 X = µ̂ij i=1 j=1 2 realisiert in 77.63. Dies entspricht genau der χ2 -Statistik bei der Kontingenztafel-Analyse. > y <- c(153, 23, 12, 2, 43, 29, 23, 28) > L <- factor(c(0, 1, 2, 3, 0, 1, 2, 3)) > R <- factor(c(0, 0, 0, 0, 1, 1, 1, 1)) > summary(LK.mod <- glm(y ~ L + R, family=poisson)) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 4.77894 0.08468 56.437 < 2e-16 *** L1 -1.32687 0.15599 -8.506 < 2e-16 *** L2 -1.72277 0.18350 -9.388 < 2e-16 *** L3 -1.87692 0.19604 -9.574 < 2e-16 *** R1 -0.43484 0.11573 -3.757 0.000172 *** --(Dispersion parameter for poisson family taken to be 1) Null deviance: 300.17 on 7 degrees of freedom Residual deviance: 82.12 on 3 degrees of freedom > sum(residuals(LK.mod, type="pearson")**2) [1] 77.6328 Natürlich ist diese Hypothese der Unabhängigkeit eindeutig zu verwerfen. Eine alternative Interpretation des Ergebnisses wäre zu sagen, dass das Unabhängigkeitsmodell nicht zu passen scheint. Dieses Ergebnis kann auch durch die folgende Sequenz von Befehlen erzielt werden > N <- matrix(y, 2, 4, byrow=TRUE); [,1] [,2] [,3] [,4] [1,] 153 23 12 2 [2,] 43 29 23 28 N 70 KAPITEL 5. LOGLINEARE MODELLE > chisq.test(N) # only available for I x J tables Pearson’s Chi-squared test data: N X-squared = 77.6328, df = 3, p-value < 2.2e-16 Dies entspricht dem χ2 -Test auf Unabhängigkeit zweier Faktoren, welcher jedoch nur für zweidimensionale Situationen verwendbar ist. Im Gegensatz dazu erlaubt aber das loglineare Poisson-Modell verschiedenartige Verallgemeinerungen. Dazu zählen die Konzepte der vollständigen Unabhängigkeit oder der konditionalen Unabhängigkeit (graphische Modelle). Um zu sehen, welche Auswirkung die Wahl der Parametrisierung hat, betrachten wir noch zusätzlich das Ergebnis der Schätzung wenn als Referenzstufe von L die vierte Stufe gewählt wurde. > summary(glm(y ~ C(L, base=4) + R, family=poisson)) #(1, 4)=reference cell Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.9020 0.1881 15.425 < 2e-16 *** C(L, base = 4)1 1.8769 0.1960 9.574 < 2e-16 *** C(L, base = 4)2 0.5500 0.2293 2.399 0.016428 * C(L, base = 4)3 0.1542 0.2488 0.620 0.535530 R1 -0.4348 0.1157 -3.757 0.000172 *** Im Gegensatz dazu liefert die sum Kontrastierung > options(contrasts=c("contr.sum", "contr.poly")) > summary(glm(y ~ L + R, family=poisson)) Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.32988 0.07445 44.726 < 2e-16 *** L1 1.23164 0.08911 13.822 < 2e-16 *** L2 -0.09523 0.12249 -0.777 0.436899 L3 -0.49113 0.14027 -3.501 0.000463 *** R1 0.21742 0.05786 3.757 0.000172 *** --(Dispersion parameter for poisson family taken to be 1) Null deviance: 300.17 on 7 degrees of freedom Residual deviance: 82.12 on 3 degrees of freedom > options(contrasts=c("contr.treatment", "contr.poly")) Kapitel 6 Modelle mit zufälligen Effekten 6.1 Zufällige Prädiktoren Bis jetzt basierten die betrachteten GLMs auf lineare Prädiktoren der Form ηi = g(µi ) = xti β . Die erklärenden Größen sind hierbei zum Vektor x zusammengefasst und β stellt den unbekannten Parametervektor dar, der geschätzt werden muss. Wir werden jetzt eine Klasse von Modellen diskutieren, die im linearen Prädiktor zusätzlich noch einen zufälligen Effekt verwendet. Dies hat in den folgenden beiden Situationen eine sehr klare Motivation. Falls beispielsweise einige relevante erklärende Variablen ui = (ui1 , . . . , uip′ )t gar nicht beobachtet sind, kann durch Hinzunahme eines zufälligen (skalarwertigen) Effektes zi = uti γ auf die ansonsten resultierende Überdispersion (Datenvariabilität ist größer als die Modellvariabilität) eingegangen werden. Diese Überlegung führt zu Prädiktoren der Form ηi = g(µi ) = xti β + zi . Andererseits könnten n unabhängige Gruppen von Beobachtungen yi = (yi1 , . . . , yini )t vorliegen, wofür innerhalb jeder Gruppe Abhängigkeit unter den yij besteht. Nimmt man einen zufälligen Effekt für sämtliche Responses einer Gruppe in deren Prädiktor auf, d.h. ηij = g(µij ) = xtij β + zi , so wird dadurch die Korrelation in den Daten (marginal) berücksichtigt. Da sich alle yij auf denselben Effekt zi beziehen, gewinnt man automatisch ein Modell für deren Abhängigkeit. Die nichtbeobachtbaren zi seien unabhängige und identisch verteilte Zufallsvariablen. Im Gegensatz zu früher verwenden wir jetzt zufällige Prädiktoren, welche den konditionalen Erwartungswert µi = E(yi |zi ) (bzw. µij = E(yij |zi )) modellieren. Weiters sei die konditionale Verteilung der Response, gegeben diese zufälligen Effekte, aus der Exponentialfamilie. Für die Berechnung des Maximum-Likelihood Schätzers soll jedoch die marginale Dichte maximiert werden. Da dies nur selten analytisch durchgeführt werden kann, wird oft als Alternative die EM-Schätzung verwendet. 71 72 6.2 KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN EM Schätzer Für den von Dempster, Laird & Rubin (1977) entwickelten EM-Algorithmus wird angenommen, dass die Daten aus einem beobachtbaren Teil y und einem nicht beobachtbaren Teil z zusammengesetzt sind. Die gemeinsame Dichte einer vollständigen Beobachtung (y, z) sei f (y, z|θ), wobei alle unbekannten Parameter im System zum Vektor θ ∈ Θ zusammengefasst sind (hierbei bezeichnet Θ den Parameterraum). Somit gilt allgemein für die marginale Dichte f (y|θ) der Response y ∫ ℓ(θ|y) = log f (y|θ) = log f (y, z|θ)dz . (6.1) Um den Schätzer θ̂ zu bestimmen, wird die marginale Log-Likelihood Funktion ℓ(θ|y) maximiert. Dabei stößt man aber in der Praxis häufig auf Probleme mit dem Integral (6.1). Mit der bedingten Dichte von z|y, gegeben durch f (z|y, θ) = f (y, z|θ) , f (y|θ) lässt sich (6.1) schreiben als ℓ(θ|y) = log f (y|θ) = log f (y, z|θ)−log f (z|y, θ). Der Schätzer θ̂ soll ℓ(θ|y) maximieren. Es gilt auch log f (y, z|θ) = log f (z|y, θ) + ℓ(θ|y) . Da z nicht beobachtet ist, ersetzen wir diese fehlende Information durch ihren konditionalen Erwartungswert, gegeben all das was beobachtet vorliegt. Für dessen Berechnung verwenden wir einen beliebigen zulässigen Parameterwert θ0 ∈ Θ, d.h. bezüglich f (z|y, θ0 ). Der konditionale Erwartungswert von ℓ(θ|y), gegeben die beobachteten Daten y, ist aber wiederum ℓ(θ|y), also gilt ( ) ( ) ( ) E log f (y, z|θ)y, θ0 = E log f (z|y, θ)y, θ0 + E ℓ(θ|y)y, θ0 ∫ ∫ ∫ log f (y, z|θ)f (z|y, θ0 )dz = log f (z|y, θ)f (z|y, θ0 )dz + ℓ(θ|y)f (z|y, θ0 )dz Q(θ|θ0 ) = H(θ|θ0 ) + ℓ(θ|y) . (6.2) Die Maximierung von ℓ(θ|y) in θ ist daher äquivalent mit der Maximierung der Differenz Q(θ|θ0 ) − H(θ|θ0 ). Bemerke, dass (6.2) für beliebige Parameterwerte θ ∈ Θ hält, also auch für θ = θ0 wofür wir Q(θ0 |θ0 ) = H(θ0 |θ0 ) + ℓ(θ0 |y) erhalten. Somit resultiert als Differenz zu (6.2) für die marginale Log-Likelihood Funktion [ ] ℓ(θ|y) − ℓ(θ0 |y) = Q(θ|θ0 ) − Q(θ0 |θ0 ) − H(θ|θ0 ) − H(θ0 |θ0 ) . (6.3) 6.2. EM SCHÄTZER 73 Allgemein liefert die Jensen Ungleichung für eine konkave Funktion, wie g(x) = log(x), die Abschätzung E(g(X)) ≤ g(E(X)). Damit folgt für beliebiges θ ∈ Θ ∫ f (z|y, θ) H(θ|θ0 ) − H(θ0 |θ0 ) = log f (z|y, θ0 )dz f (z|y, θ0 ) ( ) f (z|y, θ) = E log y, θ0 f (z|y, θ0 ) ( f (z|y, θ) ) ≤ log E y, θ0 f (z|y, θ0 ) ∫ f (z|y, θ) = log f (z|y, θ0 )dz f (z|y, θ0 ) ∫ = log f (z|y, θ)dz = log 1 = 0 , also H(θ|θ0 ) − H(θ0 |θ0 ) ≤ 0 . (6.4) Dies hat wiederum zur Folge, dass wir (6.3) schreiben können als ℓ(θ|y) − ℓ(θ0 |y) ≥ Q(θ|θ0 ) − Q(θ0 |θ0 ) . Sei θ′ jener Wert von θ, der für ein gegebenes (festes) θ0 die Funktion Q(θ|θ0 ) maximiert. Somit gilt Q(θ′ |θ0 ) − Q(θ|θ0 ) ≥ 0 und daher auch Q(θ′ |θ0 ) − Q(θ0 |θ0 ) ≥ 0 . Dies zeigt aber, dass durch die Maximierung von Q(θ|θ0 ) die Log-Likelihood nach diesem (EM-) Schritt zumindest nicht verkleinert wird, denn das letzte Ergebnis impliziert ℓ(θ′ |y) − ℓ(θ0 |y) ≥ 0 . Stationarität: Weiters resultiert durch Differenzieren von (6.2) die Identität ∂ ∂ ∂ Q(θ|θ0 ) = H(θ|θ0 ) + ℓ(θ|y) . ∂θ ∂θ ∂θ Nun gilt aber wegen (6.4) gerade H(θ|θ0 ) ≤ H(θ0 |θ0 ) für alle θ. Unter dieser Extremalbedingung folgt, dass ∂ H(θ|θ0 )|θ=θ0 = 0 ∂θ hält was bedeutet, dass die Funktion H(θ|θ0 ) stationär ist in θ = θ0 . Ist somit Q(θ|θ0 ) stationär in θ = θ0 , dann ist dies dort auch ℓ(θ|y). Der EM-Algorithmus ist zweistufig. Im E-Schritt wird der bedingte Erwartungswert Q(θ|θ0 ) für gegebenes θ0 berechnet. Danach wird im M-Schritt diese Funktion Q(θ|θ0 ) bezüglich θ maximiert. Sei das Ergebnis dieser Maximierung θ′ , so wird damit wiederum 74 KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN ein E-Schritt mit aktualisierten θ0 = θ′ durchgeführt. Diese Iteration wiederholt man bis zur Konvergenz im marginalen Likelihood Schätzer θ̂. Self-consistency des EM-Algorithmus: Falls der MLE θ̂ ein globales Maximum von ℓ(θ|y) darstellt, so muss dieser auch Q(θ̂|θ̂) ≥ Q(θ|θ̂) genügen. Ansonsten würde es ja einen Parameterwert θ∗ geben mit der Eigenschaft Q(θ̂|θ̂) < Q(θ∗ |θ̂) was wiederum ℓ(θ∗ |y) > ℓ(θ̂|y) impliziert und somit einen Widerspruch darstellt zur Annahme, dass θ̂ das globale Maximum von ℓ(θ|y) ist. Anstelle des Integrals in (6.1) muss also beim EM-Algorithmus das Integral Q(θ|θ0 ) in (6.2) berechnet und maximiert werden. Wie das folgende Beispiel zeigt, ist diese Berechnung in einigen Anwendungen möglich. 6.2.1 Beispiel: Endliche diskrete Mischungen Sei y1 , . . . , yn eine Stichprobe aus einer diskreten Mischung von K Dichtekomponenten mit gruppenspezifischen Parametern θ1 , . . . , θK (z.B. Lokation der k-ten Gruppe), einem gemeinsamen Parameter ∑ ϕ (z.B. Variabilität – für alle Gruppen gleich) und den Anteilen π1 , . . . , πK mit k πk = 1. Die marginale Dichte des i-ten Elements yi kann daher geschrieben werden als K ∑ πk f (yi |θk , ϕ) . f (yi |θ, ϕ, π) = k=1 Somit ist die Likelihood Funktion L(π, θ, ϕ|y) = n ∑ K ∏ πk f (yi |θk , ϕ) = i=1 k=1 n ∑ K ∏ πk fik . (6.5) i=1 k=1 Hier sind θ, ϕ und π unbekannt, also sind K + 1 + (K − 1) = 2K Parameter zu schätzen. Aus der Log-Likelihood Funktion (K ) n ∑ ∑ ℓ(π, θ, ϕ|y) = log L(π, θ, ϕ|y) = log πk fik i=1 k=1 erhält man beispielsweise bezüglich ϕ ∑ ∑ πk fik ∂ log fik ∑ ∑ ∂ ∂ log fik ℓ(π, θ, ϕ|y) = = , wik ∑K ∂ϕ ∂ϕ ∂ϕ l=1 πl fil i=1 k=1 i=1 k=1 n K n K (6.6) 6.2. EM SCHÄTZER 75 wobei die Gewichte von allen Parametern abhängen, also w = w(π, θ, ϕ) gilt. Diese ScoreFunktion ist eine gewichtete Summe von Score-Funktionen, in der die Summanden aus jeder einzelnen Komponetendichte der Mischung stammen. Die Gewichte wik können auch aus der Sicht eines formalen Bayes-Modells sehr gut interpretiert werden. Da per Definition P (k)P (yi |k) πk fik P (k|yi ) = ∑K = ∑K = wik P (l)P (y |l) π f i l il l=1 l=1 (6.7) gilt, haben diese Gewichte folgende Bedeutung: Wähle die Komponente k zufällig mit Wahrscheinlichkeit πk . Ziehe nun yi aus dieser Komponente, also aus einer Verteilung mit Dichte fik . Gegeben yi ist die a posteriori Wahrscheinlichkeit, dass die Komponente k gewählt wurde, gleich wik . Die wik sind auch in den Score-Funktionen bezüglich θ und π wesentlich. So ist ∑ πk ∂fik /∂θk ∑ ∂ ∂ log fik = wik ℓ(π, θ, ϕ|y) = . ∑K ∂θk ∂θ π f k l il l=1 i=1 i=1 n n (6.8) ∑ Für den Schätzer von π benötigt man die Randbedingung k πk = 1, was unter Verwendung eines Lagrange Multiplikators zu ) ( n K n ) (∑ ∑ ∑ ∂ fik 1 πk − 1 = ℓ(π, θ, ϕ|y) − λ −λ= wik − λ ∑K ∂πk πk l=1 πl fil i=1 i=1 k=1 ∑ führt. Setzt man diesen Term Null, so folgt ∑ ∑ πk = i wik /λ. Summiert man ∑ als Lösung über alle k, ergibt sich wegen (6.7) 1 = k πk = i k wik /λ = n/λ also λ = n. Damit folgt als Score für die Anteilswerte n 1 ∑ wik − n . πk i=1 (6.9) Die Maximum-Likelihood Schätzer sind definiert als die Nullstellen von (6.6), (6.8) und (6.9). Für die Anwendung des EM-Algorithmus wird jede Beobachtung yi wegen ihrer unbekannten Gruppenzugehörigkeit als unvollständig betrachtet. Zu jedem yi definiert man einen nichtbeobachtbaren Indikatorvektor zi = (zi1 , . . . , ziK ) mit { 1 falls yi aus Gruppe k zik = 0 sonst. Die gemeinsame Dichte von (y, z) lautet daher f (y, z|π, θ, ϕ) = n ∏ K ∏ i=1 k=1 f (yi |θk , ϕ)zik πkzik , 76 KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN also log f (y, z|π, θ, ϕ) = n ∑ K ∑ ( ) zik log f (yi |θk , ϕ) + log πk . i=1 k=1 Im E-Schritt berechnet man für Werte π0 , θ0 , ϕ0 die Funktion Q(π, θ, ϕ|π0 , θ0 , ϕ0 ) also ( n K ) ( ) ) ∑∑ ( E log f (y, z|π, θ, ϕ)y, π0 , θ0 , ϕ0 = E zik log f (yi |θk , ϕ)+log πk yi , π0 , θ0 , ϕ0 . i=1 k=1 Durch das Konditionieren hat man im Argument dieses Erwartungswertes außer den zik nur feste Größen. Somit folgt wegen E(zik |yi , π0 , θ0 , ϕ0 ) = P (zik = 1|yi , π0 , θ0 , ϕ0 ) = wik , wobei die wik in π0 , θ0 und ϕ0 ausgewertet sind, Q(π, θ, ϕ|π0 , θ0 , ϕ0 ) = n ∑ K ∑ ( ) wik log f (yi |θk , ϕ) + log πk . (6.10) i=1 k=1 Dies wird im E-Schritt berechnet, was wiederum im wesentlichen auf der Berechnung der Größen wik beruht. Die Parameter π, θ und ϕ stellen jene Größen dar, die im folgenden M-Schritt für feste wik maximiert werden. Dazu müssen aber gerade die Nullstellen der gewichteten Score Funktionen (6.6), (6.8), und (6.9) berechnet werden. Mischung von Normalverteilungen Liegt eine Mischung aus K Normalverteilungen mit unterschiedlichen Erwartungen µk und konstanter Varianz σ 2 vor, so ist ( ) (y − µ )2 1 i k log fik = − log 2πσ 2 − 2 2σ 2 und es folgt ∂ log fik yi − µk = , ∂µk σ2 ∂ log fik 1( 1 (yi − µk )2 ) =− − . ∂σ 2 2 σ2 σ4 Für geeignete µk , σ 2 und πk berechnet man im E-Schritt die Werte von wik . Im M-Schritt wird mit diesen wik die Maximierung durchgeführt. Aus (6.8) folgt n ∑ i=1 yi − µk =0 wik σ2 =⇒ ∑n wik yi . µ̂k = ∑i=1 n i=1 wik Mit (6.6) ergibt sich n ∑ K ∑ i=1 k=1 ( wik (yi − µk )2 ) 1 =0 − 2+ 2σ 2σ 4 1 ∑∑ σ̂ = wik (yi − µ̂k )2 . n i=1 k=1 n =⇒ 2 K 6.3. ÜBERDISPERSIONSMODELLE 77 Schließlich wird noch (6.9) benötigt, d.h. 1∑ wik . n i=1 n π̂k = Mit diesen µ̂k , σ̂ 2 und π̂k berechnet man im E-Schritt aktualisierte wik und geht damit zum M-Schritt zurück. 6.3 Überdispersionsmodelle Gegeben ein zufälliger Effekt z mit Dichte f (z) sei die bedingte Dichte einer Beobachtung y gleich f (y|z, θ). Somit folgt als gemeinsame Dichte f (y, z|θ) = f (y|z, θ)f (z|θ). Als marginale Dichte ergibt sich ∫ ∫ f (y|θ) = f (y, z|θ)dz = f (y|z, θ)f (z|θ)dz . (6.11) Die bedingte Dichte von z|y ist hier gegeben durch f (z|y, θ) = f (y|z, θ)f (z|θ)/f (y|θ). Als zu maximierende Funktion resultiert daher für die Stichprobe Q(θ|θ0 ) = = n ∫ ∑ i=1 n ∫ ∑ log f (yi , zi |θ)f (zi |yi , θ0 )dzi log f (yi , zi |θ) i=1 = n ∑ i=1 1 f (yi |θ0 ) ∫ f (yi |zi , θ0 ) f (zi |θ0 )dzi f (yi |θ0 ) log f (yi , zi |θ)f (yi |zi , θ0 )f (zi |θ0 )dzi . (6.12) Dabei sind sowohl f (yi |θ0 ) (siehe (6.11)) als auch das Integral in (6.12) selbst sehr unangenehm und nur selten analytisch geschlossen darstellbar. Zwei Ansätze sollen nun diskutiert werden. Im ersten nehmen wir an, dass z aus einer Normalverteilung stammt und daraufhin werden beide Integral durch eine K-Punkt Gauss-Quadratur approximiert. Falls diese Annahme nicht getroffen werden kann, wird im zweiten Ansatz f (z) durch den nicht-parametrischen Maximum-Likelihood, NPML Schätzer fˆ(z) ersetzt und die dadurch resultierende Zielfunktion maximiert. 6.3.1 Normalverteilte zufällige Effekte Für f (z) = ϕ(z) liefert die Gauss-Quadratur als Approximation ∫ f (y|θ0 ) = f (y|z, θ0 )ϕ(z)dz ≈ K ∑ k=1 f (y|zk , θ0 )πk 78 KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN mit bekannten Massen πk auf den festen (bekannten) Massepunkten zk . Wendet man dieses Approximationsverfahren auch auf das zweite Integral an, so resultiert n ∑K ∑ k=1 log f (yi , zk |θ)f (yi |zk , θ0 )πk Q(θ|θ0 ) ≈ ∑K j=1 f (yi |zj , θ0 )πj i=1 = = n ∑ K ∑ i=1 k=1 n ∑ K ∑ wik log f (yi , zk |θ) ( wik log f (yi |zk , θ) + log πk ) (6.13) i=1 k=1 mit den Gewichten πk f (yi |zk , θ0 ) , wik = ∑K f (y |z , θ )π i j 0 j j=1 (6.14) die in θ = θ0 ausgewertet sind und daher für die folgende Maximierung feste Größen darstellen. Die Approximation (6.13) ist identisch der Funktion Q in (6.10) und die Gewichte (6.14) entsprechen den Größen (6.7). Daher ist die Schätzung der Parameter im Modell mit zufälligen Effekten äquivalent der Schätzung in diskreten Mischmodellen, wobei hier aber die Massen πk bekannte Größen darstellen und bedingte Dichten gemischt werden. Schreibt man den Linearen Prädiktor dieses Modells als ηi = xti β + σz zi , iid mit zi ∼ N (0, 1) , (6.15) so wird bei der Maximierung von (6.13) bezüglich β gerade die mit (6.14) gewichtete Likelihood einer Stichprobe mit nK Elementen maximiert. Diese erweiterte Stichprobe erhält man, wenn jeder Beobachtung yi gerade K Lineare Prädiktoren der Form ηik = xti β + σz zk mit bekannten Massestellen zk und unbekanntem β und σz zugeordnet werden. Dies bedeutet, dass jede Beobachtung K-fach betrachtet wird und deren Lineare Prädiktoren jeweils mit zk erweitert werden. Der Schätzer zu dieser neuen Spalte stellt somit den Schätzer von σz dar. Für jede Iteration der EM-Schätzung ist daher eine Programm notwendig, mit dem eine gewichtete ML-Schätzung eines Generalisierten Linearen Modells gerechnet werden kann. 6.3. ÜBERDISPERSIONSMODELLE 79 Als Datensatz verwendet man dazu die erweiterte Struktur x1p .. . σz z1 .. . xn1 . . . x11 . . . .. . xnp x1p .. . z1 z2 .. . xn1 . . . .. . xnp .. . z2 .. . y y1 .. . w w11 .. . x11 .. . yn y1 .. . wn1 w12 .. . yn .. . wn2 .. . β ... y1 w1K x11 . . . .. .. .. . . . yn wnK xn1 . . . 6.3.2 x1p zK .. .. . . xnp zK Zufällige Effekte aus unbekannter Verteilung Falls über f (z) keine Annahmen getroffen werden können, so sollte f (z) nichtparametrisch geschätzt werden. Der Schätzer fˆ(z) ist dann eine Wahrscheinlichkeitsfunktion, definiert auf K geschätzte Massepunkte zk mit Massen πk . Entsprechendes Vorgehen wie bei der Gauss-Quadratur liefert (6.13) als Zielfunktion mit Gewichten (6.14), wobei jetzt jedoch die zk und πk unbekannt sind. Daher wird hier noch zusätzlich die Schätzung (6.9) für πk verwendet. Für den hierbei betrachteten Linearen Prädiktor ηi = xti β + zi , iid mit zi ∼ F (z) , (6.16) folgt ηik = xti β + zk , wobei die K Stellen zk unbekannt sind. Mittels eines K-stufigen Faktors kann der Prädiktor umgeschrieben werden zu ηik = xti β + z1 · 0 + · · · + zk−1 · 0 + zk · 1 + zk+1 · 0 + · · · + zK · 0 und die unbekannten z1 , . . . , zK stellen gerade die Parameter zu diesen K Dummy-Variablen (0,1) dar. Falls x einen Intercept enthält, kann nicht zwischen diesem und z1 unterschieden werden. Der dazu notwendige, erweiterte Datensatz hat wiederum nK Elemente. Für 80 KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN einen M-Schritt wird eine gewichtete ML-Schätzung für das GLM bezüglich y y1 .. . w w11 .. . x11 .. . yn y1 .. . wn1 w12 .. . yn .. . wn2 .. . β ... x1p .. . 1 .. . z 0 ... .. . xn1 . . . x11 . . . .. . xnp x1p .. . 1 0 .. . 0 ... 1 ... .. . 0 0 .. . xn1 . . . .. . xnp .. . 0 .. . 1 ... .. . 0 .. . y1 w1K x11 . . . .. .. .. . . . yn wnK xn1 . . . x1p .. . 0 .. . 0 ... .. . 1 .. . xnp 0 0 ... 1 0 .. . durchgeführt. Im folgenden E-Schritt werden nur die Gewichte wik entsprechend aktualisiert. Als nichtparametrischen Maximum-Likelihood Schätzer (NPMLE) für die Verteilung der Zufallseffekte erhält man bei Konvergenz die K Paare fˆ(z) = (ẑ1 , π̂1 ), . . . , (ẑK , π̂K ) . Dies ergeben eine Multinomial-Verteilung auf den geschätzten K Massestellen ẑ mit geschätzten Wahrscheinlichkeitsmassen π̂. 6.3.3 Prädiktionen bei NPML Schätzung Als Schätzung für das konditionale Modell µik = E(yi |zk ) erhält man für jede Komponente k = 1, . . . , K also µ̂ik = g −1 (η̂ik ) . g(µ̂ik ) = η̂ik = xti β̂ + ẑk , Diese stellen parallele Regressionsebenen im (η, x)-Raum dar. Interessant ist auch eine Schätzung des marginalen Modells, also von E(yi ). Die alternative Bezeichnung population average wird in der Literatur nicht konsistent genutzt. Da die marginale Verteilung der yi die gemischte Exponentialfamilie ist, folgt ∫ ∫ E(yi ) = yi f (yi |zi )f (zi ) dzi dyi ∫ ≈ yi K ∑ f (yi |zk )πk dyi = k=1 K ∑ ∫ πk yi f (yi |zk ) dyi = k=1 k=1 und es resultiert b i) = E(y K ∑ k=1 K ∑ π̂k µ̂ik . πk E(yi |zk ) 6.3. ÜBERDISPERSIONSMODELLE 81 Der posterior Mean eines Zufallseffekts zi , gegeben die Beobachtung yi , ist gleich ∫ E(zi |yi ) = zi f (zi |yi )dzi ∫ f (yi |zi )f (zi ) = zi ∫ dzi f (yi |zi )f (zi )dzi K ∑ f (yi |zk )πk . ≈ zk ∑K f (y |z )π i l l l=1 k=1 Der empirische Bayes Schätzer dafür ist e i |yi ) = E(z K ∑ ẑk ŵik , k=1 das posteriori-gewichtete Mittel der geschätzten Massepunkte. Damit ist es jetzt möglich, e i |yi ) zu berechnen. Wegen ∑ ŵik = 1 resultiert dafür den linearen Prädiktor sowie E(z k ηei = xti β̂ e i |yi ) = + E(z K ∑ ) ( ŵik xti β̂ + ẑk k=1 = µ ei = K ∑ k=1 K ∑ ŵik η̂ik ŵik µ̂ik . k=1 6.3.4 Beispiel: Matched Pairs In einer Studie des Landeshygienikers für die Steiermark wurden alle zwei Wochen über ein volles Jahr bei zwei benachbarten Grazer Wohnsiedlungen (site=6 bzw. site=7) die Bakterienkonzentrationen in der Außenluft beobachtet. Die beiden Siedlungen unterscheiden sich bezüglich des Vorhandenseins einer Kompostierungsanlage (site=7). Es ist bekannt, dass die Anzahl kolonienbildender luftgetragener Mikroorganismen (cfu: colonies forming units) vom vorherrschenden Wetter abhängig ist. Zu diesen 26 × 2 Beobachtungen bac gehören deshalb auch Temperatur t und Luftfeuchtigkeit h. Als Messgerät wurde ein sechsstufiger Luftsammler verwendet, dessen Stufen unterschiedlich große Keime filtern. Dabei sind besonders die kleinen Mikroorganismen (stage>3) für den Menschen gefährlich, da diese bis zur Lunge vordringen können. Es ist zu untersuchen, ob es einen relevanten Kompostieranlageneffekt gibt. Die Erstanalyse dieser Daten ergibt einen extremen cfu Wert, weshalb beide Tripel nicht in die folgenden Betrachtungen aufgenommen werden. > bac67red <- bacteria[(site > 5 & bac < 20), ] 82 KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN > bac456 <- rbind.data.frame(cbind(bac67red[ ,1:4], 4, bac <- b4), cbind(bac67red[ ,1:4], 5, bac <- b5), cbind(bac67red[ ,1:4], 6, bac <- b6)) > names(bac456) <- c("date","site","h","t","stage","bac") > bac456[ ,5] <- factor(bac456[ ,5]); attach(bac456) Da es sich hierbei um Anzahlen handelt, wird zuerst ein loglineares Poissonmodell betrachtet. Wir sind vor allem am Verhalten an den beiden Orten auf den drei Stufen interessiert und wollen auf die Wetterbedingungen (an den beiden Orten ähnlich) standardisieren. > gt <- glm(bac ~ stage*site + t + t^2, data=bac456, family=poisson) > gth <- update(gt, . ~ . + h + h^2) > anova(gt, gth, test="Chi") Terms Df Dev Test Df Dev Pr(Chi) 1 stage * site + t + t^2 142 258.8 2 stage * site + t + t^2 + h + h^2 140 255.1 +h+I(h^2) 2 3.75 0.154 > summary(gt, cor=F) Coefficients: Value Std. Error t value (Intercept) 0.344616 0.1874847 1.8381 stage5 0.397696 0.1969099 2.0197 stage6 -0.295463 0.2332816 -1.2666 site 0.059636 0.2120410 0.2812 t 0.059657 0.0175228 3.4045 I(t^2) -0.002146 0.0006113 -3.5106 stage5site -0.442148 0.2884261 -1.5330 stage6site 0.418077 0.3086641 1.3545 (Dispersion Parameter for Poisson family taken to be 1 ) Null Deviance: 284.2 on 149 degrees of freedom Residual Deviance: 258.8 on 142 degrees of freedom Nur die lineare und quadrierte Temperatur scheinen relevant. Bedenklich ist die Überdispersion (Deviance 258.8 bei df=142). Dies könnte im Fehlen von weiteren Prädiktorvariablen begründet sein, z.B. Wind oder Luftdruck. Ein Modell mit zufälligen Effekten sollte dies teilweise kompensieren. Wir beginnen mit der Annahme normalverteilter Effekte. Durch Erhöhen der Anzahl der Quadraturpunkte kann die Deviance von 258.8 (K = 1) auf 235.5 (K = 2) und 227.6 (K = 3) reduziert werden. Eine weitere Vergrößerung von K führt jedoch zu keiner Verbesserung. > rem2 <-od(y=bac, method="GQ", K=2) iter.: 8 deviance: 235.55 > rem3 <-od(y=bac, method="GQ", K=3) iter.: 7 deviance: 227.59 > rem4 <-od(y=bac, method="GQ", K=4) 6.3. ÜBERDISPERSIONSMODELLE iter.: 7 deviance: 83 227.93 > summary(rem3$model, cor=F) Coefficients: Value Std. Error t.i 0.05881 0.0175492 I(t.i^2) -0.00211 0.0006208 z[j] 0.61686 0.0609783 site.ikeinKstage.i4 0.14927 0.1888571 site.imitKstage.i4 0.24514 0.1860528 site.ikeinKstage.i5 0.59348 0.1688974 site.imitKstage.i5 0.17491 0.1889312 site.ikeinKstage.i6 -0.13885 0.2132799 site.imitKstage.i6 0.33578 0.1795881 t value 3.3511 -3.3981 10.1161 0.7904 1.3176 3.5139 0.9258 -0.6510 1.8697 Die geschätzte Standardabweichung der zufälligen Effekte ist σ̂z = 0.62. Standardfehler und t-Werte stammen nur aus der letzten Iteration und sind nicht interpretierbar. Alternativ wollen wir auch eine nichtparametrische Schätzung durchführen. Bei K = 2 resultiert eine (nur etwas geringere) Deviance von 225.6. Die Massepunkte sind (1.45, 0.14) mit Massen (0.13, 0.87), was auf Abweichungen von der Normalverteilungsannahme hinweist. Diese nichtparametrische Schätzung ergibt eine zweipunktige Effektverteilung mit µ̂z = 0.13 · 1.45 + 0.87 · 0.15 = 0.32 und σ̂z2 = 0.13 · (1.45 − µ̂z )2 + 0.87 · (0.15 − µ̂z )2 = 0.19, also σ̂z = 0.44. > remnp2 <-od(y=bac, method="NPMLE", K=2) iter.: 57 deviance: 225.56 > remnp3 <-od(y=bac, method="NPMLE", K=3) iter.: 38 deviance: 225.58 > summary(remnp2$model, cor=F) Coefficients: (1 not defined because of singularities) Value Std. Error t value t.i 0.058465 0.0175709 3.32737 I(t.i^2) -0.002053 0.0006211 -3.30579 zf1 1.452755 0.1887234 7.69780 zf2 0.145988 0.1832268 0.79676 site.ikeinKstage.i4 -0.126373 0.2062250 -0.61279 site.imitKstage.i4 0.019329 0.2031400 0.09515 site.ikeinKstage.i5 0.267332 0.1868670 1.43060 site.imitKstage.i5 -0.092793 0.2049944 -0.45266 site.ikeinKstage.i6 -0.382658 0.2250004 -1.70070 site.imitKstage.i6 NA NA NA > remnp2$pi 1 2 0.1298 0.8702 84 KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN Die Aufnahme eines zufälligen Effektes ergibt für beide Zugänge beträchtlich geringere Werte der Deviancen. Die Freiheitsgradanzahl von 142 muss bei der Gauß-Quadratur um 1 (wegen σz ) und beim nichtparametrischen Ansatz um 3 (wegen z1 , z2 , π1 ) reduziert werden. Beim nichtparametrischen Ansatz sei noch zu erwähnen, dass nur die beiden Parameter zur Temperatur (0.0585, −0.0021) mit den Ergebnissen der Quadratur (0.0588, −0.0021) direkt vergleichbar sind. Bei der Gauss-Quadratur ist kein expliziter Intercept enthalten; daher können alle Stufen der Faktorinteraktion geschätzt werden. Im nichtparametrischen Modell ist jedoch ein zweistufiger Intercept-Faktor inkludiert, weshalb nicht mehr alle Interaktionsparameter schätzbar sind. Die gewählte Kontrastierung setzt die letzte Stufe von site:stage auf Null (aliased mit der zweistufigen Modellkonstanten zf) und schätzt alle verbleibenden Abweichungen zu dieser Referenzklasse. > fc <- matrix(fitted(remnp2$model), ncol=2, byrow=T) > plot(bac456$t, fc[,1], ylim=c(0,10), xlab="temperature", ylab="fitted conditional means (k=1)") > plot(bac456$t, fc[,2], ylim=c(0,10), xlab="temperature", ylab="fitted conditional means (k=2)") > fm <- fc %*% remnp2$pi > plot(bac456$t, fm, ylim=c(0,10), xlab="temperature", ylab="fitted marginal means") > fp <- fitted(gt) > plot(bac456$t, fp, ylim=c(0,10), xlab="temperature", ylab="fitted Poisson means") Die Verläufe der geschätzten konditionalen Modelle in der Abbildung 6.1 entsprechen gerade den geschätzten Interaktionsparametern, d.h. die oberste Kurve gehört zu keine Kompostieranlage:Stufe 5, dann Kompostieranlage:Stufe 4 gefolgt von Kompostieranlage:Stufe 6, u.s.w. Die marginalen Modelle darunter (links) stellen das mit π̂ gewichtete Mittel der beiden oberen Ergebnisse dar und unterscheiden sich optisch nicht von den Ergebnissen aus dem Poisson-Modell ohne Zufallseffekte (rechts). > w <- matrix(remnp2$w, ncol=2, byrow=T) > r <- (bac-fm)/sqrt(fm) plot(r, w[ ,1], xlab="Pearson residuals", > ylab="posterior prob for component 1"); abline(h=0.5) > plot(bac456$t, r, xlab="temperature", ylab="Pearson residuals") abline(h=0) In der Abbildung 6.2 (links) sieht man, dass nur wenige (etwa 15) yi mit großen Pearson Residuen auch größere posteriori Wahrscheinlichkeiten (wi1 > 0.5) für die erste Komponente haben. Für die Mehrzahl gilt jedoch wi2 > wi1 , also eher eine Zugehörigkeit zur zweiten Komponente. Der rechte Teil dieser Abbildung zeigt, dass die Residuen keine verbleibende Struktur in der Temperatur haben und eher zufällig um Null liegen. > z <- coef(remnp2$model)[3:4] > eBz <- w %*% z; mean(eBz) 8 6 0 2 4 fitted conditional means (k=2) 6 4 0 2 fitted conditional means (k=1) 8 10 85 10 6.3. ÜBERDISPERSIONSMODELLE -10 0 10 20 30 40 -10 0 20 30 40 10 8 6 0 2 4 fitted Poisson means 8 6 4 0 2 fitted marginal means 10 temperature 10 temperature 0 10 temperature 20 30 0 10 20 30 temperature Abbildung 6.1: Oben: Gefittete konditionale Modelle für k = 1 (links) und k = 2 (rechts) der nichtparametrischen Schätzung. Unten: Gefittete marginale Means (links) gegen die fitted Means beim Poisson-Modell (rechts). 0.3156 > plot(bac, eBz, ylim=c(0,1.5), xlab="bacteria counts in cfu’s", ylab="posterior random effect means") > eBmu <- diag(w %*% t(fc)) > plot(bac, eBmu, xlim=c(0,12),ylim=c(0,12),xlab="bacteria counts in cfu’s", ylab="empirical Bayes estimates of mu") abline(0,1); > abline(lsfit(bac, eBmu)) In der Abbildung 6.3 oben links ist zu erkennen, daß die empirischen Bayes Schätzer der zi von den yi abhängen. Diese Werte sind dann groß, wenn auch die cfu-Werte hoch sind. Ihr globales Mittel ist 0.3156, und entspricht etwa den Konstanten beim Poisson-Modell (0.3446) oder beim Modell mit Gauss-Quadratur (0.3358 - letzte Stufe der Zweifachinteraktion). Die empirischen Bayes Schätzungen der µ’s sind oben rechts gegen die yi aufgetragen. Prinzipiell ist ein lineares Muster zu sehen, jedoch wird auch klar, weshalb KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN 4 0.0 0 2 Pearson residuals 0.6 0.4 0.2 posterior prob for component 1 0.8 6 1.0 86 0 2 Pearson residuals 4 6 0 10 20 30 temperature Abbildung 6.2: Pearson Residuen gegen die geschätzten posteriori Wahrscheinlichkeiten für die erste Komponente (links) und gegen die Temperatur (rechts). man diese Schätzer als shrinkage estimates towards the mean bezeichnet. Große Responses werden unterschätzt während Null-Responses eindeutig überschätzt sind. Die Frage nach einen Kompostieranlageneffekt kann nicht so einfach beantwortet werden. Dieser Effekt findet sich im Modell in Wechselwirkung mit der Plattenstufe wieder. Bereits die Schätzer dieser Interaktion im Modell zeigen dieses Verhalten deutlich. So sind diese bei der Siedlung ohne Kompostieranlage am größten für Stufe 5, gefolgt von der Stufe 4 und am kleinsten bei der Stufe 6. In der Nähe der Kompostieranlage sieht diese Ordnung jedoch anders aus: alle drei Effekte sind ziemlich ähnlich und deren Reihenfolge lautet 6, 4 und 5, respektive 4, 6 und 5 bei der nichtparametrischen Schätzung. Die Interaktionsplots in der Abbildung 6.3 zeigt dieses Verhalten deutlich. Links findet man die Mittel der gefitteten marginal Means und rechts die entsprechenden empirischen Bayes Schätzer unter der nichtparametrischen Modellschätzung. Die Verwendung der Originalbeobachtungen yi anstelle der Bayes Schätzer würde ein vom rechten Bild nicht zu unterscheidendes Verhalten zeigen. 87 8 6 0 0.0 2 4 empirical Bayes estimates of mu 1.0 0.5 posterior random effect means 10 12 1.5 6.3. ÜBERDISPERSIONSMODELLE 0 2 4 6 8 10 12 0 2 4 6 8 10 12 bacteria counts in cfu’s 2.6 bacteria counts in cfu’s 2.4 stage 2.2 2.0 1.8 mean emp Bayes estimates 2.0 1.8 4 5 6 1.4 1.4 1.6 2.2 4 5 6 1.6 mean fitted marginal model 2.4 stage keinK mit K site keinK mit K site Abbildung 6.3: Oben: Posteriori Means der Zufallseffekte zi gegen die Responses yi (links) und empirische Bayes Schätzungen der µi ’s gegen yi (rechts). Unten: Interaktionsplots für stage:site. Mittel der fitted marginals (links) und empirische Bayes Schätzer (rechts).