Generalisierte Lineare Modelle

Transcription

Generalisierte Lineare Modelle
Generalisierte Lineare Modelle
Herwig FRIEDL
Institut für Statistik
Technische Universität Graz
September 2013
Inhaltsverzeichnis
1 Transformation auf Normalverteilung
1.1 Box-Cox Transformationsfamilie . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Maximum-Likelihood Schätzung . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Die
2.1
2.2
2.3
Exponentialfamilie
Maximum Likelihood Schätzung .
Mitglieder der Exponentialfamilie
Die Quasi-Likelihood Funktion . .
2.3.1 Quasi-Dichten . . . . . . .
3 Das
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
Generalisierte Lineare Modell
Maximum-Likelihood-Schätzungen . . . .
Asymptotische Eigenschaften des Schätzers
Pearson Statistik . . . . . . . . . . . . . .
Eigenschaften von Score und Quasi-Score .
Deviance und Quasi-Deviance . . . . . . .
Parametertests . . . . . . . . . . . . . . .
Beispiel: Konstante Varianz . . . . . . . .
Beispiel: Gamma-Varianz . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Logistische Regression
4.1 Toleranzverteilungen – Linkfunktionen .
4.1.1 Beispiel (Venables & Ripley, Seite
4.2 Interpretation der Parameter . . . . . . .
4.2.1 Beispiel (Agresti, Seite 87) . . . .
4.3 Logit-Modelle . . . . . . . . . . . . . . .
4.3.1 Beispiel . . . . . . . . . . . . . .
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
218)
. . .
. . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
4
.
.
.
.
9
12
12
15
18
.
.
.
.
.
.
.
.
19
20
23
23
24
25
27
27
28
.
.
.
.
.
.
37
38
39
43
44
46
46
ii
INHALTSVERZEICHNIS
4.4
Komplexe Logistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.1 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5 Loglineare Modelle
5.1 Poisson Loglineare Modelle für Anzahlen . . . .
5.1.1 Beispiel . . . . . . . . . . . . . . . . . .
5.2 Loglineare und Multinomiale Response Modelle
5.2.1 Die Multinomialverteilung . . . . . . . .
5.2.2 Vergleich von Poisson-Erwartungen . . .
5.2.3 Multinomiale Responsemodelle . . . . .
5.2.4 Beispiel . . . . . . . . . . . . . . . . . .
5.3 Zweidimensionale Kontingenztafeln . . . . . . .
5.3.1 Unabhängigkeitsmodell . . . . . . . . . .
5.3.2 Saturiertes (volles) Modell . . . . . . . .
5.3.3 Interpretation der Parameter . . . . . . .
5.3.4 Beispiel . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Modelle mit zufälligen Effekten
6.1 Zufällige Prädiktoren . . . . . . . . . . . . . . . . .
6.2 EM Schätzer . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Beispiel: Endliche diskrete Mischungen . . .
6.3 Überdispersionsmodelle . . . . . . . . . . . . . . . .
6.3.1 Normalverteilte zufällige Effekte . . . . . . .
6.3.2 Zufällige Effekte aus unbekannter Verteilung
6.3.3 Prädiktionen bei NPML Schätzung . . . . .
6.3.4 Beispiel: Matched Pairs . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
51
57
57
59
60
61
64
64
65
67
69
.
.
.
.
.
.
.
.
71
71
72
74
77
77
79
80
81
Kapitel 1
Transformation auf
Normalverteilung
Die statistische Analyse von Daten basiert häufig auf der Annahme, dass diese normalverteilt sind und konstante Varianz widerspiegeln. Falls die Daten diese Annahme nicht
unterstützen, besteht die Möglichkeit der Verwendung einer Transformation, um dadurch
eine bessere Approximation zu einer konstanten Varianz zu erzielen. Dann könnten auch
klassische Methoden wie die Varianzanalyse oder die Lineare Regression auf solche Daten
angewendet werden.
1.1
Box-Cox Transformationsfamilie
Die Verwendbarkeit der Normalverteilung wird erweitert, indem diese in eine größere
Familie von Verteilungsfunktionen eingebettet wird, der Box-Cox Transformationsfamilie
(Box und Cox, 1964). Deren allgemeine Form kann für eine positive Response y > 0
repräsentiert werden durch
 λ
y − 1
, falls λ ̸= 0,
y(λ) =
(1.1)
λ
log y,
falls λ = 0,
wobei λ den Parameter der Transformation bezeichnet. Spezialfälle in dieser Familie sind
y(−1) = 1 − 1/y und y(1) = y − 1. Darüberhinaus strebt für λ → 0, y(λ) → log y, so dass
y(λ) eine stetige Funktion in λ ist.
Für Daten (yi , xi ), i = 1, . . . , n, nehmen wir nun an, dass es einen Wert von λ gibt, für
den yi (λ) einer Normalverteilung mit identischer Varianz genügt, d.h.
ind
yi (λ) ∼ N (µi (λ), σ 2 (λ)).
Unter dieser Annahme kann man auf die Dichtefunktion der originalen Daten y schließen.
1
2
KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG
Diese ist gerade
(
(y(λ) − µ(λ))2
f (y, λ, µ(λ), σ(λ)) = √
exp −
2σ 2 (λ)
2πσ 2 (λ)
1
)
d
y(λ) .
dy
(1.2)
Die Verwendung der Transformation (1.1) ergibt

( (
)2 )
λ

(y
−
1)/λ
−
µ(λ)
1


y λ−1 , falls λ ̸= 0,

 √2πσ 2 (λ) exp −
2
2σ (λ)
(
)
f (y, λ, µ(λ), σ(λ)) =
(1.3)
2

1
(log
y
−
µ(λ))

−1

y ,
falls λ = 0.

 √2πσ 2 (λ) exp −
2σ 2 (λ)
In Regressions Analysen verwendet man häufig ein simples lineares Modell
2
yi (λ) ∼ N (x⊤
i β(λ), σ (λ)),
ind
wobei β(λ) = (β1 (λ), . . . , βp (λ))⊤ den p×1 Vektor der unbekannten Parameter bezeichnet.
Für λ ̸= 0 definiert man den reparameterisierten Vektor β = (β1 , . . . , βp )⊤ bezüglich y λ ,
mit Intercept β1 = 1 + λβ1 (λ) und Effekten βj = λβj (λ), j = 2, . . . , p, sowie σ = |λ|σ(λ).
Damit kann die Dichte (1.3) umgeschrieben werden zu
)
(
1
(y λ − x⊤ β)2
f (y, λ, β, σ) = √
|λ|y λ−1 .
exp −
2
2
2σ
2πσ
Für λ = 0 verwende βj = βj (λ), j = 1, . . . , p, und σ = σ(λ) als Parameter bezüglich eines
linearen Modells für log y. Dann kann man (1.2) schreiben als
)
(
1
(log y − x⊤ β)2
f (y, 0, β, σ) = √
y −1 .
exp −
2
2
2σ
2πσ
1.2
Maximum-Likelihood Schätzung
Die Log-Likelihood Funktion der n Beobachtungen (yi , xi ) basierend auf die untransformierte Dichte (1.2) ist (auf der originalen Datenskala)
l(λ, µ(λ), σ(λ)) =
n
n
(
)
)2 ∑
d
1 ∑(
n
2
− log 2πσ (λ) − 2
yi (λ) − µi (λ) +
log yi (λ) . (1.4)
2
2σ (λ) i=1
dyi
i=1
Mit der Box-Cox Transformation (1.1) ist die Summe der Logarithmen der Jacobi Terme
{
∑
n
∑
d
(λ − 1) i log yi , falls λ ̸= 0,
log yi (λ) =
∑
dy
−
falls λ = 0.
i
i log yi ,
i=1
1.2. MAXIMUM-LIKELIHOOD SCHÄTZUNG
3
Bezüglich der Parameter (β, σ) erhält man
l(λ, β, σ) =
{
− n2 log (2πσ 2 ) −
− n2 log (2πσ 2 ) −
1
2σ 2
1
2σ 2
)2
∑ ( λ
∑
⊤
y
−
x
β
+
n
log
|λ|
+
(λ
−
1)
i
i
i log yi , falls λ ̸= 0,
)2 ∑
(1.5)
∑i (
⊤
falls λ = 0.
− i log yi
i log yi − xi β
Für einen festen Wert von λ lösen die Maximum-Likelihood Schätzer β̂λ und σ̂λ basierend
auf (1.5) die Schätzgleichungen
{ ∑
1
λ
⊤
falls λ ̸= 0,
∂l(λ, β, σ)
i xi (yi − xi β) = 0,
σ2
=
∑
1
⊤
∂β
i xi (log yi − xi β) = 0, falls λ = 0,
σ2
{
∑
2
− nσ + σ13 i (yiλ − x⊤
falls λ ̸= 0,
∂l(λ, β, σ)
i β) = 0,
=
∑
n
1
⊤
2
∂σ
− σ + σ3 i (log yi − xi β) = 0, falls λ = 0,
und sind deshalb gleich
{
(X ⊤ X)−1 X ⊤ y λ ,
falls λ ̸= 0,
β̂λ =
⊤
−1 ⊤
(X X) X log y, falls λ = 0,
{ ∑
1
2
(y λ − x⊤
falls λ ̸= 0,
1
i β̂λ ) ,
SSEλ (β̂λ ) = n1 ∑i i
σ̂λ2 =
⊤
2
n
i (log yi − xi β̂λ ) , falls λ = 0,
n
wobei y λ (resp. log y) elementeweise gerechnet sind und SSEλ (β̂λ ) die Fehlerquadratsumme
von y λ (resp. log y) an der Stelle β̂λ für ein festes λ bezeichnet. Bemerke, dass wegen der
obigen Reparameterisierung die Fehlerquadratsumme SSEλ (β̂λ ) in λ = 0 unstetig ist.
Substituiert man beide Schätzer in der Log-Likelihood Funktion (1.5) und lässt darin alle
konstanten Terme weg, so erhält man die Profile (Log-) Likelihood Funktion
{
∑
− n2 log SSEλ (β̂λ ) + n log |λ| + (λ − 1) i log yi , falls λ ̸= 0,
pl(λ) = l(λ, β̂λ , σ̂λ ) =
(1.6)
∑
− n2 log SSE0 (β̂0 ) − i log yi ,
falls λ = 0.
)−1/2
(∑
n
2
⊤
.
β̂
)
(y
−
x
Für λ = 1 resultiert z.B. pl(1) = −(n/2) log SSE1 (β̂1 ) = n log
i 1
i=1 i
Obwohl SSEλ (·) in λ = 0 unstetig ist, ist die Profile Likelihood Funktion pl(λ) stetig.
Wegen
∑ (y λ − x⊤ β̂λ )2
∑
n
i
i
pl(λ) = − log
+
(λ
−
1)
log yi
2
λ2
i=1
i=1
n
n
∑
∑
n
2
log yi
= − log
((yiλ − 1)/λ − x⊤
i β̂(λ)) + (λ − 1)
2
i=1
i=1
n
ist limλ→0 pl(λ) = pl(0).
n
4
KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG
Wegen {2(pl(λ̂) − pl(λ0 )) ∼ χ21 } beinhaltet ein approximatives Konfidenzintervall für den
Parameter λ all jene Werte von λ0 , für die pl(λ0 ) innerhalb von 12 χ21−α;1 Einheiten vom
Funktionsmaximum entfernt ist (χ20.95;1 = 3.8415, χ20.99;1 = 6.6349).
Ein wichtiger Aspekt dieser Variablentransformation ist, dass auf der transformierten
Skala das Modell die Variation bezüglich des Erwartungswertes der (auf Normalverteilung)
transformierten Variablen repräsentiert, während auf der Originalskala das Modell die
Variation bezüglich des Medians der originalen Variablen darstellt. Dies sieht man am
2
einfachsten für die Log-Transformation (λ = 0). Seien log yi ∼ N (x⊤
i β, σ ), dann gilt
median(log yi ) = x⊤
i β,
⊤
E(log yi ) = xi β,
var(log yi ) = σ 2 .
Die originalen Beobachtungen yi unterliegen selbst einer Lognormalverteilung mit
median(yi ) = exp(x⊤
i β),
2
E(yi ) = exp(x⊤
i β + σ /2),
(
)
2
var(yi ) = exp(σ 2 ) − 1 exp(2x⊤
i β + σ ).
Dies bedeutet, dass das additive Modell für den Erwartungswert (und daher auch für den
Median) der log yi ein multiplikatives Modell für die Mediane und Erwartungswerte der yi
ist. Für die Erwartungswerte von yi wurde der Intercept Term um σ 2 /2 verschoben und
die Varianzen sind nicht mehr konstant.
Für eine Transformation y(λ) = y λ mit λ ̸= 0, also für yiλ ∼ N (µi , σ 2 ), folgt
1/λ
median(yi ) = µi ,
)
1/λ (
E(yi ) ≈ µi
1 + σ 2 (1 − λ)/(2λ2 µ2i ) ,
2/λ
var(yi ) ≈ µi σ 2 /(λ2 µ2i ).
Wiederum ist die offensichtliche Unstetigkeit zwischen λ = 0 und λ ̸= 0 in der Verwendung
von y λ anstelle von (y λ − 1)/λ begründet.
1.3
Beispiel
n = 31 Black Cherry Trees; verwendbares Holzvolumen V in feet3 (1 foot = 30.48 cm),
Baumhöhe H in feet, Durchmesser D in inches (1 inch = 2.54 cm) auf einer Höhe von 4.5
feet über dem Boden. Das Modell sollte das verwendbare Holzvolumen V aus den leicht
zu messenden Größen H und D vorhersagen.
> %in%
> attach(trees); plot(H, V); plot(D, V) # Krümmung (falsche Skala?)
> mod <- lm(V ~ D + H)
V
40
20
20
40
V
60
5
60
1.3. BEISPIEL
8
10
12
14
16
18
20
65
70
75
80
85
H
0
r
0.15
0.05
-5
0.10
leverages
5
0.20
D
0
5
10
15
20
25
30
Index
8
10
12
14
16
18
20
D
Abbildung 1.1: Oben: Volumen gegen Durchmesser (links) und Volumen gegen Höhe
(rechts). Unten: Diagonalelemente der Hatmatrix (links) und Residuen gegen Durchmesser
(rechts) unter dem linearen Modell für V .
Coefficients:
(Intercept)
H
D
-57.98766 0.3392512 4.708161
Degrees of freedom: 31 total; 28 residual
Residual standard error: 3.881832
>
>
>
>
>
plot(lm.influence(mod)$hat, ylab = "leverages") # 2 Hebelpunkte
abline(2*mod$rank/length(V), 0); abline(v = c(20, 31))
plot(residuals(mod), D); abline(0, 0) # Senke in der Mitte
library(MASS, help=T)
boxcox(V ~ D + H, lambda = seq(0.0, 0.6, len=18)) # max = -76.08
Das Maximum der Profile Likelihood Funktion tritt in der Nähe von λ = 0.3 auf. Das
approximative 95% Konfidenzintervall ist sehr klein, etwa (0.12, 0.49), und beinhaltet
weder die Null noch die Eins. Es liegt in der Natur einer Volumenmessung, dass sich diese
kubisch bezüglich den linearen Größen Höhe und Durchmesser verhält. Daher erscheint es
auch sinnvoll, die Kubikwurzel des Volumens als Response zu verwenden.
> plot(D, V**(1/3)) # Krümmung beseitigt
KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG
3.5
V^(1/3)
3.0
2.5
-79
-78
95%
-80
log-Likelihood
-77
4.0
-76
6
0.0
0.1
0.2
0.3
0.4
0.5
0.6
8
10
12
14
16
18
20
D
mu^3
V
40
20
20
40
60
60
80
lambda
20
40
60
80
20
mu^3
40
60
80
mu^3 * (1 + (3 * s2)/mu^2)
Abbildung 1.2: Oben: Profile Likelihood Schätzung von λ bei der Box-Cox Transformation
1/3
(links) und Durchmesser gegen die yi (rechts). Unten: Gefittete Mediane gegen originale
Beobachtungen V (links) und gefittete Mediane gegen gefittete Means (rechts).
> mod1 <- lm(V**(1/3) ~ H + D)
Coefficients:
(Intercept)
H
D
-0.08538814 0.01447169 0.1515163
Degrees of freedom: 31 total; 28 residual
Residual standard error: 0.08282697
Die gefitteten Mediane von V unter diesem obigen Modell für µ1/3 = E(y 1/3 ) (mit festem
2
λ = 1/3) sind µ̂31/3 , und die gefitteten Erwartungswerte sind etwa µ̂31/3 (1 + 3σ̂1/3
/µ̂21/3 ).
Diese können mit den Beobachtungen y verglichen werden.
>
>
>
>
mu <- fitted(mod1)
s2 <- deviance(mod1)/mod1$df.residual
plot(mu**3, V) # Median Modell
plot(mu**3*(1+3*s2/mu**2), mu**3) # Median/Mean
Andere technische Überlegungen ergeben alternative Modelle. Die unerwünschte Krümmung in der Abbildung 1.1 kann auch durch logarithmische Transformation aller Variablen
7
-77
-78
95%
2.5
-80
-79
3.0
log(V)
3.5
log-Likelihood
-76
4.0
-75
1.3. BEISPIEL
2.2
2.4
2.6
2.8
3.0
-0.2
-0.1
log(D)
0.0
0.1
0.2
lambda
Abbildung 1.3: Links: log V linear abhängig von log D. Rechts: Profile Likelihood Funktion
für V modelliert durch log H + log D.
entfernt werden. Dies legt eine Regression von auf log(D) und log(H) nahe. Soll man jetzt
jedoch auf der log(V ) Achse modellieren?
> plot(log(D), log(V)); lm(log(V) ~ log(D) + log(H))
Coefficients:
(Intercept) log(D)
log(H)
-6.631617 1.98265 1.117123
Degrees of freedom: 31 total; 28 residual
Residual standard error: 0.08138607
> boxcox(V ~ log(H) + log(D), lambda = seq(-0.25, 0.25, len = 10))
Die Profile Likelihood Schätzung bei der Box-Box Transformation liefert ein Maximum
bei −0.07 und ein 95% Konfidenzintervall von (−0.24, 0.11), welches zwar die Null (logarithmische Transformation), aber nicht mehr die Kubikwurzeltransformation λ = 1/3
oder die Identität λ = 1 beinhaltet.
Beide Modelle liefern annähernd dieselben Maxima der Profile Likelihood Funktionen.
Welches der beiden ist nun das bessere? Wir können sie durch einen Likelihood Quotienten
Test miteinander vergleichen. Dazu werden die Modelle eingebettet in die Familie
V ∗ ∼ N (β1 + β2 H ∗ + β3 D∗ , σ 2 )
V ∗ = (V λV − 1)/λV
H ∗ = (H λH − 1)/λH
D∗ = (DλD − 1)/λD
Wir vergleichen nun die maximale Likelihood bezüglich λV = 1/3, λH = λD = 1 mit
der maximalen Likelihood des Modells λV = λH = λD = 0. Alle übrigen Parameter
sind hierbei nuisance Parameter und die Likelihood Funktion wird über diese in beiden
Modellen maximiert.
> boxcox(V ~ H + D, lambda = 1/3, plotit=FALSE)
8
KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG
$x: 0.3333333
$y: -76.12156
> boxcox(V ~ log(H) + log(D), lambda = 0, plotit=FALSE)
$x: 0
$y: -75.33877
Die doppelte Differenz der beiden Maxima beträgt nur −2 ∗ (−76.122 + 75.339) = 1.566,
was nicht signifikant verglichen mit χ23 ist. Daher können wir auch nicht überzeugend eines
der beiden Modelle wählen.
Bemerke aber, dass der Koeffizient für log H nahe bei Eins (1.117) liegt und der zu log D
fast Zwei (1.983) ist. Nimmt man an, dass man einen Baum durch einen Zylinder oder
Kegel beschreiben kann, so wäre sein Volumen πd2 h/4 (Zylinder) oder πd2 h/12 (Kegel).
In beiden Fällen hätte man ein Modell der Form
log V = c + log H + 2 log D
mit c = log(π/4) (Zylinder) oder c = log(π/12) (Kegel). Jedoch beziehen sich die obigen
Überlegungen auf Messungen auf der gleichen Skala. Wir konvertieren daher zuerst D von
inches auf feet, d.h. wir betrachten D/12. Als Intercept resultiert −1.705.
> lm(log(V) ~ log(D/12) + log(H))
Coefficients:
(Intercept) log(D/12)
log(H)
-1.704917
1.98265 1.117123
Degrees of freedom: 31 total; 28 residual
Residual standard error: 0.08138607
Nun fixiert man die beiden Koeffizienten und betrachtet das Modell
log V = β1 + log H + 2 log(D/12)
Hierbei bezeichnet man 1×[log H +2 log(D/12)] als offset (ein Term mit festem Parameter
Eins) und es muss nur noch β1 geschätzt werden.
> mod3 <- lm(log(V) ~ 1 + offset(2*log(D/12) + log(H)))
> summary(mod3)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.19935
0.01421 -84.42
<2e-16 ***
Residual standard error: 0.0791 on 30 degrees of freedom
> log(pi/4)
[1] -0.2415645
> log(pi/12)
[1] -1.340177
Das Holzvolumen eines Baums kann daher eher durch ein Kegelvolumen als durch das
eines Zylinders beschrieben werden, hat jedoch ein etwas größeres Volumen als ein Kegel.
Kapitel 2
Die Exponentialfamilie
Beim Linearen Modell (LM) wird angenommen, dass die abhängigen Variablen (Responses) yi stochastisch unabhängige, normalverteilte Größen sind mit Erwartungen µi = x⊤
i β
2
und konstanter Varianz σ . In manchen Situationen ist die Annahme einer Normalverteilung sicherlich sehr künstlich und nur schwer zu vertreten. Man denke hierbei nur an
Modelle für absolute Häufigkeiten oder relative Anteile. Weiters gibt es datengenerierende Mechanismen, die für größere Erwartungswerte auch größere Variabilität induzieren.
Hierzu zählen beispielsweise Modelle für konstante Variationskoeffizienten. Da bei einem
LM alle Erwartungswerte auf einer Ebene im p-dimensionalen Raum liegen, ist ein solches
LM für nicht-negative oder speziell für binäre Responses sicherlich unpassend.
Wir wollen nun wegen all dieser Schwachstellen die Klasse der Generalisierten Linearen Modelle (GLM) betrachten, die gerade bezüglich der oben angeführten Restriktionen
flexible Verallgemeinerungen anbieten. So wird beim klassischen GLM statt der Normalverteilung eine Verteilung aus der einparametrigen Exponentialfamilie angenommen und
dadurch die Varianz als Funktion des Erwartungswertes modelliert (V ar(yi ) = V (µi )).
Darüberhinaus wird der Erwartungswert nicht ausschließlich direkt linear modelliert, sondern der lineare Prädiktor ηi = x⊤
i β entspricht einer bekannten Funktion g(µi ), der Linkfunktion.
Bevor nun die Exponentialfamilie eingeführt wird, soll an die wesentlichsten Eigenschaften
von Score-Funktionen und Informations-Matrizen bei der Maximum-Likelihood Schätzung
erinnert werden. Dazu bezeichne f (y, θ) die Wahrscheinlichkeitsfunktion oder Dichtefunktion von y mit unbekannten Parametern θ.
Satz 2.1 Für die Ableitung der Log-Likelihood Funktion, d.h. für die Score-Funktion gilt:
(
)
∂ log f (y, θ)
E
= 0,
∂θ
( 2
)
(
)2
∂ log f (y, θ)
∂ log f (y, θ)
= E −
.
E
∂θ
∂θ2
9
(2.1)
(2.2)
10
KAPITEL 2. DIE EXPONENTIALFAMILIE
Mit
∂ log f (y, θ)
1 ∂f (y, θ)
=
∂θ
f (y, θ) ∂θ
∫
und
f (y, θ)dy = 1
R
folgt (2.1), denn
(
)
) ∫
(
∫
∂f (y, θ) 1
∂f (y, θ)
∂
∂ log f (y, θ)
=E
=
E
dy =
f (y, θ)dy = 0 .
∂θ
∂θ f (y, θ)
∂θ
∂θ R
R
Weiters ergibt sich (2.2) mittels Kettenregel
( 2
)
( 2
)
∂ log f (y, θ)
∂ f (y, θ) 1
∂f (y, θ) ∂f (y, θ)
1
E −
= E −
+
∂θ2
∂θ2 f (y, θ)
∂θ
∂θ f (y, θ)2
∫ 2
∫
∂ f (y, θ)
∂ log f (y, θ) ∂ log f (y, θ)
= −
dy +
f (y, θ)dy
2
∂θ
∂θ
∂θ
R
R
(
)2
∂ log f (y, θ)
= E
.
∂θ
Diese Likelihood-Eigenschaften gelten natürlich gerade auch für die Exponentialfamilie,
die jetzt definiert wird.
Definition 2.1 Eine Zufallsvariable y sei aus einer Verteilung mit Dichte- oder Wahrscheinlichkeitsfunktion
(
)
yθ − b(θ)
f (y, θ) = exp
+ c(y, ϕ)
a(ϕ)
für spezielle bekannte Funktionen a(·), b(·) und c(·) mit a(ϕ) > 0. Kann ϕ als feste Größe
betrachtet werden, so bezeichnet man f (y, θ) als einparametrige Exponentialfamilie
mit kanonischem Parameter θ.
Mit (2.1) resultiert bei der Exponentialfamilie
(
)
(
)
1
∂ log f (y, θ)
=
E y − b′ (θ) = 0
E
∂θ
a(ϕ)
also E(y) = b′ (θ) , und mit (2.2) folgt
)
(
( 2
)2
∂ log f (y, θ)
1 ′′
1
∂ log f (y, θ)
+E
=−
b (θ) + 2 var(y) = 0 .
E
2
∂θ
∂θ
a(ϕ)
a (ϕ)
Diese zwei Identitäten ergeben unmittelbar die beiden ersten Momente (Kumulanten) der
Exponentialfamilie
E(y) = b′ (θ)
var(y) = a(ϕ)b′′ (θ) .
11
Kumulanten höherer Ordnung bestimmt man einfacher mit der Kumulantenerzeugenden
Funktion K(t) = log M (t), wobei M (t) die Momentenerzeugende bezeichnet. Die k-te
Kumulante κk ist nun gegeben durch K (k) (t)|t=0 und steht mit dem k-ten Moment in
einer einfachen Beziehung, denn
κ1 (y)
κ2 (y)
κ3 (y)
κ4 (y)
=
=
=
=
E(y)
E(y − µ)2
E(y − µ)3
E(y − µ)4 − 3var2 (y) .
Für die Exponentialfamilie gilt
(
∫
1=
exp
R
)
(
)∫
)
(
yθ − b(θ)
b(θ)
y
+ c(y, ϕ) dy = exp −
θ + c(y, ϕ) dy ,
exp
a(ϕ)
a(ϕ)
a(ϕ)
R
woraus
(
exp
b(θ)
a(ϕ)
)
(
∫
=
exp
R
)
y
θ + c(y, ϕ) dy
a(ϕ)
folgt. Die Momentenerzeugende ist daher gegeben durch
(
)
(
)∫
)
y (
b(θ)
exp
θ + a(ϕ)t + c(y, ϕ) dy
M (t) = E(e ) = exp −
a(ϕ)
a(ϕ)
R
)
)
 (

 (
(
)
b
θ
+
a(ϕ)t
−
b(θ)
b
θ
+
a(ϕ)t
b(θ)
 = exp 
,
= exp −
exp 
a(ϕ)
a(ϕ)
a(ϕ)
ty
und als Kumulantenerzeugende Funktion resultiert
K(t) = log M (t) =
(
)
b θ + a(ϕ)t − b(θ)
a(ϕ)
.
Die k-te Kumulante von y, κk (y), ist somit
(
)
κk (y) = K (k) (t)|t=0 = a(ϕ)k−1 b(k) θ + a(ϕ)t = a(ϕ)k−1 b(k) (θ) .
(2.3)
t=0
Sei E(y) = b′ (θ) = µ und var(y) = a(ϕ)b′′ (θ) = a(ϕ)V (µ). Die Varianz von y ist also ein
Produkt zweier Funktionen:
V (µ) hängt ausschließlich vom Erwartungswert µ ab und a(ϕ) ist von µ unabhängig. V (µ)
nennt man Varianzfunktion, während ϕ als Dispersionsparameter bezeichnet wird.
Die Funktion b(θ) wird Kumulantenfunktion genannt.
12
2.1
KAPITEL 2. DIE EXPONENTIALFAMILIE
Maximum Likelihood Schätzung
Liegt eine n-elementige Zufallsstichprobe y1 , . . . , yn aus der Exponentialfamilie vor, so ist
der Maximum Likelihood Schätzer von µ die Lösung der Score-Funktion
n
∑
∂ log f (yi , θ)
∂µ
i=1
=
n
∑
∂ log f (yi , θ) ∂θ
∂θ
i=1
∂µ
=
n
∑
yi − b′ (θ) ∂θ
i=1
a(ϕ)
∂µ
.
Mit b′ (θ) = µ und wegen
∂µ
∂b′ (θ)
=
= b′′ (θ) = V (µ)
∂θ
∂θ
vereinfacht sich die obige Score-Funktion zu
n
∑
∂ log f (yi , θ)
i=1
∂µ
n
n
∑
∑
yi − µ
yi − µ
=
=
.
a(ϕ)V (µ)
var(y)
i=1
i=1
(2.4)
Diese recht simple Form resultiert bei der Exponentialfamilie nur bezüglich der Ableitung
nach µ. Sie entspricht der Ableitung der Fehlerquadratsumme beim Linearen Modell mit
var(yi ) = σ 2 .
Generell könnten wir annehmen, dass beobachtungsspezifische ai (·) vorliegen, es aber nur
einen globalen Dispersionsparameter ϕ gibt. Falls speziell ai (ϕ) = ai · ϕ mit bekannten
Gewichten ai , hängt der Maximum Likelihood Schätzer µ̂ nicht mehr von ϕ ab.
2.2
Mitglieder der Exponentialfamilie
Wir werden nun einige wichtige Mitglieder dieser Verteilungsfamilie kennen lernen. Dabei
wird eine Parametrisierung verwendet, die den Erwartungswert immer durch µ bezeichnet.
Die Varianzen sind dadurch oft proportional zu Potenzen von µ.
• Die Normalverteilung y ∼ N (µ, σ 2 ):
(
)
1
(y − µ)2
2
f (y, µ, σ ) = √
exp −
2σ 2
2πσ 2
)
(
y2
1
yµ − µ2 /2
2
− 2 − log(2πσ ) ,
y ∈ R.
= exp
σ2
2σ
2
Setzen wir nun θ = µ und ϕ = σ 2 , so führt dies zur Exponentialfamilie mit
a(ϕ) = ϕ ,
b(θ) = θ2 /2 ,
c(y, ϕ) = −
1
y2
− log(2πϕ) ,
2ϕ 2
und mittels (2.3) zu
E(y) = b′ (θ) = θ = µ
var(y) = a(ϕ)b′′ (θ) = ϕ · 1 = σ 2
κk (y) = 0
für k > 2 .
2.2. MITGLIEDER DER EXPONENTIALFAMILIE
13
• Die Poissonverteilung y ∼ P (µ):
f (y, µ) =
µy −µ
e = exp (y log µ − µ − log y!) ,
y!
y = 0, 1, 2, . . . .
Mit θ = log µ und festem ϕ = 1 führt dies zur Exponentialfamilie mit
a(ϕ) = ϕ ,
b(θ) = exp(θ) ,
c(y, ϕ) = − log y! ,
und mittels (2.3) zu den Kumulanten
E(y) = b′ (θ) = exp(θ) = µ
var(y) = a(ϕ)b′′ (θ) = exp(θ) = µ
κk (y) = exp(θ) = µ
für k > 2 .
• Die Gammaverteilung y ∼ G(a, λ):
f (y, a, λ) = exp(−λy)λa y a−1
1
,
Γ(a)
a, λ, y > 0 .
Damit gilt E(y) = a/λ und V ar(y) = a/λ2 . Die Reparametrisierung µ = ν/λ mit ν = a
liefert E(y) = µ und V ar(y) = µ2 /ν. Die entsprechende Dichtefunktion lautet damit
) ( )ν
(
ν
1
ν
y ν−1
f (y, µ, ν) = exp − y
µ
µ
Γ(ν)
(
)
ν
= exp − y + ν log ν − ν log µ + (ν − 1) log y − log Γ(ν)
µ
 ( )

y − µ1 + log µ1
= exp 
+ ν log ν + (ν − 1) log y − log Γ(ν) ,
1/ν
µ, ν, y > 0 .
Mit θ = −1/µ und ϕ = 1/ν führt dies zur Exponentialfamilie mit
a(ϕ) = ϕ ,
b(θ) = − log(−θ) ,
1
1
c(y, ϕ) = log +
ϕ
ϕ
(
)
( )
1
1
− 1 log y − log Γ
ϕ
ϕ
und mittels (2.3) zu den Kumulanten
1
E(y) = b′ (θ) = − = µ
θ
1
1
′′
var(y) = a(ϕ)b (θ) = ϕ 2 = µ2
θ
ν
( µ )k
κk (y) = (k − 1)! ν
für k > 2 .
ν
14
KAPITEL 2. DIE EXPONENTIALFAMILIE
• Die Invers-Gaussverteilung y ∼ IG(µ, σ 2 ):
(
(
)2 )
1
y−µ
1
2
f (y, µ, σ ) = √
exp − 2
2σ y
µ
2πσ 2 y 3
( 2
)
(
)
y − 2yµ + µ2 1
2 3
= exp −
− log 2πσ y
2σ 2 yµ2
2
)

 (
y − 2µ1 2 + µ1
(
)
1
1
− 2 − log 2πσ 2 y 3  ,
= exp 
2
σ
2σ y 2
y > 0.
Mit θ = − 2µ1 2 , (µ = (−2θ)−1/2 ) und ϕ = σ 2 ergibt dies eine Exponentialfamilie mit
(
)
(
)
1 1
1/2
3
a(ϕ) = ϕ,
b(θ) = −(−2θ) ,
c(y, ϕ) = −
+ log 2πϕy
2 ϕy
und mittels (2.3) zu den Kumulanten
E(y) = b′ (θ) = (−2θ)−1/2 = µ,
var(y) = a(ϕ)b′′ (θ) = ϕ(−2θ)−3/2 = σ 2 µ3 ,
κ3 (y) = 3σ 4 µ5 ,
κ4 (y) = 15σ 6 µ7 .
• Die standardisierte Binomialverteilung my ∼ B(m, π):
( )
m
f (y, m, π) = P (Y = y) = P (mY = my) =
π my (1 − π)m−my
my
)
( ( )
m
+ my log π + m(1 − y) log(1 − π)
= exp log
my
(
( ))
π
1
y log 1−π
− log 1−π
m
1 2
= exp
+ log
, y = 0, , , . . . , 1.
1/m
my
m m
π
Mit θ = log 1−π
, (π = eθ /(1 + eθ )) und ϕ = 1/m ist dies eine Exponentialfamilie mit
(1)
1
a(ϕ) = ϕ,
b(θ) = log
= log(1 + exp(θ)),
c(y, ϕ) = log ϕy ,
1−π
ϕ
und mittels (2.3) zu den Kumulanten
exp(θ)
= π,
1 + exp(θ)
exp(θ)
1
var(y) = a(ϕ)b′′ (θ) = ϕ
= π(1 − π) ,
2
(1 + exp(θ))
m
1
1
κ3 (y) =
(1 − 2π)π(1 − π) ,
κ4 (y) = 3 (1 − 6π(1 − π))π(1 − π) .
2
m
m
Das m-fache von y ist eine binomialverteilte Größe, y selbst ein relativer Anteil.
E(y) = b′ (θ) =
2.3. DIE QUASI-LIKELIHOOD FUNKTION
2.3
15
Die Quasi-Likelihood Funktion
Betrachtet man die Score-Funktion (2.4) zur Exponentialfamilie, so erkennt man, dass
der Maximum-Likelihood Schätzer µ̂ nur von der zugrundeliegenden Varianzannahme
abhängt. In diesem Abschnitt wird nun untersucht, welche Eigenschaften ein Schätzer für
µ aufweist, falls die Score-Funktion auch für Varianzannahmen verwendet wird, die keinen
Mitgliedern aus der Exponentialfamilie gehören. Generell spricht man dann von einer
Quasi-Score-Funktion. Ohne Verlust der Allgemeinheit wollen wir dazu annehmen,
dass die Dispersion gegeben ist durch a(ϕ) = ϕ.
Definition 2.2 Für eine Zufallsvariable y mit E(y) = µ und var(y) = ϕV (µ) (mit
a(ϕ) = ϕ) und bekannter Varianzfunktion V (·) ist die Quasi-Likelihood-Funktion
q(y, µ) (eigentlich Log-Quasi-Likelihood-Funktion) definiert über die Beziehung
∂q(y, µ)
y−µ
=
,
∂µ
ϕV (µ)
(2.5)
oder äquivalent dazu durch
∫
q(y, µ) =
µ
y−t
dt + Funktion in y (und ϕ).
ϕV (t)
(2.6)
Die Ableitung ∂q/∂µ wird als Quasi-Score-Funktion bezeichnet. Verglichen mit (2.1)
und (2.2) hat sie folgende Eigenschaften mit der Score-Funktion gemeinsam
(
)
∂q(y, µ)
E
= 0,
∂µ
(
)
( 2
)
∂q(y, µ)
∂ q(y, µ)
var(y)
1
var
=
=
= −E
.
∂µ
ϕ2 V 2 (µ)
ϕV (µ)
∂µ2
(2.7)
(2.8)
Satz 2.2 Wedderburn (1974): Für eine Beobachtung y mit E(y) = µ und var(y) =
ϕV (µ) hat die Log-Likelihood Funktion l(y, µ) = log f (y, µ) die Eigenschaft
y−µ
∂l(y, µ)
=
,
∂µ
ϕV (µ)
dann und nur dann, wenn die Dichte bzw. Wahrscheinlichkeitsfunktion von y in der Form
(
exp
)
yθ − b(θ)
+ c(y, ϕ)
ϕ
geschrieben werden kann, wobei θ eine Funktion von µ und ϕ unabhängig von µ ist.
16
KAPITEL 2. DIE EXPONENTIALFAMILIE
⇒: Integration bezüglich µ liefert
∫
∫
∂l(y, µ)
y−µ
l(y, µ) =
dµ =
dµ
∂µ
ϕV (µ)
∫
∫
y
1
1
µ
=
dµ −
dµ
ϕ
V (µ)
ϕ
V (µ)
| {z }
| {z }
θ
=
b(θ)
yθ − b(θ)
+ c(y, ϕ).
ϕ
⇐: Mit (2.3) folgt für die Kumulanten der einparametrigen Exponentialfamilie (a(ϕ) = ϕ)
E(Y ) = µ = b′ (θ) und var(Y ) = ϕV (µ) = ϕb′′ (θ). Es gilt daher
dµ
db′ (θ)
=
= b′′ (θ) = V (µ).
dθ
dθ
Da aber l(y, µ) = (yθ − b(θ))/ϕ + c(y, ϕ) und θ eine Funktion von µ ist, folgt
∂l(y, µ)
y dθ
b′ (θ) dθ
=
−
∂µ
ϕ dµ
ϕ dµ
y−µ
=
.
ϕV (µ)
Mit dieser Konstruktionsidee wird für einige Varianzfunktionen der assoziierte Parameter
θ hergeleitet, sowie die Quasi-Likelihood-Funktionen bestimmt.
• V (µ) = 1, ϕ = σ 2 , y, µ ∈ R, (d.h. y ∼ N (µ, σ 2 )):
∫
θ =
dµ = µ,
∫ µ
y−t
(y − µ)2
q(y, µ) =
dt
+
Funktion
in
y
=
−
.
σ2
2σ 2
• V (µ) = µ, 0 < µ, 0 ≤ y, (d.h. y ∼ P (µ)):
∫
1
dµ = log µ,
θ =
µ
∫ µ
y−t
q(y, µ) =
dt = y log µ − µ.
t
• V (µ) = µ2 , 0 < µ, 0 ≤ y, (d.h. y ∼ G(µ, 1)):
∫
1
1
dµ
=
−
,
θ =
µ2
µ
∫ µ
y−t
y
q(y, µ) =
dt = − log µ.
2
t
µ
2.3. DIE QUASI-LIKELIHOOD FUNKTION
17
• V (µ) = µ3 , 0 < µ, 0 ≤ y, (d.h. y ∼ IG(µ, 1)):
∫
1
1
dµ = − 2 ,
3
µ
2µ
∫ µ
y−t
y
1
q(y, µ) =
dt = − 2 + .
2
t
2µ
µ
θ =
• V (µ) = µk , 0 < µ, 0 ≤ y, k ≥ 3:
∫
1
1
dµ = −
,
k
µ
(k − 1)µk−1
( 2
)
∫ µ
y−t
1
µ
yµ
.
q(y, µ) =
dt = k
−
tk
µ
k−2 k−1
θ =
• V (µ) = µ(1 − µ), 0 < µ < 1, 0 ≤ y ≤ 1, (d.h. mY ∼ B(m, µ)):
∫
µ
1
dµ = log
,
µ(1 − µ)
1−µ
∫ µ
y−t
µ
q(y, µ) =
dt = y log
+ log(1 − µ).
t(1 − t)
1−µ
θ =
• V (µ) = µ2 (1 − µ)2 , 0 < µ < 1, 0 ≤ y ≤ 1:
∫
θ =
∫
q(y, µ) =
1
µ
1
1
dµ = 2 log
− +
,
2
− µ)
1−µ µ 1−µ
y−t
µ
y
1−y
dt = (2y − 1) log
− −
.
2
2
t (1 − t)
1−µ µ 1−µ
µ2 (1
µ
• V (µ) = µ + µ2 /k, 0 < µ, 0 ≤ y, 0 < k, (d.h. y ∼ N egB(k, µ)):
∫
1
µ
dµ = log
,
2
µ + µ /k
k+µ
∫ µ
µ
1
y−t
dt = y log
+ k log
.
q(y, µ) =
2
t + t /k
k+µ
k+µ
θ =
Während die ersten vier (Normal-, Poisson-, Gamma- und Inverse Gaußverteilung) und
das sechste Beispiel (standardisierte Binomialverteilung) zu bereits bekannten Mitgliedern
der Exponentialfamilie führen, stellen das fünfte sowie das siebente (speziell für Modelle für Prozentsätze) und achte Beispiel (Negativ-Binomialverteilung) neue (nicht in der
Exponentialfamilie inkludierte) Varianzfunktionen dar. Hängt die Varianzfunktion von einem k ab, so muss diese Größe beim Quasi-Likelihood-Ansatz als fest betrachtet werden.
Es besteht (noch) keine Möglichkeit, k simultan mit µ zu schätzen.
18
2.3.1
KAPITEL 2. DIE EXPONENTIALFAMILIE
Quasi-Dichten
Natürlich ist durch die Spezifikation einer Erwartungswert/Varianz-Beziehung auch eine Dichtefunktion spezifizierbar. Aus der (Log)-Quasi-Likelihood Funktion folgt mit der
Normalisierungsfunktion
∫
ω(µ) =
exp(q(y, µ))dy
R
als Quasi-Dichte (siehe dazu Nelder & Lee (1992))
fq (y, µ) =
exp(q(y, µ))
.
ω(µ)
(2.9)
ω(µ) ist ungleich 1, wenn die Varianz ϕV (µ) zu keiner Verteilung mit Dichte oder Wahrscheinlichkeitsfunktion aus der Exponentialfamilie gehört. Andererseits ist ω(µ) = 1, ∀µ,
falls zur Varianz eine Exponentialfamilie existiert.
Zur Quasi-Dichte (2.9) korrespondiert nun die Log-Likelihood Funktion
lq (y, µ) = log(fq (y, µ)) = q(y, µ) − log(ω(µ))
und
∂lq (y, µ)
∂q(y, µ) ∂ log(ω(µ))
=
−
.
∂µ
∂µ
∂µ
Dieser Score unterscheidet sich vom Quasi-Score genau um
∫
∂ log(ω(µ))
∂ exp(q(y, µ))
1 ∂ω(µ)
1
=
=
dy
∂µ
ω(µ) ∂µ
ω(µ)
∂µ
∫
∫
1
∂q(y, µ)
y − µ exp(q(y, µ))
=
exp(q(y, µ))dy =
dy
ω(µ)
∂µ
ϕV (µ)
ω(µ)
)
(
∫
y−µ
y−µ
µq − µ
=
fq (y, µ)dy = Eq
=
.
ϕV (µ)
ϕV (µ)
ϕV (µ)
∫
Hierbei bezeichnet
µq =
yfq (y, µ)dy
den Quasi-Mean von y. Falls µq − µ verglichen mit y − µ sehr klein ist, bedeutet dies, dass
der Maximum-Quasi-Likelihood Schätzer sehr nahe dem Maximum-Likelihood Schätzer
bezüglich der Quasi-Verteilung ist.
Kapitel 3
Das Generalisierte Lineare Modell
Unter Annahme der Existenz von E(yi ) und var(yi ) wird in der Klasse der Generalisierten
Linearen Modelle (GLM) eine Parametrisierung der Form
ind
stochastische Komponente: yi ∼ Exponentialfamilie(θi ), E(yi ) = µi = µ(θi )
systematische Komponente: ηi = x⊤
i β
Linkfunktion: g(µi ) = ηi
betrachtet, wobei der Zufallsvektor y = (y1 , . . . , yn )⊤ aus unabhängigen Komponenten
yi aufgebaut ist mit E(yi ) = µi und var(yi ) = ϕi V (µi ). Die Dispersionsparameter ϕi
sind gerade die Größen ai (ϕ) von zuvor. Es bezeichnet im weiteren xi = (xi1 , . . . , xip )⊤
den Vektor von bekannten erklärenden Variablen, zusammengefasst zu einer Designmatrix X = (x1 , . . . , xn )⊤ , β = (β1 , . . . , βp )⊤ den Vektor mit den unbekannten Parametern,
η = (η1 , . . . , ηn )⊤ den Vektor mit den Linearen Prädiktoren und g(·) eine bekannte Linkfunktion.
Die wesentlichen Unterschiede zum herkömmlichen Linearen Modell sind:
• Es besteht keine allgemeine Additivität bezüglich nicht-beobachtbarer Fehlerterme
ϵi wie beim Linearen Modell,
• Eine Abhängigkeit der Varianzstruktur auch vom Erwartungswert ist möglich,
• Eine Funktion des Erwartungswertes wird linear modelliert. Dies ist keinesfalls zu
verwechseln mit einer einfachen Transformation der Responsevariablen.
Unser Hauptinteresse liegt nun in der Konstruktion eines Schätzers für den Parametervektor β, sowie an einem Maß für die Güte der Modellanpassung. Beides ist für MaximumLikelihood-Schätzer besonders einfach und stellt nur eine Verallgemeinerung der Resultate
für Lineare Modelle dar.
19
20
3.1
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
Maximum-Likelihood-Schätzungen
Falls y1 , . . . , yn unabhängige Responses sind und die yi aus derselben Exponentialfamilie stammen mit Parameter (θi , ϕi ), wobei der Vektor θ = (θ1 , . . . , θn )⊤ die unbekannten
Parameter beschreibt welche geschätzt werden sollen, und ϕ = (ϕ1 , . . . , ϕn )⊤ aus (vorerst) bekannten (nuisance) Komponenten besteht, so ist die Log-Likelihood Funktion der
Stichprobe gegeben durch
)
n (
∑
yi θi − b(θi )
l(y, θ) =
+ c(yi , ϕi ) .
ϕi
i=1
Unter der recht allgemeinen Annahme µ = µ(β) folgt aus (2.4) die Score-Gleichung
∂l(y, θ(β)) ∑ yi − µi ∂µi
=
= 0,
∂βj
ϕ
V
(µ
)
∂β
i
i
j
i=1
n
j = 1, . . . , p.
Mit der Definition des linearen Prädiktors gilt beim GLM
∂µ
∂µ ∂η
∂µ
x
=
=
x= ′
∂β
∂η ∂β
∂g(µ)
g (µ)
und deshalb
∂l(y, θ(β)) ∑ yi − µi xij
=
= 0,
′ (µ )
∂βj
ϕ
V
(µ
)
g
i
i
i
i=1
n
j = 1, . . . , p.
(3.1)
Den speziellen Link g(µ) = θ nennt man die kanonische Linkfunktion. Hierbei wird
der Parameter θ direkt durch den linearen Prädiktor η modelliert. In diesem Fall ist g(·)
die Inverse von b′ (·) und wegen µ = b′ (θ) folgt
g ′ (µ) =
∂g(µ)
∂θ
1
1
=
= ′′
=
.
∂µ
∂µ
b (θ)
V (µ)
Die Score-Gleichung (3.1) vereinfacht sich für eine kanonische Linkfunktion zu
∂l(y, θ(β)) ∑ yi − µi
=
xij = 0,
∂βj
ϕi
i=1
n
j = 1, . . . , p.
(3.2)
Für ϕi = ϕ (identische Dispersion) gilt hier bei Modellen mit einem Intercept (xi1 = 1, ∀i)
n
∑
i=1
yi =
n
∑
µi .
i=1
Der Maximum-Likelihood-Schätzer β̂ ist also für den allgemeinen Fall als Lösung des
Gleichungssystems (3.1) oder im kanonischen Fall durch (3.2) definiert. Beide Systeme
3.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNGEN
21
können nur iterativ gelöst werden. Einzige Ausnahme bildet das lineare Modell, in dem µ
linear in β ist. Für alle anderen Situationen ist µ = g −1 (x⊤ β).
Die Newton-Raphson Methode liefert die Iterationsvorschrift
β
(t+1)
=β
(t)
( 2
)−1
∂l(y, θ(β))
∂ l(y, θ(β))
+ −
,
⊤
∂β∂β
∂β
t = 0, 1, . . . ,
(3.3)
wobei beide Ableitungen der rechten Seite von (3.3) an der Stelle β (t) betrachtet werden.
In Matrixnotation folgt für den Scorevektor
∂l(y, θ(β))
= X ⊤ DW (y − µ),
∂β
mit D = diag(di ) und W = diag(wi ), wobei
di = g ′ (µi ),
1/wi = ϕi V (µi )(g ′ (µi ))2 .
Als negative Hessematrix der Log-Likelihood Funktion resultiert somit
(
)
∂ 2 l(y, θ(β))
∂DW
∂µ
⊤
−
= −X
(y − µ) − DW ⊤ X
∂β∂β ⊤
∂η ⊤
∂η
(
)
∂DW
= X⊤ W −
(y − µ) X,
∂η ⊤
wegen ∂µ/∂η = D−1 . Weiters ist
i
i ′
g (µi ) + ϕi V (µi )g ′′ (µi ) ∂µ
ϕi V ′ (µi ) ∂µ
∂di wi
∂ηi
∂ηi
= −
∂ηi
(ϕi V (µi )g ′ (µi ))2
V ′ (µi )g ′ (µi ) + V (µi )g ′′ (µi )
= −
.
ϕi V 2 (µi )g ′ 3 (µi )
Fasst man die Elemente
wi∗ = wi −
(3.4)
∂di wi
(yi − µi )
∂ηi
zusammen zur Diagonalmatrix W ∗ , für die E(W ∗ ) = W gilt, so resultiert als NewtonRaphson Vorschrift
β (t+1) = β (t) + (X ⊤ W ∗ X)−1 X ⊤ DW (y − µ),
t = 0, 1, . . . .
(3.5)
Mit sogenannten Pseudobeobachtungen (adjusted dependent variates)
z = Xβ + W ∗−1 DW (y − µ)
(3.6)
22
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
kann (3.5) umgeschrieben werden in eine Iterative (Re)Weighted Least Squares
Notation (IWLS- oder IRLS-Prozedur)
β (t+1) = (X ⊤ W ∗ X)−1 X ⊤ W ∗ z,
(3.7)
wobei hier die rechte Seite in β (t) betrachtet wird.
Für kanonische Links (g ′ (µ) = 1/V (µ), g ′′ (µ) = −V ′ (µ)/V 2 (µ)) verschwinden die Ableitungen (3.4), da
∂di wi
V ′ (µi )/V (µi ) − V ′ (µi )/V (µi )
=−
=0
∂ηi
ϕi /V (µi )
und es gilt W ∗ = W . Die Pseudobeobachtungen (3.6) vereinfachen sich deshalb zu
z = Xβ + D(y − µ) = Xβ + V −1 (y − µ),
(3.8)
mit V = diag(V (µi )), weshalb als Iterationsvorschrift
β (t+1) = (X ⊤ W X)−1 X ⊤ W z
(3.9)
folgt.
Zur Erinnerung sei noch darauf hingewiesen, dass
β̂ = (X ⊤ X)−1 X ⊤ y
beim linearen Modell den Least-Squares Schätzer definiert, welcher nicht iterativ gelöst
werden muss (W = I). Weiters werden hier die beobachtbaren Responsevariablen y verwendet, während bei GLM’s nicht-beobachtbare Pseudobeobachtungen z diese Rolle übernehmen.
Um auch für nicht-kanonische Linkfunktionen ein recht einfaches Schema zu haben, ist
es üblich, anstelle der beobachteten negativen Hessematrix in (3.3) deren Erwartungswert (Informationsmatrix) zu verwenden. Da E(X ⊤ W ∗ X) = X ⊤ W X gilt, folgt bei dieser
Fisher Scoring Technik wie in (3.9) wiederum als Iterationsvorschrift
β (t+1) = (X ⊤ W X)−1 X ⊤ W z
mit den Pseudobeobachtungen
z = Xβ + D(y − µ).
Dafür ist E(z) = Xβ und var(z) = Dvar(y)D = W −1 . Dies bedeutet, dass die Gewichte
W gerade die reziproken Varianzen der Pseudobeobachtungen beschreiben.
3.2. ASYMPTOTISCHE EIGENSCHAFTEN DES SCHÄTZERS
3.2
23
Asymptotische Eigenschaften des Schätzers
Um die asymptotischen Momente des Schätzers β̂ herzuleiten, ist es angebracht, die ScoreFunktion um den wahren Parameter β zu entwickeln. Aus
∂ log f (y, µ) ∂ 2 log f (y, µ) ∂ log f (y, µ) (β̂ − β)
0=
≈
+
∂β
∂β
∂β∂β ⊤ β
β̂
β
und nachdem die Ableitung durch deren Erwartungswert −X ⊤ W X ersetzt wurde, folgt
β̂ − β ≈ (X ⊤ W X)−1 X ⊤ DW (y − µ).
Da var(y) = (DW D)−1 ergibt sich daher
E(β̂) ≈ β
var(β̂) ≈ (X ⊤ W X)−1 X ⊤ DW var(y)W DX(X ⊤ W X)−1 = (X ⊤ W X)−1 ,
wobei W im wahren unbekannten Parameter β betrachtet ist. Fahrmeir und Kaufmann
(1985) zeigten sogar, dass
)
√ (
n→∞
n β̂ − β ∼ Np (0, n(X ⊤ W X)−1 ).
(3.10)
3.3
Pearson Statistik
Natürlich ist man nicht nur am asymptotischen Ergebnis für die Varianz-Kovarianzmatrix
von β̂ interessiert, sondern möchte vor allem diese Matrix auch schätzen. Standardmäßig
wird dafür der Plug-in Schätzer verwendet, d.h. der unbekannte Parameter β in W wird
durch β̂ geschätzt und man erhält (ϕi = ai · ϕ)
var(
c β̂) = (X ⊤ W (β̂, ϕ)X)−1 .
(3.11)
Nun hängt W aber auch vom möglicherweise unbekannten Dispersionsparameter ϕ ab. Bei
den linearen Modellen wurde σ 2 durch die biaskorrigierte mittlere Fehlerquadratsumme
1 ∑
σ̂ =
(yi − µ̂i )2
n − p i=1
n
2
geschätzt. In GLM’s mit ϕi = ai · ϕ und festem Dispersionsparameter ϕ = var(yi )/ai V (µi )
ist im Falle eines bekannten Parameters β die Größe
1 ∑ (yi − µi )2
n i=1 ai V (µi )
n
24
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
erwartungstreu für ϕ. Natürlich ist β unbekannt. Deshalb verwendet man auch basierend
auf die Momentenmethode als Schätzer die biaskorrigierte Größe
1 ∑ (yi − µ̂i )2
1
ϕ̂ =
=
X 2,
n − p i=1 ai V (µ̂i )
n−p
n
(3.12)
welche auch als mittlere (generalisierte) Pearson Statistik X 2 bezeichnet wird und
in (3.11) Verwendung findet. Die einzelnen (nicht quadrierten) Summanden von X 2
yi − µ̂i
ri = √
ai V (µ̂i )
nennt man Pearson Residuen. Diese entsprechen den gewöhnlichen (nicht standardisierten) Residuen yi − µ̂i beim linearen Modell.
3.4
Eigenschaften von Score und Quasi-Score
Für li = log f (yi , θi (β)) resultiert mit g(µi ) = ηi = x⊤
i β
∂li
yi − µi ∂µi
=
,
∂βj
ϕi V (µi ) ∂βj
(
)
∂ 2 li
1
∂µi ∂µi
∂ 2 µi
ϕi V ′ (µi )
1
= −
+ (yi − µi )
+
(y
−
µ
)
,
i
i
∂βj ∂βk
ϕi V (µi )
(ϕi V (µi ))2 ∂βj ∂βk
ϕi V (µi ) ∂βj ∂βk
(
)2
∂li ∂li
yi − µi
∂µi ∂µi
=
,
∂βj ∂βk
ϕi V (µi ) ∂βj ∂βk
mit 1 ≤ j, k ≤ p und
(
)
∂li
E
∂βj
( 2 )
∂ li
E
∂βj ∂βk
(
)
∂li ∂li
E
∂βj ∂βk
i = 1, . . . , n und es folgen dafür als Erwartungswerte
= 0,
1
∂µi ∂µi
,
ϕi V (µi ) ∂βj ∂βk
( 2 )
var(yi ) ∂µi ∂µi
1
∂ li
∂µi ∂µi
=
=
= −E
.
2
(ϕi V (µi )) ∂βj ∂βk
ϕi V (µi ) ∂βj ∂βk
∂βj ∂βk
= −
Unter der Annahme E(Yi ) = µi und var(Yi ) = ϕi V (µi ), wobei wiederum g(µi ) = x⊤
i β gilt,
folgt als Quasi-Score Funktion
∂q(yi , µi (β)) ∂µi
yi − µi xij
∂q(yi , µi (β))
=
=
.
∂βj
∂µi
∂βj
ϕi V (µi ) g ′ (µi )
(3.13)
Dies entspricht genau dem i-ten Summanden aus (3.1). Man spricht auch bei QuasiLikelihood Ansätzen von einer kanonischen Linkfunktion, falls g ′ (µ) = 1/V (µ) gilt, was
3.5. DEVIANCE UND QUASI-DEVIANCE
25
wiederum zum Score-Gleichungssystem (3.2) führt. Die Quasi-Likelihood Schätzung entspricht daher der Maximum-Likelihood Schätzung, vorausgesetzt dass zur angenommenen
Varianz auch ein Mitglied aus der einparametrigen Exponentialfamilie existiert.
Sei qi = q(yi , µi (β)) für i = 1, . . . , n, so gilt für jede Parameterkomponente
(
)
(
)
∂qi
∂qi ∂µi
E
= E
= 0,
∂βj
∂µi ∂βj
( 2
)
)
( 2
∂ qi ∂µi ∂µi
∂qi ∂ 2 µi
1
∂µi ∂µi
∂ qi
= E
+
=−
,
E
2
∂βj ∂βk
∂µi ∂βj ∂βk ∂µi ∂βj ∂βk
ϕi V (µi ) ∂βj ∂βk
)
((
(
)
)2
( 2
)
∂qi ∂qi
∂µi ∂µi
1
∂µi ∂µi
∂ qi
∂qi
E
= E
=
= −E
.
∂βj ∂βk
∂µi
∂βj ∂βk
ϕi V (µi ) ∂βj ∂βk
∂βj ∂βk
3.5
Deviance und Quasi-Deviance
Um die Güte der Modellanpassung zu beschreiben, betrachtet man die Log-LikelihoodQuotienten Teststatistik (likelihood ratio test) basierend auf dem aktuellen Modell mit
p Parametern und einem vollen (saturiertem) Modell, in dem jeder Erwartungswert µi
gerade der Beobachtung yi entspricht. Das volle Modell kann daher als Modell mit n
Parametern interpretiert werden. Diese Statistik
(
)
1
D(y, µ) = −2 log f (y, µ) − log f (y, y)
ϕ
(3.14)
wird auch skalierte Deviance genannt. Nun gilt für den Maximum-Likelihood Schätzer
µ̂, welcher log f (y, µ) maximiert, dass dieser auch die Deviance minimiert, da log f (y, y)
ein fester Wert unabhängig vom Parameter ist. Wie die folgenden Beispiele zeigen, ist das
Maß der Deviance eine Verallgemeinerung der Fehlerquadratsumme beim linearen Modell
unter Annahme normalverteilter Responses.
ind
Beispiel: Seien yi ∼ N (µi , σ 2 ) und σ 2 fest. So ist
}
n {
n
∑
1
1 (yi − µi )2
n
1 ∑ (yi − µi )2
2
2
log f (y, µ) =
− log(2πσ ) −
= − log(2πσ ) −
2
2
σ2
2
2 i=1
σ2
i=1
n
log f (y, y) = − log(2πσ 2 ),
2
wobei die zweite Größe den maximal möglichen Wert unter dem vollen Modell beschreibt.
Die minimierte skalierte Deviance ist somit (ϕ = σ 2 )
n
1 ∑
1
1
D(y, µ̂) = 2
(yi − µ̂i )2 = 2 SSE(β̂),
ϕ
σ i=1
σ
also eine χ2n−p -verteilte Größe mit Erwartungswert n − p.
26
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
ind
Beispiel: Seien mi yi ∼ B(mi , µi ) mit yi = 0, 1/mi , 2/mi , . . . , 1, dann folgt
n {
∑
(
)}
µi
1
mi
log f (y, µ) =
mi yi log
− mi log
+ log
1
−
µ
1
−
µ
mi y i
i
i
i=1
(
)}
n {
∑
1
yi
mi
− mi log
+ log
log f (y, y) =
mi yi log
1 − yi
1 − yi
mi y i
i=1
und als skalierte Deviance folgt mit ϕ = 1 und ai (ϕ) = 1/mi
)
}
(
n {
∑
1 − yi
1 − yi
1
µi
D(y, µ) = −2
− mi log
mi yi log + log
ϕ
yi
1 − µi
1 − µi
i=1
{
}
n
∑
1 − yi
yi
= 2
mi (1 − yi ) log
+ yi log
1 − µi
µi
i=1
Bemerke, dass für yi = 0 oder yi = 1 unabhängig von µ der dazugehörende Teil in der
Deviance-Komponente verschwindet.
Entsprechend kann man auch eine Quasi-Deviance definieren als
n ∫
)
∑
D(y, µ) = −2ϕ q(y, µ) − q(y, y) = −2
(
i=1
µi
yi
y−t
dt.
V (t)
(3.15)
Diese Größe ist positiv außer an der Stelle y = µ. Natürlich erzeugt auch hier der
Maximum-Quasi-Likelihood Schätzer die minimale Quasi-Deviance.
Beispiel: Liegen Prozentwerte yi als Responses vor (d.h. man hat keine Informationen über die entsprechenden Gesamtanzahlen), für die eine standardisierte Binomialverteilungs-Variabilität µ(1 − µ) zu groß erscheint, so kann alternativ als Varianzfunktion
V (µ) = µ2 (1 − µ)2 verwendet werden. Als Quasi-Likelihood Funktion erhält man für
0 < µ < 1 und 0 ≤ y ≤ 1
∫ µ
µ
y
1−y
y−t
dt = (2y − 1) log
− −
.
q(y, µ) =
2
2
t (1 − t)
1−µ µ 1−µ
Die entsprechende Quasi-Deviance ist daher
D(y, µ) = −2
n {
∑
i=1
(
1 − yi
yi )
yi − µi
(2yi − 1) log
− log
+ (2µi − 1)
1 − µi
µi
µi (1 − µi )
}
.
Bemerke, dass jetzt in yi = 0 und yi = 1 die Quasi-Deviance nicht einmal definiert ist, der
Maximum-Quasi-Likelihood Schätzer β̂ in diesem Fall jedoch sehr wohl existiert. Dieser ist
wiederum definiert als iterative Lösung des Quasi-Score Gleichungssystems q(y, µ(β̂)) = 0,
das für die beiden kritischen Beobachtungen unproblematisch ist.
3.6. PARAMETERTESTS
3.6
27
Parametertests
Wie schon bei den linearen Modellen können auch jetzt wiederum die Parameter über
das Konzept der nested models (ineinandergeschachtelte Submodelle) getestet werden.
Dies entspricht dem Testen von Hypothesen der Form
H0 : η = βq+1 xq+1 + · · · + βp xp
H1 : η = β1 x1 + · · · + βq xq + βq+1 xq+1 + · · · + βp xp
(q < p) oder äquivalent dazu einem (multiplen) Test der Hypothese
H0 : β 1 = · · · = β q = 0
H1 : β1 , . . . , βq beliebig.
Das Modell unter H0 ist ein Untermodell von dem unter H1 , das man erhält indem die
ersten q < p Parameter Null gesetzt werden. Bezeichnen µ̂0 und µ̂1 die geschätzten Erwartungsvektoren unter diesen beiden Modellen, so ist die Likelihood-Quotienten Teststatistik
(
) 1(
)
−2 log f (y, µ0 ) − log f (y, µ1 ) =
D(y, µ0 ) − D(y, µ1 ) ,
ϕ
gerade die Deviance-Reduktion, welche daher asymptotisch χ2 -verteilt ist mit q Freiheitsgraden. Ist ϕ unbekannt, so verwendeten wir wie bei den linearen Modellen die Teststatistik
SSE(µ̂0 ) − SSE(µ̂1 )
∼ Fq,n−p ,
σ̂ 2 q
wobei ϕ durch σ̂ 2 bezüglich des komplexesten Modells geschätzt wird. Ein analoges Vorgehen in GLM’s impliziert die Verwendung von Deviancen anstelle der Fehlerquadratsummen SSE.
3.7
Beispiel: Konstante Varianz
Im Beispiel über das Holzvolumen von Bäumen aus dem Kapitel 1 wurde die Responsevariable V einer Box-Cox Transformation unterzogen. Für beide Modelle wurde dann angenommen, dass die transformierte Response V 1/3 oder log V aus einer Normalverteilung
stammt. Alternativ dazu könnte man auch annehmen, dass V selbst bereits normalverteilt
ist mit Erwartungswert µ und dass dieser Erwartungswert jedoch einem Generalisierten
Linearen Modell folgt; d.h. g(µ) = η.
Unter der Annahme einer Normalverteilung (konstante Varianz) für V betrachten wir
zuerst das Modell mit der Linkfunktion g(µ) = µ1/3 = η (bzw. µ = η 3 ), wobei der lineare
Prädiktor durch η = β1 + β2 D + β3 H spezifiziert ist.
> attach(trees)
28
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
> glm(V ~ D + H, family = quasi(link=power(1/3), variance="constant"),
trace=T, epsilon=1e-8, maxit=15)
Deviance = 185.3623 Iterations - 1
Deviance = 184.1578 Iterations - 2
Deviance = 184.1577 Iterations - 3
Deviance = 184.1577 Iterations - 4
Call:
glm(formula = V ~ D + H, family = quasi(link = power(1/3),
variance = "constant"), trace = T, epsilon = 1e-08, maxit = 15)
Coefficients:
(Intercept)
-0.05132
D
0.15033
H
0.01429
Degrees of Freedom: 30 Total (i.e. Null);
Null Deviance:
8106
Residual Deviance: 184.2
AIC: NA
28 Residual
Dieses Ergebnis ist fast identisch den entsprechenden Resultaten aus dem Beispiel in 1.3.
Wir können auch einen Log-Link anstelle der Annahme einer Lognormal-Verteilung für
V verwenden, also die Linkfunktion g(µ) = log µ = η (bzw. µ = exp(η)), jetzt für den
linearen Prädiktor η = β1 + β2 log D + β3 log H. Der folgende Aufruf nutzt die kürzere
family=gaussian Spezifikation, und spezifiziert nur noch dafür den log-Link.
> glm(V ~ log(D) + log(H), family = gaussian(link=log))
Call:
glm(formula = V ~ log(D) + log(H), family = gaussian(link = log))
Coefficients:
(Intercept)
-6.537
log(D)
1.997
log(H)
1.088
Degrees of Freedom: 30 Total (i.e. Null); 28 Residual
Null Deviance:
8106
Residual Deviance: 179.7
AIC: 150.4
Diese Schätzer entsprechen jenen aus dem Modell unter der Lognormal-Verteilung. Die
Deviance ist etwas geringer als beim obigen Ansatz.
3.8
Beispiel: Gamma-Varianz
Ein Feldversuch über Verfahren zur Kontrolle von Insekten produziert n = 140 Insektenanzahlen (counts) von zwei unabhängigen Wiederholungen (plots) in jedem der 10
Blöcke (block) für jedes der sieben Verfahren (treatment). Dabei können die plots als
3.8. BEISPIEL: GAMMA-VARIANZ
29
Replikationen innerhalb der (7 × 10 = 70) Zellen der treatment:block Klassifikation
(Interaktion, Wechselwirkung) betrachtet werden.
>
>
>
>
>
>
>
insects
<- read.table("insects.dat")
block
<- factor(rep(1:10, len=140)); block
plot
<- factor(rep(rep(1:2, each=10), times=7)); plot
treatment <- factor(rep(1:7, each=20)); treatment
insects <- data.frame(insects, data.frame(treatment, plot, block))
colnames(insects) <- c("counts", "treatment", "plot", "block")
attach(insects)
Welche Verteilung liegt den Daten zugrunde? In einer ersten Prüfung betrachten wir in
jeder der 70 Zellen das Mittel der beiden counts und deren Standardabweichungen. Wir
prüfen dazu die Residuen r eines linearen Models unter Normalverteilungsannahme für die
counts. Das Histogramm der Residuen sieht gut aus (symmetrisch), während der QQ-Plot
etwas längere Schwänze in der empirischen Verteilung zeigt als es bei der Normalverteilung der Fall ist (siehe Abbildung 3.1 oben). Auch im Scatterplot der Residuen gegen die
angepassten Werte sieht man eine leicht zunehmende Dispersion der Residuen. Da gerade
2 Beobachtungen je Zelle vorliegen, ist dieser Plot symmetrisch um Null. Einfacher ist
dies im Scatterplot der empirischen Momente zu erkennen (siehe Abbildung 3.1 zweite
Zeile, rechts). Deutlich ist ein linearer Zuwachs der Standardabweichungen für wachsende Mittelwerte zu sehen, wenn man diese Schätzungen treatment-spezifisch durchführt
und die resultierenden 7 Punkte darstellt (wie in der Abbildung 3.1 unten). Da die Standardabweichungen proportional den Mittelwerten zu sein scheinen, liegt ein quadratisches
Modell für die Varianz der counts nahe. Dies erfüllt gerade die Gammaverteilung.
>
>
>
>
>
>
>
>
>
>
>
i.lm <- lm(counts ~ treatment*block)
r <- residuals(i.lm); f <- fitted(i.lm)
hist(r); qqnorm(r); qqline(r)
plot(f, r, xlab="fitted means"); abline(0,0)
cell.mean <- tapply(counts, list(treatment, block), mean); cell.mean
1
2
3
4 5
6
7
8
9
10
1 25.0 39.0 33.0 9.5 16 20.0 28.0 22.0 20.0 29.0
2 7.5 18.5 14.0 8.5 9 16.0 20.5 23.0 18.0 14.5
3 7.0 21.0 25.5 7.0 11 17.0 31.5 33.0 27.5 22.5
4 13.0 15.0 12.0 6.5 8 12.0 27.0 12.0 28.0 12.0
5 15.0 12.0 14.0 4.5 16 13.0 29.5 22.5 17.5 34.0
6 15.0 9.5 25.0 4.5 14 11.5 18.0 15.5 20.0 19.5
7 40.5 64.5 41.5 15.5 25 35.5 36.5 48.0 47.5 51.5
cell.sd
<- tapply(counts, list(treatment, block), sd); cell.sd
plot(cell.mean, cell.sd); abline(mean(cell.sd), 0)
abline(lsfit(as.vector(cell.mean), as.vector(cell.sd)))
trt.mean <- tapply(counts, treatment, mean)
trt.sd
<- tapply(counts, treatment, sd)
plot(trt.mean, trt.sd); abline(lsfit(trt.mean, trt.sd))
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
r
0
-15
-10
5
-5
10
0
15
5
20
10
25
15
30
-15
-10
-5
0
5
10
15
-2
-1
r
0
1
2
10
cell.sd
0
0
-15
-10
5
-5
r
5
15
10
20
15
Quantiles of Standard Normal
10
20
30
40
50
60
10
20
30
40
50
60
cell.mean
8
10
trt.sd
12
14
fitted means
15
20
25
30
35
40
trt.mean
Abbildung 3.1: Oben: Histogramm der Residuen r aus dem linearen Modell für die counts
(links) und deren QQ-Plot (rechts). Mitte: Residuen gegen arithmetische Mittel in den
Zellen (links) und zellspezifische Standardabweichungen gegen Mittelwerte (rechts). Unten: treatment-spezifische Standardabweichungen gegen Mittelwerte.
3.8. BEISPIEL: GAMMA-VARIANZ
31
Die reparametrisierte Form der Gammaverteilung G(µ, ϕ) hat außer dem Erwartungswert
µ auch einen Dispersionsparameter ϕ, der durch die mittlere Pearsonstatistik bzgl. eines
sinnvoll gewählten Maximalmodells (hier: treatment*block) geschätzt wird. Der kanonische Link der Gammaverteilung (in den Programm-Paketen als Defaultlink gesetzt) ist
die reziproke (inverse) Funktion. Da hier keine Nullcounts vorliegen, hat man mit diesem
Link auch keine Probleme bei der Analyse.
Die Stufen der beiden Faktoren im Modell sollen derart kodiert werden, dass die Parameter der Faktorstufen die Abweichungen von der ersten Stufe (treatment=1, block=1)
beschreiben.
> i.glmmax <- glm(counts ~ treatment * block, family = Gamma)
> summary(i.glmmax)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept)
0.0400000 0.0118806
3.367 0.00124 **
treatment2
0.0933333 0.0413458
2.257 0.02711 *
treatment3
0.1028571 0.0440627
2.334 0.02245 *
treatment4
0.0369231 0.0257517
1.434 0.15608
treatment5
0.0266667 0.0230918
1.155 0.25209
treatment6
0.0266667 0.0230918
1.155 0.25209
treatment7
-0.0153086 0.0139618 -1.096 0.27663
block2
-0.0143590 0.0141120 -1.017 0.31242
block3
-0.0096970 0.0149050 -0.651 0.51744
block4
0.0652632 0.0334460
1.951 0.05502 .
block5
0.0225000 0.0220398
1.021 0.31083
block6
0.0100000 0.0190183
0.526 0.60068
block7
-0.0042857 0.0159271 -0.269 0.78866
block8
0.0054545 0.0179838
0.303 0.76256
block9
0.0100000 0.0190183
0.526 0.60068
block10
-0.0055172 0.0156859 -0.352 0.72609
treatment2:block2 -0.0649203 0.0450026 -1.443 0.15360
:
treatment7:block10 0.0002434 0.0182508
0.013 0.98940
--(Dispersion parameter for Gamma family taken to be 0.1764366)
Null deviance: 59.825
Residual deviance: 16.115
AIC: 1033.1
on 139
on 70
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 6
Der Dispersionsparameter wird nun aus diesem Modell geschätzt und für die weiteren
Modelle festgehalten.
> r <- residuals(i.glmmax, type = "pearson") # Pearson Residuals
32
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
> s.glmmax <- summary(i.glmmax) # generate summary object
> (df.max <- s.glmmax$df[2]) # [1]=#(parameters), [2]=df
70
> (scale <- sum(r^2)/df.max) # mean Pearson statistic
0.1764366
> (dev.max <- s.glmmax$deviance/scale) # scaled Deviance
91.33322
> plot(f, r, vlab = "fitted means"); abline(0, 0)
Eine Vorgabe für den Wert des Dispersionsparameter kann nicht direkt in glm gemacht
werden, jedoch ist dieses Fixieren durch summary(glm.object, dispersion = scale)
möglich. Dies hat jedoch keinen Einfluss auf die (Residual) Deviance, die immer unskaliert
ausgegeben wird.
Prüft man die Residuen zu diesem Modell, so scheinen sich diese jetzt gerade anders zu
verhalten. Deren Variabilität scheint jetzt mit den Means abzunehmen (siehe Abbildung
3.2 links). Möglicherweise ist doch die Varianz der Gammaverteilung zu groß gewählt.
Wir wollen aber dabei bleiben und eine Analysis of Deviance Tabelle konstruieren, um
den Grad der Erklärung der beiden Faktoren zu prüfen. Als Teststatistiken für Modellvergleiche müssen wir die Differenzen der (durch den selben Dispersionsparameter scale)
skalierten Deviancen (Likelihood-Quotienten-Tests) verwenden.
>
>
>
>
>
>
# main effects model
i.glmmain <- glm(counts ~ treatment + block, family = Gamma)
s.glmmain <- summary(i.glmmain)
(df.main <- s.glmmain$df[2]) # 124
(dev.main <- s.glmmain$deviance / scale) # 153.5404
1 - pchisq(dev.main - dev.max, df.main - df.max) # 0.207146
>
>
>
>
>
>
# treatment main effect only
i.glmt <- glm(counts ~ treatment, family=Gamma)
s.glmt <- summary(i.glmt)
(df.t <- s.glmt$df[2]) # 133
(dev.t <- s.glmt$deviance / scale) # 235.8278
1 - pchisq(dev.t - dev.main, df.t - df.main) # 5.67324e-14
>
>
>
>
>
>
# block main effect only
i.glmb <- glm(counts ~ block, family = Gamma)
s.glmb <- summary(i.glmb)
(df.b <- s.glmb$df[2]) # 130
(dev.b <- s.glmb$deviance / scale) # 248.4377
1 - pchisq(dev.b - dev.main, df.b - df.main) # 0
Mit diesen Modellen ist es nun möglich, die gesamte Analysis of Deviance zu rechnen. Die
beiden Haupteffekte block und treatment sind hoch signifikant, während die Interaktion
3.8. BEISPIEL: GAMMA-VARIANZ
33
treatment:block auf dem Niveau p > 0.2 zu vernachlässigen ist. Wir erhalten im Detail:
1)
2)
(2-1)
3)
(3-2)
4)
(4-2)
Modell
skalierte Deviance
df
Haupteffekte und Interaktionen
91.33 70
beide Haupteffekte
153.54 124
Test auf Interaktionen
62.21 54
nur Behandlungseffekt
235.83 133
Test auf Behandlungseffekt
82.29
9
nur Blockeffekt
248.44 130
Test auf Blockeffekt
94.90
6
p
0.207
5.67e-014
0
Tabelle 3.1: Analysis of Deviance Tabelle des Gammamodells mit reziprokem Link.
Viel einfacher ist es, dafür wiederum die Funktion anova( ) zu verwenden. Diese liefert äquivalent dazu die passende Zerlegung des maximalen Modells. Durch die Angabe dispersion=scale wird als Dispersion die Größe scale verwendet. Dies entspricht
eigentlich der Defaultoption, denn scale ist in diesem Beispiel gerade der geschätzte
Dispersionsparameter des betrachteten Modells.
> anova(glm(counts ~ treatment * block, family = Gamma), dispersion=scale,
test="Chisq")
Analysis of Deviance Table
Model: Gamma, link: inverse
Response: counts
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL
139
59.825
treatment
6
18.217
133
41.609 5.267e-20
block
9
14.519
124
27.090 5.669e-14
treatment:block 54
10.976
70
16.115
0.207
Möchte man den Dispersionsschätzer frei schätzen, dann sollte besser als Option test="F"
verwendet werden. Hier liefert dies
> anova(glm(counts ~ treatment * block, family = Gamma), test="F")
Analysis of Deviance Table
Model: Gamma, link: inverse
Response: counts
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL
139
59.825
treatment
6
18.217
133
41.609 17.208 4.124e-12 ***
block
9
14.519
124
27.090 9.143 5.234e-09 ***
treatment:block 54
10.976
70
16.115 1.152
0.2868
34
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
Wir bleiben beim Modell mit den beiden Haupteffekten (ohne Interaktion) und verwenden
den Dispersionsschätzer vom maximalen Modell. Aus dem summary Objekt s.glmmain
erhält man u.a. auch die Parameterschätzer und deren geschätzten Eigenschaften.
> s.glmmain$coefficients
Estimate
(Intercept) 0.049673203
treatment2
0.023936588
treatment3
0.007280651
treatment4
0.025692224
treatment5
0.013774690
treatment6
0.022682067
treatment7 -0.015040997
block2
-0.015768459
block3
-0.012901944
block4
0.065790437
block5
0.012934969
block6
-0.000837096
block7
-0.017670453
block8
-0.015128536
block9
-0.015588740
block10
-0.016378610
Std. Error
0.006789474
0.006967469
0.005646622
0.007112368
0.006147877
0.006864447
0.004184305
0.007095390
0.007319928
0.014768088
0.009576332
0.008333513
0.006951687
0.007144759
0.007109207
0.007048774
t value
7.3162084
3.4354780
1.2893817
3.6123303
2.2405604
3.3042817
-3.5946225
-2.2223526
-1.7625780
4.4549055
1.3507227
-0.1004493
-2.5418944
-2.1174314
-2.1927536
-2.3236113
Pr(>|t|)
2.784915e-11
8.052590e-04
1.996653e-01
4.392207e-04
2.683468e-02
1.245054e-03
4.671507e-04
2.807256e-02
8.043550e-02
1.851507e-05
1.792440e-01
9.201498e-01
1.225720e-02
3.622055e-02
3.019127e-02
2.177421e-02
Die unter diesem Modell geschätzten treatment Mittel und ihre (punktweisen) 95% Konfidenzgrenzen können für jeden block berechnet werden. Wir nehmen block 1 und machen
eine Vorhersage für alle treatment. Verzichtet man jetzt auf den ursprünglichen Dispersionsparameter und verwendet den zu diesem Modell aktuellen, führt dies zu den Means
mit Konfidenzlimits in der Abbildung 3.2 rechts.
> new.i <- data.frame(treatment = factor(1:7), block = factor(rep(1,7)))
> new.i
treatment block
1
1
1
2
2
1
3
3
1
4
4
1
5
5
1
6
6
1
7
7
1
> i.pred <- predict.glm(i.glmmain, newdata = new.i, type = "response",
se.fit = T); i.pred
> fit
<- i.pred$fit
> upper <- fit + qt(0.975, df.main)*i.pred$se.fit
> lower <- fit - qt(0.975, df.main)*i.pred$se.fit
> fit
3.8. BEISPIEL: GAMMA-VARIANZ
35
1
2
3
4
5
6
7
20.13158 13.58515 17.55807 13.26868 15.76096 13.82069 28.87486
> lower
1
2
3
4
5
6
7
14.68531 10.58549 13.18339 10.36520 12.04814 10.74824 18.58768
> upper
1
2
3
4
5
6
7
25.57785 16.58481 21.93276 16.17217 19.47379 16.89314 39.16203
> plot(new.i$treatment, upper, style="box", xlab="Treatment",
ylab="mean count", ylim=c(0.0,40.0), main="Block 1")
> par(new=TRUE); plot(new.i$treatment, fit, style="box", ylim=c(0.0,40.0))
> par(new=TRUE); plot(new.i$treatment, lower, style="box", ylim=c(0.0,40.0))
Wie es scheint sind die Treatment Unterschiede hauptsächlich auf die geringeren Effektivitäten der Treatments 1 und 7 zurückzuführen. Dabei hat es den Anschein, dass die
mit Treatment 7 (einziger negativer Treatmentparameter) behandelten Einheiten die mit
Abstand höchste Anzahl von Insekten aufweist. Aus der Tabelle mit den geschätzten Koeffizienten ist ersichtlich, dass sich für alle übrigen Blöcke zwar dasselbe Muster ergibt
(da keine Wechselwirkungen im Modell), jedoch die Blöcke 4 und 5 wegen des verwendeten reziproken Links (µ = 1/η) im Mittel geringere Anzahlen als Block 1 aufweisen. Alle
übrigen Blöcke (negative Blockparameter) ziehen sogar etwas mehr Insekten an als der
Block 1 (neutraler Nullparameter: Referenzkategorie).
30
20
mittlere Anzahl
0.0
r
0.5
40
Block 1
x
x
x
x
x
x
0
-0.5
10
x
10
20
30
40
f
50
60
Trtm1
Trtm2
Trtm3
Trtm4
Trtm5
Trtm6
Trtm7
Treatment
Abbildung 3.2: Pearson Residuen r aus dem (maximalen) Gammamodell gegen die vorhergesagten Erwartungswerte f (links). Geschätzte Erwartungswerte mit 95% Konfidenzlimits für das Gammamodell mit Haupteffekten am Beispiel Block 1(rechts).
36
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
Kapitel 4
Logistische Regression
ind
Seien dazu mi yi ∼ Binomial(mi , µi ). Wie bereits gezeigt, gilt dafür
exp(θi )
= µi
1 + exp(θi )
1
exp(θi )
1
var(yi ) = ϕi b′′ (θi ) =
=
µi (1 − µi )
2
mi (1 + exp(θi ))
mi
E(yi ) = b′ (θi ) =
und als kanonische Linkfunktion (g = (b′ )−1 ) resultiert der Logitlink
logit(µ) = log
mµ
µ
= log
= θ = η,
1−µ
m − mµ
also
µ=
exp(η)
.
1 + exp(η)
Diese Bezeichnung bezieht sich auf die Verteilungsfunktion einer logistisch verteilten Zufallsvariablen mit Dichte
exp((y − µ)/τ )
f (y|µ, τ ) = (
)2 .
τ 1 + exp((y − µ)/τ )
(4.1)
Bezeichnen X1 und X2 zwei unabhängige Exponential(1)-verteilte Zufallsvariablen, so ist
die Dichte von Y = log(X1 /X2 ) gleich
f (y) = (
exp(y)
)2 ,
1 + exp(y)
sowie
F (y) =
exp(y)
1 + exp(y)
und die Verteilungsfunktion F (y) entspricht dem inversen Logitlink.
Prinzipiell kann in dieser Modellklasse wegen µ = g −1 (η) und 0 < µ < 1 anstelle des
inversen Logitlinks auch eine beliebige andere Verteilungsfunktion verwendet werden. So
spricht man beispielsweise bei der Wahl g −1 (η) = Φ(η) vom Probitmodell.
37
38
KAPITEL 4. LOGISTISCHE REGRESSION
Als Log-Likelihood Funktion und für die (skalierte) Deviance erhält man
(
)}
n {
∑
µi
1
mi
l(y, µ) =
mi yi log
− mi log
+
,
1 − µi
1 − µi
mi y i
i=1
{
}
n
∑
1 − yi
yi
D(y, µ) = 2
mi (1 − yi ) log
+ yi log
.
1 − µi
µi
i=1
Ein Spezialfall der logistischen Regression ist die Modellierung binärer Daten yi ∈ {0, 1}
(mi = 1 für alle i). Hier gilt für den relevanten Teil der Log-Likelihood Funktion
{
log(1 − µi ) für yi = 0 ,
l(yi , µi ) =
log µi
für yi = 1
und
{
D(yi , µi ) =
−2 log(1 − µi ) für yi = 0 ,
−2 log µi
für yi = 1 .
Das Deviance-Inkrement D(yi , µi ) beschreibt also den Anteil einer binären Beobachtung
an der Log-Likelihood Funktion der Stichprobe
l(y, µ) =
n
∑
i=1
4.1
1∑
l(yi , µi ) = −
D(yi , µi ) .
2 i=1
n
Toleranzverteilungen – Linkfunktionen
Historisch gesehen entwickelten sich die Modelle für binäre Responses aus der Notwendigkeit einer experimentellen Untersuchung, dem biologischen Assay oder kurz Bioassay. Typischerweise wurde hierbei die Wirkung verschiedener Konzentrationen einer chemischen
Verbindung in Tierversuchen erprobt. Die Anzahl der Tiere, welche darauf angesprochen
haben wurde aufgezeichnet und als Realisierung einer binomialen Response betrachtet.
So wird zum Beispiel in einem insektentötenden Versuch ein spezielles Insektizid in mehreren bekannten Konzentrationen auf Insektengruppen (batches) von bekannten Umfängen
angewendet. Falls einer Insektengruppe eine sehr niedrige Dosis verabreicht wird, wird
wahrscheinlich keines dieser Insekten daran sterben. Wird jedoch einer anderen Insektengruppe eine sehr hohe Dosis gegeben, so werden sehr viele (wenn nicht alle) daran sterben.
Ob nun ein spezielles Insekt bei einer gegebenen Dosis verstirbt oder nicht, hängt von der
Toleranz dieses Individuums ab. Insekten mit einer geringen Toleranz werden bei einer
gewissen Dosis eher sterben als andere mit einer großen Toleranz.
Nun nimmt man an, dass es für die gesamte Insektenpopulation (aus der auch die Versuchstiere stammen) eine Verteilung der Toleranzstufen gibt. Insekten mit einer Toleranz
kleiner als di werden bei einer verabreichten Dosis di daran sterben. Sei U die Zufallsvariable, welche mit der Toleranzverteilung assoziiert ist, und sei u die Toleranz eines speziellen
4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN
39
Tieres. Die entsprechende Dichtefunktion sei f (u). Somit ist die Wahrscheinlichkeit eines
Insektes, bei einer Dosis di daran zu sterben, gegeben durch
∫
pi = P (U ≤ di ) =
di
f (u) du.
−∞
Falls nun die Toleranzen normalverteilt sind mit Erwartungswert µ und Varianz σ 2 folgt
dafür
(
)
di − µ
pi = Φ
.
σ
Bezeichnet β1 = −µ/σ und β2 = 1/σ, so erhält man
pi = Φ (β1 + β2 di ) ,
oder
probit(pi ) = Φ−1 (pi ) = β1 + β2 di ,
also ein Probitmodell für die Beziehung zwischen der Sterbewahrscheinlichkeit pi und
der dafür verabreichten Dosis des Insektizids di .
Für U logistisch verteilt mit Dichte (4.1), wobei E(U ) = µ und var(U ) = π 2 τ 2 /3, so
entspricht dies
∫
pi = P (U ≤ di ) =
di
−∞
exp((di − µ)/τ )
.
)2 du =
1 + exp((di − µ)/τ )
τ 1 + exp((u − µ)/τ )
(
exp((u − µ)/τ )
Mit β1 = −µ/τ und β2 = 1/τ wie zuvor folgt
pi =
exp(β1 + β2 di )
1 + exp(β1 + β2 di )
oder
logit(pi ) = β1 + β2 di .
Die Annahme einer logistischen Toleranzverteilung führt zu einem logistischen Modell
für pi .
4.1.1
Beispiel (Venables & Ripley, Seite 218)
Untersucht wird die Wirkung eines Giftes auf einen Wurm, der die Knospen von Tabakpflanzen schädigt. Gruppen zu je 20 Motten beiderlei Geschlechts (sex) wurden dazu
drei Tage lang verschieden hohe Dosen eines Giftes ausgesetzt und die Anzahl der daran
verstorbenen Tiere wurde gezählt.
Dosis in
Geschlecht 1 2 4 8
männlich
1 4 9 13
weiblich
0 2 6 10
µg
16 32
18 20
12 16
Da die Dosen Potenzen von 2 sind, verwenden wir als Prädiktorvariable log2 (Dosis).
40
KAPITEL 4. LOGISTISCHE REGRESSION
> (ldose <- rep(0:5, 2))
[1] 0 1 2 3 4 5 0 1 2 3 4 5
> (dead <- c(1,4,9,13,18,20,0,2,6,10,12,16))
[1] 1 4 9 13 18 20 0 2 6 10 12 16
> (sex <- factor(rep(c("M", "F"), c(6, 6))))
[1] M M M M M M F F F F F F
Levels: F M
> (SF <- cbind(dead, alive = 20-dead))
dead alive
[1,]
1
19
[2,]
4
16
:
[12,]
16
4
> summary(budworm.lg <- glm(SF ~ sex*ldose, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.9935
0.5527 -5.416 6.09e-08 ***
sexM
0.1750
0.7783
0.225
0.822
ldose
0.9060
0.1671
5.422 5.89e-08 ***
sexM:ldose
0.3529
0.2700
1.307
0.191
--(Dispersion parameter for binomial family taken to be 1)
Null deviance: 124.8756 on 11 degrees of freedom
Residual deviance:
4.9937 on 8 degrees of freedom
AIC: 43.104
Number of Fisher Scoring iterations: 4
Für derartige Modelle muss auch die Anzahl der Tiere mi spezifiziert sein. In glm mit
family = binomial kann dies unterschiedlich gemacht werden. Wir haben dazu die Matrix SF (success/failure) verwendet, deren erste (zweite) Spalte die Anzahl der Erfolge
(Misserfolge) enthält.
Das Ergebnis weist auf eine signifikante Steigung hin. Die erste Stufe von sex bezieht
sich auf die weiblichen Tiere (alphabetische Reihenfolge der Stufen, "F" vor "M") und
wird somit durch den Intercept beschrieben. Der Parameter sexM:ldose repräsentiert
einen (nicht signifikant) größeren Anstieg für männliche Tiere, während der Parameter
sexM den (nicht signifikant) Unterschied in den Konstanten beschreibt. Die Daten und die
Modellschätzung sind in der Abbildung 4.1 dargestellt.
>
>
>
>
plot(c(1,32), c(0,1), type="n", xlab="dose", ylab="prob", log="x")
text(2^ldose, dead/20, as.character(sex))
ld <- seq(0, 5, 0.1); n.p <- length(ld)
lines(2**ld,
predict(budworm.lg, data.frame(ldose=ld, sex=rep("M",n.p)), type="response"))
> lines(2**ld,
predict(budworm.lg, data.frame(ldose=ld, sex=rep("F",n.p)), type="response"))
1.0
4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN
41
M
0.8
M
F
0.6
M
prob
F
F
0.4
M
0.2
F
M
0.0
F
M
F
1
5
10
dose
Abbildung 4.1: Beobachtete und geschätzte Ausfallsraten beim Tabakwurm.
Der Parameter sexM scheint irrelevant zu sein. Dieser beschreibt jedoch gerade den Unterschied bei der Dosis 1µg (log2 Dosis = 0). Ist man am Unterschied bei 8µg interessiert,
erhält man
> summary(budworm.lg8 <- update(budworm.lg, . ~ sex*I(ldose-3)))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
-0.2754
0.2305 -1.195 0.23215
sexM
1.2337
0.3770
3.273 0.00107 **
I(ldose - 3)
0.9060
0.1671
5.422 5.89e-08 ***
sexM:I(ldose - 3)
0.3529
0.2700
1.307 0.19117
Also doch ein signifikanter Geschlechtsunterschied bei einer Dosis von 8µg. Das Modell
selbst scheint ausgezeichnet zu passen (Deviance von 5 bei 8 Freiheitsgraden). Die Analysis
of Deviance Tabelle bestätigt dies. Auf eine Interaktion kann verzichtet werden. Auch die
Hinzunahme eines quadratischen Terms ist nicht notwendig.
> anova(budworm.lg, test = "Chisq")
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL
11
124.876
sex
1
6.077
10
118.799
0.014
ldose
1 112.042
9
6.757 3.499e-26
sex:ldose 1
1.763
8
4.994
0.184
42
KAPITEL 4. LOGISTISCHE REGRESSION
> anova(update(budworm.lg, . ~ . +
Df Deviance Resid.
NULL
sex
1
6.077
ldose
1 112.042
I(ldose^2)
1
0.907
sex:ldose
1
1.240
sex:I(ldose^2) 1
1.439
sex*I(ldose**2)), test = "Chisq")
Df Resid. Dev P(>|Chi|)
11
124.876
10
118.799
0.014
9
6.757 3.499e-26
8
5.851
0.341
7
4.611
0.266
6
3.172
0.230
Diese Ergebnisse hängen von der Reihenfolge der Parameter ab. Durch test = "Chisq"
wird die Deviancedifferenz der nested models mit jeweiligen Skalenparameter 1 (bekannt
bei der Binomialverteilung) verwendet. Es zeigt, dass weder die Interaktion noch ein
quadratischer Dosiseffekt notwendig sind. Unsere Analyse empfiehlt daher ein Modell mit
zwei parallelen Geraden bezüglich der Prädiktor- (logit)-Achse, eine für jedes Geschlecht.
Oft ist man auch an einer Schätzung der Dosis für eine vorgegebene Sterbewahrscheinlichkeit interessiert. Dazu reparametrisieren wir zuerst das Modell, sodass wir für beiderlei
Geschlecht einen eigenen Intercept bekommen.
> summary(budworm.lg0 <- glm(SF ~ sex + ldose - 1, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
sexF
-3.4732
0.4685 -7.413 1.23e-13 ***
sexM
-2.3724
0.3855 -6.154 7.56e-10 ***
ldose
1.0642
0.1311
8.119 4.70e-16 ***
--(Dispersion parameter for binomial family taken to be 1)
Null deviance: 126.227 on 12 degrees of freedom
Residual deviance:
6.757 on 9 degrees of freedom
AIC: 42.867
Sei nun ξp jene log2 -Dosis für die die Response Wahrscheinlichkeit gerade p ist. Also
beschreibt 2ξ0.5 die 50% Sterbe-Dosis (50% lethal dose oder LD50). Für diese Dosis hält
bei einer allgemeinen Linkfunktion g(p) = β1 + β2 ξp , also
ξp =
g(p) − β1
.
β2
Nun hängt die Dosis vom Parameter β = (β1 , β2 ) ab, also ξp = ξp (β). Ersetzt man ihn
durch seinen Schätzer, liefert dies den Schätzer ξˆp = ξp (β̂) wofür approximativ gilt
∂ξp (β)
ξˆp = ξp + (β̂ − β)⊤
∂β
Da β̂ erwartungstreu ist für β, folgt approximativ auch E(ξˆp ) = ξp . Weiters resultiert als
Varianz (Delta-Methode)
var(ξˆp ) =
∂ξp (β)
∂ξp (β)
var(β̂)
⊤
∂β
∂β
4.2. INTERPRETATION DER PARAMETER
mit
∂ξp
1
=− ,
∂β1
β2
43
ξp
∂ξp
g(p) − β1
=−
=− .
2
∂β2
β2
β2
Die Funktion dose.p aus der Bibliothek MASS benutzt die obigen Resultate und liefert für
weibliche und für männliche Motten
> library(MASS)
> dose.p(budworm.lg0, cf = c(1,3), p = 1:3/4) # female
Dose
SE
p = 0.25: 2.231265 0.2499089
p = 0.50: 3.263587 0.2297539
p = 0.75: 4.295910 0.2746874
> dose.p(budworm.lg0, cf = c(2,3), p = 1:3/4) # male
Dose
SE
p = 0.25: 1.196939 0.2634488
p = 0.50: 2.229262 0.2259159
p = 0.75: 3.261585 0.2548981
Man benötigt also eine geschätzte Dosis von log2 (Dosis) = 3.26, also Dosis = 9.6, um 50%
der weiblichen Schädlinge zu vernichten, und Dosis = 4.7 für 50% der Männchen.
Alternativ kann auch ein Probitmodell gerechnet werden. Diese Linkfunktion ist im zentralen Bereich sehr ähnlich dem Logitlink und unterscheidet sich nur in den Schwänzen.
Man erhält unter diesem Modell sehr ähnliche Resultate z.B. für weibliche Motten.
> dose.p(update(budworm.lg0, family=binomial(link=probit)), cf=c(1,3), p=1:3/4)
Dose
SE
p = 0.25: 2.191218 0.2384103
p = 0.50: 3.257703 0.2240499
p = 0.75: 4.324187 0.2668534
4.2
Interpretation der Parameter
Hängt der Erwartungswert binärer Daten nur von einem erklärenden zweistufigen Faktor
x ab, so können die Parameter sehr einfach interpretiert werden. Dazu betrachtet man
die folgende Kontingenztafel mit den Zellwahrscheinlichkeiten:
x=1 x=0
y=1
π1
π2
y = 0 1 − π1 1 − π2
Im Falle x = 1 bezeichnet π1 /(1 − π1 ) die Quote, Chance (odds) für das Eintreten von
y = 1 zu y = 0. Die Log-Transformation dieser Quote bei x = 1
log π1 /(1 − π1 ) = logit(1)
44
KAPITEL 4. LOGISTISCHE REGRESSION
nennt man log-odds oder Logit. Den Quotienten der Quote unter x = 1 zur Quote unter
x = 0 nennt man odds-ratio
π1 /(1 − π1 )
ψ=
,
π2 /(1 − π2 )
und deren Log-Transformation ergibt das log-odds ratio oder die Logit-Differenz
log ψ = log
π1 /(1 − π1 )
= logit(1) − logit(0) .
π2 /(1 − π2 )
Bezeichne nun µ(x) = P (y = 1|x) und 1 − µ(x) = P (y = 0|x) mit x ∈ {0, 1}. Falls dafür
zusätzlich das Modell
µ(x)
log
= β1 + β2 x
1 − µ(x)
hält, so bekommt man für die Zellwahrscheinlichkeiten
x=1
y=1
µ(1) =
exp(β1 + β2 )
1 + exp(β1 + β2 )
y = 0 1 − µ(1) =
x=0
µ(0) =
exp(β1 )
1 + exp(β1 )
1
1
1 − µ(0) =
1 + exp(β1 + β2 )
1 + exp(β1 )
Dies liefert auch als log-odds-ratio
log ψ = log
µ(1)/(1 − µ(1))
exp(β1 + β2 )
= log
= β2 .
µ(0)/(1 − µ(0))
exp(β1 )
Weiters gilt für eine allgemeine Größe x mit dieser Parametrisierung
P (y = 1|x)
µ(x)
=
= exp(β1 + β2 x) = exp(β1 ) exp(β2 )x ,
P (y = 0|x)
1 − µ(x)
d.h., wächst x um eine Einheit, so erhöht sich die Eintrittsquote von y = 1 multiplikativ
um exp(β2 ).
4.2.1
Beispiel (Agresti, Seite 87)
An 27 Krebspatienten wird beobachtet, ob es nach einer Injektionsbehandlung zum Abklingen des Karzinoms kommt. Die wichtigste erklärende Variable LI, der Labelling Index, beschreibt die Zellteilungsaktivität nach dieser Behandlung (Anteil der Zellen, welche
“gepolt” wurden). Dabei ergaben sich n = 14 unterschiedliche LI Werte. Die ResponseVariablen mi yi beschreiben die Anzahl erfolgreicher Rückbildungen bei mi Patienten mit
jeweiliger Zellaktivität LIi .
4.2. INTERPRETATION DER PARAMETER
LIi
8
10
12
14
16
mi
2
2
3
3
3
mi y i
0
0
0
0
0
LIi
18
20
22
24
26
mi
1
3
2
1
1
mi yi
1
2
1
0
1
45
LIi
28
32
34
38
mi
1
1
1
3
mi yi
1
0
1
2
Es wird angenommen, dass sich die Patienten einer LIi Gruppe homogen verhalten, d.h.
µi
ind
mi yi ∼ Binomial(mi , µi ) ,
mit log
= β1 + β2 LIi .
1 − µi
Als MLE erhält man dafür
>
>
>
>
>
li <- c(seq(8, 28, 2), 32, 34, 38)
total <-c(2, 2, 3, 3, 3, 1, 3, 2, 1, 1, 1, 1, 1, 3)
back <-c(0, 0, 0, 0, 0, 1, 2, 1, 0, 1, 1, 0, 1, 2)
SF <- cbind(back, nonback = total - back)
summary(carcinoma <- glm(SF ~ li, family=binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.77714
1.37863 -2.740 0.00615 **
li
0.14486
0.05934
2.441 0.01464 *
--Null deviance: 23.961 on 13 degrees of freedom
Residual deviance: 15.662 on 12 degrees of freedom
> anova(carcinoma, test="Chisq")
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL
13
23.9610
li
1
8.2988
12
15.6622
0.0040
Nimmt LI um eine Einheit zu, so wird die geschätzte Quote für eine Rückbildung mit
exp(0.145) = 1.156 multipliziert. Die unter dem Modell geschätzte Wahrscheinlichkeit für
eine Rückbildung ist 1/2 falls η̂ = 0, also für LI = −β̂1 /β̂2 = 26.05.
∑
Das Mittel aller LI-Werte ist
i LIi mi /27 = 20.07, wofür sich als linearer Prädiktor
β̂1 + β̂2 20.07 = −0.866 ergibt, was einer Heilungswahrscheinlichkeit von 29.6% entspricht.
Beobachtet konnten 9 Erfolge aus 27 Patienten werden, also 33.3%.
Für die Regressionskurve gilt ∂µ(x)/∂x = β2 µ(x)(1−µ(x)). Der stärkste Anstieg ist daher
an der Stelle µ(x) = 1/2, also in LI = 26.05, und beträgt dort β̂2 /4 = 0.036.
Es stellt sich auch die Frage, ob die Rückbildung vom LI-Wert abhängt. Der entsprechende
p-Wert von 1.5% scheint dies klar zu bestätigen.
Für das Unabhängigkeitsmodell (NULL) resultiert als Deviance 23.96 (df = 13). Die
Deviance-Differenz 8.3 bei einem Verlust von einem Freiheitsgrad entspricht einem χ21 Quantil mit α = 0.004. Dieses Ergebnis ist noch deutlicher als das Resultat des WaldTests. In beiden Fällen wird die positive Assoziation zwischen LI und dem Rückbildungsverhalten bestätigt.
46
4.3
KAPITEL 4. LOGISTISCHE REGRESSION
Logit-Modelle
In diesem Spezialfall der logistischen Regression bei binären Beobachtungen sind nur
Faktoren und keine Variablen im linearen Prädiktor beinhaltet.
4.3.1
Beispiel
Untersuchungen von 313 Frauen nach einer Operation des Zervixkarzinoms ergaben 123
Rezidive. Von welchen Risikogrößen hängt der Rezidiveintritt ab? Die Anzahl der befallenen Lymphknotenstationen (LK) und der Befall der Zervix-Grenzzone (GZ) wurden zum
Zeitpunkt der Operation festgestellt und stellen potentielle Risikogrößen dar. In einer
Tabelle sind die Rezidivfälle (yij /mij ) als 3 × 4 Kontingenztafel angegeben.
GZ nicht befallen
GZ befallen
über GZ befallen
befallene LK-Stationen
0
1
2
≥3
21/124 7/21 9/16 13/13
18/ 58 6/12 5/ 7 5/ 5
4/ 14 16/19 9/12 10/12
Falls ein lineares Verhalten beider Risikofaktoren gewährleistet ist, kann LK mit 0,1,2,3
und GZ mit 0,1,2 kodiert werden und das logistische Modell für die n = 12 Zellen
logit(µi ) = β1 + β2 LKi + β3 GZi ,
i = 1, . . . , n
ergibt die Maximum-Likelihood Schätzer
>
>
>
>
>
rez <- c(21, 7, 9, 13, 18, 6, 5, 5, 4, 16, 9, 10)
total <- c(124, 21, 16, 13, 58, 12, 7, 5, 14, 19, 12, 12)
SF <- cbind(rez, nonrez=total-rez)
LK <- rep(0:3, 3); GZ <- rep(0:2, each=4)
rez.glm <- glm(SF ~ LK + GZ, family = binomial); summary(rez.glm)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.5508
0.1984 -7.817 5.43e-15 ***
LK
1.0687
0.1537
6.954 3.56e-12 ***
GZ
0.5860
0.1782
3.288 0.00101 **
--(Dispersion parameter for binomial family taken to be 1)
Null deviance: 103.493 on 11 degrees of freedom
Residual deviance: 13.332 on 9 degrees of freedom
AIC: 51.214
Besser ist die Verwendung zweier Faktoren L und G. Sei dazu mij yij ∼ Binomial(mij , µij ),
wobei µij die Wahrscheinlichkeit eines Rezidivs bei LK-Status i (i = 1, 2, 3, 4) und GZ-Befall
4.3. LOGIT-MODELLE
47
j (j = 1, 2, 3) beschreibt. Wir unterscheiden folgende Modelle
logit(µij )
logit(µij )
logit(µij )
logit(µij )
logit(µij )
=
=
=
=
=
(L ∗ G)ij ,
Li + Gj ,
Li ,
Gj ,
1.
Das Modell L∗G beinhaltet die ganze Information der Daten und ist daher voll (saturiert),
d.h. 12 Parameter bei 12 Beobachtungen.
> L <- factor(LK); G <- factor(GZ);
rez.1
<- glm(SF~1, family=binomial)
> rez.L <- glm(SF~L, family=binomial); rez.G
<- glm(SF~G, family=binomial)
> rez.LG <- glm(SF~L+G,family=binomial); rez.sat <- glm(SF~L*G,family=binomial)
> anova(rez.1, rez.L, rez.LG, rez.sat, test="Chisq")
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
11
103.493
2
8
21.373 3
82.120 1.077e-17
3
6
10.798 2
10.575
0.005
4
0 4.743e-10 6
10.798
0.095
Aus der Analysis of Deviance folgt als minimales Modell L + G mit den Schätzungen
> coef(rez.LG)
(Intercept)
-1.6041
L1
1.2873
L2
1.7785
L3
3.7979
G1
0.7285
G2
1.0735
und somit das Prognosemodell
η̂ = −1.60 + 1.29(L = 1) + 1.78(L = 2) + 3.80(L = 3) + 0.73(G = 1) + 1.07(G = 2) .
Alle Parameter zu höheren Faktorstufen sind positiv. Dies bedeutet, dass das Risiko eines
Rezidivs steigt je mehr Lymphknoten befallen sind und je intensiver der Grenzzonenbefall
ausgeprägt ist. Die durch dieses Modell geschätzten Wahrscheinlichkeiten für ein Rezidiv
sind
GZ nicht befallen
GZ befallen
über GZ befallen
befallene LK-Stationen
0
1
2
≥3
0.1674 0.4214 0.5435 0.8997
0.2941 0.6015 0.7115 0.9489
0.3704 0.6806 0.7769 0.9633
> plot(as.numeric(L), rez.LG$y, type="p", xlab="L", ylab="prob",
ylim=c(0,1), main="L+G")
> lines(as.numeric(L)[G==0], fitted(rez.LG)[G==0], type="l")
> lines(as.numeric(L)[G==1], fitted(rez.LG)[G==1], type="l")
> lines(as.numeric(L)[G==2], fitted(rez.LG)[G==2], type="l")
48
KAPITEL 4. LOGISTISCHE REGRESSION
L+G
0.6
prob
0.0
0.2
0.2
0.4
0.4
prob
0.6
0.8
0.8
1.0
1.0
L*G
2.0
2.5
3.0
3.5
4.0
1.0
1.5
2.0
2.5
L
L
L
G
3.0
3.5
4.0
3.0
3.5
4.0
0.8
0.6
prob
0.4
0.2
0.0
0.0
0.2
0.4
prob
0.6
0.8
1.0
1.5
1.0
1.0
1.0
1.5
2.0
2.5
3.0
3.5
4.0
1.0
1.5
2.0
L
2.5
L
0.0
0.2
0.4
prob
0.6
0.8
1.0
1
1.0
1.5
2.0
2.5
3.0
3.5
4.0
L
Abbildung 4.2: Geschätzte Rezidiveintrittswahrscheinlichkeiten beim Logit-Modell.
4.4. KOMPLEXE LOGISTISCHE MODELLE
4.4
49
Komplexe Logistische Modelle
Der Prädiktor beinhaltet jetzt sowohl erklärende Faktoren als auch erklärende Variablen.
4.4.1
Beispiel
Wir betrachten ein Modell, welches sich auf die lineare Variable LK (1 Parameter) und
den kategorialen Faktor G (3 Parameter) bezieht. Aus dem vorigen Schätzergebnis ist
ersichtlich, dass im Vergleich zur L-Referenzklasse keine Lymphknoten befallen das Risiko
beim Befall einer Station (relativ) um 1.3 Einheiten auf der Prädiktorachse ansteigt. Bei
einem Befall von zwei Stationen nimmt das Risiko absolut um 1.8 Einheiten (relativ um
0.5) zu, während es für den Fall von drei oder mehreren befallenen Stationen zu einem
Anstieg um 3.8 Einheiten (relativ um 2.0) kommt. Obwohl dies nicht linear zu sein scheint,
wollen wir es aus Gründen der Sparsamkeit versuchen.
Sei dazu mi yi ∼ Binomial(mi , µi ), wobei hier i = 1, 2, 3 die drei Stufen des Faktors G
durchläuft. Folgende fünf Modelle sind wiederum relevant:
logit(µi )
logit(µi )
logit(µi )
logit(µi )
logit(µi )
=
=
=
=
=
Gi + βi LK ,
Gi + β LK ,
Gi ,
β LK ,
1.
Eine Analyse der Deviance ergibt
> rez.LK
<- glm(SF ~ LK, family = binomial)
> rez.LKG <- glm(SF ~ LK + G, family = binomial)
> rez.LKGi <- glm(SF ~ LK * G, family = binomial)
> anova(rez.1, rez.LK, rez.LKG, rez.LKGi, test="Chisq")
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
11
103.5
2
10
24.4 1
79.1
5.8e-19
3
8
13.0 2
11.4
3.4e-03
4
6
12.0 2
1.1
0.6
Daher wählen wir wiederum das Modell LK + G mit
> coef(rez.LKG)
(Intercept)
-1.5940
LK
1.0859
G1
0.7329
G2
1.1064
und erhalten als Schätzer für den linearen Prädiktor
η̂i = −1.59 + 1.086LK + 0.73(G = 1) + 1.11(G = 2) .
50
KAPITEL 4. LOGISTISCHE REGRESSION
Die zu diesem Modell assoziierten Rezidiveintrittswahrscheinlichkeiten sind
GZ nicht befallen
GZ befallen
über GZ befallen
befallene LK-Stationen
0
1
2
≥3
0.1688 0.3756 0.6405 0.8407
0.2971 0.5560 0.7876 0.9166
0.3805 0.6453 0.8434 0.9410
Die Abbildung 4.3 (rechts) zeigt die durch das Modell prognostizierten Wahrscheinlichkeiten für das Auftreten eines Rezidivs in Abhängigkeit von den Stufen des Grenzzonenbefalls. Der linke Teil der Abbildung zeigt die Prognosen unter dem Modell rez.LKGi, in
dem auch die Wechselwirkung zwischen der Variablen LK und dem Faktor G inkludiert ist.
0.8
0.6
prob
0.4
0.2
0.0
0.0
0.2
0.4
prob
0.6
0.8
1.0
LK+G
1.0
LK*G
1.0
1.5
2.0
2.5
LK
3.0
3.5
4.0
1.0
1.5
2.0
2.5
3.0
3.5
4.0
LK
Abbildung 4.3: Geschätzte Rezidiveintrittsraten beim komplexen Logistischen Modell links: maximales Modell, rechts: Modell ohne Interaktion.
Hatte man beim entsprechenden Logitmodell eine Deviance von 10.8 bei 6 Freiheitsgraden,
so ist jetzt beim komplexen Modell die Deviance 13.0 bei 8 Freiheitsgraden. Vergleichen
wir die Werte der Deviance mit den (1 − α)-Quantilen einer χ2 -Verteilung resultieren
α = 0.095 sowie α = 0.112, was auf eine leichte Bevorzugung für das Logitmodell hindeutet. Dies stellt jedoch keine konfirmatorische Entscheidung dar! Zum Vergleich ergab
das Logistische Regressionsmodell (LK+GZ) eine Deviance von 13.3 bei 9 Freiheitsgraden
(α = 0.148).
Kapitel 5
Loglineare Modelle
5.1
Poisson Loglineare Modelle für Anzahlen
Bei der Binomialverteilung wird die Anzahl der Versuche vor der Durchführung der Experimente fixiert. Danach wird erst beobachtet, in wie vielen Fällen davon ein Ereignis
eingetreten ist. Man spricht bei dieser Art Daten von der Modellierung relativer oder
absoluter Häufigkeiten. Wird jedoch die Anzahl der Versuche vor den Experimenten nicht
fixiert, so spricht man von Zählvariablen oder counts yi . Standardmäßig wird dafür die
Poissonverteilung angenommen, für die die Erwartung µi der Varianz entspricht und als
kanonischer Link der Loglink verwendet, also
ind
yi ∼ Poisson(µi ) ,
mit
log(µi ) = ηi .
Die (skalierte) Deviance ist hierbei wegen ϕ = 1 gleich
}
n {
∑
yi
D(y, µ) = 2
yi log − (yi − µi ) .
µi
i=1
Falls im Modell auch eine Konstante enthalten ist, so reduziert sich dies auf
D(y, µ) = 2
n
∑
i=1
yi log
yi
.
µi
Der Deviance-Anteil der i-ten Beobachtung verschwindet für yi = 0 unabhängig von µi .
5.1.1
Beispiel
Die folgenden Daten stammen aus einer Studie über die Aufbewahrbarkeit von Mikroorganismen im tiefgekühlten Zustand (−70o C). Die Beobachtungen beschreiben die Bakterienkonzentrationen (Anzahl auf einer konstanten Fläche) am Anfang und nach 1, 2, 6
und 12 Monaten.
51
52
KAPITEL 5. LOGLINEARE MODELLE
Zeit T
Anzahl
0 1 2 6 12
31 26 19 15 20
log(count)
3.0
20
0
2.8
10
count
3.2
30
3.4
40
Es soll ein passendes Modell gefunden werden, mit dem die Konzentrationsänderung in
Abhängigkeit von der Zeit beschrieben werden kann, um Aussagen darüber zu ermöglichen, wie lange Bakterien durchschnittlich aufbewahrt werden können.
0
2
4
6
8
10
12
0
2
4
t
6
8
10
12
t
Abbildung 5.1: Bakterienanzahlen und deren Logarithmus in Abhängigkeit von der Zeit.
Eigentlich hätte man in den Daten, dargestellt in Abbildung 5.1 links, eine exponentielle
Abnahme erwartet, jedoch wird dies nicht von den Beobachtungen unterstützt, da der
letzte Wert sogar größer ist als die beiden Werte zuvor. Natürlich könnte die wahre Konzentration sehr wohl einer exponentiellen Kurve folgen, und die Beobachtungen weichen
davon nur wegen des Messfehlers ab. Falls dies der Fall ist, müsste der Logarithmus der
Konzentrationen eine lineare Beziehung zur Zeit aufweisen.
Die einfachste Art zu testen, ob die erkennbare Krümmung mehr als zufällig ist, besteht
in der Modellierung mit einem zusätzlichen quadratischen Zeitterm. Dazu nehmen wir
vorerst an, dass die Anzahlen yi einer N (µi , σ 2 )-Verteilung und einem linearen Modell
genügen.
> summary(mo.lm <- lm(count ~ t + I(t^2)))
Estimate Std. Error t value Pr(>|t|)
(Intercept) 29.80042
1.88294 15.827 0.00397 **
t
-4.61601
1.00878 -4.576 0.04459 *
I(t**2)
0.31856
0.08049
3.958 0.05832 .
--Residual standard error: 2.438 on 2 degrees of freedom
Multiple R-Squared: 0.9252,
Adjusted R-squared: 0.8503
F-statistic: 12.36 on 2 and 2 DF, p-value: 0.07483
Der quadratische Term scheint daher im Modell notwendig (p-Wert 0.058). Zuvor sollte
noch die getroffene Verteilungsannahme mittels Normalplot der Residuen ri = yi − µ̂i
53
-3
-2
-1
residuals
0
1
2
5.1. POISSON LOGLINEARE MODELLE FÜR ANZAHLEN
-3
-2
-1
0
1
2
Quantiles of Standard Normal
Abbildung 5.2: Normalplot der Residuen aus dem linearen Modell.
geprüft werden. Der Punktverlauf in der Abbildung 5.2 weicht von einer Geraden ab,
sodass die Annahme einer Normalverteilung nicht gerechtfertigt erscheint.
> qqnorm(r <- residuals(mo.lm));
qqline(r)
Daher versuchen wir jetzt ein Poisson-Modell. Für gewöhnlich werden hierbei die PoissonErwartungen linear auf einer Log-Skala modelliert. Dies bedeutet, dass für den Fall einer
exponentiellen Abnahme die Erwartungen auf der Log-Skala modelliert werden während
die Verteilung um diese Erwartungen als Poissonvariablen auf der Originalskala modelliert
sind. Der rechte Teil der Abbildung 5.1 zeigt noch immer eine beachtliche Krümmung,
weshalb auch hier wiederum ein quadratischer Zeitterm in das Modell genommen wird.
> summary(mo.P0 <- glm(count ~ t + I(t^2), family=poisson))
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.423818
0.149027 22.975
<2e-16 ***
t
-0.221389
0.095623 -2.315
0.0206 *
I(t^2)
0.015527
0.007731
2.008
0.0446 *
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 7.0672 on 4 degrees of freedom
Residual deviance: 0.2793 on 2 degrees of freedom
AIC: 30.849
>
r <- residuals(mo.P0, type="pearson"); sum(r^2)
[1] 0.2745424
Die Deviance und die Pearson-Statistik X 2 sollten unter dem wahren Modell ihrem Freiheitsgrad n − p = 2 entsprechen und stellen einen Test auf Güte der Anpassung dar.
Kleine Werte zeugen von einer recht guten Anpassung, während große auf eine schlechte Anpassung hinweisen. Da hier beide Werte sehr klein sind, spricht nichts gegen die
Poisson-Annahme.
KAPITEL 5. LOGLINEARE MODELLE
30
0
-1.0
10
20
count
0.0
-0.5
residuals
0.5
40
1.0
54
15
20
25
30
fitted
0
2
4
6
8
10
12
t
Abbildung 5.3: Residuenplot (links) sowie geschätztes Poissonmodell (rechts).
Auch der Residuenplot in der Abbildung 5.3 zeigt dies. Falls die Varianz der Erwartung
entspricht, ist ein Schätzer für die Varianz der Residuen unter dem wahren Modell gerade
der geschätzte Erwartungswert. Daher sollten die Pearson-Residuen ri Erwartung 0 und
Varianz 1 aufweisen. Da dieser Residuenplot relativ (n = 5) horizontal ist, erscheint
die Poisson-Annahme auch passend. Um die Modellgüte zu zeigen, werden beobachtete
und modellierte Werte gegen die Zeit aufgetragen. Natürlich muss sich das 3 Parameter
Polynom im rechten Teil der Abbildung 5.3 sehr gut an die 5 Beobachtungen anpassen.
>
>
>
>
f <- fitted(mo.P0)
plot(f, r); abline(0,0)
plot(t, count, ylim=c(0,40)); t.new <- seq(0, 12, 1/2)
lines(t.new, predict(mo.P0, data.frame(t=t.new), type="response"))
Obwohl Messfehler auch zu einem Zuwachs der Anzahl führen können, sollte dies aber in
der Realität unmöglich sein. Wir testen daher die Notwendigkeit des quadratischen Terms
mittels eines Modellvergleichs.
> mo.P1 <- glm(count ~ t, family=poisson)
> anova(mo.P1, mo.P0, test="Chisq")
Analysis of Deviance Table
Model 1: count ~ t
Model 2: count ~ t + I(t^2)
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
3
4.5249
2
2
0.2793 1
4.2456
0.0394
Die Differenz der beiden Deviancen weist zwar auf diese Notwendigkeit hin und die
Krümmung ist wohl mehr als zufällig. Wir wissen aber, dass ein quadratisches Modell
nicht Sinn macht. Möglicherweise erreicht man ein realistischeres und einfacheres Modell
durch Transformation der Zeitachse.
55
-1.0
1.85
-0.5
0.0
residuals(mo.P3)
1.95
1.90
deviance
2.00
0.5
2.05
1.0
5.1. POISSON LOGLINEARE MODELLE FÜR ANZAHLEN
0.0
0.1
0.2
0.3
c
0.4
0.5
18
20
22
24
26
28
30
fitted(mo.P3)
Abbildung 5.4: Abhängigkeit der Deviance von c (links) und Residuenplot (rechts).
Falls der Zeiteffekt multiplikativ wirkt, sollte eine logarithmierte Zeitachse betrachtet werden. Jedoch stellt sich dann das Problem des Nullpunktes, log(0). Die benötigte Transformation ist daher log(t + c) mit unbekanntem 0 < c. Eine Möglichkeit c zu bestimmen, ist
die Deviance in Abhängigkeit von c zu minimieren, was in der Abbildung 5.4 dargestellt
ist. Der optimale Wert liegt für das Modell 1 + log(t + c) um c = 0.105 und log(t + 0.105)
wird ab jetzt als Prädiktor verwendet.
> c <- d <- 1:100
> for (i in 1:100) {
c[i] <- i/200
d[i] <- deviance(glm(count ~ 1 + log(t+c[i]), family=poisson))
}
> plot(c, d, type="l", ylab="deviance")
> c[d==min(d)]
[1] 0.105
Zunächst ist es ratsam ein Modell zu betrachten, das auch einen quadratischen Term
beinhaltet, um zu testen, ob noch immer eine verbleibende Krümmung vorhanden ist.
> tc <- t + 0.105
> mo.P2 <- glm(count ~ 1 + log(tc) + I(log(tc)**2), family=poisson)
> summary(mo.P3 <- glm(count ~ 1 + log(tc), family=poisson))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.15110
0.09565 32.945
<2e-16 ***
log(tc)
-0.12751
0.05493 -2.321
0.0203 *
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 7.0672 on 4 degrees of freedom
Residual deviance: 1.8335 on 3 degrees of freedom
AIC: 30.403
56
KAPITEL 5. LOGLINEARE MODELLE
> anova(mo.P3, mo.P2, test="Chisq")
Analysis of Deviance Table
Model 1: count ~ 1 + log(tc)
Model 2: count ~ 1 + log(tc) + I(log(tc)^2)
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
3
1.83354
2
2
1.79245 1 0.04109
0.83936
> plot(fitted(mo.P3), residuals(mo.P3), ylim=c(-1,1)); abline(0,0)
Der Parameter des quadratischen Terms ist nicht mehr signifikant. Wegen der geringen
Deviance-Differenz von 0.041 entfernen wir den quadratischen Term aus dem Modell. Es
scheint, dass mit der transformierten Zeitachse ein linearer Trend ausreicht. Der Verlauf
der Pearson-Residuen des Modells 1 + log(t + 0.105) zeigt in der Abbildung 5.4, dass diese
ziemlich horizontal sind mit relativ konstanter Streuung.
Interessant ist auch, den approximativen (zweiseitigen) punktweisen Konfidenzbereich für
die Modellkurve µ0 = exp(η0 ) einer neuen Beobachtung x0 zu betrachten. Eine Möglichkeit
besteht darin, η̂0 = xt0 β̂ zusammen mit sd
.e.(η̂0 ) dafür zu verwenden. Das transformierte
95% Intervall ist damit
(
(
))
KIV (µ0 ) = exp η̂0 ± 1.96 × sd
.e.(η̂0 ) ,
was in Abbildung 5.5 dargestellt ist.
′
Alternativ liefert die Delta Methode var(µ̂0 ) ≈ var(η̂0 ) × [exp(η̂0 )] 2 und es folgt somit
sd
.e.(µ̂0 ) ≈ sd
.e.(η̂0 ) × µ̂0 , also das symmetrische Intervall basierend auf eine Normalverteilungsanname für µ̂0
(
)
KIV (µ0 ) = µ̂0 ± 1.96 × sd
.e.(µ̂0 ) .
Natürlich können beide Ideen unterschiedliche Intervallsgrenzen liefern.
> tc.new <- data.frame(tc = seq(0, 12, 0.005) + 0.105)
> mo.pred <- predict.glm(mo.P3, newdata=tc.new, type="response", se.fit=T)
> attributes(mo.pred) # Delta-Method
$names
[1] "fit"
"se.fit"
"residual.scale"
> fit
<- mo.pred$fit
> upper <- fit + qnorm(0.975) * mo.pred$se.fit
> lower <- fit - qnorm(0.975) * mo.pred$se.fit
> plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms")
> lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower)
> mo.peta <- predict.glm(mo.P3, newdata=tc.new, type="link", se.fit=T)
> fit <- exp(mo.peta$fit)
57
30
20
0
10
micro-organisms
40
50
5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE
0
2
4
6
8
10
12
t
Abbildung 5.5: 95% Konfidenzbereiche unter dem Poissonmodell.
>
>
>
>
upper <- exp(mo.peta$fit + qnorm(0.975) * mo.peta$se.fit)
lower <- exp(mo.peta$fit - qnorm(0.975) * mo.peta$se.fit)
plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms")
lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower)
5.2
Loglineare und Multinomiale Response Modelle
Hier wird der Zusammenhang zwischen einem loglinearen Modell für Anzahlen und einem
multinomialen (binomialen) Response Modell für Häufigkeiten behandelt. Diese Beziehung
stammt von der Tatsache, dass die Multinomialverteilung aus einer Serie unabhängiger
Poissonvariablen generiert werden kann, wenn deren Totalsumme fixiert ist.
5.2.1
Die Multinomialverteilung
Die Objekte einer Population weisen genau eines von k Merkmalen auf, beispielsweise
die Haarfarbe oder eine Todesursache. Aus dieser Population zieht man eine Stichprobe
und ist an der Anzahl Yj aller Beobachtungen mit Ausprägung j = 1, . . . , k interessiert.
Zwei verschiedene Komponenten Yj und Yj ′ sind hier abhängige Zufallsvariablen. Die
Multinomialverteilung beschreibt die gemeinsame Verteilung des Vektors (Y1 , . . . , Yk ) und
58
KAPITEL 5. LOGLINEARE MODELLE
es gilt
y+ !
P (Y1 = y1 , . . . , Yk = yk ) = ∏k
k
∏
j=1 yj ! j=1
y
πj j .
(5.1)
∑
Hier bezeichnen π1 , . . . , πk , mit j πj = 1, die Wahrscheinlichkeiten der Merkmale in der
Population. ∑
Der Stichprobenraum ist die Menge aller ganzzahligen k-Vektoren mit 0 ≤ yj ,
wobei y+ = j yj .
Eine alternative Herleitung dieser Verteilung erfolgt über k unabhängige Poissonvariablen
Y1 , . . . , Yk mit Erwartungen µ1 , . . . , µk , also
y
µj j
P (Yj = yj ) =
exp(−µj ) ,
yj !
j = 1, . . . , k .
∑
∑
Die Summe Y+ = j Yj ist wiederum Poissonverteilt mit Erwartung µ+ = j µj . Als
bedingte Wahrscheinlichkeit der (Y1 , . . . , Yk ), gegeben deren Summe Y+ , resultiert
∏k
y
µj j
j=1 yj !
P (Y1 = y1 , . . . , Yk = yk |Y+ ) =
exp(−µj )
y
µ++
y+ !
exp(−µ+ )
=
∏k
yj
j=1 µj
y ∏
µ++ kj=1 yj !
y+ !
y+ !
= ∏k
j=1
k (
∏
µj )yj
yj ! j=1 µ+
.
Somit entspricht dies der Multinomialverteilung (5.1) mit πj = µj /µ+ . Der Erwartungswert µj bezeichnet bei der Poissonverteilung die theoretische Durchschnittsanzahl der
Ereignisse vom Typ j während πj bei der Multinomialverteilung den theoretischen Anteil
der Ereignisse dieses Typs beschreibt.
Gegeben sei nun eine Stichprobe y1 , . ∑
. . , yn von n unabhängigen Multinomialvektoren
yi = (yi1 , . . . , yik ), und sei yi+ =
j yij fest für jedes i. Zu jedem yi korrespondiert
ein Vektor πi = (πi1 , . . . , πik ). Der für die Schätzung von πi relevante Beitrag der i-ten
Beobachtung an der Log-Likelihood ist laut (5.1)
ℓ(πi |yi ) =
k
∑
yij log πij ,
mit
j=1
k
∑
πij = 1 .
j=1
Wegen der Unabhängigkeit der Vektoren yi resultiert als Log-Likelihood der Stichprobe
ℓ(π|y) =
n
∑
ℓ(πi |yi ) =
i=1
n ∑
k
∑
yij log πij .
i=1 j=1
Für die Maximierung von ℓ(π|y) folgt unter den Bedingungen
∑
j
πij = 1, ∀i = 1, . . . , n,
)) y
∑ (∑
∂ (
ij
ℓ(π|y) −
λi
− λi ,
πij − 1 =
∂πij
πij
i=1
j=1
n
k
5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE
also π̂ij = yij /λ̂i . Somit ist 1 =
Funktion ist somit
∑
j
π̂ij =
∑
j
59
yij /λ̂i = yi+ /λ̂i , also λ̂i = yi+ . Die Score-
yij − yi+ πij
∂ℓ(π|y)
=
.
∂πij
πij
Verwendet man zusätzlich ein loglineares Modell mit linearem Prädiktor der Form
∑
log πij =
xijr βr ,
r
so ist wegen ∂πij /∂βr = xijr πij
∂ℓ(π|y) ∑ ∑ yij − yi+ πij ∂πij ∑ ∑
=
=
xijr (yij − yi+ πij ) .
∂βr
πij
∂βr
i=1 j=1
i=1 j=1
n
5.2.2
k
n
k
Vergleich von Poisson-Erwartungen
Betrachte unabhängige Yj ∼ Poisson(µj ) und teste H0 : log µ1 = · · · = log µk = β1 gegen
H1 : log µj = β1 + β2 xj ,
für alle j = 1, . . . , k
für gegebene Konstanten xj und für ein unbekanntes β2 . Der relevante Teil der PoissonLog-Likelihood Funktion
k (
)
∑
yj log µj − µj
ℓ(µ|y) =
j=1
entspricht hier unter der Alternative
ℓ(β1 , β2 |y) =
k (
∑
)
yj (β1 + β2 xj ) − exp(β1 + β2 xj ) .
j=1
Um zu sehen, wie dies zu einem multinomialen Modell transformiert, verwende
µ+ =
k
∑
µj =
j=1
k
∑
exp(β1 + β2 xj ) = exp(β1 )
j=1
k
∑
exp(β2 xj ) ,
j=1
also
log µ+ = β1 + log
k
(∑
)
exp(β2 xj ) ,
β1 = log µ+ − log
bzw.
n
(∑
j=1
)
exp(β2 xj ) .
j=1
Bezüglich (µ+ , β2 ) erhält man
}
{
k
k
(
(∑
)
)
∑
ℓ(µ+ , β2 |y) =
yj log µ+ − log
exp(β2 xj ′ ) + β2 xj
− µ+
j ′ =1
j=1
= log µ+
k
∑
j=1
yj −
k
∑
j=1
yj log
k
(∑
k
) ∑
exp(β2 x ) +
β2 xj yj − µ+ ,
j′
j ′ =1
j=1
60
KAPITEL 5. LOGLINEARE MODELLE
was mittels y+ =
∑
j
yj geschrieben werden kann als
k
k
{
} {∑
(∑
)}
β2 xj yj − y+ log
exp(β2 xj )
ℓ(µ+ , β2 |y) =
y+ log µ+ − µ+ +
j=1
j=1
= ℓ(µ+ |y+ ) + ℓ(β2 , y|y+ ) .
Die Log-Likelihood zerfällt unter H1 in zwei Komponenten. Die Komponente ℓ(µ+ |y+ )
entspricht der Log-Likelihood zu Y+ ∼ Poisson(µ+ ). Um die zweite Komponente zu untersuchen, verwenden wir wiederum die Parametrisierung
πj =
µj
exp(β1 + β2 xj )
exp(β2 xj )
=∑
=∑
.
µ+
j ′ exp(β1 + β2 xj ′ )
j ′ exp(β2 xj ′ )
Wegen
log πj = β2 xj − log
(∑
)
exp(β2 xj ′ ) ,
j′
ist der zweite Term in der obigen Log-Likelihood gleich
ℓ(β2 , y|y+ ) =
k
∑
yj log πj ,
j=1
was einer multinomialen Log-Likelihood entspricht, also der konditionalen Poisson-LogLikelihood von y gegeben die Gesamtanzahl y+ .
Die wichtigste Erkenntnis hierbei ist, dass die marginale Likelihood von Y+ nur von µ+
abhängt während die konditionale Likelihood zu (Y1 , . . . , Yk )|(Y+ = y+ ) von π abhängt,
also nur von β2 . Vorausgesetzt dass keine Information bezüglich des Wertes von β1 (und
daher auch nicht für µ+ ) vorliegt, folgert man, dass die gesamte Information bezüglich β2
in der konditionalen Likelihood zu y|y+ enthalten ist.
5.2.3
Multinomiale Responsemodelle
Mit diesen Ergebnissen kann man zeigen, dass bestimmte loglineare Modelle äquivalent zu
multinomialen Modellen sind. Dazu ordnet man die Beobachtungen Yij den Zellen einer
zweidimensionalen Kontingenztafel zu und betrachtet das Modell
log µij = ϕi + xtij β ,
i = 1, . . . , n,
j = 1, . . . , k
(5.2)
mit µij = E(Yij ) und bekannten p-dimensionalen Vektoren xij . Natürlich interessiert uns
ausschließlich der Parameter β während ϕi Nebenparameter (incidental parameters) sind.
In diesem Modell wächst die Dimension des Parameterraumes n + p mit n → ∞ für festes
p. Daher ist auch für n → ∞ nicht garantiert, dass der Maximum-Likelihood Schätzer
5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE
61
effizient oder konsistent ist. Es wird nun gezeigt, dass die konditionale Likelihood nur von
β und nicht von ϕ abhängt. Wie zuvor ist die Log-Likelihood
ℓ(ϕ, β|y) =
n ∑
k (
∑
)
yij (ϕi + xtij β) − exp(ϕi + xtij β)
i=1 j=1
=
n
∑
ϕi yi+ +
i=1
n ∑
k
∑
−
yij xtij β
n ∑
k
∑
exp(ϕi + xtij β) .
i=1 j=1
i=1 j=1
Wir fixieren die i-te Zeilensumme yi+ und machen die Transformation
µi+ =
k
∑
µij = exp(ϕi )
j=1
k
∑
exp(xtij β) ,
also
ϕi = log µi+ − log
k
(∑
j=1
)
exp(xtij β) .
j=1
Die Log-Likelihood als Funktion in (µ+ , β) ist somit
k
k
n {∑
n {
)}
(∑
} ∑
∑
t
exp(xtij ′ β)
yij xij β − yi+ log
yi+ log µi+ − µi+ +
ℓ(µ+ , β|y) =
i=1
i=1
j=1
j ′ =1
= ℓ(µ+ |y+ ) + ℓ(β, y|y+ ) .
Der erste Term ist wieder die Poisson-Log-Likelihood zur Zeilensumme Yi+ ∼ Poisson(µi+ ).
Die zweite Größe ist die konditionale Log-Likelihood gegeben {Yi+ } und hängt nur von β
und nicht von ϕ ab. Die ganze Information bezüglich β ist in der zweiten Komponente.
Daher ist es klar, dass β̂ und var(β̂) basierend auf die Maximierung von ℓ(β, y|y+ ) identisch den entsprechenden Resultaten unter Verwendung der vollen Log-Likelihood ist. In
anderen Worten ist das loglineare Modell (5.2) äquivalent dem multinomialen Modell mit
exp(xtij β)
µij
µij
πij =
=∑
=
.
t
µi+
µi+
l exp(xil β)
5.2.4
(5.3)
Beispiel
Es werden wiederum die Häufigkeiten von Rezidiven analysiert. Hatten wir dafür in 4.3.1
unabhängige binomialverteilte Responses mit dem Logitlink verwendet, so werden nun
Poissonvariablen mit dem Loglink das Modell bilden. Wir betrachten somit eine Tabelle
mit n = 24 Zellen:
0
GZ nicht befallen
GZ befallen
über GZ befallen
R=0
103
40
10
R=1
21
18
4
befallene LK-Stationen
1
2
R=0 R=1 R=0 R=1
14
7
7
9
6
6
2
5
3
16
3
9
≥3
R=0 R=1
0
13
0
5
2
10
62
KAPITEL 5. LOGLINEARE MODELLE
Um die gleichen Ergebnisse wie beim logistischen Modell mit Prädiktor L + G zu erhalten,
muss die Summe der beiden Poisson-Beobachtungen in den von L und G aufgespannten
Zellen (in jeder Zelle befindet sich jeweils eine R = 0 und eine R = 1 Beobachtung) fixiert
werden. Das erreicht man durch Aufnahme der Interaktion L*G in den Prädiktor. Das
eigentliche Modell für den Erwartungswert geht als Interaktion mit R in den Prädiktor
ein, also betrachtet man
log µ = R ∗ (L + G) + L ∗ G .
>
>
>
>
y <- c(rez, total-rez); R <- gl(2, 12, labels=1:0)
L <- factor(rep(rep(0:3, 3), 2)); G <- factor(rep(rep(0:2, each=4), 2))
rezidiveMN <- data.frame(y, R, L, G); attach(rezidiveMN)
summary(MN.glm <- glm(y ~ R*(L+G) + L*G, family=poisson))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.032932
0.203404 14.911 < 2e-16 ***
R0
1.604143
0.219202
7.318 2.51e-13 ***
L1
-0.852487
0.328546 -2.595 0.009467 **
L2
-0.870085
0.352170 -2.471 0.013487 *
L3
-0.573696
0.349225 -1.643 0.100431
G1
-0.196387
0.286157 -0.686 0.492530
G2
-1.387115
0.382373 -3.628 0.000286 ***
R0:L1
-1.287280
0.347971 -3.699 0.000216 ***
R0:L2
-1.778549
0.412032 -4.317 1.59e-05 ***
R0:L3
-3.797851
0.761597 -4.987 6.14e-07 ***
R0:G1
-0.728501
0.312710 -2.330 0.019825 *
R0:G2
-1.073534
0.381676 -2.813 0.004913 **
L1:G1
-0.007513
0.410137 -0.018 0.985385
L2:G1
-0.360864
0.502329 -0.718 0.472522
L3:G1
-0.705828
0.592756 -1.191 0.233749
L1:G2
1.766372
0.441979
3.997 6.43e-05 ***
L2:G2
1.456786
0.503794
2.892 0.003833 **
L3:G2
1.375382
0.546435
2.517 0.011836 *
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 434.130 on 23 degrees of freedom
Residual deviance: 10.798 on 6 degrees of freedom
AIC: 134.75
Number of Fisher Scoring iterations: 6
Der Term L∗G fixiert nur die Ränder bezüglich L und G, während die erklärenden Faktoren
des Logit-Modells in den Wechselwirkungen mit R (hier L + G) zu finden sind. Das Modell
beinhaltet daher p = 18 Parameter.
Man bemerke, dass die relevanten Parameter zu R0, R0:L1, R0:L2, R0:L3, R0:G1 und
R0:G2 gehören und exakt jenen im Logit-Modell entsprechen. Natürlich haben sich Deviance und Freiheitsgrade auch nicht geändert. Als Prognosewerte erhält man
5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE
63
> grid <- list(R=levels(R), L=levels(L), G=levels(G))
> MN.p <- predict(MN.glm, expand.grid(grid), type="response")
> options(digits=4); t(matrix(MN.p, 8))
[,1]
[,2]
[,3]
[,4] [,5] [,6]
[,7]
[,8]
[1,] 20.758 103.242 8.850 12.150 8.696 7.304 11.696 1.3041
[2,] 17.057 40.943 7.218 4.782 4.981 2.019 4.745 0.2553
[3,] 5.185
8.815 12.932 6.068 9.323 2.677 11.559 0.4405
Durch das Fixieren der Ränder
die Summe
∑ist in jeder Zelle (für jede L-G Kombination) ∑
der geschätzten Erwartungen r µ̂ijr gleich der beobachteten Gesamtanzahl r yijr .
Das Modell logit(µ) = 1 entspricht beispielsweise dem Modell
log µ = R + L ∗ G .
Man erhält ein Modell mit p = 13 Parametern. Wiederum fixiert L ∗ G nur die Ränder
und R = R ∗ 1 steht nur in ’Wechselwirkung’ mit dem Intercept.
> summary(MN.glm1 <- glm(y ~ R + L*G, family=poisson))$deviance
[1] 103.5
> MN.p1 <- predict(MN.glm1, expand.grid(grid), type="response")
> (pred <- t(matrix(MN.p1, 8)))
[,1]
[,2] [,3]
[,4] [,5] [,6] [,7] [,8]
[1,] 48.728 75.272 8.252 12.748 6.288 9.712 5.109 7.891
[2,] 22.792 35.208 4.716 7.284 2.751 4.249 1.965 3.035
[3,] 5.502 8.498 7.466 11.534 4.716 7.284 4.716 7.284
> pred[1,1]/pred[1,2]
[1] 0.6474
Jetzt ist die Wahrscheinlichkeit eines Rezidivs in jeder Zelle gleich, also die Verhältnisse
48.7/75.3 = 22.8/35.2 = 5.5/8.5 = · · · = 0.647.
Eine sehr einfache Alternative zum loglinearen Poissonmodell mit allen Interaktionen
stellt die Funktion multinom in der Bibliothek nnet dar. Hiermit können multinomiale
Daten direkt modelliert werden.
> library(nnet)
> summary(MN.direkt <- multinom(R ~ L+G, weights=y))
Coefficients:
Values Std. Err.
(Intercept) 1.6041
0.2192
L1
-1.2873
0.3480
L2
-1.7785
0.4120
L3
-3.7979
0.7616
G1
-0.7285
0.3127
G2
-1.0735
0.3817
Residual Deviance: 326.8
AIC: 338.8
64
KAPITEL 5. LOGLINEARE MODELLE
Hierbei vergleicht die Deviance das Modell mit einem Modell, das jedes der 313 einzelnen
Subjekte korrekt vorhersagt, und nicht mit dem saturierten Modell zu den 12 Eintragungen der 3 × 4 Tabelle.
> MN.direkt.sat <- multinom(R ~ L*G, weights=y)
> anova(MN.direkt, MN.direkt.sat) # resulting deviance difference
Model Resid. df Resid. Dev
Test
Df LR stat.
Pr(Chi)
1 L + G
-6
326.7615
NA
NA
NA
2 L * G
-12
315.9636 1 vs 2
6 10.79786 0.0948282
# the multinomial deviance can be derived by
> MN.direkt$deviance - MN.direkt.sat$deviance
[1] 10.79786
# this value exactly compares with the Binomial logistic deviance
5.3
5.3.1
Zweidimensionale Kontingenztafeln
Unabhängigkeitsmodell
Wir nehmen nun an, dass eine multinomialverteilte Stichprobe mit Umfang n vorliegt, die
auf N = I × J Zellen einer Kontingenztafel verteilt ist. Die Wahrscheinlichkeiten {πij }
dieser Multinomialverteilung stellen die gemeinsame Verteilung der beiden kategorialen
Responses dar. Diese sind stochastisch unabhängig, falls
πij = πi+ π+j ,
∀i = 1, . . . , I ,
j = 1, . . . , J .
In diesem Fall gilt für die zu erwartenden Häufigkeiten mij = nπij
mij = nπi+ π+j ,
∀i = 1, . . . , I ,
j = 1, . . . , J .
Auf der logarithmischen Skala hat dieses Modell folgendes Aussehen
log mij = log n + log πi+ + log π+j .
Der Logarithmus des Erwartungswertes für die Zelle (i, j) ist daher eine additive Funktion
des i-ten Zeileneffekts und des j-ten Spaltenffekts. Bezeichnet X den zeilen- und Y den
spaltenbildenden Faktor, so ist dieses Modell äquivalent mit
log mij = µ + λxi + λyj ,
(5.4)
5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN
65
wobei mit der Kontrast Parametrisierung folgt
1∑
log πh+
I h=1
I
λxi = log πi+ −
λyj
= log π+j
J
1∑
−
log π+h
J h=1
I
J
1∑
1∑
µ = log n +
log πh+ +
log π+h .
I h=1
J h=1
Mit dieser gewählten Parametrisierung gilt
}
{
J
I
I
I
∑
∑
∑
∑
1
λxi =
log πi+ −
log πh+ = 0 =
λyj .
I
i=1
i=1
j=1
h=1
Modell (5.4) wird loglineares Unabhängigkeitsmodell genannt. Durch diese beiden Restriktionen sind nur I − 1 Zeilen- sowie J − 1 Spaltenparameter frei schätzbar.
5.3.2
Saturiertes (volles) Modell
Falls keine Unabhängigkeit angenommen werden kann, definiere
ηij = log mij
und
ηi+
J
1∑
=
ηij
J j=1
1∑
ηij
I i=1
I
η+j =
η++ = µ =
I
J
1 ∑∑
ηij .
IJ i=1 j=1
Der Parameter µ = η++ bezeichnet hier den sogenannten grand mean der log mij . Wir
definieren den Zeileneffekt λxi , Spalteneffekt λyj und Interaktionseffekt (Wechselwirkung)
λxy
ij als
λxi = ηi+ − η++
λyj = η+j − η++
λxy
= ηij − ηi+ − η+j + η++ = (ηij − η++ ) − (ηi+ − η++ ) − (η+j − η++ )
ij
{z
} |
{z
}
| {z } |
ηij −µ
λx
i
λyj
66
KAPITEL 5. LOGLINEARE MODELLE
so dass damit das obige Modell geschrieben werden kann als
log mij = µ + λxi + λyj + λxy
ij .
(5.5)
Hierbei bezeichnen {λxi } und {λyj } Abweichungen von µ. Die Wechselwirkung {λxy
ij } ist
einfach der um den Zeilen- wie auch Spalteneffekt bereinigte Zelleneffekt. Wegen
I
∑
λxi
=
J
∑
λyj = 0
j=1
i=1
hat man I − 1 (bzw. J − 1) unabhängige Zeilenparameter (bzw. Spaltenparameter). Falls
λxi > 0, ist die durchschnittliche (log) erwartete Häufigkeit für Zellen der i-ten Zeile größer
als die durchschnittliche (log) erwartete Häufigkeit über die ganze Tabelle. Weiters gilt
I
∑
i=1
λxy
=
ij
I
∑
ηij −
i=1
= Iη+j
1
−
J
I
∑
ηi+ − Iη+j + Iη++
i=1
I ∑
J
∑
ηij − Iη+j
i=1 j=1
I
J
J
∑
1 ∑∑
+I
ηij = 0 =
λxy
ij .
IJ i=1 j=1
j=1
Falls die Parameter {λxy
ij } in den (I − 1)(J − 1) Zellen der ersten (I − 1) Spalten und
ersten (J − 1) Zeilen gegeben sind, so resultieren sofort die restlichen Parameter {λxy
ij }.
Daraus folgt, dass (I − 1)(J − 1) dieser Parameter linear unabhängig sind.
Das Unabhängigkeitsmodell (5.4) ist ein Spezialfall des saturierten Modells (5.5) mit
xy
λxy
ij = 0, ∀(i, j). Die zusätzlichen Parameter λij sind jetzt Assoziations-Parameter,
welche die Abweichungen von der Unabhängigkeit zwischen X und Y beschreiben. Die
totale Anzahl linear unabhängiger Parameter ist
Unabhängigkeitsmodell:
Abhängigkeitsmodell:
1 + (I − 1) + (J − 1) = I + J − 1
1 + (I − 1) + (J − 1) + (I − 1)(J − 1) = I × J = N .
In R arbeitet man standardmäßig mit einer anderen Kontrastierung, der sogenannten
treatment Kontrastierung. Möchte man mit der obigen Parametrisierung Modelle interpretieren, so ist dazu folgender Aufruf notwendig
> options(contrasts=c("contr.sum", "contr.poly"))
Die Default-Einstellung von R ist jedoch
> options(contrasts=c("contr.treatment", "contr.poly"))
5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN
5.3.3
67
Interpretation der Parameter
Ein spezieller Fall liegt vor, wenn binäre Variablen modelliert werden. Für die (I ×2)-Tafel
i 1
2
1 π11 π12
.. ..
..
. .
.
i πi1 πi2
.. ..
..
. .
.
I πI1 πI2
resultieren unter der Annahme der Unabhängigkeit für alle i = 1, . . . , I die log-odds
log
Da wiederum
∑2
j=1
πi1
πi1
mi1
= log
= log
= log mi1 − log mi2
πi2
1 − πi1
mi2
= (µ + λxi + λy1 ) − (µ + λxi + λy2 ) = λy1 − λy2 .
λyj = 0 gilt, also λy1 + λy2 = 0, folgt λy2 = −λy1 und damit für alle Zeilen
log
πi1
= λy1 − λy2 = 2λy1 .
1 − πi1
Somit ist die Quote (odds) dafür, dass die Spalten-Klassifikation Kategorie 1 ergibt im
Vergleich zu Kategorie 2
πi1
= exp(2λy1 ) .
1 − πi1
Hat man sogar nur eine (2 × 2)-Tafel wie
i 1
2
1 m11 m12
2 m21 m22
so ist das odds-ratio der erwarteten Häufigkeiten
ψ=
m11 /m12
m11 m22
=
m21 /m22
m21 m12
und unter dem saturierten Modell resultiert als log-odds-ratio
log ψ = log m11 + log m22 − log m12 − log m21
y
xy
x
= (µ + λx1 + λy1 + λxy
11 ) + (µ + λ2 + λ2 + λ22 )
y
xy
x
−(µ + λx1 + λy2 + λxy
12 ) − (µ + λ2 + λ1 + λ21 )
xy
xy
xy
= λxy
11 + λ22 − λ12 − λ21 .
68
Mit
KAPITEL 5. LOGLINEARE MODELLE
∑
i
λxy
ij =
∑
j
λxy
ij = 0, folgt
xy
λxy
11 + λ21
xy
λxy
11 + λ12
xy
λxy
12 + λ22
xy
λxy
21 + λ22
=0
=0
=0
=0
→
→
→
→
λxy
11
λxy
11
λxy
12
λxy
21
= −λxy
21
= −λxy
12
= −λxy
22
= −λxy
22
xy
xy
xy
also λxy
11 = λ22 = −λ12 = −λ21 und somit
log ψ = 4λxy
11 .
Daher ist es sinnvoll, hier eine alternative Parametrisierung zu verwenden. Setzt man statt
dem + eine 1, so verwendet man die erste Zelle als Vergleichsreferenz, und es folgt
µ
λxi
λyj
λxy
ij
=
=
=
=
η11
ηi1 − η11
η1j − η11
(ηij − η11 ) − (ηi1 − η11 ) − (η1j − η11 ) = ηij − ηi1 − η1j + η11 .
| {z } | {z }
λx
i
λyj
Es resultiert wieder
log mij = µ + λxi + λyj + λxy
ij ,
jedoch ist jetzt
λx1
λy1
λxy
i1
λxy
1j
=
=
=
=
η11 − η11 = 0
η11 − η11 = 0
ηi1 − η11 − λxi − λy1 = 0
η1j − η11 − λx1 − λyj = 0,
also allgemein
log
m11 mij
=
m1j mi1
y
xy
x
(µ + λx1 + λy1 + λxy
11 ) + (µ + λi + λj + λij )
y
xy
x
−(µ + λx1 + λyj + λxy
1j ) − (µ + λi + λ1 + λi1 )
= λxy
ij .
Die Assoziations-Parameter beschreiben jetzt das log-odds-ratio. Falls λxy
ij = 0 dann folgt
m11 mij
= exp(λxy
ij ) = 1 ,
m1j mi1
und damit ist das odds-ratio beim Unabhängigkeitsmodell gleich 1.
5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN
5.3.4
69
Beispiel
Untersuche, ob der Lymphknotenbefall und die Rezidivbildung unabhängig sind.
R=0
R=1
L=0
153
43
L=1
23
29
L=2
12
23
L=3
2
28
Das loglineare Unabhängigkeitsmodell L + R ergibt unter Annahme der Poissonverteilung
eine Deviance von 82.12 bei 3 Freiheitsgraden. Die Pearson-Statistik
2 ∑
4
∑
(yij − µ̂ij )2
X =
µ̂ij
i=1 j=1
2
realisiert in 77.63. Dies entspricht genau der χ2 -Statistik bei der Kontingenztafel-Analyse.
> y <- c(153, 23, 12, 2, 43, 29, 23, 28)
> L <- factor(c(0, 1, 2, 3, 0, 1, 2, 3))
> R <- factor(c(0, 0, 0, 0, 1, 1, 1, 1))
> summary(LK.mod <- glm(y ~ L + R, family=poisson))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 4.77894
0.08468 56.437 < 2e-16 ***
L1
-1.32687
0.15599 -8.506 < 2e-16 ***
L2
-1.72277
0.18350 -9.388 < 2e-16 ***
L3
-1.87692
0.19604 -9.574 < 2e-16 ***
R1
-0.43484
0.11573 -3.757 0.000172 ***
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 300.17 on 7 degrees of freedom
Residual deviance: 82.12 on 3 degrees of freedom
> sum(residuals(LK.mod, type="pearson")**2)
[1] 77.6328
Natürlich ist diese Hypothese der Unabhängigkeit eindeutig zu verwerfen. Eine alternative
Interpretation des Ergebnisses wäre zu sagen, dass das Unabhängigkeitsmodell nicht zu
passen scheint.
Dieses Ergebnis kann auch durch die folgende Sequenz von Befehlen erzielt werden
> N <- matrix(y, 2, 4, byrow=TRUE);
[,1] [,2] [,3] [,4]
[1,] 153
23
12
2
[2,]
43
29
23
28
N
70
KAPITEL 5. LOGLINEARE MODELLE
> chisq.test(N) # only available for I x J tables
Pearson’s Chi-squared test
data: N
X-squared = 77.6328, df = 3, p-value < 2.2e-16
Dies entspricht dem χ2 -Test auf Unabhängigkeit zweier Faktoren, welcher jedoch nur für
zweidimensionale Situationen verwendbar ist. Im Gegensatz dazu erlaubt aber das loglineare Poisson-Modell verschiedenartige Verallgemeinerungen. Dazu zählen die Konzepte
der vollständigen Unabhängigkeit oder der konditionalen Unabhängigkeit (graphische Modelle).
Um zu sehen, welche Auswirkung die Wahl der Parametrisierung hat, betrachten wir
noch zusätzlich das Ergebnis der Schätzung wenn als Referenzstufe von L die vierte Stufe
gewählt wurde.
> summary(glm(y ~ C(L, base=4) + R, family=poisson)) #(1, 4)=reference cell
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept)
2.9020
0.1881 15.425 < 2e-16 ***
C(L, base = 4)1
1.8769
0.1960
9.574 < 2e-16 ***
C(L, base = 4)2
0.5500
0.2293
2.399 0.016428 *
C(L, base = 4)3
0.1542
0.2488
0.620 0.535530
R1
-0.4348
0.1157 -3.757 0.000172 ***
Im Gegensatz dazu liefert die sum Kontrastierung
> options(contrasts=c("contr.sum", "contr.poly"))
> summary(glm(y ~ L + R, family=poisson))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.32988
0.07445 44.726 < 2e-16 ***
L1
1.23164
0.08911 13.822 < 2e-16 ***
L2
-0.09523
0.12249 -0.777 0.436899
L3
-0.49113
0.14027 -3.501 0.000463 ***
R1
0.21742
0.05786
3.757 0.000172 ***
--(Dispersion parameter for poisson family taken to be 1)
Null deviance: 300.17 on 7 degrees of freedom
Residual deviance: 82.12 on 3 degrees of freedom
> options(contrasts=c("contr.treatment", "contr.poly"))
Kapitel 6
Modelle mit zufälligen Effekten
6.1
Zufällige Prädiktoren
Bis jetzt basierten die betrachteten GLMs auf lineare Prädiktoren der Form
ηi = g(µi ) = xti β .
Die erklärenden Größen sind hierbei zum Vektor x zusammengefasst und β stellt den
unbekannten Parametervektor dar, der geschätzt werden muss. Wir werden jetzt eine
Klasse von Modellen diskutieren, die im linearen Prädiktor zusätzlich noch einen zufälligen
Effekt verwendet. Dies hat in den folgenden beiden Situationen eine sehr klare Motivation.
Falls beispielsweise einige relevante erklärende Variablen ui = (ui1 , . . . , uip′ )t gar nicht
beobachtet sind, kann durch Hinzunahme eines zufälligen (skalarwertigen) Effektes zi =
uti γ auf die ansonsten resultierende Überdispersion (Datenvariabilität ist größer als die
Modellvariabilität) eingegangen werden. Diese Überlegung führt zu Prädiktoren der Form
ηi = g(µi ) = xti β + zi .
Andererseits könnten n unabhängige Gruppen von Beobachtungen yi = (yi1 , . . . , yini )t
vorliegen, wofür innerhalb jeder Gruppe Abhängigkeit unter den yij besteht. Nimmt man
einen zufälligen Effekt für sämtliche Responses einer Gruppe in deren Prädiktor auf, d.h.
ηij = g(µij ) = xtij β + zi ,
so wird dadurch die Korrelation in den Daten (marginal) berücksichtigt. Da sich alle yij auf
denselben Effekt zi beziehen, gewinnt man automatisch ein Modell für deren Abhängigkeit.
Die nichtbeobachtbaren zi seien unabhängige und identisch verteilte Zufallsvariablen. Im
Gegensatz zu früher verwenden wir jetzt zufällige Prädiktoren, welche den konditionalen
Erwartungswert µi = E(yi |zi ) (bzw. µij = E(yij |zi )) modellieren. Weiters sei die konditionale Verteilung der Response, gegeben diese zufälligen Effekte, aus der Exponentialfamilie.
Für die Berechnung des Maximum-Likelihood Schätzers soll jedoch die marginale Dichte
maximiert werden. Da dies nur selten analytisch durchgeführt werden kann, wird oft als
Alternative die EM-Schätzung verwendet.
71
72
6.2
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
EM Schätzer
Für den von Dempster, Laird & Rubin (1977) entwickelten EM-Algorithmus wird angenommen, dass die Daten aus einem beobachtbaren Teil y und einem nicht beobachtbaren
Teil z zusammengesetzt sind. Die gemeinsame Dichte einer vollständigen Beobachtung
(y, z) sei f (y, z|θ), wobei alle unbekannten Parameter im System zum Vektor θ ∈ Θ zusammengefasst sind (hierbei bezeichnet Θ den Parameterraum). Somit gilt allgemein für
die marginale Dichte f (y|θ) der Response y
∫
ℓ(θ|y) = log f (y|θ) = log f (y, z|θ)dz .
(6.1)
Um den Schätzer θ̂ zu bestimmen, wird die marginale Log-Likelihood Funktion ℓ(θ|y)
maximiert. Dabei stößt man aber in der Praxis häufig auf Probleme mit dem Integral (6.1).
Mit der bedingten Dichte von z|y, gegeben durch
f (z|y, θ) =
f (y, z|θ)
,
f (y|θ)
lässt sich (6.1) schreiben als ℓ(θ|y) = log f (y|θ) = log f (y, z|θ)−log f (z|y, θ). Der Schätzer
θ̂ soll ℓ(θ|y) maximieren. Es gilt auch
log f (y, z|θ) = log f (z|y, θ) + ℓ(θ|y) .
Da z nicht beobachtet ist, ersetzen wir diese fehlende Information durch ihren konditionalen Erwartungswert, gegeben all das was beobachtet vorliegt. Für dessen Berechnung
verwenden wir einen beliebigen zulässigen Parameterwert θ0 ∈ Θ, d.h. bezüglich f (z|y, θ0 ).
Der konditionale Erwartungswert von ℓ(θ|y), gegeben die beobachteten Daten y, ist aber
wiederum ℓ(θ|y), also gilt
(
)
(
)
(
)
E log f (y, z|θ)y, θ0 = E log f (z|y, θ)y, θ0 + E ℓ(θ|y)y, θ0
∫
∫
∫
log f (y, z|θ)f (z|y, θ0 )dz =
log f (z|y, θ)f (z|y, θ0 )dz + ℓ(θ|y)f (z|y, θ0 )dz
Q(θ|θ0 ) = H(θ|θ0 ) + ℓ(θ|y) .
(6.2)
Die Maximierung von ℓ(θ|y) in θ ist daher äquivalent mit der Maximierung der Differenz
Q(θ|θ0 ) − H(θ|θ0 ). Bemerke, dass (6.2) für beliebige Parameterwerte θ ∈ Θ hält, also auch
für θ = θ0 wofür wir
Q(θ0 |θ0 ) = H(θ0 |θ0 ) + ℓ(θ0 |y)
erhalten. Somit resultiert als Differenz zu (6.2) für die marginale Log-Likelihood Funktion
[
]
ℓ(θ|y) − ℓ(θ0 |y) = Q(θ|θ0 ) − Q(θ0 |θ0 ) − H(θ|θ0 ) − H(θ0 |θ0 ) .
(6.3)
6.2. EM SCHÄTZER
73
Allgemein liefert die Jensen Ungleichung für eine konkave Funktion, wie g(x) = log(x),
die Abschätzung E(g(X)) ≤ g(E(X)). Damit folgt für beliebiges θ ∈ Θ
∫
f (z|y, θ)
H(θ|θ0 ) − H(θ0 |θ0 ) =
log
f (z|y, θ0 )dz
f (z|y, θ0 )
(
)
f (z|y, θ) = E log
y, θ0
f (z|y, θ0 )
( f (z|y, θ) )
≤ log E
y, θ0
f (z|y, θ0 )
∫
f (z|y, θ)
= log
f (z|y, θ0 )dz
f (z|y, θ0 )
∫
= log f (z|y, θ)dz = log 1 = 0 ,
also
H(θ|θ0 ) − H(θ0 |θ0 ) ≤ 0 .
(6.4)
Dies hat wiederum zur Folge, dass wir (6.3) schreiben können als
ℓ(θ|y) − ℓ(θ0 |y) ≥ Q(θ|θ0 ) − Q(θ0 |θ0 ) .
Sei θ′ jener Wert von θ, der für ein gegebenes (festes) θ0 die Funktion Q(θ|θ0 ) maximiert.
Somit gilt
Q(θ′ |θ0 ) − Q(θ|θ0 ) ≥ 0
und daher auch
Q(θ′ |θ0 ) − Q(θ0 |θ0 ) ≥ 0 .
Dies zeigt aber, dass durch die Maximierung von Q(θ|θ0 ) die Log-Likelihood nach diesem
(EM-) Schritt zumindest nicht verkleinert wird, denn das letzte Ergebnis impliziert
ℓ(θ′ |y) − ℓ(θ0 |y) ≥ 0 .
Stationarität: Weiters resultiert durch Differenzieren von (6.2) die Identität
∂
∂
∂
Q(θ|θ0 ) =
H(θ|θ0 ) + ℓ(θ|y) .
∂θ
∂θ
∂θ
Nun gilt aber wegen (6.4) gerade H(θ|θ0 ) ≤ H(θ0 |θ0 ) für alle θ. Unter dieser Extremalbedingung folgt, dass
∂
H(θ|θ0 )|θ=θ0 = 0
∂θ
hält was bedeutet, dass die Funktion H(θ|θ0 ) stationär ist in θ = θ0 . Ist somit Q(θ|θ0 )
stationär in θ = θ0 , dann ist dies dort auch ℓ(θ|y).
Der EM-Algorithmus ist zweistufig. Im E-Schritt wird der bedingte Erwartungswert
Q(θ|θ0 ) für gegebenes θ0 berechnet. Danach wird im M-Schritt diese Funktion Q(θ|θ0 )
bezüglich θ maximiert. Sei das Ergebnis dieser Maximierung θ′ , so wird damit wiederum
74
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
ein E-Schritt mit aktualisierten θ0 = θ′ durchgeführt. Diese Iteration wiederholt man bis
zur Konvergenz im marginalen Likelihood Schätzer θ̂.
Self-consistency des EM-Algorithmus: Falls der MLE θ̂ ein globales Maximum von ℓ(θ|y)
darstellt, so muss dieser auch
Q(θ̂|θ̂) ≥ Q(θ|θ̂)
genügen. Ansonsten würde es ja einen Parameterwert θ∗ geben mit der Eigenschaft
Q(θ̂|θ̂) < Q(θ∗ |θ̂)
was wiederum
ℓ(θ∗ |y) > ℓ(θ̂|y)
impliziert und somit einen Widerspruch darstellt zur Annahme, dass θ̂ das globale Maximum von ℓ(θ|y) ist.
Anstelle des Integrals in (6.1) muss also beim EM-Algorithmus das Integral Q(θ|θ0 ) in (6.2)
berechnet und maximiert werden. Wie das folgende Beispiel zeigt, ist diese Berechnung
in einigen Anwendungen möglich.
6.2.1
Beispiel: Endliche diskrete Mischungen
Sei y1 , . . . , yn eine Stichprobe aus einer diskreten Mischung von K Dichtekomponenten
mit gruppenspezifischen Parametern θ1 , . . . , θK (z.B. Lokation der k-ten Gruppe), einem
gemeinsamen Parameter
∑ ϕ (z.B. Variabilität – für alle Gruppen gleich) und den Anteilen π1 , . . . , πK mit k πk = 1. Die marginale Dichte des i-ten Elements yi kann daher
geschrieben werden als
K
∑
πk f (yi |θk , ϕ) .
f (yi |θ, ϕ, π) =
k=1
Somit ist die Likelihood Funktion
L(π, θ, ϕ|y) =
n ∑
K
∏
πk f (yi |θk , ϕ) =
i=1 k=1
n ∑
K
∏
πk fik .
(6.5)
i=1 k=1
Hier sind θ, ϕ und π unbekannt, also sind K + 1 + (K − 1) = 2K Parameter zu schätzen.
Aus der Log-Likelihood Funktion
(K
)
n
∑
∑
ℓ(π, θ, ϕ|y) = log L(π, θ, ϕ|y) =
log
πk fik
i=1
k=1
erhält man beispielsweise bezüglich ϕ
∑ ∑ πk fik ∂ log fik ∑ ∑
∂
∂ log fik
ℓ(π, θ, ϕ|y) =
=
,
wik
∑K
∂ϕ
∂ϕ
∂ϕ
l=1 πl fil
i=1 k=1
i=1 k=1
n
K
n
K
(6.6)
6.2. EM SCHÄTZER
75
wobei die Gewichte von allen Parametern abhängen, also w = w(π, θ, ϕ) gilt. Diese ScoreFunktion ist eine gewichtete Summe von Score-Funktionen, in der die Summanden aus
jeder einzelnen Komponetendichte der Mischung stammen.
Die Gewichte wik können auch aus der Sicht eines formalen Bayes-Modells sehr gut interpretiert werden. Da per Definition
P (k)P (yi |k)
πk fik
P (k|yi ) = ∑K
= ∑K
= wik
P
(l)P
(y
|l)
π
f
i
l
il
l=1
l=1
(6.7)
gilt, haben diese Gewichte folgende Bedeutung: Wähle die Komponente k zufällig mit
Wahrscheinlichkeit πk . Ziehe nun yi aus dieser Komponente, also aus einer Verteilung mit
Dichte fik . Gegeben yi ist die a posteriori Wahrscheinlichkeit, dass die Komponente k
gewählt wurde, gleich wik .
Die wik sind auch in den Score-Funktionen bezüglich θ und π wesentlich. So ist
∑ πk ∂fik /∂θk ∑
∂
∂ log fik
=
wik
ℓ(π, θ, ϕ|y) =
.
∑K
∂θk
∂θ
π
f
k
l
il
l=1
i=1
i=1
n
n
(6.8)
∑
Für den Schätzer von π benötigt man die Randbedingung k πk = 1, was unter Verwendung eines Lagrange Multiplikators zu
)
(
n
K
n
)
(∑
∑
∑
∂
fik
1
πk − 1
=
ℓ(π, θ, ϕ|y) − λ
−λ=
wik − λ
∑K
∂πk
πk
l=1 πl fil
i=1
i=1
k=1
∑
führt. Setzt man diesen Term Null, so folgt
∑ ∑ πk = i wik /λ. Summiert man
∑ als Lösung
über alle k, ergibt sich wegen (6.7) 1 = k πk = i k wik /λ = n/λ also λ = n. Damit
folgt als Score für die Anteilswerte
n
1 ∑
wik − n .
πk i=1
(6.9)
Die Maximum-Likelihood Schätzer sind definiert als die Nullstellen von (6.6), (6.8) und
(6.9).
Für die Anwendung des EM-Algorithmus wird jede Beobachtung yi wegen ihrer unbekannten Gruppenzugehörigkeit als unvollständig betrachtet. Zu jedem yi definiert man
einen nichtbeobachtbaren Indikatorvektor zi = (zi1 , . . . , ziK ) mit
{
1 falls yi aus Gruppe k
zik =
0 sonst.
Die gemeinsame Dichte von (y, z) lautet daher
f (y, z|π, θ, ϕ) =
n ∏
K
∏
i=1 k=1
f (yi |θk , ϕ)zik πkzik ,
76
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
also
log f (y, z|π, θ, ϕ) =
n ∑
K
∑
(
)
zik log f (yi |θk , ϕ) + log πk .
i=1 k=1
Im E-Schritt berechnet man für Werte π0 , θ0 , ϕ0 die Funktion Q(π, θ, ϕ|π0 , θ0 , ϕ0 ) also
( n K
)
(
)
)
∑∑ (
E log f (y, z|π, θ, ϕ)y, π0 , θ0 , ϕ0 = E
zik log f (yi |θk , ϕ)+log πk yi , π0 , θ0 , ϕ0 .
i=1 k=1
Durch das Konditionieren hat man im Argument dieses Erwartungswertes außer den zik
nur feste Größen. Somit folgt wegen E(zik |yi , π0 , θ0 , ϕ0 ) = P (zik = 1|yi , π0 , θ0 , ϕ0 ) = wik ,
wobei die wik in π0 , θ0 und ϕ0 ausgewertet sind,
Q(π, θ, ϕ|π0 , θ0 , ϕ0 ) =
n ∑
K
∑
(
)
wik log f (yi |θk , ϕ) + log πk .
(6.10)
i=1 k=1
Dies wird im E-Schritt berechnet, was wiederum im wesentlichen auf der Berechnung der
Größen wik beruht. Die Parameter π, θ und ϕ stellen jene Größen dar, die im folgenden
M-Schritt für feste wik maximiert werden. Dazu müssen aber gerade die Nullstellen der
gewichteten Score Funktionen (6.6), (6.8), und (6.9) berechnet werden.
Mischung von Normalverteilungen
Liegt eine Mischung aus K Normalverteilungen mit unterschiedlichen Erwartungen µk
und konstanter Varianz σ 2 vor, so ist
(
) (y − µ )2
1
i
k
log fik = − log 2πσ 2 −
2
2σ 2
und es folgt
∂ log fik
yi − µk
=
,
∂µk
σ2
∂ log fik
1( 1
(yi − µk )2 )
=−
−
.
∂σ 2
2 σ2
σ4
Für geeignete µk , σ 2 und πk berechnet man im E-Schritt die Werte von wik . Im M-Schritt
wird mit diesen wik die Maximierung durchgeführt. Aus (6.8) folgt
n
∑
i=1
yi − µk
=0
wik
σ2
=⇒
∑n
wik yi
.
µ̂k = ∑i=1
n
i=1 wik
Mit (6.6) ergibt sich
n ∑
K
∑
i=1 k=1
(
wik
(yi − µk )2 )
1
=0
− 2+
2σ
2σ 4
1 ∑∑
σ̂ =
wik (yi − µ̂k )2 .
n i=1 k=1
n
=⇒
2
K
6.3. ÜBERDISPERSIONSMODELLE
77
Schließlich wird noch (6.9) benötigt, d.h.
1∑
wik .
n i=1
n
π̂k =
Mit diesen µ̂k , σ̂ 2 und π̂k berechnet man im E-Schritt aktualisierte wik und geht damit
zum M-Schritt zurück.
6.3
Überdispersionsmodelle
Gegeben ein zufälliger Effekt z mit Dichte f (z) sei die bedingte Dichte einer Beobachtung y gleich f (y|z, θ). Somit folgt als gemeinsame Dichte f (y, z|θ) = f (y|z, θ)f (z|θ). Als
marginale Dichte ergibt sich
∫
∫
f (y|θ) = f (y, z|θ)dz = f (y|z, θ)f (z|θ)dz .
(6.11)
Die bedingte Dichte von z|y ist hier gegeben durch f (z|y, θ) = f (y|z, θ)f (z|θ)/f (y|θ). Als
zu maximierende Funktion resultiert daher für die Stichprobe
Q(θ|θ0 ) =
=
n ∫
∑
i=1
n ∫
∑
log f (yi , zi |θ)f (zi |yi , θ0 )dzi
log f (yi , zi |θ)
i=1
=
n
∑
i=1
1
f (yi |θ0 )
∫
f (yi |zi , θ0 )
f (zi |θ0 )dzi
f (yi |θ0 )
log f (yi , zi |θ)f (yi |zi , θ0 )f (zi |θ0 )dzi .
(6.12)
Dabei sind sowohl f (yi |θ0 ) (siehe (6.11)) als auch das Integral in (6.12) selbst sehr unangenehm und nur selten analytisch geschlossen darstellbar. Zwei Ansätze sollen nun diskutiert werden. Im ersten nehmen wir an, dass z aus einer Normalverteilung stammt und
daraufhin werden beide Integral durch eine K-Punkt Gauss-Quadratur approximiert.
Falls diese Annahme nicht getroffen werden kann, wird im zweiten Ansatz f (z) durch den
nicht-parametrischen Maximum-Likelihood, NPML Schätzer fˆ(z) ersetzt und die
dadurch resultierende Zielfunktion maximiert.
6.3.1
Normalverteilte zufällige Effekte
Für f (z) = ϕ(z) liefert die Gauss-Quadratur als Approximation
∫
f (y|θ0 ) =
f (y|z, θ0 )ϕ(z)dz ≈
K
∑
k=1
f (y|zk , θ0 )πk
78
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
mit bekannten Massen πk auf den festen (bekannten) Massepunkten zk . Wendet man
dieses Approximationsverfahren auch auf das zweite Integral an, so resultiert
n ∑K
∑
k=1 log f (yi , zk |θ)f (yi |zk , θ0 )πk
Q(θ|θ0 ) ≈
∑K
j=1 f (yi |zj , θ0 )πj
i=1
=
=
n ∑
K
∑
i=1 k=1
n ∑
K
∑
wik log f (yi , zk |θ)
(
wik log f (yi |zk , θ) + log πk
)
(6.13)
i=1 k=1
mit den Gewichten
πk f (yi |zk , θ0 )
,
wik = ∑K
f
(y
|z
,
θ
)π
i
j
0
j
j=1
(6.14)
die in θ = θ0 ausgewertet sind und daher für die folgende Maximierung feste Größen
darstellen. Die Approximation (6.13) ist identisch der Funktion Q in (6.10) und die Gewichte (6.14) entsprechen den Größen (6.7). Daher ist die Schätzung der Parameter im
Modell mit zufälligen Effekten äquivalent der Schätzung in diskreten Mischmodellen, wobei hier aber die Massen πk bekannte Größen darstellen und bedingte Dichten gemischt
werden. Schreibt man den Linearen Prädiktor dieses Modells als
ηi = xti β + σz zi ,
iid
mit zi ∼ N (0, 1) ,
(6.15)
so wird bei der Maximierung von (6.13) bezüglich β gerade die mit (6.14) gewichtete
Likelihood einer Stichprobe mit nK Elementen maximiert. Diese erweiterte Stichprobe
erhält man, wenn jeder Beobachtung yi gerade K Lineare Prädiktoren der Form
ηik = xti β + σz zk
mit bekannten Massestellen zk und unbekanntem β und σz zugeordnet werden. Dies bedeutet, dass jede Beobachtung K-fach betrachtet wird und deren Lineare Prädiktoren
jeweils mit zk erweitert werden. Der Schätzer zu dieser neuen Spalte stellt somit den
Schätzer von σz dar.
Für jede Iteration der EM-Schätzung ist daher eine Programm notwendig, mit dem eine
gewichtete ML-Schätzung eines Generalisierten Linearen Modells gerechnet werden kann.
6.3. ÜBERDISPERSIONSMODELLE
79
Als Datensatz verwendet man dazu die erweiterte Struktur
x1p
..
.
σz
z1
..
.
xn1 . . .
x11 . . .
..
.
xnp
x1p
..
.
z1
z2
..
.
xn1 . . .
..
.
xnp
..
.
z2
..
.
y
y1
..
.
w
w11
..
.
x11
..
.
yn
y1
..
.
wn1
w12
..
.
yn
..
.
wn2
..
.
β
...
y1 w1K x11 . . .
..
..
..
.
.
.
yn wnK xn1 . . .
6.3.2
x1p zK
..
..
.
.
xnp zK
Zufällige Effekte aus unbekannter Verteilung
Falls über f (z) keine Annahmen getroffen werden können, so sollte f (z) nichtparametrisch
geschätzt werden. Der Schätzer fˆ(z) ist dann eine Wahrscheinlichkeitsfunktion, definiert
auf K geschätzte Massepunkte zk mit Massen πk . Entsprechendes Vorgehen wie bei der
Gauss-Quadratur liefert (6.13) als Zielfunktion mit Gewichten (6.14), wobei jetzt jedoch
die zk und πk unbekannt sind. Daher wird hier noch zusätzlich die Schätzung (6.9) für πk
verwendet. Für den hierbei betrachteten Linearen Prädiktor
ηi = xti β + zi ,
iid
mit zi ∼ F (z) ,
(6.16)
folgt
ηik = xti β + zk ,
wobei die K Stellen zk unbekannt sind. Mittels eines K-stufigen Faktors kann der Prädiktor umgeschrieben werden zu
ηik = xti β + z1 · 0 + · · · + zk−1 · 0 + zk · 1 + zk+1 · 0 + · · · + zK · 0
und die unbekannten z1 , . . . , zK stellen gerade die Parameter zu diesen K Dummy-Variablen
(0,1) dar. Falls x einen Intercept enthält, kann nicht zwischen diesem und z1 unterschieden werden. Der dazu notwendige, erweiterte Datensatz hat wiederum nK Elemente. Für
80
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
einen M-Schritt wird eine gewichtete ML-Schätzung für das GLM bezüglich
y
y1
..
.
w
w11
..
.
x11
..
.
yn
y1
..
.
wn1
w12
..
.
yn
..
.
wn2
..
.
β
...
x1p
..
.
1
..
.
z
0 ...
..
.
xn1 . . .
x11 . . .
..
.
xnp
x1p
..
.
1
0
..
.
0 ...
1 ...
..
.
0
0
..
.
xn1 . . .
..
.
xnp
..
.
0
..
.
1 ...
..
.
0
..
.
y1 w1K x11 . . .
..
..
..
.
.
.
yn wnK xn1 . . .
x1p
..
.
0
..
.
0 ...
..
.
1
..
.
xnp
0 0 ...
1
0
..
.
durchgeführt. Im folgenden E-Schritt werden nur die Gewichte wik entsprechend aktualisiert. Als nichtparametrischen Maximum-Likelihood Schätzer (NPMLE) für die Verteilung
der Zufallseffekte erhält man bei Konvergenz die K Paare
fˆ(z) = (ẑ1 , π̂1 ), . . . , (ẑK , π̂K ) .
Dies ergeben eine Multinomial-Verteilung auf den geschätzten K Massestellen ẑ mit
geschätzten Wahrscheinlichkeitsmassen π̂.
6.3.3
Prädiktionen bei NPML Schätzung
Als Schätzung für das konditionale Modell µik = E(yi |zk ) erhält man für jede Komponente k = 1, . . . , K
also µ̂ik = g −1 (η̂ik ) .
g(µ̂ik ) = η̂ik = xti β̂ + ẑk ,
Diese stellen parallele Regressionsebenen im (η, x)-Raum dar.
Interessant ist auch eine Schätzung des marginalen Modells, also von E(yi ). Die alternative Bezeichnung population average wird in der Literatur nicht konsistent genutzt. Da
die marginale Verteilung der yi die gemischte Exponentialfamilie ist, folgt
∫
∫
E(yi ) =
yi f (yi |zi )f (zi ) dzi dyi
∫
≈
yi
K
∑
f (yi |zk )πk dyi =
k=1
K
∑
∫
πk
yi f (yi |zk ) dyi =
k=1
k=1
und es resultiert
b i) =
E(y
K
∑
k=1
K
∑
π̂k µ̂ik .
πk E(yi |zk )
6.3. ÜBERDISPERSIONSMODELLE
81
Der posterior Mean eines Zufallseffekts zi , gegeben die Beobachtung yi , ist gleich
∫
E(zi |yi ) =
zi f (zi |yi )dzi
∫
f (yi |zi )f (zi )
=
zi ∫
dzi
f (yi |zi )f (zi )dzi
K
∑
f (yi |zk )πk
.
≈
zk ∑K
f
(y
|z
)π
i
l
l
l=1
k=1
Der empirische Bayes Schätzer dafür ist
e i |yi ) =
E(z
K
∑
ẑk ŵik ,
k=1
das posteriori-gewichtete Mittel der geschätzten Massepunkte.
Damit ist es jetzt möglich,
e i |yi ) zu berechnen. Wegen ∑ ŵik = 1 resultiert dafür
den linearen Prädiktor sowie E(z
k
ηei =
xti β̂
e i |yi ) =
+ E(z
K
∑
)
(
ŵik xti β̂
+ ẑk
k=1
=
µ
ei =
K
∑
k=1
K
∑
ŵik η̂ik
ŵik µ̂ik .
k=1
6.3.4
Beispiel: Matched Pairs
In einer Studie des Landeshygienikers für die Steiermark wurden alle zwei Wochen über ein
volles Jahr bei zwei benachbarten Grazer Wohnsiedlungen (site=6 bzw. site=7) die Bakterienkonzentrationen in der Außenluft beobachtet. Die beiden Siedlungen unterscheiden
sich bezüglich des Vorhandenseins einer Kompostierungsanlage (site=7). Es ist bekannt,
dass die Anzahl kolonienbildender luftgetragener Mikroorganismen (cfu: colonies forming
units) vom vorherrschenden Wetter abhängig ist. Zu diesen 26 × 2 Beobachtungen bac
gehören deshalb auch Temperatur t und Luftfeuchtigkeit h.
Als Messgerät wurde ein sechsstufiger Luftsammler verwendet, dessen Stufen unterschiedlich große Keime filtern. Dabei sind besonders die kleinen Mikroorganismen (stage>3) für
den Menschen gefährlich, da diese bis zur Lunge vordringen können. Es ist zu untersuchen,
ob es einen relevanten Kompostieranlageneffekt gibt.
Die Erstanalyse dieser Daten ergibt einen extremen cfu Wert, weshalb beide Tripel nicht
in die folgenden Betrachtungen aufgenommen werden.
> bac67red <- bacteria[(site > 5 & bac < 20), ]
82
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
> bac456 <- rbind.data.frame(cbind(bac67red[ ,1:4], 4, bac <- b4),
cbind(bac67red[ ,1:4], 5, bac <- b5),
cbind(bac67red[ ,1:4], 6, bac <- b6))
> names(bac456) <- c("date","site","h","t","stage","bac")
> bac456[ ,5] <- factor(bac456[ ,5]); attach(bac456)
Da es sich hierbei um Anzahlen handelt, wird zuerst ein loglineares Poissonmodell betrachtet. Wir sind vor allem am Verhalten an den beiden Orten auf den drei Stufen interessiert
und wollen auf die Wetterbedingungen (an den beiden Orten ähnlich) standardisieren.
> gt <- glm(bac ~ stage*site + t + t^2, data=bac456, family=poisson)
> gth <- update(gt, . ~ . + h + h^2)
> anova(gt, gth, test="Chi")
Terms Df
Dev Test
Df Dev Pr(Chi)
1
stage * site + t + t^2 142 258.8
2 stage * site + t + t^2 + h + h^2 140 255.1 +h+I(h^2) 2 3.75 0.154
> summary(gt, cor=F)
Coefficients:
Value Std. Error t value
(Intercept) 0.344616 0.1874847 1.8381
stage5 0.397696 0.1969099 2.0197
stage6 -0.295463 0.2332816 -1.2666
site 0.059636 0.2120410 0.2812
t 0.059657 0.0175228 3.4045
I(t^2) -0.002146 0.0006113 -3.5106
stage5site -0.442148 0.2884261 -1.5330
stage6site 0.418077 0.3086641 1.3545
(Dispersion Parameter for Poisson family taken to be 1 )
Null Deviance: 284.2 on 149 degrees of freedom
Residual Deviance: 258.8 on 142 degrees of freedom
Nur die lineare und quadrierte Temperatur scheinen relevant. Bedenklich ist die Überdispersion (Deviance 258.8 bei df=142). Dies könnte im Fehlen von weiteren Prädiktorvariablen begründet sein, z.B. Wind oder Luftdruck. Ein Modell mit zufälligen Effekten
sollte dies teilweise kompensieren.
Wir beginnen mit der Annahme normalverteilter Effekte. Durch Erhöhen der Anzahl der
Quadraturpunkte kann die Deviance von 258.8 (K = 1) auf 235.5 (K = 2) und 227.6
(K = 3) reduziert werden. Eine weitere Vergrößerung von K führt jedoch zu keiner
Verbesserung.
> rem2 <-od(y=bac, method="GQ", K=2)
iter.: 8 deviance: 235.55
> rem3 <-od(y=bac, method="GQ", K=3)
iter.: 7 deviance: 227.59
> rem4 <-od(y=bac, method="GQ", K=4)
6.3. ÜBERDISPERSIONSMODELLE
iter.: 7 deviance:
83
227.93
> summary(rem3$model, cor=F)
Coefficients:
Value Std. Error
t.i 0.05881 0.0175492
I(t.i^2) -0.00211 0.0006208
z[j] 0.61686 0.0609783
site.ikeinKstage.i4 0.14927 0.1888571
site.imitKstage.i4 0.24514 0.1860528
site.ikeinKstage.i5 0.59348 0.1688974
site.imitKstage.i5 0.17491 0.1889312
site.ikeinKstage.i6 -0.13885 0.2132799
site.imitKstage.i6 0.33578 0.1795881
t value
3.3511
-3.3981
10.1161
0.7904
1.3176
3.5139
0.9258
-0.6510
1.8697
Die geschätzte Standardabweichung der zufälligen Effekte ist σ̂z = 0.62. Standardfehler
und t-Werte stammen nur aus der letzten Iteration und sind nicht interpretierbar.
Alternativ wollen wir auch eine nichtparametrische Schätzung durchführen. Bei K = 2 resultiert eine (nur etwas geringere) Deviance von 225.6. Die Massepunkte sind (1.45, 0.14)
mit Massen (0.13, 0.87), was auf Abweichungen von der Normalverteilungsannahme hinweist. Diese nichtparametrische Schätzung ergibt eine zweipunktige Effektverteilung mit
µ̂z = 0.13 · 1.45 + 0.87 · 0.15 = 0.32 und σ̂z2 = 0.13 · (1.45 − µ̂z )2 + 0.87 · (0.15 − µ̂z )2 = 0.19,
also σ̂z = 0.44.
> remnp2 <-od(y=bac, method="NPMLE", K=2)
iter.: 57 deviance: 225.56
> remnp3 <-od(y=bac, method="NPMLE", K=3)
iter.: 38 deviance: 225.58
> summary(remnp2$model, cor=F)
Coefficients: (1 not defined because of singularities)
Value Std. Error t value
t.i 0.058465 0.0175709 3.32737
I(t.i^2) -0.002053 0.0006211 -3.30579
zf1 1.452755 0.1887234 7.69780
zf2 0.145988 0.1832268 0.79676
site.ikeinKstage.i4 -0.126373 0.2062250 -0.61279
site.imitKstage.i4 0.019329 0.2031400 0.09515
site.ikeinKstage.i5 0.267332 0.1868670 1.43060
site.imitKstage.i5 -0.092793 0.2049944 -0.45266
site.ikeinKstage.i6 -0.382658 0.2250004 -1.70070
site.imitKstage.i6
NA
NA
NA
> remnp2$pi
1
2
0.1298 0.8702
84
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
Die Aufnahme eines zufälligen Effektes ergibt für beide Zugänge beträchtlich geringere
Werte der Deviancen. Die Freiheitsgradanzahl von 142 muss bei der Gauß-Quadratur um
1 (wegen σz ) und beim nichtparametrischen Ansatz um 3 (wegen z1 , z2 , π1 ) reduziert
werden.
Beim nichtparametrischen Ansatz sei noch zu erwähnen, dass nur die beiden Parameter
zur Temperatur (0.0585, −0.0021) mit den Ergebnissen der Quadratur (0.0588, −0.0021)
direkt vergleichbar sind. Bei der Gauss-Quadratur ist kein expliziter Intercept enthalten;
daher können alle Stufen der Faktorinteraktion geschätzt werden. Im nichtparametrischen
Modell ist jedoch ein zweistufiger Intercept-Faktor inkludiert, weshalb nicht mehr alle
Interaktionsparameter schätzbar sind. Die gewählte Kontrastierung setzt die letzte Stufe
von site:stage auf Null (aliased mit der zweistufigen Modellkonstanten zf) und schätzt
alle verbleibenden Abweichungen zu dieser Referenzklasse.
> fc <- matrix(fitted(remnp2$model), ncol=2, byrow=T)
> plot(bac456$t, fc[,1], ylim=c(0,10), xlab="temperature",
ylab="fitted conditional means (k=1)")
> plot(bac456$t, fc[,2], ylim=c(0,10), xlab="temperature",
ylab="fitted conditional means (k=2)")
> fm <- fc %*% remnp2$pi
> plot(bac456$t, fm, ylim=c(0,10), xlab="temperature",
ylab="fitted marginal means")
> fp <- fitted(gt)
> plot(bac456$t, fp, ylim=c(0,10), xlab="temperature",
ylab="fitted Poisson means")
Die Verläufe der geschätzten konditionalen Modelle in der Abbildung 6.1 entsprechen
gerade den geschätzten Interaktionsparametern, d.h. die oberste Kurve gehört zu keine
Kompostieranlage:Stufe 5, dann Kompostieranlage:Stufe 4 gefolgt von Kompostieranlage:Stufe 6, u.s.w. Die marginalen Modelle darunter (links) stellen das mit π̂ gewichtete
Mittel der beiden oberen Ergebnisse dar und unterscheiden sich optisch nicht von den
Ergebnissen aus dem Poisson-Modell ohne Zufallseffekte (rechts).
> w <- matrix(remnp2$w, ncol=2, byrow=T)
> r <- (bac-fm)/sqrt(fm) plot(r, w[ ,1], xlab="Pearson residuals",
> ylab="posterior prob for component 1"); abline(h=0.5)
> plot(bac456$t, r, xlab="temperature", ylab="Pearson residuals")
abline(h=0)
In der Abbildung 6.2 (links) sieht man, dass nur wenige (etwa 15) yi mit großen Pearson
Residuen auch größere posteriori Wahrscheinlichkeiten (wi1 > 0.5) für die erste Komponente haben. Für die Mehrzahl gilt jedoch wi2 > wi1 , also eher eine Zugehörigkeit zur
zweiten Komponente. Der rechte Teil dieser Abbildung zeigt, dass die Residuen keine
verbleibende Struktur in der Temperatur haben und eher zufällig um Null liegen.
> z <- coef(remnp2$model)[3:4]
> eBz <- w %*% z; mean(eBz)
8
6
0
2
4
fitted conditional means (k=2)
6
4
0
2
fitted conditional means (k=1)
8
10
85
10
6.3. ÜBERDISPERSIONSMODELLE
-10
0
10
20
30
40
-10
0
20
30
40
10
8
6
0
2
4
fitted Poisson means
8
6
4
0
2
fitted marginal means
10
temperature
10
temperature
0
10
temperature
20
30
0
10
20
30
temperature
Abbildung 6.1: Oben: Gefittete konditionale Modelle für k = 1 (links) und k = 2 (rechts)
der nichtparametrischen Schätzung. Unten: Gefittete marginale Means (links) gegen die
fitted Means beim Poisson-Modell (rechts).
0.3156
> plot(bac, eBz, ylim=c(0,1.5), xlab="bacteria counts in cfu’s",
ylab="posterior random effect means")
> eBmu <- diag(w %*% t(fc))
> plot(bac, eBmu, xlim=c(0,12),ylim=c(0,12),xlab="bacteria counts in cfu’s",
ylab="empirical Bayes estimates of mu") abline(0,1);
> abline(lsfit(bac, eBmu))
In der Abbildung 6.3 oben links ist zu erkennen, daß die empirischen Bayes Schätzer der
zi von den yi abhängen. Diese Werte sind dann groß, wenn auch die cfu-Werte hoch sind.
Ihr globales Mittel ist 0.3156, und entspricht etwa den Konstanten beim Poisson-Modell
(0.3446) oder beim Modell mit Gauss-Quadratur (0.3358 - letzte Stufe der Zweifachinteraktion). Die empirischen Bayes Schätzungen der µ’s sind oben rechts gegen die yi
aufgetragen. Prinzipiell ist ein lineares Muster zu sehen, jedoch wird auch klar, weshalb
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
4
0.0
0
2
Pearson residuals
0.6
0.4
0.2
posterior prob for component 1
0.8
6
1.0
86
0
2
Pearson residuals
4
6
0
10
20
30
temperature
Abbildung 6.2: Pearson Residuen gegen die geschätzten posteriori Wahrscheinlichkeiten
für die erste Komponente (links) und gegen die Temperatur (rechts).
man diese Schätzer als shrinkage estimates towards the mean bezeichnet. Große Responses
werden unterschätzt während Null-Responses eindeutig überschätzt sind.
Die Frage nach einen Kompostieranlageneffekt kann nicht so einfach beantwortet werden. Dieser Effekt findet sich im Modell in Wechselwirkung mit der Plattenstufe wieder.
Bereits die Schätzer dieser Interaktion im Modell zeigen dieses Verhalten deutlich. So
sind diese bei der Siedlung ohne Kompostieranlage am größten für Stufe 5, gefolgt von
der Stufe 4 und am kleinsten bei der Stufe 6. In der Nähe der Kompostieranlage sieht
diese Ordnung jedoch anders aus: alle drei Effekte sind ziemlich ähnlich und deren Reihenfolge lautet 6, 4 und 5, respektive 4, 6 und 5 bei der nichtparametrischen Schätzung.
Die Interaktionsplots in der Abbildung 6.3 zeigt dieses Verhalten deutlich. Links findet
man die Mittel der gefitteten marginal Means und rechts die entsprechenden empirischen
Bayes Schätzer unter der nichtparametrischen Modellschätzung. Die Verwendung der Originalbeobachtungen yi anstelle der Bayes Schätzer würde ein vom rechten Bild nicht zu
unterscheidendes Verhalten zeigen.
87
8
6
0
0.0
2
4
empirical Bayes estimates of mu
1.0
0.5
posterior random effect means
10
12
1.5
6.3. ÜBERDISPERSIONSMODELLE
0
2
4
6
8
10
12
0
2
4
6
8
10
12
bacteria counts in cfu’s
2.6
bacteria counts in cfu’s
2.4
stage
2.2
2.0
1.8
mean emp Bayes estimates
2.0
1.8
4
5
6
1.4
1.4
1.6
2.2
4
5
6
1.6
mean fitted marginal model
2.4
stage
keinK
mit K
site
keinK
mit K
site
Abbildung 6.3: Oben: Posteriori Means der Zufallseffekte zi gegen die Responses yi (links)
und empirische Bayes Schätzungen der µi ’s gegen yi (rechts). Unten: Interaktionsplots für
stage:site. Mittel der fitted marginals (links) und empirische Bayes Schätzer (rechts).

Documents pareils