Generalisierte Lineare Modelle

Transcription

Generalisierte Lineare Modelle
Herwig FRIEDL
Institut für Statistik
Technische Universität Graz
September 2013
Inhaltsverzeichnis
1 Transformation auf Normalverteilung
1.1 Box-Cox Transformationsfamilie . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Maximum-Likelihood Schätzung . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 Die
2.1
2.2
2.3
Exponentialfamilie
Maximum Likelihood Schätzung .
Mitglieder der Exponentialfamilie
Die Quasi-Likelihood Funktion . .
2.3.1 Quasi-Dichten . . . . . . .
3 Das
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
Generalisierte Lineare Modell
Maximum-Likelihood-Schätzungen . . . .
Asymptotische Eigenschaften des Schätzers
Pearson Statistik . . . . . . . . . . . . . .
Eigenschaften von Score und Quasi-Score .
Deviance und Quasi-Deviance . . . . . . .
Parametertests . . . . . . . . . . . . . . .
Beispiel: Konstante Varianz . . . . . . . .
Beispiel: Gamma-Varianz . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4 Logistische Regression
4.1 Toleranzverteilungen – Linkfunktionen .
4.1.1 Beispiel (Venables & Ripley, Seite
4.2 Interpretation der Parameter . . . . . . .
4.2.1 Beispiel (Agresti, Seite 87) . . . .
4.3 Logit-Modelle . . . . . . . . . . . . . . .
4.3.1 Beispiel . . . . . . . . . . . . . .
i
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. . .
218)
. . .
. . .
. . .
. . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
1
1
2
4
.
.
.
.
9
12
12
15
18
.
.
.
.
.
.
.
.
19
20
23
23
24
25
27
27
28
.
.
.
.
.
.
37
38
39
43
44
46
46
ii
INHALTSVERZEICHNIS
4.4
Komplexe Logistische Modelle . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.1 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5 Loglineare Modelle
5.1 Poisson Loglineare Modelle für Anzahlen . . . .
5.1.1 Beispiel . . . . . . . . . . . . . . . . . .
5.2 Loglineare und Multinomiale Response Modelle
5.2.1 Die Multinomialverteilung . . . . . . . .
5.2.2 Vergleich von Poisson-Erwartungen . . .
5.2.3 Multinomiale Responsemodelle . . . . .
5.2.4 Beispiel . . . . . . . . . . . . . . . . . .
5.3 Zweidimensionale Kontingenztafeln . . . . . . .
5.3.1 Unabhängigkeitsmodell . . . . . . . . . .
5.3.2 Saturiertes (volles) Modell . . . . . . . .
5.3.3 Interpretation der Parameter . . . . . . .
5.3.4 Beispiel . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
6 Modelle mit zufälligen Effekten
6.1 Zufällige Prädiktoren . . . . . . . . . . . . . . . . .
6.2 EM Schätzer . . . . . . . . . . . . . . . . . . . . . .
6.2.1 Beispiel: Endliche diskrete Mischungen . . .
6.3 Überdispersionsmodelle . . . . . . . . . . . . . . . .
6.3.1 Normalverteilte zufällige Effekte . . . . . . .
6.3.2 Zufällige Effekte aus unbekannter Verteilung
6.3.3 Prädiktionen bei NPML Schätzung . . . . .
6.3.4 Beispiel: Matched Pairs . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
51
51
51
57
57
59
60
61
64
64
65
67
69
.
.
.
.
.
.
.
.
71
71
72
74
77
77
79
80
81
Kapitel 1
Transformation auf
Normalverteilung
Die statistische Analyse von Daten basiert häufig auf der Annahme, dass diese normalverteilt sind und konstante Varianz widerspiegeln. Falls die Daten diese Annahme nicht
unterstützen, besteht die Möglichkeit der Verwendung einer Transformation, um dadurch
eine bessere Approximation zu einer konstanten Varianz zu erzielen. Dann könnten auch
klassische Methoden wie die Varianzanalyse oder die Lineare Regression auf solche Daten
angewendet werden.
1.1
Box-Cox Transformationsfamilie
Die Verwendbarkeit der Normalverteilung wird erweitert, indem diese in eine größere
Familie von Verteilungsfunktionen eingebettet wird, der Box-Cox Transformationsfamilie
(Box und Cox, 1964). Deren allgemeine Form kann für eine positive Response y > 0
repräsentiert werden durch
 λ
y − 1
, falls λ ̸= 0,
y(λ) =
(1.1)
λ
log y,
falls λ = 0,
wobei λ den Parameter der Transformation bezeichnet. Spezialfälle in dieser Familie sind
y(−1) = 1 − 1/y und y(1) = y − 1. Darüberhinaus strebt für λ → 0, y(λ) → log y, so dass
y(λ) eine stetige Funktion in λ ist.
Für Daten (yi , xi ), i = 1, . . . , n, nehmen wir nun an, dass es einen Wert von λ gibt, für
den yi (λ) einer Normalverteilung mit identischer Varianz genügt, d.h.
ind
yi (λ) ∼ N (µi (λ), σ 2 (λ)).
Unter dieser Annahme kann man auf die Dichtefunktion der originalen Daten y schließen.
1
2
KAPITEL 1. TRANSFORMATION AUF NORMALVERTEILUNG
Diese ist gerade
(
(y(λ) − µ(λ))2
f (y, λ, µ(λ), σ(λ)) = √
exp −
2σ 2 (λ)
2πσ 2 (λ)
1
)
d
y(λ) .
dy
(1.2)
Die Verwendung der Transformation (1.1) ergibt

( (
)2 )
λ

(y
−
1)/λ
−
µ(λ)
1


y λ−1 , falls λ ̸= 0,

 √2πσ 2 (λ) exp −
2
2σ (λ)
(
)
f (y, λ, µ(λ), σ(λ)) =
(1.3)
2

1
(log
y
−
µ(λ))

−1

y ,
falls λ = 0.

 √2πσ 2 (λ) exp −
2σ 2 (λ)
In Regressions Analysen verwendet man häufig ein simples lineares Modell
2
yi (λ) ∼ N (x⊤
i β(λ), σ (λ)),
ind
wobei β(λ) = (β1 (λ), . . . , βp (λ))⊤ den p×1 Vektor der unbekannten Parameter bezeichnet.
Für λ ̸= 0 definiert man den reparameterisierten Vektor β = (β1 , . . . , βp )⊤ bezüglich y λ ,
mit Intercept β1 = 1 + λβ1 (λ) und Effekten βj = λβj (λ), j = 2, . . . , p, sowie σ = |λ|σ(λ).
Damit kann die Dichte (1.3) umgeschrieben werden zu
)
(
1
(y λ − x⊤ β)2
f (y, λ, β, σ) = √
|λ|y λ−1 .
exp −
2
2
2σ
2πσ
Für λ = 0 verwende βj = βj (λ), j = 1, . . . , p, und σ = σ(λ) als Parameter bezüglich eines
linearen Modells für log y. Dann kann man (1.2) schreiben als
)
(
1
(log y − x⊤ β)2
f (y, 0, β, σ) = √
y −1 .
exp −
2
2
2σ
2πσ
1.2
Maximum-Likelihood Schätzung
Die Log-Likelihood Funktion der n Beobachtungen (yi , xi ) basierend auf die untransformierte Dichte (1.2) ist (auf der originalen Datenskala)
l(λ, µ(λ), σ(λ)) =
n
n
(
)
)2 ∑
d
1 ∑(
n
2
− log 2πσ (λ) − 2
yi (λ) − µi (λ) +
log yi (λ) . (1.4)
2
2σ (λ) i=1
dyi
i=1
Mit der Box-Cox Transformation (1.1) ist die Summe der Logarithmen der Jacobi Terme
{
∑
n
∑
d
(λ − 1) i log yi , falls λ ̸= 0,
log yi (λ) =
∑
dy
−
falls λ = 0.
i
i log yi ,
i=1
1.2. MAXIMUM-LIKELIHOOD SCHÄTZUNG
3
Bezüglich der Parameter (β, σ) erhält man
l(λ, β, σ) =
{
− n2 log (2πσ 2 ) −
− n2 log (2πσ 2 ) −
1
2σ 2
1
2σ 2
)2
∑ ( λ
∑
⊤
y
−
x
β
+
n
log
|λ|
+
(λ
−
1)
i
i
i log yi , falls λ ̸= 0,
)2 ∑
(1.5)
∑i (
⊤
falls λ = 0.
− i log yi
i log yi − xi β
Für einen festen Wert von λ lösen die Maximum-Likelihood Schätzer β̂λ und σ̂λ basierend
auf (1.5) die Schätzgleichungen
{ ∑
1
λ
⊤
falls λ ̸= 0,
∂l(λ, β, σ)
i xi (yi − xi β) = 0,
σ2
=
∑
1
⊤
∂β
i xi (log yi − xi β) = 0, falls λ = 0,
σ2
{
∑
2
− nσ + σ13 i (yiλ − x⊤
falls λ ̸= 0,
∂l(λ, β, σ)
i β) = 0,
=
∑
n
1
⊤
2
∂σ
− σ + σ3 i (log yi − xi β) = 0, falls λ = 0,
und sind deshalb gleich
{
(X ⊤ X)−1 X ⊤ y λ ,
falls λ ̸= 0,
β̂λ =
⊤
−1 ⊤
(X X) X log y, falls λ = 0,
{ ∑
1
2
(y λ − x⊤
falls λ ̸= 0,
1
i β̂λ ) ,
SSEλ (β̂λ ) = n1 ∑i i
σ̂λ2 =
⊤
2
n
i (log yi − xi β̂λ ) , falls λ = 0,
n
wobei y λ (resp. log y) elementeweise gerechnet sind und SSEλ (β̂λ ) die Fehlerquadratsumme
von y λ (resp. log y) an der Stelle β̂λ für ein festes λ bezeichnet. Bemerke, dass wegen der
obigen Reparameterisierung die Fehlerquadratsumme SSEλ (β̂λ ) in λ = 0 unstetig ist.
Substituiert man beide Schätzer in der Log-Likelihood Funktion (1.5) und lässt darin alle
konstanten Terme weg, so erhält man die Profile (Log-) Likelihood Funktion
{
∑
− n2 log SSEλ (β̂λ ) + n log |λ| + (λ − 1) i log yi , falls λ ̸= 0,
pl(λ) = l(λ, β̂λ , σ̂λ ) =
(1.6)
∑
− n2 log SSE0 (β̂0 ) − i log yi ,
falls λ = 0.
)−1/2
(∑
n
2
⊤
.
β̂
)
(y
−
x
Für λ = 1 resultiert z.B. pl(1) = −(n/2) log SSE1 (β̂1 ) = n log
i 1
i=1 i
Obwohl SSEλ (·) in λ = 0 unstetig ist, ist die Profile Likelihood Funktion pl(λ) stetig.
Wegen
∑ (y λ − x⊤ β̂λ )2
∑
n
i
i
pl(λ) = − log
+
(λ
−
1)
log yi
2
λ2
i=1
i=1
n
n
∑
∑
n
2
log yi
= − log
((yiλ − 1)/λ − x⊤
i β̂(λ)) + (λ − 1)
2
i=1
i=1
n
ist limλ→0 pl(λ) = pl(0).
n
4
Wegen {2(pl(λ̂) − pl(λ0 )) ∼ χ21 } beinhaltet ein approximatives Konfidenzintervall für den
Parameter λ all jene Werte von λ0 , für die pl(λ0 ) innerhalb von 12 χ21−α;1 Einheiten vom
Funktionsmaximum entfernt ist (χ20.95;1 = 3.8415, χ20.99;1 = 6.6349).
Ein wichtiger Aspekt dieser Variablentransformation ist, dass auf der transformierten
Skala das Modell die Variation bezüglich des Erwartungswertes der (auf Normalverteilung)
transformierten Variablen repräsentiert, während auf der Originalskala das Modell die
Variation bezüglich des Medians der originalen Variablen darstellt. Dies sieht man am
2
einfachsten für die Log-Transformation (λ = 0). Seien log yi ∼ N (x⊤
i β, σ ), dann gilt
median(log yi ) = x⊤
i β,
⊤
E(log yi ) = xi β,
var(log yi ) = σ 2 .
Die originalen Beobachtungen yi unterliegen selbst einer Lognormalverteilung mit
median(yi ) = exp(x⊤
i β),
2
E(yi ) = exp(x⊤
i β + σ /2),
(
)
2
var(yi ) = exp(σ 2 ) − 1 exp(2x⊤
i β + σ ).
Dies bedeutet, dass das additive Modell für den Erwartungswert (und daher auch für den
Median) der log yi ein multiplikatives Modell für die Mediane und Erwartungswerte der yi
ist. Für die Erwartungswerte von yi wurde der Intercept Term um σ 2 /2 verschoben und
die Varianzen sind nicht mehr konstant.
Für eine Transformation y(λ) = y λ mit λ ̸= 0, also für yiλ ∼ N (µi , σ 2 ), folgt
1/λ
median(yi ) = µi ,
)
1/λ (
E(yi ) ≈ µi
1 + σ 2 (1 − λ)/(2λ2 µ2i ) ,
2/λ
var(yi ) ≈ µi σ 2 /(λ2 µ2i ).
Wiederum ist die offensichtliche Unstetigkeit zwischen λ = 0 und λ ̸= 0 in der Verwendung
von y λ anstelle von (y λ − 1)/λ begründet.
1.3
Beispiel
n = 31 Black Cherry Trees; verwendbares Holzvolumen V in feet3 (1 foot = 30.48 cm),
Baumhöhe H in feet, Durchmesser D in inches (1 inch = 2.54 cm) auf einer Höhe von 4.5
feet über dem Boden. Das Modell sollte das verwendbare Holzvolumen V aus den leicht
zu messenden Größen H und D vorhersagen.
> %in%
> attach(trees); plot(H, V); plot(D, V) # Krümmung (falsche Skala?)
> mod <- lm(V ~ D + H)
V
40
20
20
40
V
60
5
60
1.3. BEISPIEL
8
10
12
14
16
18
20
65
70
75
80
85
H
0
r
0.15
0.05
-5
0.10
leverages
5
0.20
D
0
5
10
15
20
25
30
Index
8
10
12
14
16
18
20
D
Abbildung 1.1: Oben: Volumen gegen Durchmesser (links) und Volumen gegen Höhe
(rechts). Unten: Diagonalelemente der Hatmatrix (links) und Residuen gegen Durchmesser
(rechts) unter dem linearen Modell für V .
Coefficients:
(Intercept)
H
D
-57.98766 0.3392512 4.708161
Degrees of freedom: 31 total; 28 residual
Residual standard error: 3.881832
>
>
>
>
>
plot(lm.influence(mod)$hat, ylab = "leverages") # 2 Hebelpunkte
abline(2*mod$rank/length(V), 0); abline(v = c(20, 31))
plot(residuals(mod), D); abline(0, 0) # Senke in der Mitte
library(MASS, help=T)
boxcox(V ~ D + H, lambda = seq(0.0, 0.6, len=18)) # max = -76.08
Das Maximum der Profile Likelihood Funktion tritt in der Nähe von λ = 0.3 auf. Das
approximative 95% Konfidenzintervall ist sehr klein, etwa (0.12, 0.49), und beinhaltet
weder die Null noch die Eins. Es liegt in der Natur einer Volumenmessung, dass sich diese
kubisch bezüglich den linearen Größen Höhe und Durchmesser verhält. Daher erscheint es
auch sinnvoll, die Kubikwurzel des Volumens als Response zu verwenden.
> plot(D, V**(1/3)) # Krümmung beseitigt
3.5
V^(1/3)
3.0
2.5
-79
-78
95%
-80
log-Likelihood
-77
4.0
-76
6
0.0
0.1
0.2
0.3
0.4
0.5
0.6
8
10
12
14
16
18
20
D
mu^3
V
40
20
20
40
60
60
80
lambda
20
40
60
80
20
mu^3
40
60
80
mu^3 * (1 + (3 * s2)/mu^2)
Abbildung 1.2: Oben: Profile Likelihood Schätzung von λ bei der Box-Cox Transformation
1/3
(links) und Durchmesser gegen die yi (rechts). Unten: Gefittete Mediane gegen originale
Beobachtungen V (links) und gefittete Mediane gegen gefittete Means (rechts).
> mod1 <- lm(V**(1/3) ~ H + D)
Coefficients:
(Intercept)
H
D
-0.08538814 0.01447169 0.1515163
Die gefitteten Mediane von V unter diesem obigen Modell für µ1/3 = E(y 1/3 ) (mit festem
2
λ = 1/3) sind µ̂31/3 , und die gefitteten Erwartungswerte sind etwa µ̂31/3 (1 + 3σ̂1/3
/µ̂21/3 ).
Diese können mit den Beobachtungen y verglichen werden.
>
>
>
>
mu <- fitted(mod1)
s2 <- deviance(mod1)/mod1$df.residual
plot(mu**3, V) # Median Modell
plot(mu**3*(1+3*s2/mu**2), mu**3) # Median/Mean
Andere technische Überlegungen ergeben alternative Modelle. Die unerwünschte Krümmung in der Abbildung 1.1 kann auch durch logarithmische Transformation aller Variablen
7
-77
-78
95%
2.5
-80
-79
3.0
log(V)
3.5
log-Likelihood
-76
4.0
-75
1.3. BEISPIEL
2.2
2.4
2.6
2.8
3.0
-0.2
-0.1
log(D)
0.0
0.1
0.2
lambda
Abbildung 1.3: Links: log V linear abhängig von log D. Rechts: Profile Likelihood Funktion
für V modelliert durch log H + log D.
entfernt werden. Dies legt eine Regression von auf log(D) und log(H) nahe. Soll man jetzt
jedoch auf der log(V ) Achse modellieren?
> plot(log(D), log(V)); lm(log(V) ~ log(D) + log(H))
Coefficients:
(Intercept) log(D)
log(H)
-6.631617 1.98265 1.117123
> boxcox(V ~ log(H) + log(D), lambda = seq(-0.25, 0.25, len = 10))
Die Profile Likelihood Schätzung bei der Box-Box Transformation liefert ein Maximum
bei −0.07 und ein 95% Konfidenzintervall von (−0.24, 0.11), welches zwar die Null (logarithmische Transformation), aber nicht mehr die Kubikwurzeltransformation λ = 1/3
oder die Identität λ = 1 beinhaltet.
Beide Modelle liefern annähernd dieselben Maxima der Profile Likelihood Funktionen.
Welches der beiden ist nun das bessere? Wir können sie durch einen Likelihood Quotienten
Test miteinander vergleichen. Dazu werden die Modelle eingebettet in die Familie
V ∗ ∼ N (β1 + β2 H ∗ + β3 D∗ , σ 2 )
V ∗ = (V λV − 1)/λV
H ∗ = (H λH − 1)/λH
D∗ = (DλD − 1)/λD
Wir vergleichen nun die maximale Likelihood bezüglich λV = 1/3, λH = λD = 1 mit
der maximalen Likelihood des Modells λV = λH = λD = 0. Alle übrigen Parameter
sind hierbei nuisance Parameter und die Likelihood Funktion wird über diese in beiden
Modellen maximiert.
> boxcox(V ~ H + D, lambda = 1/3, plotit=FALSE)
8
$x: 0.3333333
$y: -76.12156
> boxcox(V ~ log(H) + log(D), lambda = 0, plotit=FALSE)
$x: 0
$y: -75.33877
Die doppelte Differenz der beiden Maxima beträgt nur −2 ∗ (−76.122 + 75.339) = 1.566,
was nicht signifikant verglichen mit χ23 ist. Daher können wir auch nicht überzeugend eines
der beiden Modelle wählen.
Bemerke aber, dass der Koeffizient für log H nahe bei Eins (1.117) liegt und der zu log D
fast Zwei (1.983) ist. Nimmt man an, dass man einen Baum durch einen Zylinder oder
Kegel beschreiben kann, so wäre sein Volumen πd2 h/4 (Zylinder) oder πd2 h/12 (Kegel).
In beiden Fällen hätte man ein Modell der Form
log V = c + log H + 2 log D
mit c = log(π/4) (Zylinder) oder c = log(π/12) (Kegel). Jedoch beziehen sich die obigen
Überlegungen auf Messungen auf der gleichen Skala. Wir konvertieren daher zuerst D von
inches auf feet, d.h. wir betrachten D/12. Als Intercept resultiert −1.705.
> lm(log(V) ~ log(D/12) + log(H))
Coefficients:
(Intercept) log(D/12)
log(H)
-1.704917
1.98265 1.117123
Nun fixiert man die beiden Koeffizienten und betrachtet das Modell
log V = β1 + log H + 2 log(D/12)
Hierbei bezeichnet man 1×[log H +2 log(D/12)] als offset (ein Term mit festem Parameter
Eins) und es muss nur noch β1 geschätzt werden.
> mod3 <- lm(log(V) ~ 1 + offset(2*log(D/12) + log(H)))
> summary(mod3)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.19935
0.01421 -84.42
<2e-16 ***
Residual standard error: 0.0791 on 30 degrees of freedom
> log(pi/4)
[1] -0.2415645
> log(pi/12)
[1] -1.340177
Das Holzvolumen eines Baums kann daher eher durch ein Kegelvolumen als durch das
eines Zylinders beschrieben werden, hat jedoch ein etwas größeres Volumen als ein Kegel.
Kapitel 2
Die Exponentialfamilie
Beim Linearen Modell (LM) wird angenommen, dass die abhängigen Variablen (Responses) yi stochastisch unabhängige, normalverteilte Größen sind mit Erwartungen µi = x⊤
i β
2
und konstanter Varianz σ . In manchen Situationen ist die Annahme einer Normalverteilung sicherlich sehr künstlich und nur schwer zu vertreten. Man denke hierbei nur an
Modelle für absolute Häufigkeiten oder relative Anteile. Weiters gibt es datengenerierende Mechanismen, die für größere Erwartungswerte auch größere Variabilität induzieren.
Hierzu zählen beispielsweise Modelle für konstante Variationskoeffizienten. Da bei einem
LM alle Erwartungswerte auf einer Ebene im p-dimensionalen Raum liegen, ist ein solches
LM für nicht-negative oder speziell für binäre Responses sicherlich unpassend.
Wir wollen nun wegen all dieser Schwachstellen die Klasse der Generalisierten Linearen Modelle (GLM) betrachten, die gerade bezüglich der oben angeführten Restriktionen
flexible Verallgemeinerungen anbieten. So wird beim klassischen GLM statt der Normalverteilung eine Verteilung aus der einparametrigen Exponentialfamilie angenommen und
dadurch die Varianz als Funktion des Erwartungswertes modelliert (V ar(yi ) = V (µi )).
Darüberhinaus wird der Erwartungswert nicht ausschließlich direkt linear modelliert, sondern der lineare Prädiktor ηi = x⊤
i β entspricht einer bekannten Funktion g(µi ), der Linkfunktion.
Bevor nun die Exponentialfamilie eingeführt wird, soll an die wesentlichsten Eigenschaften
von Score-Funktionen und Informations-Matrizen bei der Maximum-Likelihood Schätzung
erinnert werden. Dazu bezeichne f (y, θ) die Wahrscheinlichkeitsfunktion oder Dichtefunktion von y mit unbekannten Parametern θ.
Satz 2.1 Für die Ableitung der Log-Likelihood Funktion, d.h. für die Score-Funktion gilt:
(
)
∂ log f (y, θ)
E
= 0,
∂θ
( 2
)
(
)2
∂ log f (y, θ)
∂ log f (y, θ)
= E −
.
E
∂θ
∂θ2
9
(2.1)
(2.2)
10
KAPITEL 2. DIE EXPONENTIALFAMILIE
Mit
∂ log f (y, θ)
1 ∂f (y, θ)
=
∂θ
f (y, θ) ∂θ
∫
und
f (y, θ)dy = 1
R
folgt (2.1), denn
(
)
) ∫
(
∫
∂f (y, θ) 1
∂f (y, θ)
∂
∂ log f (y, θ)
=E
=
E
dy =
f (y, θ)dy = 0 .
∂θ
∂θ f (y, θ)
∂θ
∂θ R
R
Weiters ergibt sich (2.2) mittels Kettenregel
( 2
)
( 2
)
∂ log f (y, θ)
∂ f (y, θ) 1
∂f (y, θ) ∂f (y, θ)
1
E −
= E −
+
∂θ2
∂θ2 f (y, θ)
∂θ
∂θ f (y, θ)2
∫ 2
∫
∂ f (y, θ)
∂ log f (y, θ) ∂ log f (y, θ)
= −
dy +
f (y, θ)dy
2
∂θ
∂θ
∂θ
R
R
(
)2
∂ log f (y, θ)
= E
.
∂θ
Diese Likelihood-Eigenschaften gelten natürlich gerade auch für die Exponentialfamilie,
die jetzt definiert wird.
Definition 2.1 Eine Zufallsvariable y sei aus einer Verteilung mit Dichte- oder Wahrscheinlichkeitsfunktion
(
)
yθ − b(θ)
f (y, θ) = exp
+ c(y, ϕ)
a(ϕ)
für spezielle bekannte Funktionen a(·), b(·) und c(·) mit a(ϕ) > 0. Kann ϕ als feste Größe
betrachtet werden, so bezeichnet man f (y, θ) als einparametrige Exponentialfamilie
mit kanonischem Parameter θ.
Mit (2.1) resultiert bei der Exponentialfamilie
(
)
(
)
1
∂ log f (y, θ)
=
E y − b′ (θ) = 0
E
∂θ
a(ϕ)
also E(y) = b′ (θ) , und mit (2.2) folgt
)
(
( 2
)2
∂ log f (y, θ)
1 ′′
1
∂ log f (y, θ)
+E
=−
b (θ) + 2 var(y) = 0 .
E
2
∂θ
∂θ
a(ϕ)
a (ϕ)
Diese zwei Identitäten ergeben unmittelbar die beiden ersten Momente (Kumulanten) der
Exponentialfamilie
E(y) = b′ (θ)
var(y) = a(ϕ)b′′ (θ) .
11
Kumulanten höherer Ordnung bestimmt man einfacher mit der Kumulantenerzeugenden
Funktion K(t) = log M (t), wobei M (t) die Momentenerzeugende bezeichnet. Die k-te
Kumulante κk ist nun gegeben durch K (k) (t)|t=0 und steht mit dem k-ten Moment in
einer einfachen Beziehung, denn
κ1 (y)
κ2 (y)
κ3 (y)
κ4 (y)
=
=
=
=
E(y)
E(y − µ)2
E(y − µ)3
E(y − µ)4 − 3var2 (y) .
Für die Exponentialfamilie gilt
(
∫
1=
exp
R
)
(
)∫
)
(
yθ − b(θ)
b(θ)
y
+ c(y, ϕ) dy = exp −
θ + c(y, ϕ) dy ,
exp
a(ϕ)
a(ϕ)
a(ϕ)
R
woraus
(
exp
b(θ)
a(ϕ)
)
(
∫
=
exp
R
)
y
θ + c(y, ϕ) dy
a(ϕ)
folgt. Die Momentenerzeugende ist daher gegeben durch
(
)
(
)∫
)
y (
b(θ)
exp
θ + a(ϕ)t + c(y, ϕ) dy
M (t) = E(e ) = exp −
a(ϕ)
a(ϕ)
R
)
)
 (

 (
(
)
b
θ
+
a(ϕ)t
−
b(θ)
b
θ
+
a(ϕ)t
b(θ)
 = exp 
,
= exp −
exp 
a(ϕ)
a(ϕ)
a(ϕ)
ty
und als Kumulantenerzeugende Funktion resultiert
K(t) = log M (t) =
(
)
b θ + a(ϕ)t − b(θ)
a(ϕ)
.
Die k-te Kumulante von y, κk (y), ist somit
(
)
κk (y) = K (k) (t)|t=0 = a(ϕ)k−1 b(k) θ + a(ϕ)t = a(ϕ)k−1 b(k) (θ) .
(2.3)
t=0
Sei E(y) = b′ (θ) = µ und var(y) = a(ϕ)b′′ (θ) = a(ϕ)V (µ). Die Varianz von y ist also ein
Produkt zweier Funktionen:
V (µ) hängt ausschließlich vom Erwartungswert µ ab und a(ϕ) ist von µ unabhängig. V (µ)
nennt man Varianzfunktion, während ϕ als Dispersionsparameter bezeichnet wird.
Die Funktion b(θ) wird Kumulantenfunktion genannt.
12
2.1
Maximum Likelihood Schätzung
Liegt eine n-elementige Zufallsstichprobe y1 , . . . , yn aus der Exponentialfamilie vor, so ist
der Maximum Likelihood Schätzer von µ die Lösung der Score-Funktion
n
∑
∂ log f (yi , θ)
∂µ
i=1
=
n
∑
∂ log f (yi , θ) ∂θ
∂θ
i=1
∂µ
=
n
∑
yi − b′ (θ) ∂θ
i=1
a(ϕ)
∂µ
.
Mit b′ (θ) = µ und wegen
∂µ
∂b′ (θ)
=
= b′′ (θ) = V (µ)
∂θ
∂θ
vereinfacht sich die obige Score-Funktion zu
n
∑
∂ log f (yi , θ)
i=1
∂µ
n
n
∑
∑
yi − µ
yi − µ
=
=
.
a(ϕ)V (µ)
var(y)
i=1
i=1
(2.4)
Diese recht simple Form resultiert bei der Exponentialfamilie nur bezüglich der Ableitung
nach µ. Sie entspricht der Ableitung der Fehlerquadratsumme beim Linearen Modell mit
var(yi ) = σ 2 .
Generell könnten wir annehmen, dass beobachtungsspezifische ai (·) vorliegen, es aber nur
einen globalen Dispersionsparameter ϕ gibt. Falls speziell ai (ϕ) = ai · ϕ mit bekannten
Gewichten ai , hängt der Maximum Likelihood Schätzer µ̂ nicht mehr von ϕ ab.
2.2
Mitglieder der Exponentialfamilie
Wir werden nun einige wichtige Mitglieder dieser Verteilungsfamilie kennen lernen. Dabei
wird eine Parametrisierung verwendet, die den Erwartungswert immer durch µ bezeichnet.
Die Varianzen sind dadurch oft proportional zu Potenzen von µ.
• Die Normalverteilung y ∼ N (µ, σ 2 ):
(
)
1
(y − µ)2
2
f (y, µ, σ ) = √
exp −
2σ 2
2πσ 2
)
(
y2
1
yµ − µ2 /2
2
− 2 − log(2πσ ) ,
y ∈ R.
= exp
σ2
2σ
2
Setzen wir nun θ = µ und ϕ = σ 2 , so führt dies zur Exponentialfamilie mit
a(ϕ) = ϕ ,
b(θ) = θ2 /2 ,
c(y, ϕ) = −
1
y2
− log(2πϕ) ,
2ϕ 2
und mittels (2.3) zu
E(y) = b′ (θ) = θ = µ
var(y) = a(ϕ)b′′ (θ) = ϕ · 1 = σ 2
κk (y) = 0
für k > 2 .
2.2. MITGLIEDER DER EXPONENTIALFAMILIE
13
• Die Poissonverteilung y ∼ P (µ):
f (y, µ) =
µy −µ
e = exp (y log µ − µ − log y!) ,
y!
y = 0, 1, 2, . . . .
Mit θ = log µ und festem ϕ = 1 führt dies zur Exponentialfamilie mit
a(ϕ) = ϕ ,
b(θ) = exp(θ) ,
c(y, ϕ) = − log y! ,
und mittels (2.3) zu den Kumulanten
E(y) = b′ (θ) = exp(θ) = µ
var(y) = a(ϕ)b′′ (θ) = exp(θ) = µ
κk (y) = exp(θ) = µ
für k > 2 .
• Die Gammaverteilung y ∼ G(a, λ):
f (y, a, λ) = exp(−λy)λa y a−1
1
,
Γ(a)
a, λ, y > 0 .
Damit gilt E(y) = a/λ und V ar(y) = a/λ2 . Die Reparametrisierung µ = ν/λ mit ν = a
liefert E(y) = µ und V ar(y) = µ2 /ν. Die entsprechende Dichtefunktion lautet damit
) ( )ν
(
ν
1
ν
y ν−1
f (y, µ, ν) = exp − y
µ
µ
Γ(ν)
(
)
ν
= exp − y + ν log ν − ν log µ + (ν − 1) log y − log Γ(ν)
µ
 ( )

y − µ1 + log µ1
= exp 
+ ν log ν + (ν − 1) log y − log Γ(ν) ,
1/ν
µ, ν, y > 0 .
Mit θ = −1/µ und ϕ = 1/ν führt dies zur Exponentialfamilie mit
a(ϕ) = ϕ ,
b(θ) = − log(−θ) ,
1
1
c(y, ϕ) = log +
ϕ
ϕ
(
)
( )
1
1
− 1 log y − log Γ
ϕ
ϕ
1
E(y) = b′ (θ) = − = µ
θ
1
1
′′
var(y) = a(ϕ)b (θ) = ϕ 2 = µ2
θ
ν
( µ )k
κk (y) = (k − 1)! ν
für k > 2 .
ν
14
• Die Invers-Gaussverteilung y ∼ IG(µ, σ 2 ):
(
(
)2 )
1
y−µ
1
2
f (y, µ, σ ) = √
exp − 2
2σ y
µ
2πσ 2 y 3
( 2
)
(
)
y − 2yµ + µ2 1
2 3
= exp −
− log 2πσ y
2σ 2 yµ2
2
)

 (
y − 2µ1 2 + µ1
(
)
1
1
− 2 − log 2πσ 2 y 3  ,
= exp 
2
σ
2σ y 2
y > 0.
Mit θ = − 2µ1 2 , (µ = (−2θ)−1/2 ) und ϕ = σ 2 ergibt dies eine Exponentialfamilie mit
(
)
(
)
1 1
1/2
3
a(ϕ) = ϕ,
b(θ) = −(−2θ) ,
c(y, ϕ) = −
+ log 2πϕy
2 ϕy
E(y) = b′ (θ) = (−2θ)−1/2 = µ,
var(y) = a(ϕ)b′′ (θ) = ϕ(−2θ)−3/2 = σ 2 µ3 ,
κ3 (y) = 3σ 4 µ5 ,
κ4 (y) = 15σ 6 µ7 .
• Die standardisierte Binomialverteilung my ∼ B(m, π):
( )
m
f (y, m, π) = P (Y = y) = P (mY = my) =
π my (1 − π)m−my
my
)
( ( )
m
+ my log π + m(1 − y) log(1 − π)
= exp log
my
(
( ))
π
1
y log 1−π
− log 1−π
m
1 2
= exp
+ log
, y = 0, , , . . . , 1.
1/m
my
m m
π
Mit θ = log 1−π
, (π = eθ /(1 + eθ )) und ϕ = 1/m ist dies eine Exponentialfamilie mit
(1)
1
a(ϕ) = ϕ,
b(θ) = log
= log(1 + exp(θ)),
c(y, ϕ) = log ϕy ,
1−π
ϕ
exp(θ)
= π,
1 + exp(θ)
exp(θ)
1
var(y) = a(ϕ)b′′ (θ) = ϕ
= π(1 − π) ,
2
(1 + exp(θ))
m
1
1
κ3 (y) =
(1 − 2π)π(1 − π) ,
κ4 (y) = 3 (1 − 6π(1 − π))π(1 − π) .
2
m
m
Das m-fache von y ist eine binomialverteilte Größe, y selbst ein relativer Anteil.
E(y) = b′ (θ) =
2.3. DIE QUASI-LIKELIHOOD FUNKTION
2.3
15
Die Quasi-Likelihood Funktion
Betrachtet man die Score-Funktion (2.4) zur Exponentialfamilie, so erkennt man, dass
der Maximum-Likelihood Schätzer µ̂ nur von der zugrundeliegenden Varianzannahme
abhängt. In diesem Abschnitt wird nun untersucht, welche Eigenschaften ein Schätzer für
µ aufweist, falls die Score-Funktion auch für Varianzannahmen verwendet wird, die keinen
Mitgliedern aus der Exponentialfamilie gehören. Generell spricht man dann von einer
Quasi-Score-Funktion. Ohne Verlust der Allgemeinheit wollen wir dazu annehmen,
dass die Dispersion gegeben ist durch a(ϕ) = ϕ.
Definition 2.2 Für eine Zufallsvariable y mit E(y) = µ und var(y) = ϕV (µ) (mit
a(ϕ) = ϕ) und bekannter Varianzfunktion V (·) ist die Quasi-Likelihood-Funktion
q(y, µ) (eigentlich Log-Quasi-Likelihood-Funktion) definiert über die Beziehung
∂q(y, µ)
y−µ
=
,
∂µ
ϕV (µ)
(2.5)
oder äquivalent dazu durch
∫
q(y, µ) =
µ
y−t
dt + Funktion in y (und ϕ).
ϕV (t)
(2.6)
Die Ableitung ∂q/∂µ wird als Quasi-Score-Funktion bezeichnet. Verglichen mit (2.1)
und (2.2) hat sie folgende Eigenschaften mit der Score-Funktion gemeinsam
(
)
∂q(y, µ)
E
= 0,
∂µ
(
)
( 2
)
∂q(y, µ)
∂ q(y, µ)
var(y)
1
var
=
=
= −E
.
∂µ
ϕ2 V 2 (µ)
ϕV (µ)
∂µ2
(2.7)
(2.8)
Satz 2.2 Wedderburn (1974): Für eine Beobachtung y mit E(y) = µ und var(y) =
ϕV (µ) hat die Log-Likelihood Funktion l(y, µ) = log f (y, µ) die Eigenschaft
y−µ
∂l(y, µ)
=
,
∂µ
ϕV (µ)
dann und nur dann, wenn die Dichte bzw. Wahrscheinlichkeitsfunktion von y in der Form
(
exp
)
yθ − b(θ)
+ c(y, ϕ)
ϕ
geschrieben werden kann, wobei θ eine Funktion von µ und ϕ unabhängig von µ ist.
16
⇒: Integration bezüglich µ liefert
∫
∫
∂l(y, µ)
y−µ
l(y, µ) =
dµ =
dµ
∂µ
ϕV (µ)
∫
∫
y
1
1
µ
=
dµ −
dµ
ϕ
V (µ)
ϕ
V (µ)
| {z }
| {z }
θ
=
b(θ)
yθ − b(θ)
+ c(y, ϕ).
ϕ
⇐: Mit (2.3) folgt für die Kumulanten der einparametrigen Exponentialfamilie (a(ϕ) = ϕ)
E(Y ) = µ = b′ (θ) und var(Y ) = ϕV (µ) = ϕb′′ (θ). Es gilt daher
dµ
db′ (θ)
=
= b′′ (θ) = V (µ).
dθ
dθ
Da aber l(y, µ) = (yθ − b(θ))/ϕ + c(y, ϕ) und θ eine Funktion von µ ist, folgt
∂l(y, µ)
y dθ
b′ (θ) dθ
=
−
∂µ
ϕ dµ
ϕ dµ
y−µ
=
.
ϕV (µ)
Mit dieser Konstruktionsidee wird für einige Varianzfunktionen der assoziierte Parameter
θ hergeleitet, sowie die Quasi-Likelihood-Funktionen bestimmt.
• V (µ) = 1, ϕ = σ 2 , y, µ ∈ R, (d.h. y ∼ N (µ, σ 2 )):
∫
θ =
dµ = µ,
∫ µ
y−t
(y − µ)2
q(y, µ) =
dt
+
Funktion
in
y
=
−
.
σ2
2σ 2
• V (µ) = µ, 0 < µ, 0 ≤ y, (d.h. y ∼ P (µ)):
∫
1
dµ = log µ,
θ =
µ
∫ µ
y−t
q(y, µ) =
dt = y log µ − µ.
t
• V (µ) = µ2 , 0 < µ, 0 ≤ y, (d.h. y ∼ G(µ, 1)):
∫
1
1
dµ
=
−
,
θ =
µ2
µ
∫ µ
y−t
y
q(y, µ) =
dt = − log µ.
2
t
µ
2.3. DIE QUASI-LIKELIHOOD FUNKTION
17
• V (µ) = µ3 , 0 < µ, 0 ≤ y, (d.h. y ∼ IG(µ, 1)):
∫
1
1
dµ = − 2 ,
3
µ
2µ
∫ µ
y−t
y
1
q(y, µ) =
dt = − 2 + .
2
t
2µ
µ
θ =
• V (µ) = µk , 0 < µ, 0 ≤ y, k ≥ 3:
∫
1
1
dµ = −
,
k
µ
(k − 1)µk−1
( 2
)
∫ µ
y−t
1
µ
yµ
.
q(y, µ) =
dt = k
−
tk
µ
k−2 k−1
θ =
• V (µ) = µ(1 − µ), 0 < µ < 1, 0 ≤ y ≤ 1, (d.h. mY ∼ B(m, µ)):
∫
µ
1
dµ = log
,
µ(1 − µ)
1−µ
∫ µ
y−t
µ
q(y, µ) =
dt = y log
+ log(1 − µ).
t(1 − t)
1−µ
θ =
• V (µ) = µ2 (1 − µ)2 , 0 < µ < 1, 0 ≤ y ≤ 1:
∫
θ =
∫
q(y, µ) =
1
µ
1
1
dµ = 2 log
− +
,
2
− µ)
1−µ µ 1−µ
y−t
µ
y
1−y
dt = (2y − 1) log
− −
.
2
2
t (1 − t)
1−µ µ 1−µ
µ2 (1
µ
• V (µ) = µ + µ2 /k, 0 < µ, 0 ≤ y, 0 < k, (d.h. y ∼ N egB(k, µ)):
∫
1
µ
dµ = log
,
2
µ + µ /k
k+µ
∫ µ
µ
1
y−t
dt = y log
+ k log
.
q(y, µ) =
2
t + t /k
k+µ
k+µ
θ =
Während die ersten vier (Normal-, Poisson-, Gamma- und Inverse Gaußverteilung) und
das sechste Beispiel (standardisierte Binomialverteilung) zu bereits bekannten Mitgliedern
der Exponentialfamilie führen, stellen das fünfte sowie das siebente (speziell für Modelle für Prozentsätze) und achte Beispiel (Negativ-Binomialverteilung) neue (nicht in der
Exponentialfamilie inkludierte) Varianzfunktionen dar. Hängt die Varianzfunktion von einem k ab, so muss diese Größe beim Quasi-Likelihood-Ansatz als fest betrachtet werden.
Es besteht (noch) keine Möglichkeit, k simultan mit µ zu schätzen.
18
2.3.1
Quasi-Dichten
Natürlich ist durch die Spezifikation einer Erwartungswert/Varianz-Beziehung auch eine Dichtefunktion spezifizierbar. Aus der (Log)-Quasi-Likelihood Funktion folgt mit der
Normalisierungsfunktion
∫
ω(µ) =
exp(q(y, µ))dy
R
als Quasi-Dichte (siehe dazu Nelder & Lee (1992))
fq (y, µ) =
exp(q(y, µ))
.
ω(µ)
(2.9)
ω(µ) ist ungleich 1, wenn die Varianz ϕV (µ) zu keiner Verteilung mit Dichte oder Wahrscheinlichkeitsfunktion aus der Exponentialfamilie gehört. Andererseits ist ω(µ) = 1, ∀µ,
falls zur Varianz eine Exponentialfamilie existiert.
Zur Quasi-Dichte (2.9) korrespondiert nun die Log-Likelihood Funktion
lq (y, µ) = log(fq (y, µ)) = q(y, µ) − log(ω(µ))
und
∂lq (y, µ)
∂q(y, µ) ∂ log(ω(µ))
=
−
.
∂µ
∂µ
∂µ
Dieser Score unterscheidet sich vom Quasi-Score genau um
∫
∂ log(ω(µ))
∂ exp(q(y, µ))
1 ∂ω(µ)
1
=
=
dy
∂µ
ω(µ) ∂µ
ω(µ)
∂µ
∫
∫
1
∂q(y, µ)
y − µ exp(q(y, µ))
=
exp(q(y, µ))dy =
dy
ω(µ)
∂µ
ϕV (µ)
ω(µ)
)
(
∫
y−µ
y−µ
µq − µ
=
fq (y, µ)dy = Eq
=
.
ϕV (µ)
ϕV (µ)
ϕV (µ)
∫
Hierbei bezeichnet
µq =
yfq (y, µ)dy
den Quasi-Mean von y. Falls µq − µ verglichen mit y − µ sehr klein ist, bedeutet dies, dass
der Maximum-Quasi-Likelihood Schätzer sehr nahe dem Maximum-Likelihood Schätzer
bezüglich der Quasi-Verteilung ist.
Kapitel 3
Das Generalisierte Lineare Modell
Unter Annahme der Existenz von E(yi ) und var(yi ) wird in der Klasse der Generalisierten
Linearen Modelle (GLM) eine Parametrisierung der Form
ind
stochastische Komponente: yi ∼ Exponentialfamilie(θi ), E(yi ) = µi = µ(θi )
systematische Komponente: ηi = x⊤
i β
Linkfunktion: g(µi ) = ηi
betrachtet, wobei der Zufallsvektor y = (y1 , . . . , yn )⊤ aus unabhängigen Komponenten
yi aufgebaut ist mit E(yi ) = µi und var(yi ) = ϕi V (µi ). Die Dispersionsparameter ϕi
sind gerade die Größen ai (ϕ) von zuvor. Es bezeichnet im weiteren xi = (xi1 , . . . , xip )⊤
den Vektor von bekannten erklärenden Variablen, zusammengefasst zu einer Designmatrix X = (x1 , . . . , xn )⊤ , β = (β1 , . . . , βp )⊤ den Vektor mit den unbekannten Parametern,
η = (η1 , . . . , ηn )⊤ den Vektor mit den Linearen Prädiktoren und g(·) eine bekannte Linkfunktion.
Die wesentlichen Unterschiede zum herkömmlichen Linearen Modell sind:
• Es besteht keine allgemeine Additivität bezüglich nicht-beobachtbarer Fehlerterme
ϵi wie beim Linearen Modell,
• Eine Abhängigkeit der Varianzstruktur auch vom Erwartungswert ist möglich,
• Eine Funktion des Erwartungswertes wird linear modelliert. Dies ist keinesfalls zu
verwechseln mit einer einfachen Transformation der Responsevariablen.
Unser Hauptinteresse liegt nun in der Konstruktion eines Schätzers für den Parametervektor β, sowie an einem Maß für die Güte der Modellanpassung. Beides ist für MaximumLikelihood-Schätzer besonders einfach und stellt nur eine Verallgemeinerung der Resultate
für Lineare Modelle dar.
19
20
3.1
KAPITEL 3. DAS GENERALISIERTE LINEARE MODELL
Maximum-Likelihood-Schätzungen
Falls y1 , . . . , yn unabhängige Responses sind und die yi aus derselben Exponentialfamilie stammen mit Parameter (θi , ϕi ), wobei der Vektor θ = (θ1 , . . . , θn )⊤ die unbekannten
Parameter beschreibt welche geschätzt werden sollen, und ϕ = (ϕ1 , . . . , ϕn )⊤ aus (vorerst) bekannten (nuisance) Komponenten besteht, so ist die Log-Likelihood Funktion der
Stichprobe gegeben durch
)
n (
∑
yi θi − b(θi )
l(y, θ) =
+ c(yi , ϕi ) .
ϕi
i=1
Unter der recht allgemeinen Annahme µ = µ(β) folgt aus (2.4) die Score-Gleichung
∂l(y, θ(β)) ∑ yi − µi ∂µi
=
= 0,
∂βj
ϕ
V
(µ
)
∂β
i
i
j
i=1
n
j = 1, . . . , p.
Mit der Definition des linearen Prädiktors gilt beim GLM
∂µ
∂µ ∂η
∂µ
x
=
=
x= ′
∂β
∂η ∂β
∂g(µ)
g (µ)
und deshalb
∂l(y, θ(β)) ∑ yi − µi xij
=
= 0,
′ (µ )
∂βj
ϕ
V
(µ
)
g
i
i
i
i=1
n
j = 1, . . . , p.
(3.1)
Den speziellen Link g(µ) = θ nennt man die kanonische Linkfunktion. Hierbei wird
der Parameter θ direkt durch den linearen Prädiktor η modelliert. In diesem Fall ist g(·)
die Inverse von b′ (·) und wegen µ = b′ (θ) folgt
g ′ (µ) =
∂g(µ)
∂θ
1
1
=
= ′′
=
.
∂µ
∂µ
b (θ)
V (µ)
Die Score-Gleichung (3.1) vereinfacht sich für eine kanonische Linkfunktion zu
∂l(y, θ(β)) ∑ yi − µi
=
xij = 0,
∂βj
ϕi
i=1
n
j = 1, . . . , p.
(3.2)
Für ϕi = ϕ (identische Dispersion) gilt hier bei Modellen mit einem Intercept (xi1 = 1, ∀i)
n
∑
i=1
yi =
n
∑
µi .
i=1
Der Maximum-Likelihood-Schätzer β̂ ist also für den allgemeinen Fall als Lösung des
Gleichungssystems (3.1) oder im kanonischen Fall durch (3.2) definiert. Beide Systeme
3.1. MAXIMUM-LIKELIHOOD-SCHÄTZUNGEN
21
können nur iterativ gelöst werden. Einzige Ausnahme bildet das lineare Modell, in dem µ
linear in β ist. Für alle anderen Situationen ist µ = g −1 (x⊤ β).
Die Newton-Raphson Methode liefert die Iterationsvorschrift
β
(t+1)
=β
(t)
( 2
)−1
∂l(y, θ(β))
∂ l(y, θ(β))
+ −
,
⊤
∂β∂β
∂β
t = 0, 1, . . . ,
(3.3)
wobei beide Ableitungen der rechten Seite von (3.3) an der Stelle β (t) betrachtet werden.
In Matrixnotation folgt für den Scorevektor
∂l(y, θ(β))
= X ⊤ DW (y − µ),
∂β
mit D = diag(di ) und W = diag(wi ), wobei
di = g ′ (µi ),
1/wi = ϕi V (µi )(g ′ (µi ))2 .
Als negative Hessematrix der Log-Likelihood Funktion resultiert somit
(
)
∂ 2 l(y, θ(β))
∂DW
∂µ
⊤
−
= −X
(y − µ) − DW ⊤ X
∂β∂β ⊤
∂η ⊤
∂η
(
)
∂DW
= X⊤ W −
(y − µ) X,
∂η ⊤
wegen ∂µ/∂η = D−1 . Weiters ist
i
i ′
g (µi ) + ϕi V (µi )g ′′ (µi ) ∂µ
ϕi V ′ (µi ) ∂µ
∂di wi
∂ηi
∂ηi
= −
∂ηi
(ϕi V (µi )g ′ (µi ))2
V ′ (µi )g ′ (µi ) + V (µi )g ′′ (µi )
= −
.
ϕi V 2 (µi )g ′ 3 (µi )
Fasst man die Elemente
wi∗ = wi −
(3.4)
∂di wi
(yi − µi )
∂ηi
zusammen zur Diagonalmatrix W ∗ , für die E(W ∗ ) = W gilt, so resultiert als NewtonRaphson Vorschrift
β (t+1) = β (t) + (X ⊤ W ∗ X)−1 X ⊤ DW (y − µ),
t = 0, 1, . . . .
(3.5)
Mit sogenannten Pseudobeobachtungen (adjusted dependent variates)
z = Xβ + W ∗−1 DW (y − µ)
(3.6)
22
kann (3.5) umgeschrieben werden in eine Iterative (Re)Weighted Least Squares
Notation (IWLS- oder IRLS-Prozedur)
β (t+1) = (X ⊤ W ∗ X)−1 X ⊤ W ∗ z,
(3.7)
wobei hier die rechte Seite in β (t) betrachtet wird.
Für kanonische Links (g ′ (µ) = 1/V (µ), g ′′ (µ) = −V ′ (µ)/V 2 (µ)) verschwinden die Ableitungen (3.4), da
∂di wi
V ′ (µi )/V (µi ) − V ′ (µi )/V (µi )
=−
=0
∂ηi
ϕi /V (µi )
und es gilt W ∗ = W . Die Pseudobeobachtungen (3.6) vereinfachen sich deshalb zu
z = Xβ + D(y − µ) = Xβ + V −1 (y − µ),
(3.8)
mit V = diag(V (µi )), weshalb als Iterationsvorschrift
β (t+1) = (X ⊤ W X)−1 X ⊤ W z
(3.9)
folgt.
Zur Erinnerung sei noch darauf hingewiesen, dass
β̂ = (X ⊤ X)−1 X ⊤ y
beim linearen Modell den Least-Squares Schätzer definiert, welcher nicht iterativ gelöst
werden muss (W = I). Weiters werden hier die beobachtbaren Responsevariablen y verwendet, während bei GLM’s nicht-beobachtbare Pseudobeobachtungen z diese Rolle übernehmen.
Um auch für nicht-kanonische Linkfunktionen ein recht einfaches Schema zu haben, ist
es üblich, anstelle der beobachteten negativen Hessematrix in (3.3) deren Erwartungswert (Informationsmatrix) zu verwenden. Da E(X ⊤ W ∗ X) = X ⊤ W X gilt, folgt bei dieser
Fisher Scoring Technik wie in (3.9) wiederum als Iterationsvorschrift
β (t+1) = (X ⊤ W X)−1 X ⊤ W z
mit den Pseudobeobachtungen
z = Xβ + D(y − µ).
Dafür ist E(z) = Xβ und var(z) = Dvar(y)D = W −1 . Dies bedeutet, dass die Gewichte
W gerade die reziproken Varianzen der Pseudobeobachtungen beschreiben.
3.2. ASYMPTOTISCHE EIGENSCHAFTEN DES SCHÄTZERS
3.2
23
Asymptotische Eigenschaften des Schätzers
Um die asymptotischen Momente des Schätzers β̂ herzuleiten, ist es angebracht, die ScoreFunktion um den wahren Parameter β zu entwickeln. Aus
∂ log f (y, µ) ∂ 2 log f (y, µ) ∂ log f (y, µ) (β̂ − β)
0=
≈
+
∂β
∂β
∂β∂β ⊤ β
β̂
β
und nachdem die Ableitung durch deren Erwartungswert −X ⊤ W X ersetzt wurde, folgt
β̂ − β ≈ (X ⊤ W X)−1 X ⊤ DW (y − µ).
Da var(y) = (DW D)−1 ergibt sich daher
E(β̂) ≈ β
var(β̂) ≈ (X ⊤ W X)−1 X ⊤ DW var(y)W DX(X ⊤ W X)−1 = (X ⊤ W X)−1 ,
wobei W im wahren unbekannten Parameter β betrachtet ist. Fahrmeir und Kaufmann
(1985) zeigten sogar, dass
)
√ (
n→∞
n β̂ − β ∼ Np (0, n(X ⊤ W X)−1 ).
(3.10)
3.3
Pearson Statistik
Natürlich ist man nicht nur am asymptotischen Ergebnis für die Varianz-Kovarianzmatrix
von β̂ interessiert, sondern möchte vor allem diese Matrix auch schätzen. Standardmäßig
wird dafür der Plug-in Schätzer verwendet, d.h. der unbekannte Parameter β in W wird
durch β̂ geschätzt und man erhält (ϕi = ai · ϕ)
var(
c β̂) = (X ⊤ W (β̂, ϕ)X)−1 .
(3.11)
Nun hängt W aber auch vom möglicherweise unbekannten Dispersionsparameter ϕ ab. Bei
den linearen Modellen wurde σ 2 durch die biaskorrigierte mittlere Fehlerquadratsumme
1 ∑
σ̂ =
(yi − µ̂i )2
n − p i=1
n
2
geschätzt. In GLM’s mit ϕi = ai · ϕ und festem Dispersionsparameter ϕ = var(yi )/ai V (µi )
ist im Falle eines bekannten Parameters β die Größe
1 ∑ (yi − µi )2
n i=1 ai V (µi )
n
24
erwartungstreu für ϕ. Natürlich ist β unbekannt. Deshalb verwendet man auch basierend
auf die Momentenmethode als Schätzer die biaskorrigierte Größe
1 ∑ (yi − µ̂i )2
1
ϕ̂ =
=
X 2,
n − p i=1 ai V (µ̂i )
n−p
n
(3.12)
welche auch als mittlere (generalisierte) Pearson Statistik X 2 bezeichnet wird und
in (3.11) Verwendung findet. Die einzelnen (nicht quadrierten) Summanden von X 2
yi − µ̂i
ri = √
ai V (µ̂i )
nennt man Pearson Residuen. Diese entsprechen den gewöhnlichen (nicht standardisierten) Residuen yi − µ̂i beim linearen Modell.
3.4
Eigenschaften von Score und Quasi-Score
Für li = log f (yi , θi (β)) resultiert mit g(µi ) = ηi = x⊤
i β
∂li
yi − µi ∂µi
=
,
∂βj
ϕi V (µi ) ∂βj
(
)
∂ 2 li
1
∂µi ∂µi
∂ 2 µi
ϕi V ′ (µi )
1
= −
+ (yi − µi )
+
(y
−
µ
)
,
i
i
∂βj ∂βk
ϕi V (µi )
(ϕi V (µi ))2 ∂βj ∂βk
ϕi V (µi ) ∂βj ∂βk
(
)2
∂li ∂li
yi − µi
∂µi ∂µi
=
,
∂βj ∂βk
mit 1 ≤ j, k ≤ p und
(
)
∂li
E
∂βj
( 2 )
∂ li
E
∂βj ∂βk
(
)
∂li ∂li
E
∂βj ∂βk
i = 1, . . . , n und es folgen dafür als Erwartungswerte
= 0,
1
∂µi ∂µi
,
( 2 )
var(yi ) ∂µi ∂µi
1
∂ li
∂µi ∂µi
=
=
= −E
.
2
(ϕi V (µi )) ∂βj ∂βk
∂βj ∂βk
= −
Unter der Annahme E(Yi ) = µi und var(Yi ) = ϕi V (µi ), wobei wiederum g(µi ) = x⊤
i β gilt,
folgt als Quasi-Score Funktion
∂q(yi , µi (β)) ∂µi
yi − µi xij
∂q(yi , µi (β))
=
=
.
∂βj
∂µi
∂βj
ϕi V (µi ) g ′ (µi )
(3.13)
Dies entspricht genau dem i-ten Summanden aus (3.1). Man spricht auch bei QuasiLikelihood Ansätzen von einer kanonischen Linkfunktion, falls g ′ (µ) = 1/V (µ) gilt, was
3.5. DEVIANCE UND QUASI-DEVIANCE
25
wiederum zum Score-Gleichungssystem (3.2) führt. Die Quasi-Likelihood Schätzung entspricht daher der Maximum-Likelihood Schätzung, vorausgesetzt dass zur angenommenen
Varianz auch ein Mitglied aus der einparametrigen Exponentialfamilie existiert.
Sei qi = q(yi , µi (β)) für i = 1, . . . , n, so gilt für jede Parameterkomponente
(
)
(
)
∂qi
∂qi ∂µi
E
= E
= 0,
∂βj
∂µi ∂βj
( 2
)
)
( 2
∂ qi ∂µi ∂µi
∂qi ∂ 2 µi
1
∂µi ∂µi
∂ qi
= E
+
=−
,
E
2
∂βj ∂βk
∂µi ∂βj ∂βk ∂µi ∂βj ∂βk
)
((
(
)
)2
( 2
)
∂qi ∂qi
∂µi ∂µi
1
∂µi ∂µi
∂ qi
∂qi
E
= E
=
= −E
.
∂βj ∂βk
∂µi
∂βj ∂βk
∂βj ∂βk
3.5
Deviance und Quasi-Deviance
Um die Güte der Modellanpassung zu beschreiben, betrachtet man die Log-LikelihoodQuotienten Teststatistik (likelihood ratio test) basierend auf dem aktuellen Modell mit
p Parametern und einem vollen (saturiertem) Modell, in dem jeder Erwartungswert µi
gerade der Beobachtung yi entspricht. Das volle Modell kann daher als Modell mit n
Parametern interpretiert werden. Diese Statistik
(
)
1
D(y, µ) = −2 log f (y, µ) − log f (y, y)
ϕ
(3.14)
wird auch skalierte Deviance genannt. Nun gilt für den Maximum-Likelihood Schätzer
µ̂, welcher log f (y, µ) maximiert, dass dieser auch die Deviance minimiert, da log f (y, y)
ein fester Wert unabhängig vom Parameter ist. Wie die folgenden Beispiele zeigen, ist das
Maß der Deviance eine Verallgemeinerung der Fehlerquadratsumme beim linearen Modell
unter Annahme normalverteilter Responses.
ind
Beispiel: Seien yi ∼ N (µi , σ 2 ) und σ 2 fest. So ist
}
n {
n
∑
1
1 (yi − µi )2
n
1 ∑ (yi − µi )2
2
2
log f (y, µ) =
− log(2πσ ) −
= − log(2πσ ) −
2
2
σ2
2
2 i=1
σ2
i=1
n
log f (y, y) = − log(2πσ 2 ),
2
wobei die zweite Größe den maximal möglichen Wert unter dem vollen Modell beschreibt.
Die minimierte skalierte Deviance ist somit (ϕ = σ 2 )
n
1 ∑
1
1
D(y, µ̂) = 2
(yi − µ̂i )2 = 2 SSE(β̂),
ϕ
σ i=1
σ
also eine χ2n−p -verteilte Größe mit Erwartungswert n − p.
26
ind
Beispiel: Seien mi yi ∼ B(mi , µi ) mit yi = 0, 1/mi , 2/mi , . . . , 1, dann folgt
n {
∑
(
)}
µi
1
mi
log f (y, µ) =
mi yi log
− mi log
+ log
1
−
µ
1
−
µ
mi y i
i
i
i=1
(
)}
n {
∑
1
yi
mi
− mi log
+ log
log f (y, y) =
mi yi log
1 − yi
1 − yi
mi y i
i=1
und als skalierte Deviance folgt mit ϕ = 1 und ai (ϕ) = 1/mi
)
}
(
n {
∑
1 − yi
1 − yi
1
µi
D(y, µ) = −2
− mi log
mi yi log + log
ϕ
yi
1 − µi
1 − µi
i=1
{
}
n
∑
1 − yi
yi
= 2
mi (1 − yi ) log
+ yi log
1 − µi
µi
i=1
Bemerke, dass für yi = 0 oder yi = 1 unabhängig von µ der dazugehörende Teil in der
Deviance-Komponente verschwindet.
Entsprechend kann man auch eine Quasi-Deviance definieren als
n ∫
)
∑
D(y, µ) = −2ϕ q(y, µ) − q(y, y) = −2
(
i=1
µi
yi
y−t
dt.
V (t)
(3.15)
Diese Größe ist positiv außer an der Stelle y = µ. Natürlich erzeugt auch hier der
Maximum-Quasi-Likelihood Schätzer die minimale Quasi-Deviance.
Beispiel: Liegen Prozentwerte yi als Responses vor (d.h. man hat keine Informationen über die entsprechenden Gesamtanzahlen), für die eine standardisierte Binomialverteilungs-Variabilität µ(1 − µ) zu groß erscheint, so kann alternativ als Varianzfunktion
V (µ) = µ2 (1 − µ)2 verwendet werden. Als Quasi-Likelihood Funktion erhält man für
0 < µ < 1 und 0 ≤ y ≤ 1
∫ µ
µ
y
1−y
y−t
dt = (2y − 1) log
− −
.
q(y, µ) =
2
2
t (1 − t)
1−µ µ 1−µ
Die entsprechende Quasi-Deviance ist daher
D(y, µ) = −2
n {
∑
i=1
(
1 − yi
yi )
yi − µi
(2yi − 1) log
− log
+ (2µi − 1)
1 − µi
µi
µi (1 − µi )
}
.
Bemerke, dass jetzt in yi = 0 und yi = 1 die Quasi-Deviance nicht einmal definiert ist, der
Maximum-Quasi-Likelihood Schätzer β̂ in diesem Fall jedoch sehr wohl existiert. Dieser ist
wiederum definiert als iterative Lösung des Quasi-Score Gleichungssystems q(y, µ(β̂)) = 0,
das für die beiden kritischen Beobachtungen unproblematisch ist.
3.6. PARAMETERTESTS
3.6
27
Parametertests
Wie schon bei den linearen Modellen können auch jetzt wiederum die Parameter über
das Konzept der nested models (ineinandergeschachtelte Submodelle) getestet werden.
Dies entspricht dem Testen von Hypothesen der Form
H0 : η = βq+1 xq+1 + · · · + βp xp
H1 : η = β1 x1 + · · · + βq xq + βq+1 xq+1 + · · · + βp xp
(q < p) oder äquivalent dazu einem (multiplen) Test der Hypothese
H0 : β 1 = · · · = β q = 0
H1 : β1 , . . . , βq beliebig.
Das Modell unter H0 ist ein Untermodell von dem unter H1 , das man erhält indem die
ersten q < p Parameter Null gesetzt werden. Bezeichnen µ̂0 und µ̂1 die geschätzten Erwartungsvektoren unter diesen beiden Modellen, so ist die Likelihood-Quotienten Teststatistik
(
) 1(
)
−2 log f (y, µ0 ) − log f (y, µ1 ) =
D(y, µ0 ) − D(y, µ1 ) ,
ϕ
gerade die Deviance-Reduktion, welche daher asymptotisch χ2 -verteilt ist mit q Freiheitsgraden. Ist ϕ unbekannt, so verwendeten wir wie bei den linearen Modellen die Teststatistik
SSE(µ̂0 ) − SSE(µ̂1 )
∼ Fq,n−p ,
σ̂ 2 q
wobei ϕ durch σ̂ 2 bezüglich des komplexesten Modells geschätzt wird. Ein analoges Vorgehen in GLM’s impliziert die Verwendung von Deviancen anstelle der Fehlerquadratsummen SSE.
3.7
Beispiel: Konstante Varianz
Im Beispiel über das Holzvolumen von Bäumen aus dem Kapitel 1 wurde die Responsevariable V einer Box-Cox Transformation unterzogen. Für beide Modelle wurde dann angenommen, dass die transformierte Response V 1/3 oder log V aus einer Normalverteilung
stammt. Alternativ dazu könnte man auch annehmen, dass V selbst bereits normalverteilt
ist mit Erwartungswert µ und dass dieser Erwartungswert jedoch einem Generalisierten
Linearen Modell folgt; d.h. g(µ) = η.
Unter der Annahme einer Normalverteilung (konstante Varianz) für V betrachten wir
zuerst das Modell mit der Linkfunktion g(µ) = µ1/3 = η (bzw. µ = η 3 ), wobei der lineare
Prädiktor durch η = β1 + β2 D + β3 H spezifiziert ist.
> attach(trees)
28
> glm(V ~ D + H, family = quasi(link=power(1/3), variance="constant"),
trace=T, epsilon=1e-8, maxit=15)
Deviance = 185.3623 Iterations - 1
Call:
glm(formula = V ~ D + H, family = quasi(link = power(1/3),
variance = "constant"), trace = T, epsilon = 1e-08, maxit = 15)
Coefficients:
(Intercept)
-0.05132
D
0.15033
H
0.01429
Degrees of Freedom: 30 Total (i.e. Null);
Null Deviance:
8106
Residual Deviance: 184.2
AIC: NA
28 Residual
Dieses Ergebnis ist fast identisch den entsprechenden Resultaten aus dem Beispiel in 1.3.
Wir können auch einen Log-Link anstelle der Annahme einer Lognormal-Verteilung für
V verwenden, also die Linkfunktion g(µ) = log µ = η (bzw. µ = exp(η)), jetzt für den
linearen Prädiktor η = β1 + β2 log D + β3 log H. Der folgende Aufruf nutzt die kürzere
family=gaussian Spezifikation, und spezifiziert nur noch dafür den log-Link.
> glm(V ~ log(D) + log(H), family = gaussian(link=log))
Call:
glm(formula = V ~ log(D) + log(H), family = gaussian(link = log))
Coefficients:
(Intercept)
-6.537
log(D)
1.997
log(H)
1.088
Degrees of Freedom: 30 Total (i.e. Null); 28 Residual
Null Deviance:
8106
AIC: 150.4
Diese Schätzer entsprechen jenen aus dem Modell unter der Lognormal-Verteilung. Die
Deviance ist etwas geringer als beim obigen Ansatz.
3.8
Beispiel: Gamma-Varianz
Ein Feldversuch über Verfahren zur Kontrolle von Insekten produziert n = 140 Insektenanzahlen (counts) von zwei unabhängigen Wiederholungen (plots) in jedem der 10
Blöcke (block) für jedes der sieben Verfahren (treatment). Dabei können die plots als
3.8. BEISPIEL: GAMMA-VARIANZ
29
Replikationen innerhalb der (7 × 10 = 70) Zellen der treatment:block Klassifikation
(Interaktion, Wechselwirkung) betrachtet werden.
>
>
>
>
>
>
>
insects
<- read.table("insects.dat")
block
<- factor(rep(1:10, len=140)); block
plot
<- factor(rep(rep(1:2, each=10), times=7)); plot
treatment <- factor(rep(1:7, each=20)); treatment
insects <- data.frame(insects, data.frame(treatment, plot, block))
colnames(insects) <- c("counts", "treatment", "plot", "block")
attach(insects)
Welche Verteilung liegt den Daten zugrunde? In einer ersten Prüfung betrachten wir in
jeder der 70 Zellen das Mittel der beiden counts und deren Standardabweichungen. Wir
prüfen dazu die Residuen r eines linearen Models unter Normalverteilungsannahme für die
counts. Das Histogramm der Residuen sieht gut aus (symmetrisch), während der QQ-Plot
etwas längere Schwänze in der empirischen Verteilung zeigt als es bei der Normalverteilung der Fall ist (siehe Abbildung 3.1 oben). Auch im Scatterplot der Residuen gegen die
angepassten Werte sieht man eine leicht zunehmende Dispersion der Residuen. Da gerade
2 Beobachtungen je Zelle vorliegen, ist dieser Plot symmetrisch um Null. Einfacher ist
dies im Scatterplot der empirischen Momente zu erkennen (siehe Abbildung 3.1 zweite
Zeile, rechts). Deutlich ist ein linearer Zuwachs der Standardabweichungen für wachsende Mittelwerte zu sehen, wenn man diese Schätzungen treatment-spezifisch durchführt
und die resultierenden 7 Punkte darstellt (wie in der Abbildung 3.1 unten). Da die Standardabweichungen proportional den Mittelwerten zu sein scheinen, liegt ein quadratisches
Modell für die Varianz der counts nahe. Dies erfüllt gerade die Gammaverteilung.
>
>
>
>
>
>
>
>
>
>
>
i.lm <- lm(counts ~ treatment*block)
r <- residuals(i.lm); f <- fitted(i.lm)
hist(r); qqnorm(r); qqline(r)
plot(f, r, xlab="fitted means"); abline(0,0)
cell.mean <- tapply(counts, list(treatment, block), mean); cell.mean
1
2
3
4 5
6
7
8
9
10
1 25.0 39.0 33.0 9.5 16 20.0 28.0 22.0 20.0 29.0
2 7.5 18.5 14.0 8.5 9 16.0 20.5 23.0 18.0 14.5
3 7.0 21.0 25.5 7.0 11 17.0 31.5 33.0 27.5 22.5
4 13.0 15.0 12.0 6.5 8 12.0 27.0 12.0 28.0 12.0
5 15.0 12.0 14.0 4.5 16 13.0 29.5 22.5 17.5 34.0
6 15.0 9.5 25.0 4.5 14 11.5 18.0 15.5 20.0 19.5
7 40.5 64.5 41.5 15.5 25 35.5 36.5 48.0 47.5 51.5
cell.sd
<- tapply(counts, list(treatment, block), sd); cell.sd
plot(cell.mean, cell.sd); abline(mean(cell.sd), 0)
abline(lsfit(as.vector(cell.mean), as.vector(cell.sd)))
trt.mean <- tapply(counts, treatment, mean)
trt.sd
<- tapply(counts, treatment, sd)
plot(trt.mean, trt.sd); abline(lsfit(trt.mean, trt.sd))
r
0
-15
-10
5
-5
10
0
15
5
20
10
25
15
30
-15
-10
-5
0
5
10
15
-2
-1
r
0
1
2
10
cell.sd
0
0
-15
-10
5
-5
r
5
15
10
20
15
Quantiles of Standard Normal
10
20
30
40
50
60
10
20
30
40
50
60
cell.mean
8
10
trt.sd
12
14
fitted means
15
20
25
30
35
40
trt.mean
Abbildung 3.1: Oben: Histogramm der Residuen r aus dem linearen Modell für die counts
(links) und deren QQ-Plot (rechts). Mitte: Residuen gegen arithmetische Mittel in den
Zellen (links) und zellspezifische Standardabweichungen gegen Mittelwerte (rechts). Unten: treatment-spezifische Standardabweichungen gegen Mittelwerte.
31
Die reparametrisierte Form der Gammaverteilung G(µ, ϕ) hat außer dem Erwartungswert
µ auch einen Dispersionsparameter ϕ, der durch die mittlere Pearsonstatistik bzgl. eines
sinnvoll gewählten Maximalmodells (hier: treatment*block) geschätzt wird. Der kanonische Link der Gammaverteilung (in den Programm-Paketen als Defaultlink gesetzt) ist
die reziproke (inverse) Funktion. Da hier keine Nullcounts vorliegen, hat man mit diesem
Link auch keine Probleme bei der Analyse.
Die Stufen der beiden Faktoren im Modell sollen derart kodiert werden, dass die Parameter der Faktorstufen die Abweichungen von der ersten Stufe (treatment=1, block=1)
beschreiben.
> i.glmmax <- glm(counts ~ treatment * block, family = Gamma)
> summary(i.glmmax)
Coefficients:
(Intercept)
0.0400000 0.0118806
3.367 0.00124 **
treatment2
0.0933333 0.0413458
2.257 0.02711 *
treatment3
0.1028571 0.0440627
2.334 0.02245 *
treatment4
0.0369231 0.0257517
1.434 0.15608
treatment5
0.0266667 0.0230918
1.155 0.25209
treatment6
0.0266667 0.0230918
1.155 0.25209
treatment7
-0.0153086 0.0139618 -1.096 0.27663
block2
-0.0143590 0.0141120 -1.017 0.31242
block3
-0.0096970 0.0149050 -0.651 0.51744
block4
0.0652632 0.0334460
1.951 0.05502 .
block5
0.0225000 0.0220398
1.021 0.31083
block6
0.0100000 0.0190183
0.526 0.60068
block7
-0.0042857 0.0159271 -0.269 0.78866
block8
0.0054545 0.0179838
0.303 0.76256
block9
0.0100000 0.0190183
0.526 0.60068
block10
-0.0055172 0.0156859 -0.352 0.72609
treatment2:block2 -0.0649203 0.0450026 -1.443 0.15360
:
treatment7:block10 0.0002434 0.0182508
0.013 0.98940
--(Dispersion parameter for Gamma family taken to be 0.1764366)
Null deviance: 59.825
Residual deviance: 16.115
AIC: 1033.1
on 139
on 70
degrees of freedom
degrees of freedom
Number of Fisher Scoring iterations: 6
Der Dispersionsparameter wird nun aus diesem Modell geschätzt und für die weiteren
Modelle festgehalten.
> r <- residuals(i.glmmax, type = "pearson") # Pearson Residuals
32
> s.glmmax <- summary(i.glmmax) # generate summary object
> (df.max <- s.glmmax$df[2]) # [1]=#(parameters), [2]=df
70
> (scale <- sum(r^2)/df.max) # mean Pearson statistic
0.1764366
> (dev.max <- s.glmmax$deviance/scale) # scaled Deviance
91.33322
> plot(f, r, vlab = "fitted means"); abline(0, 0)
Eine Vorgabe für den Wert des Dispersionsparameter kann nicht direkt in glm gemacht
werden, jedoch ist dieses Fixieren durch summary(glm.object, dispersion = scale)
möglich. Dies hat jedoch keinen Einfluss auf die (Residual) Deviance, die immer unskaliert
ausgegeben wird.
Prüft man die Residuen zu diesem Modell, so scheinen sich diese jetzt gerade anders zu
verhalten. Deren Variabilität scheint jetzt mit den Means abzunehmen (siehe Abbildung
3.2 links). Möglicherweise ist doch die Varianz der Gammaverteilung zu groß gewählt.
Wir wollen aber dabei bleiben und eine Analysis of Deviance Tabelle konstruieren, um
den Grad der Erklärung der beiden Faktoren zu prüfen. Als Teststatistiken für Modellvergleiche müssen wir die Differenzen der (durch den selben Dispersionsparameter scale)
skalierten Deviancen (Likelihood-Quotienten-Tests) verwenden.
>
>
>
>
>
>
# main effects model
i.glmmain <- glm(counts ~ treatment + block, family = Gamma)
s.glmmain <- summary(i.glmmain)
(df.main <- s.glmmain$df[2]) # 124
(dev.main <- s.glmmain$deviance / scale) # 153.5404
1 - pchisq(dev.main - dev.max, df.main - df.max) # 0.207146
>
>
>
>
>
>
# treatment main effect only
i.glmt <- glm(counts ~ treatment, family=Gamma)
s.glmt <- summary(i.glmt)
(df.t <- s.glmt$df[2]) # 133
(dev.t <- s.glmt$deviance / scale) # 235.8278
1 - pchisq(dev.t - dev.main, df.t - df.main) # 5.67324e-14
>
>
>
>
>
>
# block main effect only
i.glmb <- glm(counts ~ block, family = Gamma)
s.glmb <- summary(i.glmb)
(df.b <- s.glmb$df[2]) # 130
(dev.b <- s.glmb$deviance / scale) # 248.4377
1 - pchisq(dev.b - dev.main, df.b - df.main) # 0
Mit diesen Modellen ist es nun möglich, die gesamte Analysis of Deviance zu rechnen. Die
beiden Haupteffekte block und treatment sind hoch signifikant, während die Interaktion
33
treatment:block auf dem Niveau p > 0.2 zu vernachlässigen ist. Wir erhalten im Detail:
1)
2)
(2-1)
3)
(3-2)
4)
(4-2)
Modell
skalierte Deviance
df
Haupteffekte und Interaktionen
91.33 70
beide Haupteffekte
153.54 124
Test auf Interaktionen
62.21 54
nur Behandlungseffekt
235.83 133
Test auf Behandlungseffekt
82.29
9
nur Blockeffekt
248.44 130
Test auf Blockeffekt
94.90
6
p
0.207
5.67e-014
0
Tabelle 3.1: Analysis of Deviance Tabelle des Gammamodells mit reziprokem Link.
Viel einfacher ist es, dafür wiederum die Funktion anova( ) zu verwenden. Diese liefert äquivalent dazu die passende Zerlegung des maximalen Modells. Durch die Angabe dispersion=scale wird als Dispersion die Größe scale verwendet. Dies entspricht
eigentlich der Defaultoption, denn scale ist in diesem Beispiel gerade der geschätzte
Dispersionsparameter des betrachteten Modells.
> anova(glm(counts ~ treatment * block, family = Gamma), dispersion=scale,
test="Chisq")
Analysis of Deviance Table
Model: Gamma, link: inverse
Response: counts
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev P(>|Chi|)
NULL
139
59.825
treatment
6
18.217
133
41.609 5.267e-20
block
9
14.519
124
27.090 5.669e-14
treatment:block 54
10.976
70
16.115
0.207
Möchte man den Dispersionsschätzer frei schätzen, dann sollte besser als Option test="F"
verwendet werden. Hier liefert dies
> anova(glm(counts ~ treatment * block, family = Gamma), test="F")
Model: Gamma, link: inverse
Response: counts
Terms added sequentially (first to last)
NULL
139
59.825
treatment
6
18.217
133
41.609 17.208 4.124e-12 ***
block
9
14.519
124
27.090 9.143 5.234e-09 ***
treatment:block 54
10.976
70
16.115 1.152
0.2868
34
Wir bleiben beim Modell mit den beiden Haupteffekten (ohne Interaktion) und verwenden
den Dispersionsschätzer vom maximalen Modell. Aus dem summary Objekt s.glmmain
erhält man u.a. auch die Parameterschätzer und deren geschätzten Eigenschaften.
> s.glmmain$coefficients
Estimate
(Intercept) 0.049673203
treatment2
0.023936588
treatment3
0.007280651
treatment4
0.025692224
treatment5
0.013774690
treatment6
0.022682067
treatment7 -0.015040997
block2
-0.015768459
block3
-0.012901944
block4
0.065790437
block5
0.012934969
block6
-0.000837096
block7
-0.017670453
block8
-0.015128536
block9
-0.015588740
block10
-0.016378610
Std. Error
0.006789474
0.006967469
0.005646622
0.007112368
0.006147877
0.006864447
0.004184305
0.007095390
0.007319928
0.014768088
0.009576332
0.008333513
0.006951687
0.007144759
0.007109207
0.007048774
t value
7.3162084
3.4354780
1.2893817
3.6123303
2.2405604
3.3042817
-3.5946225
-2.2223526
-1.7625780
4.4549055
1.3507227
-0.1004493
-2.5418944
-2.1174314
-2.1927536
-2.3236113
Pr(>|t|)
2.784915e-11
8.052590e-04
1.996653e-01
4.392207e-04
2.683468e-02
1.245054e-03
4.671507e-04
2.807256e-02
8.043550e-02
1.851507e-05
1.792440e-01
9.201498e-01
1.225720e-02
3.622055e-02
3.019127e-02
2.177421e-02
Die unter diesem Modell geschätzten treatment Mittel und ihre (punktweisen) 95% Konfidenzgrenzen können für jeden block berechnet werden. Wir nehmen block 1 und machen
eine Vorhersage für alle treatment. Verzichtet man jetzt auf den ursprünglichen Dispersionsparameter und verwendet den zu diesem Modell aktuellen, führt dies zu den Means
mit Konfidenzlimits in der Abbildung 3.2 rechts.
> new.i <- data.frame(treatment = factor(1:7), block = factor(rep(1,7)))
> new.i
treatment block
1
1
1
2
2
1
3
3
1
4
4
1
5
5
1
6
6
1
7
7
1
> i.pred <- predict.glm(i.glmmain, newdata = new.i, type = "response",
se.fit = T); i.pred
> fit
<- i.pred$fit
> upper <- fit + qt(0.975, df.main)*i.pred$se.fit
> lower <- fit - qt(0.975, df.main)*i.pred$se.fit
> fit
35
1
2
3
4
5
6
7
20.13158 13.58515 17.55807 13.26868 15.76096 13.82069 28.87486
> lower
1
2
3
4
5
6
7
14.68531 10.58549 13.18339 10.36520 12.04814 10.74824 18.58768
> upper
1
2
3
4
5
6
7
25.57785 16.58481 21.93276 16.17217 19.47379 16.89314 39.16203
> plot(new.i$treatment, upper, style="box", xlab="Treatment",
ylab="mean count", ylim=c(0.0,40.0), main="Block 1")
> par(new=TRUE); plot(new.i$treatment, fit, style="box", ylim=c(0.0,40.0))
> par(new=TRUE); plot(new.i$treatment, lower, style="box", ylim=c(0.0,40.0))
Wie es scheint sind die Treatment Unterschiede hauptsächlich auf die geringeren Effektivitäten der Treatments 1 und 7 zurückzuführen. Dabei hat es den Anschein, dass die
mit Treatment 7 (einziger negativer Treatmentparameter) behandelten Einheiten die mit
Abstand höchste Anzahl von Insekten aufweist. Aus der Tabelle mit den geschätzten Koeffizienten ist ersichtlich, dass sich für alle übrigen Blöcke zwar dasselbe Muster ergibt
(da keine Wechselwirkungen im Modell), jedoch die Blöcke 4 und 5 wegen des verwendeten reziproken Links (µ = 1/η) im Mittel geringere Anzahlen als Block 1 aufweisen. Alle
übrigen Blöcke (negative Blockparameter) ziehen sogar etwas mehr Insekten an als der
Block 1 (neutraler Nullparameter: Referenzkategorie).
30
20
mittlere Anzahl
0.0
r
0.5
40
Block 1
x
x
x
x
x
x
0
-0.5
10
x
10
20
30
40
f
50
60
Trtm1
Trtm2
Trtm3
Trtm4
Trtm5
Trtm6
Trtm7
Treatment
Abbildung 3.2: Pearson Residuen r aus dem (maximalen) Gammamodell gegen die vorhergesagten Erwartungswerte f (links). Geschätzte Erwartungswerte mit 95% Konfidenzlimits für das Gammamodell mit Haupteffekten am Beispiel Block 1(rechts).
36
Kapitel 4
Logistische Regression
ind
Seien dazu mi yi ∼ Binomial(mi , µi ). Wie bereits gezeigt, gilt dafür
exp(θi )
= µi
1 + exp(θi )
1
exp(θi )
1
var(yi ) = ϕi b′′ (θi ) =
=
µi (1 − µi )
2
mi (1 + exp(θi ))
mi
E(yi ) = b′ (θi ) =
und als kanonische Linkfunktion (g = (b′ )−1 ) resultiert der Logitlink
logit(µ) = log
mµ
µ
= log
= θ = η,
1−µ
m − mµ
also
µ=
exp(η)
.
1 + exp(η)
Diese Bezeichnung bezieht sich auf die Verteilungsfunktion einer logistisch verteilten Zufallsvariablen mit Dichte
exp((y − µ)/τ )
f (y|µ, τ ) = (
)2 .
τ 1 + exp((y − µ)/τ )
(4.1)
Bezeichnen X1 und X2 zwei unabhängige Exponential(1)-verteilte Zufallsvariablen, so ist
die Dichte von Y = log(X1 /X2 ) gleich
f (y) = (
exp(y)
)2 ,
1 + exp(y)
sowie
F (y) =
exp(y)
1 + exp(y)
und die Verteilungsfunktion F (y) entspricht dem inversen Logitlink.
Prinzipiell kann in dieser Modellklasse wegen µ = g −1 (η) und 0 < µ < 1 anstelle des
inversen Logitlinks auch eine beliebige andere Verteilungsfunktion verwendet werden. So
spricht man beispielsweise bei der Wahl g −1 (η) = Φ(η) vom Probitmodell.
37
38
KAPITEL 4. LOGISTISCHE REGRESSION
Als Log-Likelihood Funktion und für die (skalierte) Deviance erhält man
(
)}
n {
∑
µi
1
mi
l(y, µ) =
mi yi log
− mi log
+
,
1 − µi
1 − µi
mi y i
i=1
{
}
n
∑
1 − yi
yi
D(y, µ) = 2
mi (1 − yi ) log
+ yi log
.
1 − µi
µi
i=1
Ein Spezialfall der logistischen Regression ist die Modellierung binärer Daten yi ∈ {0, 1}
(mi = 1 für alle i). Hier gilt für den relevanten Teil der Log-Likelihood Funktion
{
log(1 − µi ) für yi = 0 ,
l(yi , µi ) =
log µi
für yi = 1
und
{
D(yi , µi ) =
−2 log(1 − µi ) für yi = 0 ,
−2 log µi
für yi = 1 .
Das Deviance-Inkrement D(yi , µi ) beschreibt also den Anteil einer binären Beobachtung
an der Log-Likelihood Funktion der Stichprobe
l(y, µ) =
n
∑
i=1
4.1
1∑
l(yi , µi ) = −
D(yi , µi ) .
2 i=1
n
Toleranzverteilungen – Linkfunktionen
Historisch gesehen entwickelten sich die Modelle für binäre Responses aus der Notwendigkeit einer experimentellen Untersuchung, dem biologischen Assay oder kurz Bioassay. Typischerweise wurde hierbei die Wirkung verschiedener Konzentrationen einer chemischen
Verbindung in Tierversuchen erprobt. Die Anzahl der Tiere, welche darauf angesprochen
haben wurde aufgezeichnet und als Realisierung einer binomialen Response betrachtet.
So wird zum Beispiel in einem insektentötenden Versuch ein spezielles Insektizid in mehreren bekannten Konzentrationen auf Insektengruppen (batches) von bekannten Umfängen
angewendet. Falls einer Insektengruppe eine sehr niedrige Dosis verabreicht wird, wird
wahrscheinlich keines dieser Insekten daran sterben. Wird jedoch einer anderen Insektengruppe eine sehr hohe Dosis gegeben, so werden sehr viele (wenn nicht alle) daran sterben.
Ob nun ein spezielles Insekt bei einer gegebenen Dosis verstirbt oder nicht, hängt von der
Toleranz dieses Individuums ab. Insekten mit einer geringen Toleranz werden bei einer
gewissen Dosis eher sterben als andere mit einer großen Toleranz.
Nun nimmt man an, dass es für die gesamte Insektenpopulation (aus der auch die Versuchstiere stammen) eine Verteilung der Toleranzstufen gibt. Insekten mit einer Toleranz
kleiner als di werden bei einer verabreichten Dosis di daran sterben. Sei U die Zufallsvariable, welche mit der Toleranzverteilung assoziiert ist, und sei u die Toleranz eines speziellen
4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN
39
Tieres. Die entsprechende Dichtefunktion sei f (u). Somit ist die Wahrscheinlichkeit eines
Insektes, bei einer Dosis di daran zu sterben, gegeben durch
∫
pi = P (U ≤ di ) =
di
f (u) du.
−∞
Falls nun die Toleranzen normalverteilt sind mit Erwartungswert µ und Varianz σ 2 folgt
dafür
(
)
di − µ
pi = Φ
.
σ
Bezeichnet β1 = −µ/σ und β2 = 1/σ, so erhält man
pi = Φ (β1 + β2 di ) ,
oder
probit(pi ) = Φ−1 (pi ) = β1 + β2 di ,
also ein Probitmodell für die Beziehung zwischen der Sterbewahrscheinlichkeit pi und
der dafür verabreichten Dosis des Insektizids di .
Für U logistisch verteilt mit Dichte (4.1), wobei E(U ) = µ und var(U ) = π 2 τ 2 /3, so
entspricht dies
∫
pi = P (U ≤ di ) =
di
−∞
exp((di − µ)/τ )
.
)2 du =
1 + exp((di − µ)/τ )
τ 1 + exp((u − µ)/τ )
(
exp((u − µ)/τ )
Mit β1 = −µ/τ und β2 = 1/τ wie zuvor folgt
pi =
exp(β1 + β2 di )
1 + exp(β1 + β2 di )
oder
logit(pi ) = β1 + β2 di .
Die Annahme einer logistischen Toleranzverteilung führt zu einem logistischen Modell
für pi .
4.1.1
Beispiel (Venables & Ripley, Seite 218)
Untersucht wird die Wirkung eines Giftes auf einen Wurm, der die Knospen von Tabakpflanzen schädigt. Gruppen zu je 20 Motten beiderlei Geschlechts (sex) wurden dazu
drei Tage lang verschieden hohe Dosen eines Giftes ausgesetzt und die Anzahl der daran
verstorbenen Tiere wurde gezählt.
Dosis in
Geschlecht 1 2 4 8
männlich
1 4 9 13
weiblich
0 2 6 10
µg
16 32
18 20
12 16
Da die Dosen Potenzen von 2 sind, verwenden wir als Prädiktorvariable log2 (Dosis).
40
> (ldose <- rep(0:5, 2))
[1] 0 1 2 3 4 5 0 1 2 3 4 5
> (dead <- c(1,4,9,13,18,20,0,2,6,10,12,16))
[1] 1 4 9 13 18 20 0 2 6 10 12 16
> (sex <- factor(rep(c("M", "F"), c(6, 6))))
[1] M M M M M M F F F F F F
Levels: F M
> (SF <- cbind(dead, alive = 20-dead))
dead alive
[1,]
1
19
[2,]
4
16
:
[12,]
16
4
> summary(budworm.lg <- glm(SF ~ sex*ldose, family = binomial))
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.9935
0.5527 -5.416 6.09e-08 ***
sexM
0.1750
0.7783
0.225
0.822
ldose
0.9060
0.1671
5.422 5.89e-08 ***
sexM:ldose
0.3529
0.2700
1.307
0.191
--(Dispersion parameter for binomial family taken to be 1)
Null deviance: 124.8756 on 11 degrees of freedom
Residual deviance:
4.9937 on 8 degrees of freedom
AIC: 43.104
Für derartige Modelle muss auch die Anzahl der Tiere mi spezifiziert sein. In glm mit
family = binomial kann dies unterschiedlich gemacht werden. Wir haben dazu die Matrix SF (success/failure) verwendet, deren erste (zweite) Spalte die Anzahl der Erfolge
(Misserfolge) enthält.
Das Ergebnis weist auf eine signifikante Steigung hin. Die erste Stufe von sex bezieht
sich auf die weiblichen Tiere (alphabetische Reihenfolge der Stufen, "F" vor "M") und
wird somit durch den Intercept beschrieben. Der Parameter sexM:ldose repräsentiert
einen (nicht signifikant) größeren Anstieg für männliche Tiere, während der Parameter
sexM den (nicht signifikant) Unterschied in den Konstanten beschreibt. Die Daten und die
Modellschätzung sind in der Abbildung 4.1 dargestellt.
>
>
>
>
plot(c(1,32), c(0,1), type="n", xlab="dose", ylab="prob", log="x")
text(2^ldose, dead/20, as.character(sex))
ld <- seq(0, 5, 0.1); n.p <- length(ld)
lines(2**ld,
predict(budworm.lg, data.frame(ldose=ld, sex=rep("M",n.p)), type="response"))
> lines(2**ld,
predict(budworm.lg, data.frame(ldose=ld, sex=rep("F",n.p)), type="response"))
1.0
4.1. TOLERANZVERTEILUNGEN – LINKFUNKTIONEN
41
M
0.8
M
F
0.6
M
prob
F
F
0.4
M
0.2
F
M
0.0
F
M
F
1
5
10
dose
Abbildung 4.1: Beobachtete und geschätzte Ausfallsraten beim Tabakwurm.
Der Parameter sexM scheint irrelevant zu sein. Dieser beschreibt jedoch gerade den Unterschied bei der Dosis 1µg (log2 Dosis = 0). Ist man am Unterschied bei 8µg interessiert,
erhält man
> summary(budworm.lg8 <- update(budworm.lg, . ~ sex*I(ldose-3)))
Coefficients:
(Intercept)
-0.2754
0.2305 -1.195 0.23215
sexM
1.2337
0.3770
3.273 0.00107 **
I(ldose - 3)
0.9060
0.1671
5.422 5.89e-08 ***
sexM:I(ldose - 3)
0.3529
0.2700
1.307 0.19117
Also doch ein signifikanter Geschlechtsunterschied bei einer Dosis von 8µg. Das Modell
selbst scheint ausgezeichnet zu passen (Deviance von 5 bei 8 Freiheitsgraden). Die Analysis
of Deviance Tabelle bestätigt dies. Auf eine Interaktion kann verzichtet werden. Auch die
Hinzunahme eines quadratischen Terms ist nicht notwendig.
> anova(budworm.lg, test = "Chisq")
NULL
11
124.876
sex
1
6.077
10
118.799
0.014
ldose
1 112.042
9
6.757 3.499e-26
sex:ldose 1
1.763
8
4.994
0.184
42
> anova(update(budworm.lg, . ~ . +
Df Deviance Resid.
NULL
sex
1
6.077
ldose
1 112.042
I(ldose^2)
1
0.907
sex:ldose
1
1.240
sex:I(ldose^2) 1
1.439
sex*I(ldose**2)), test = "Chisq")
Df Resid. Dev P(>|Chi|)
11
124.876
10
118.799
0.014
9
6.757 3.499e-26
8
5.851
0.341
7
4.611
0.266
6
3.172
0.230
Diese Ergebnisse hängen von der Reihenfolge der Parameter ab. Durch test = "Chisq"
wird die Deviancedifferenz der nested models mit jeweiligen Skalenparameter 1 (bekannt
bei der Binomialverteilung) verwendet. Es zeigt, dass weder die Interaktion noch ein
quadratischer Dosiseffekt notwendig sind. Unsere Analyse empfiehlt daher ein Modell mit
zwei parallelen Geraden bezüglich der Prädiktor- (logit)-Achse, eine für jedes Geschlecht.
Oft ist man auch an einer Schätzung der Dosis für eine vorgegebene Sterbewahrscheinlichkeit interessiert. Dazu reparametrisieren wir zuerst das Modell, sodass wir für beiderlei
Geschlecht einen eigenen Intercept bekommen.
> summary(budworm.lg0 <- glm(SF ~ sex + ldose - 1, family = binomial))
Coefficients:
sexF
-3.4732
0.4685 -7.413 1.23e-13 ***
sexM
-2.3724
0.3855 -6.154 7.56e-10 ***
ldose
1.0642
0.1311
8.119 4.70e-16 ***
Residual deviance:
6.757 on 9 degrees of freedom
AIC: 42.867
Sei nun ξp jene log2 -Dosis für die die Response Wahrscheinlichkeit gerade p ist. Also
beschreibt 2ξ0.5 die 50% Sterbe-Dosis (50% lethal dose oder LD50). Für diese Dosis hält
bei einer allgemeinen Linkfunktion g(p) = β1 + β2 ξp , also
ξp =
g(p) − β1
.
β2
Nun hängt die Dosis vom Parameter β = (β1 , β2 ) ab, also ξp = ξp (β). Ersetzt man ihn
durch seinen Schätzer, liefert dies den Schätzer ξˆp = ξp (β̂) wofür approximativ gilt
∂ξp (β)
ξˆp = ξp + (β̂ − β)⊤
∂β
Da β̂ erwartungstreu ist für β, folgt approximativ auch E(ξˆp ) = ξp . Weiters resultiert als
Varianz (Delta-Methode)
var(ξˆp ) =
∂ξp (β)
∂ξp (β)
var(β̂)
⊤
∂β
∂β
4.2. INTERPRETATION DER PARAMETER
mit
∂ξp
1
=− ,
∂β1
β2
43
ξp
∂ξp
g(p) − β1
=−
=− .
2
∂β2
β2
β2
Die Funktion dose.p aus der Bibliothek MASS benutzt die obigen Resultate und liefert für
weibliche und für männliche Motten
> library(MASS)
> dose.p(budworm.lg0, cf = c(1,3), p = 1:3/4) # female
Dose
SE
p = 0.25: 2.231265 0.2499089
p = 0.50: 3.263587 0.2297539
p = 0.75: 4.295910 0.2746874
> dose.p(budworm.lg0, cf = c(2,3), p = 1:3/4) # male
Dose
SE
p = 0.25: 1.196939 0.2634488
p = 0.50: 2.229262 0.2259159
p = 0.75: 3.261585 0.2548981
Man benötigt also eine geschätzte Dosis von log2 (Dosis) = 3.26, also Dosis = 9.6, um 50%
der weiblichen Schädlinge zu vernichten, und Dosis = 4.7 für 50% der Männchen.
Alternativ kann auch ein Probitmodell gerechnet werden. Diese Linkfunktion ist im zentralen Bereich sehr ähnlich dem Logitlink und unterscheidet sich nur in den Schwänzen.
Man erhält unter diesem Modell sehr ähnliche Resultate z.B. für weibliche Motten.
> dose.p(update(budworm.lg0, family=binomial(link=probit)), cf=c(1,3), p=1:3/4)
Dose
SE
p = 0.25: 2.191218 0.2384103
p = 0.50: 3.257703 0.2240499
p = 0.75: 4.324187 0.2668534
4.2
Interpretation der Parameter
Hängt der Erwartungswert binärer Daten nur von einem erklärenden zweistufigen Faktor
x ab, so können die Parameter sehr einfach interpretiert werden. Dazu betrachtet man
die folgende Kontingenztafel mit den Zellwahrscheinlichkeiten:
x=1 x=0
y=1
π1
π2
y = 0 1 − π1 1 − π2
Im Falle x = 1 bezeichnet π1 /(1 − π1 ) die Quote, Chance (odds) für das Eintreten von
y = 1 zu y = 0. Die Log-Transformation dieser Quote bei x = 1
log π1 /(1 − π1 ) = logit(1)
44
nennt man log-odds oder Logit. Den Quotienten der Quote unter x = 1 zur Quote unter
x = 0 nennt man odds-ratio
π1 /(1 − π1 )
ψ=
,
π2 /(1 − π2 )
und deren Log-Transformation ergibt das log-odds ratio oder die Logit-Differenz
log ψ = log
π1 /(1 − π1 )
= logit(1) − logit(0) .
π2 /(1 − π2 )
Bezeichne nun µ(x) = P (y = 1|x) und 1 − µ(x) = P (y = 0|x) mit x ∈ {0, 1}. Falls dafür
zusätzlich das Modell
µ(x)
log
= β1 + β2 x
1 − µ(x)
hält, so bekommt man für die Zellwahrscheinlichkeiten
x=1
y=1
µ(1) =
exp(β1 + β2 )
1 + exp(β1 + β2 )
y = 0 1 − µ(1) =
x=0
µ(0) =
exp(β1 )
1 + exp(β1 )
1
1
1 − µ(0) =
1 + exp(β1 + β2 )
1 + exp(β1 )
Dies liefert auch als log-odds-ratio
log ψ = log
µ(1)/(1 − µ(1))
exp(β1 + β2 )
= log
= β2 .
µ(0)/(1 − µ(0))
exp(β1 )
Weiters gilt für eine allgemeine Größe x mit dieser Parametrisierung
P (y = 1|x)
µ(x)
=
= exp(β1 + β2 x) = exp(β1 ) exp(β2 )x ,
P (y = 0|x)
1 − µ(x)
d.h., wächst x um eine Einheit, so erhöht sich die Eintrittsquote von y = 1 multiplikativ
um exp(β2 ).
4.2.1
Beispiel (Agresti, Seite 87)
An 27 Krebspatienten wird beobachtet, ob es nach einer Injektionsbehandlung zum Abklingen des Karzinoms kommt. Die wichtigste erklärende Variable LI, der Labelling Index, beschreibt die Zellteilungsaktivität nach dieser Behandlung (Anteil der Zellen, welche
“gepolt” wurden). Dabei ergaben sich n = 14 unterschiedliche LI Werte. Die ResponseVariablen mi yi beschreiben die Anzahl erfolgreicher Rückbildungen bei mi Patienten mit
jeweiliger Zellaktivität LIi .
4.2. INTERPRETATION DER PARAMETER
LIi
8
10
12
14
16
mi
2
2
3
3
3
mi y i
0
0
0
0
0
LIi
18
20
22
24
26
mi
1
3
2
1
1
mi yi
1
2
1
0
1
45
LIi
28
32
34
38
mi
1
1
1
3
mi yi
1
0
1
2
Es wird angenommen, dass sich die Patienten einer LIi Gruppe homogen verhalten, d.h.
µi
ind
mi yi ∼ Binomial(mi , µi ) ,
mit log
= β1 + β2 LIi .
1 − µi
Als MLE erhält man dafür
>
>
>
>
>
li <- c(seq(8, 28, 2), 32, 34, 38)
total <-c(2, 2, 3, 3, 3, 1, 3, 2, 1, 1, 1, 1, 1, 3)
back <-c(0, 0, 0, 0, 0, 1, 2, 1, 0, 1, 1, 0, 1, 2)
SF <- cbind(back, nonback = total - back)
summary(carcinoma <- glm(SF ~ li, family=binomial))
Coefficients:
(Intercept) -3.77714
1.37863 -2.740 0.00615 **
li
0.14486
0.05934
2.441 0.01464 *
--Null deviance: 23.961 on 13 degrees of freedom
Residual deviance: 15.662 on 12 degrees of freedom
> anova(carcinoma, test="Chisq")
NULL
13
23.9610
li
1
8.2988
12
15.6622
0.0040
Nimmt LI um eine Einheit zu, so wird die geschätzte Quote für eine Rückbildung mit
exp(0.145) = 1.156 multipliziert. Die unter dem Modell geschätzte Wahrscheinlichkeit für
eine Rückbildung ist 1/2 falls η̂ = 0, also für LI = −β̂1 /β̂2 = 26.05.
∑
Das Mittel aller LI-Werte ist
i LIi mi /27 = 20.07, wofür sich als linearer Prädiktor
β̂1 + β̂2 20.07 = −0.866 ergibt, was einer Heilungswahrscheinlichkeit von 29.6% entspricht.
Beobachtet konnten 9 Erfolge aus 27 Patienten werden, also 33.3%.
Für die Regressionskurve gilt ∂µ(x)/∂x = β2 µ(x)(1−µ(x)). Der stärkste Anstieg ist daher
an der Stelle µ(x) = 1/2, also in LI = 26.05, und beträgt dort β̂2 /4 = 0.036.
Es stellt sich auch die Frage, ob die Rückbildung vom LI-Wert abhängt. Der entsprechende
p-Wert von 1.5% scheint dies klar zu bestätigen.
Für das Unabhängigkeitsmodell (NULL) resultiert als Deviance 23.96 (df = 13). Die
Deviance-Differenz 8.3 bei einem Verlust von einem Freiheitsgrad entspricht einem χ21 Quantil mit α = 0.004. Dieses Ergebnis ist noch deutlicher als das Resultat des WaldTests. In beiden Fällen wird die positive Assoziation zwischen LI und dem Rückbildungsverhalten bestätigt.
46
4.3
Logit-Modelle
In diesem Spezialfall der logistischen Regression bei binären Beobachtungen sind nur
Faktoren und keine Variablen im linearen Prädiktor beinhaltet.
4.3.1
Beispiel
Untersuchungen von 313 Frauen nach einer Operation des Zervixkarzinoms ergaben 123
Rezidive. Von welchen Risikogrößen hängt der Rezidiveintritt ab? Die Anzahl der befallenen Lymphknotenstationen (LK) und der Befall der Zervix-Grenzzone (GZ) wurden zum
Zeitpunkt der Operation festgestellt und stellen potentielle Risikogrößen dar. In einer
Tabelle sind die Rezidivfälle (yij /mij ) als 3 × 4 Kontingenztafel angegeben.
GZ nicht befallen
GZ befallen
über GZ befallen
befallene LK-Stationen
0
1
2
≥3
21/124 7/21 9/16 13/13
18/ 58 6/12 5/ 7 5/ 5
4/ 14 16/19 9/12 10/12
Falls ein lineares Verhalten beider Risikofaktoren gewährleistet ist, kann LK mit 0,1,2,3
und GZ mit 0,1,2 kodiert werden und das logistische Modell für die n = 12 Zellen
logit(µi ) = β1 + β2 LKi + β3 GZi ,
i = 1, . . . , n
ergibt die Maximum-Likelihood Schätzer
>
>
>
>
>
rez <- c(21, 7, 9, 13, 18, 6, 5, 5, 4, 16, 9, 10)
total <- c(124, 21, 16, 13, 58, 12, 7, 5, 14, 19, 12, 12)
SF <- cbind(rez, nonrez=total-rez)
LK <- rep(0:3, 3); GZ <- rep(0:2, each=4)
rez.glm <- glm(SF ~ LK + GZ, family = binomial); summary(rez.glm)
Coefficients:
(Intercept) -1.5508
0.1984 -7.817 5.43e-15 ***
LK
1.0687
0.1537
6.954 3.56e-12 ***
GZ
0.5860
0.1782
3.288 0.00101 **
AIC: 51.214
Besser ist die Verwendung zweier Faktoren L und G. Sei dazu mij yij ∼ Binomial(mij , µij ),
wobei µij die Wahrscheinlichkeit eines Rezidivs bei LK-Status i (i = 1, 2, 3, 4) und GZ-Befall
4.3. LOGIT-MODELLE
47
j (j = 1, 2, 3) beschreibt. Wir unterscheiden folgende Modelle
logit(µij )
logit(µij )
logit(µij )
logit(µij )
logit(µij )
=
=
=
=
=
(L ∗ G)ij ,
Li + Gj ,
Li ,
Gj ,
1.
Das Modell L∗G beinhaltet die ganze Information der Daten und ist daher voll (saturiert),
d.h. 12 Parameter bei 12 Beobachtungen.
> L <- factor(LK); G <- factor(GZ);
rez.1
<- glm(SF~1, family=binomial)
> rez.L <- glm(SF~L, family=binomial); rez.G
<- glm(SF~G, family=binomial)
> rez.LG <- glm(SF~L+G,family=binomial); rez.sat <- glm(SF~L*G,family=binomial)
> anova(rez.1, rez.L, rez.LG, rez.sat, test="Chisq")
Resid. Df Resid. Dev Df Deviance P(>|Chi|)
1
11
103.493
2
8
21.373 3
82.120 1.077e-17
3
6
10.798 2
10.575
0.005
4
0 4.743e-10 6
10.798
0.095
Aus der Analysis of Deviance folgt als minimales Modell L + G mit den Schätzungen
> coef(rez.LG)
(Intercept)
-1.6041
L1
1.2873
L2
1.7785
L3
3.7979
G1
0.7285
G2
1.0735
und somit das Prognosemodell
η̂ = −1.60 + 1.29(L = 1) + 1.78(L = 2) + 3.80(L = 3) + 0.73(G = 1) + 1.07(G = 2) .
Alle Parameter zu höheren Faktorstufen sind positiv. Dies bedeutet, dass das Risiko eines
Rezidivs steigt je mehr Lymphknoten befallen sind und je intensiver der Grenzzonenbefall
ausgeprägt ist. Die durch dieses Modell geschätzten Wahrscheinlichkeiten für ein Rezidiv
sind
GZ nicht befallen
GZ befallen
über GZ befallen
0
1
2
≥3
0.1674 0.4214 0.5435 0.8997
0.2941 0.6015 0.7115 0.9489
0.3704 0.6806 0.7769 0.9633
> plot(as.numeric(L), rez.LG$y, type="p", xlab="L", ylab="prob",
ylim=c(0,1), main="L+G")
> lines(as.numeric(L)[G==0], fitted(rez.LG)[G==0], type="l")
48
L+G
0.6
prob
0.0
0.2
0.2
0.4
0.4
prob
0.6
0.8
0.8
1.0
1.0
L*G
2.0
2.5
3.0
3.5
4.0
1.0
1.5
2.0
2.5
L
L
L
G
3.0
3.5
4.0
3.0
3.5
4.0
0.8
0.6
prob
0.4
0.2
0.0
0.0
0.2
0.4
prob
0.6
0.8
1.0
1.5
1.0
1.0
1.0
1.5
2.0
2.5
3.0
3.5
4.0
1.0
1.5
2.0
L
2.5
L
0.0
0.2
0.4
prob
0.6
0.8
1.0
1
1.0
1.5
2.0
2.5
3.0
3.5
4.0
L
Abbildung 4.2: Geschätzte Rezidiveintrittswahrscheinlichkeiten beim Logit-Modell.
4.4. KOMPLEXE LOGISTISCHE MODELLE
4.4
49
Komplexe Logistische Modelle
Der Prädiktor beinhaltet jetzt sowohl erklärende Faktoren als auch erklärende Variablen.
4.4.1
Beispiel
Wir betrachten ein Modell, welches sich auf die lineare Variable LK (1 Parameter) und
den kategorialen Faktor G (3 Parameter) bezieht. Aus dem vorigen Schätzergebnis ist
ersichtlich, dass im Vergleich zur L-Referenzklasse keine Lymphknoten befallen das Risiko
beim Befall einer Station (relativ) um 1.3 Einheiten auf der Prädiktorachse ansteigt. Bei
einem Befall von zwei Stationen nimmt das Risiko absolut um 1.8 Einheiten (relativ um
0.5) zu, während es für den Fall von drei oder mehreren befallenen Stationen zu einem
Anstieg um 3.8 Einheiten (relativ um 2.0) kommt. Obwohl dies nicht linear zu sein scheint,
wollen wir es aus Gründen der Sparsamkeit versuchen.
Sei dazu mi yi ∼ Binomial(mi , µi ), wobei hier i = 1, 2, 3 die drei Stufen des Faktors G
durchläuft. Folgende fünf Modelle sind wiederum relevant:
logit(µi )
logit(µi )
logit(µi )
logit(µi )
logit(µi )
=
=
=
=
=
Gi + βi LK ,
Gi + β LK ,
Gi ,
β LK ,
1.
Eine Analyse der Deviance ergibt
> rez.LK
<- glm(SF ~ LK, family = binomial)
> rez.LKG <- glm(SF ~ LK + G, family = binomial)
> rez.LKGi <- glm(SF ~ LK * G, family = binomial)
> anova(rez.1, rez.LK, rez.LKG, rez.LKGi, test="Chisq")
1
11
103.5
2
10
24.4 1
79.1
5.8e-19
3
8
13.0 2
11.4
3.4e-03
4
6
12.0 2
1.1
0.6
Daher wählen wir wiederum das Modell LK + G mit
> coef(rez.LKG)
(Intercept)
-1.5940
LK
1.0859
G1
0.7329
G2
1.1064
und erhalten als Schätzer für den linearen Prädiktor
η̂i = −1.59 + 1.086LK + 0.73(G = 1) + 1.11(G = 2) .
50
Die zu diesem Modell assoziierten Rezidiveintrittswahrscheinlichkeiten sind
GZ nicht befallen
GZ befallen
über GZ befallen
0
1
2
≥3
0.1688 0.3756 0.6405 0.8407
0.2971 0.5560 0.7876 0.9166
0.3805 0.6453 0.8434 0.9410
Die Abbildung 4.3 (rechts) zeigt die durch das Modell prognostizierten Wahrscheinlichkeiten für das Auftreten eines Rezidivs in Abhängigkeit von den Stufen des Grenzzonenbefalls. Der linke Teil der Abbildung zeigt die Prognosen unter dem Modell rez.LKGi, in
dem auch die Wechselwirkung zwischen der Variablen LK und dem Faktor G inkludiert ist.
0.8
0.6
prob
0.4
0.2
0.0
0.0
0.2
0.4
prob
0.6
0.8
1.0
LK+G
1.0
LK*G
1.0
1.5
2.0
2.5
LK
3.0
3.5
4.0
1.0
1.5
2.0
2.5
3.0
3.5
4.0
LK
Abbildung 4.3: Geschätzte Rezidiveintrittsraten beim komplexen Logistischen Modell links: maximales Modell, rechts: Modell ohne Interaktion.
Hatte man beim entsprechenden Logitmodell eine Deviance von 10.8 bei 6 Freiheitsgraden,
so ist jetzt beim komplexen Modell die Deviance 13.0 bei 8 Freiheitsgraden. Vergleichen
wir die Werte der Deviance mit den (1 − α)-Quantilen einer χ2 -Verteilung resultieren
α = 0.095 sowie α = 0.112, was auf eine leichte Bevorzugung für das Logitmodell hindeutet. Dies stellt jedoch keine konfirmatorische Entscheidung dar! Zum Vergleich ergab
das Logistische Regressionsmodell (LK+GZ) eine Deviance von 13.3 bei 9 Freiheitsgraden
(α = 0.148).
Kapitel 5
Loglineare Modelle
5.1
Poisson Loglineare Modelle für Anzahlen
Bei der Binomialverteilung wird die Anzahl der Versuche vor der Durchführung der Experimente fixiert. Danach wird erst beobachtet, in wie vielen Fällen davon ein Ereignis
eingetreten ist. Man spricht bei dieser Art Daten von der Modellierung relativer oder
absoluter Häufigkeiten. Wird jedoch die Anzahl der Versuche vor den Experimenten nicht
fixiert, so spricht man von Zählvariablen oder counts yi . Standardmäßig wird dafür die
Poissonverteilung angenommen, für die die Erwartung µi der Varianz entspricht und als
kanonischer Link der Loglink verwendet, also
ind
yi ∼ Poisson(µi ) ,
mit
log(µi ) = ηi .
Die (skalierte) Deviance ist hierbei wegen ϕ = 1 gleich
}
n {
∑
yi
D(y, µ) = 2
yi log − (yi − µi ) .
µi
i=1
Falls im Modell auch eine Konstante enthalten ist, so reduziert sich dies auf
D(y, µ) = 2
n
∑
i=1
yi log
yi
.
µi
Der Deviance-Anteil der i-ten Beobachtung verschwindet für yi = 0 unabhängig von µi .
5.1.1
Beispiel
Die folgenden Daten stammen aus einer Studie über die Aufbewahrbarkeit von Mikroorganismen im tiefgekühlten Zustand (−70o C). Die Beobachtungen beschreiben die Bakterienkonzentrationen (Anzahl auf einer konstanten Fläche) am Anfang und nach 1, 2, 6
und 12 Monaten.
51
52
KAPITEL 5. LOGLINEARE MODELLE
Zeit T
Anzahl
0 1 2 6 12
31 26 19 15 20
log(count)
3.0
20
0
2.8
10
count
3.2
30
3.4
40
Es soll ein passendes Modell gefunden werden, mit dem die Konzentrationsänderung in
Abhängigkeit von der Zeit beschrieben werden kann, um Aussagen darüber zu ermöglichen, wie lange Bakterien durchschnittlich aufbewahrt werden können.
0
2
4
6
8
10
12
0
2
4
t
6
8
10
12
t
Abbildung 5.1: Bakterienanzahlen und deren Logarithmus in Abhängigkeit von der Zeit.
Eigentlich hätte man in den Daten, dargestellt in Abbildung 5.1 links, eine exponentielle
Abnahme erwartet, jedoch wird dies nicht von den Beobachtungen unterstützt, da der
letzte Wert sogar größer ist als die beiden Werte zuvor. Natürlich könnte die wahre Konzentration sehr wohl einer exponentiellen Kurve folgen, und die Beobachtungen weichen
davon nur wegen des Messfehlers ab. Falls dies der Fall ist, müsste der Logarithmus der
Konzentrationen eine lineare Beziehung zur Zeit aufweisen.
Die einfachste Art zu testen, ob die erkennbare Krümmung mehr als zufällig ist, besteht
in der Modellierung mit einem zusätzlichen quadratischen Zeitterm. Dazu nehmen wir
vorerst an, dass die Anzahlen yi einer N (µi , σ 2 )-Verteilung und einem linearen Modell
genügen.
> summary(mo.lm <- lm(count ~ t + I(t^2)))
(Intercept) 29.80042
1.88294 15.827 0.00397 **
t
-4.61601
1.00878 -4.576 0.04459 *
I(t**2)
0.31856
0.08049
3.958 0.05832 .
--Residual standard error: 2.438 on 2 degrees of freedom
Multiple R-Squared: 0.9252,
Adjusted R-squared: 0.8503
F-statistic: 12.36 on 2 and 2 DF, p-value: 0.07483
Der quadratische Term scheint daher im Modell notwendig (p-Wert 0.058). Zuvor sollte
noch die getroffene Verteilungsannahme mittels Normalplot der Residuen ri = yi − µ̂i
53
-3
-2
-1
residuals
0
1
2
5.1. POISSON LOGLINEARE MODELLE FÜR ANZAHLEN
-3
-2
-1
0
1
2
Quantiles of Standard Normal
Abbildung 5.2: Normalplot der Residuen aus dem linearen Modell.
geprüft werden. Der Punktverlauf in der Abbildung 5.2 weicht von einer Geraden ab,
sodass die Annahme einer Normalverteilung nicht gerechtfertigt erscheint.
> qqnorm(r <- residuals(mo.lm));
qqline(r)
Daher versuchen wir jetzt ein Poisson-Modell. Für gewöhnlich werden hierbei die PoissonErwartungen linear auf einer Log-Skala modelliert. Dies bedeutet, dass für den Fall einer
exponentiellen Abnahme die Erwartungen auf der Log-Skala modelliert werden während
die Verteilung um diese Erwartungen als Poissonvariablen auf der Originalskala modelliert
sind. Der rechte Teil der Abbildung 5.1 zeigt noch immer eine beachtliche Krümmung,
weshalb auch hier wiederum ein quadratischer Zeitterm in das Modell genommen wird.
> summary(mo.P0 <- glm(count ~ t + I(t^2), family=poisson))
0.149027 22.975
<2e-16 ***
t
-0.221389
0.095623 -2.315
0.0206 *
I(t^2)
0.015527
0.007731
2.008
0.0446 *
--(Dispersion parameter for poisson family taken to be 1)
AIC: 30.849
>
r <- residuals(mo.P0, type="pearson"); sum(r^2)
[1] 0.2745424
Die Deviance und die Pearson-Statistik X 2 sollten unter dem wahren Modell ihrem Freiheitsgrad n − p = 2 entsprechen und stellen einen Test auf Güte der Anpassung dar.
Kleine Werte zeugen von einer recht guten Anpassung, während große auf eine schlechte Anpassung hinweisen. Da hier beide Werte sehr klein sind, spricht nichts gegen die
Poisson-Annahme.
30
0
-1.0
10
20
count
0.0
-0.5
residuals
0.5
40
1.0
54
15
20
25
30
fitted
0
2
4
6
8
10
12
t
Abbildung 5.3: Residuenplot (links) sowie geschätztes Poissonmodell (rechts).
Auch der Residuenplot in der Abbildung 5.3 zeigt dies. Falls die Varianz der Erwartung
entspricht, ist ein Schätzer für die Varianz der Residuen unter dem wahren Modell gerade
der geschätzte Erwartungswert. Daher sollten die Pearson-Residuen ri Erwartung 0 und
Varianz 1 aufweisen. Da dieser Residuenplot relativ (n = 5) horizontal ist, erscheint
die Poisson-Annahme auch passend. Um die Modellgüte zu zeigen, werden beobachtete
und modellierte Werte gegen die Zeit aufgetragen. Natürlich muss sich das 3 Parameter
Polynom im rechten Teil der Abbildung 5.3 sehr gut an die 5 Beobachtungen anpassen.
>
>
>
>
f <- fitted(mo.P0)
plot(f, r); abline(0,0)
plot(t, count, ylim=c(0,40)); t.new <- seq(0, 12, 1/2)
lines(t.new, predict(mo.P0, data.frame(t=t.new), type="response"))
Obwohl Messfehler auch zu einem Zuwachs der Anzahl führen können, sollte dies aber in
der Realität unmöglich sein. Wir testen daher die Notwendigkeit des quadratischen Terms
mittels eines Modellvergleichs.
> mo.P1 <- glm(count ~ t, family=poisson)
> anova(mo.P1, mo.P0, test="Chisq")
Model 1: count ~ t
Model 2: count ~ t + I(t^2)
1
3
4.5249
2
2
0.2793 1
4.2456
0.0394
Die Differenz der beiden Deviancen weist zwar auf diese Notwendigkeit hin und die
Krümmung ist wohl mehr als zufällig. Wir wissen aber, dass ein quadratisches Modell
nicht Sinn macht. Möglicherweise erreicht man ein realistischeres und einfacheres Modell
durch Transformation der Zeitachse.
55
-1.0
1.85
-0.5
0.0
residuals(mo.P3)
1.95
1.90
deviance
2.00
0.5
2.05
1.0
5.1. POISSON LOGLINEARE MODELLE FÜR ANZAHLEN
0.0
0.1
0.2
0.3
c
0.4
0.5
18
20
22
24
26
28
30
fitted(mo.P3)
Abbildung 5.4: Abhängigkeit der Deviance von c (links) und Residuenplot (rechts).
Falls der Zeiteffekt multiplikativ wirkt, sollte eine logarithmierte Zeitachse betrachtet werden. Jedoch stellt sich dann das Problem des Nullpunktes, log(0). Die benötigte Transformation ist daher log(t + c) mit unbekanntem 0 < c. Eine Möglichkeit c zu bestimmen, ist
die Deviance in Abhängigkeit von c zu minimieren, was in der Abbildung 5.4 dargestellt
ist. Der optimale Wert liegt für das Modell 1 + log(t + c) um c = 0.105 und log(t + 0.105)
wird ab jetzt als Prädiktor verwendet.
> c <- d <- 1:100
> for (i in 1:100) {
c[i] <- i/200
d[i] <- deviance(glm(count ~ 1 + log(t+c[i]), family=poisson))
}
> plot(c, d, type="l", ylab="deviance")
> c[d==min(d)]
[1] 0.105
Zunächst ist es ratsam ein Modell zu betrachten, das auch einen quadratischen Term
beinhaltet, um zu testen, ob noch immer eine verbleibende Krümmung vorhanden ist.
> tc <- t + 0.105
> mo.P2 <- glm(count ~ 1 + log(tc) + I(log(tc)**2), family=poisson)
> summary(mo.P3 <- glm(count ~ 1 + log(tc), family=poisson))
Coefficients:
(Intercept) 3.15110
0.09565 32.945
<2e-16 ***
log(tc)
-0.12751
0.05493 -2.321
0.0203 *
AIC: 30.403
56
> anova(mo.P3, mo.P2, test="Chisq")
Model 1: count ~ 1 + log(tc)
Model 2: count ~ 1 + log(tc) + I(log(tc)^2)
1
3
1.83354
2
2
1.79245 1 0.04109
0.83936
> plot(fitted(mo.P3), residuals(mo.P3), ylim=c(-1,1)); abline(0,0)
Der Parameter des quadratischen Terms ist nicht mehr signifikant. Wegen der geringen
Deviance-Differenz von 0.041 entfernen wir den quadratischen Term aus dem Modell. Es
scheint, dass mit der transformierten Zeitachse ein linearer Trend ausreicht. Der Verlauf
der Pearson-Residuen des Modells 1 + log(t + 0.105) zeigt in der Abbildung 5.4, dass diese
ziemlich horizontal sind mit relativ konstanter Streuung.
Interessant ist auch, den approximativen (zweiseitigen) punktweisen Konfidenzbereich für
die Modellkurve µ0 = exp(η0 ) einer neuen Beobachtung x0 zu betrachten. Eine Möglichkeit
besteht darin, η̂0 = xt0 β̂ zusammen mit sd
.e.(η̂0 ) dafür zu verwenden. Das transformierte
95% Intervall ist damit
(
(
))
KIV (µ0 ) = exp η̂0 ± 1.96 × sd
.e.(η̂0 ) ,
was in Abbildung 5.5 dargestellt ist.
′
Alternativ liefert die Delta Methode var(µ̂0 ) ≈ var(η̂0 ) × [exp(η̂0 )] 2 und es folgt somit
sd
.e.(µ̂0 ) ≈ sd
.e.(η̂0 ) × µ̂0 , also das symmetrische Intervall basierend auf eine Normalverteilungsanname für µ̂0
(
)
KIV (µ0 ) = µ̂0 ± 1.96 × sd
.e.(µ̂0 ) .
Natürlich können beide Ideen unterschiedliche Intervallsgrenzen liefern.
> tc.new <- data.frame(tc = seq(0, 12, 0.005) + 0.105)
> mo.pred <- predict.glm(mo.P3, newdata=tc.new, type="response", se.fit=T)
> attributes(mo.pred) # Delta-Method
$names
[1] "fit"
"se.fit"
"residual.scale"
> fit
<- mo.pred$fit
> upper <- fit + qnorm(0.975) * mo.pred$se.fit
> lower <- fit - qnorm(0.975) * mo.pred$se.fit
> plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms")
> lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower)
> mo.peta <- predict.glm(mo.P3, newdata=tc.new, type="link", se.fit=T)
> fit <- exp(mo.peta$fit)
57
30
20
0
10
micro-organisms
40
50
5.2. LOGLINEARE UND MULTINOMIALE RESPONSE MODELLE
0
2
4
6
8
10
12
t
Abbildung 5.5: 95% Konfidenzbereiche unter dem Poissonmodell.
>
>
>
>
upper <- exp(mo.peta$fit + qnorm(0.975) * mo.peta$se.fit)
lower <- exp(mo.peta$fit - qnorm(0.975) * mo.peta$se.fit)
plot(t, count, type="p", ylim=c(0,50), xlab="t", ylab="micro-organisms")
lines(tc.new[ ,1], upper); lines(tc.new[ ,1], fit); lines(tc.new[ ,1], lower)
5.2
Loglineare und Multinomiale Response Modelle
Hier wird der Zusammenhang zwischen einem loglinearen Modell für Anzahlen und einem
multinomialen (binomialen) Response Modell für Häufigkeiten behandelt. Diese Beziehung
stammt von der Tatsache, dass die Multinomialverteilung aus einer Serie unabhängiger
Poissonvariablen generiert werden kann, wenn deren Totalsumme fixiert ist.
5.2.1
Die Multinomialverteilung
Die Objekte einer Population weisen genau eines von k Merkmalen auf, beispielsweise
die Haarfarbe oder eine Todesursache. Aus dieser Population zieht man eine Stichprobe
und ist an der Anzahl Yj aller Beobachtungen mit Ausprägung j = 1, . . . , k interessiert.
Zwei verschiedene Komponenten Yj und Yj ′ sind hier abhängige Zufallsvariablen. Die
Multinomialverteilung beschreibt die gemeinsame Verteilung des Vektors (Y1 , . . . , Yk ) und
58
es gilt
y+ !
P (Y1 = y1 , . . . , Yk = yk ) = ∏k
k
∏
j=1 yj ! j=1
y
πj j .
(5.1)
∑
Hier bezeichnen π1 , . . . , πk , mit j πj = 1, die Wahrscheinlichkeiten der Merkmale in der
Population. ∑
Der Stichprobenraum ist die Menge aller ganzzahligen k-Vektoren mit 0 ≤ yj ,
wobei y+ = j yj .
Eine alternative Herleitung dieser Verteilung erfolgt über k unabhängige Poissonvariablen
Y1 , . . . , Yk mit Erwartungen µ1 , . . . , µk , also
y
µj j
P (Yj = yj ) =
exp(−µj ) ,
yj !
j = 1, . . . , k .
∑
∑
Die Summe Y+ = j Yj ist wiederum Poissonverteilt mit Erwartung µ+ = j µj . Als
bedingte Wahrscheinlichkeit der (Y1 , . . . , Yk ), gegeben deren Summe Y+ , resultiert
∏k
y
µj j
j=1 yj !
P (Y1 = y1 , . . . , Yk = yk |Y+ ) =
exp(−µj )
y
µ++
y+ !
exp(−µ+ )
=
∏k
yj
j=1 µj
y ∏
µ++ kj=1 yj !
y+ !
y+ !
= ∏k
j=1
k (
∏
µj )yj
yj ! j=1 µ+
.
Somit entspricht dies der Multinomialverteilung (5.1) mit πj = µj /µ+ . Der Erwartungswert µj bezeichnet bei der Poissonverteilung die theoretische Durchschnittsanzahl der
Ereignisse vom Typ j während πj bei der Multinomialverteilung den theoretischen Anteil
der Ereignisse dieses Typs beschreibt.
Gegeben sei nun eine Stichprobe y1 , . ∑
. . , yn von n unabhängigen Multinomialvektoren
yi = (yi1 , . . . , yik ), und sei yi+ =
j yij fest für jedes i. Zu jedem yi korrespondiert
ein Vektor πi = (πi1 , . . . , πik ). Der für die Schätzung von πi relevante Beitrag der i-ten
Beobachtung an der Log-Likelihood ist laut (5.1)
ℓ(πi |yi ) =
k
∑
yij log πij ,
mit
j=1
k
∑
πij = 1 .
j=1
Wegen der Unabhängigkeit der Vektoren yi resultiert als Log-Likelihood der Stichprobe
ℓ(π|y) =
n
∑
ℓ(πi |yi ) =
i=1
n ∑
k
∑
yij log πij .
i=1 j=1
Für die Maximierung von ℓ(π|y) folgt unter den Bedingungen
∑
j
πij = 1, ∀i = 1, . . . , n,
)) y
∑ (∑
∂ (
ij
ℓ(π|y) −
λi
− λi ,
πij − 1 =
∂πij
πij
i=1
j=1
n
k
also π̂ij = yij /λ̂i . Somit ist 1 =
Funktion ist somit
∑
j
π̂ij =
∑
j
59
yij /λ̂i = yi+ /λ̂i , also λ̂i = yi+ . Die Score-
yij − yi+ πij
∂ℓ(π|y)
=
.
∂πij
πij
Verwendet man zusätzlich ein loglineares Modell mit linearem Prädiktor der Form
∑
log πij =
xijr βr ,
r
so ist wegen ∂πij /∂βr = xijr πij
∂ℓ(π|y) ∑ ∑ yij − yi+ πij ∂πij ∑ ∑
=
=
xijr (yij − yi+ πij ) .
∂βr
πij
∂βr
i=1 j=1
i=1 j=1
n
5.2.2
k
n
k
Vergleich von Poisson-Erwartungen
Betrachte unabhängige Yj ∼ Poisson(µj ) und teste H0 : log µ1 = · · · = log µk = β1 gegen
H1 : log µj = β1 + β2 xj ,
für alle j = 1, . . . , k
für gegebene Konstanten xj und für ein unbekanntes β2 . Der relevante Teil der PoissonLog-Likelihood Funktion
k (
)
∑
yj log µj − µj
ℓ(µ|y) =
j=1
entspricht hier unter der Alternative
ℓ(β1 , β2 |y) =
k (
∑
)
yj (β1 + β2 xj ) − exp(β1 + β2 xj ) .
j=1
Um zu sehen, wie dies zu einem multinomialen Modell transformiert, verwende
µ+ =
k
∑
µj =
j=1
k
∑
exp(β1 + β2 xj ) = exp(β1 )
j=1
k
∑
exp(β2 xj ) ,
j=1
also
log µ+ = β1 + log
k
(∑
)
exp(β2 xj ) ,
β1 = log µ+ − log
bzw.
n
(∑
j=1
)
exp(β2 xj ) .
j=1
Bezüglich (µ+ , β2 ) erhält man
}
{
k
k
(
(∑
)
)
∑
ℓ(µ+ , β2 |y) =
yj log µ+ − log
exp(β2 xj ′ ) + β2 xj
− µ+
j ′ =1
j=1
= log µ+
k
∑
j=1
yj −
k
∑
j=1
yj log
k
(∑
k
) ∑
exp(β2 x ) +
β2 xj yj − µ+ ,
j′
j ′ =1
j=1
60
was mittels y+ =
∑
j
yj geschrieben werden kann als
k
k
{
} {∑
(∑
)}
β2 xj yj − y+ log
exp(β2 xj )
ℓ(µ+ , β2 |y) =
y+ log µ+ − µ+ +
j=1
j=1
= ℓ(µ+ |y+ ) + ℓ(β2 , y|y+ ) .
Die Log-Likelihood zerfällt unter H1 in zwei Komponenten. Die Komponente ℓ(µ+ |y+ )
entspricht der Log-Likelihood zu Y+ ∼ Poisson(µ+ ). Um die zweite Komponente zu untersuchen, verwenden wir wiederum die Parametrisierung
πj =
µj
exp(β1 + β2 xj )
exp(β2 xj )
=∑
=∑
.
µ+
j ′ exp(β1 + β2 xj ′ )
j ′ exp(β2 xj ′ )
Wegen
log πj = β2 xj − log
(∑
)
exp(β2 xj ′ ) ,
j′
ist der zweite Term in der obigen Log-Likelihood gleich
ℓ(β2 , y|y+ ) =
k
∑
yj log πj ,
j=1
was einer multinomialen Log-Likelihood entspricht, also der konditionalen Poisson-LogLikelihood von y gegeben die Gesamtanzahl y+ .
Die wichtigste Erkenntnis hierbei ist, dass die marginale Likelihood von Y+ nur von µ+
abhängt während die konditionale Likelihood zu (Y1 , . . . , Yk )|(Y+ = y+ ) von π abhängt,
also nur von β2 . Vorausgesetzt dass keine Information bezüglich des Wertes von β1 (und
daher auch nicht für µ+ ) vorliegt, folgert man, dass die gesamte Information bezüglich β2
in der konditionalen Likelihood zu y|y+ enthalten ist.
5.2.3
Multinomiale Responsemodelle
Mit diesen Ergebnissen kann man zeigen, dass bestimmte loglineare Modelle äquivalent zu
multinomialen Modellen sind. Dazu ordnet man die Beobachtungen Yij den Zellen einer
zweidimensionalen Kontingenztafel zu und betrachtet das Modell
log µij = ϕi + xtij β ,
i = 1, . . . , n,
j = 1, . . . , k
(5.2)
mit µij = E(Yij ) und bekannten p-dimensionalen Vektoren xij . Natürlich interessiert uns
ausschließlich der Parameter β während ϕi Nebenparameter (incidental parameters) sind.
In diesem Modell wächst die Dimension des Parameterraumes n + p mit n → ∞ für festes
p. Daher ist auch für n → ∞ nicht garantiert, dass der Maximum-Likelihood Schätzer
61
effizient oder konsistent ist. Es wird nun gezeigt, dass die konditionale Likelihood nur von
β und nicht von ϕ abhängt. Wie zuvor ist die Log-Likelihood
ℓ(ϕ, β|y) =
n ∑
k (
∑
)
yij (ϕi + xtij β) − exp(ϕi + xtij β)
i=1 j=1
=
n
∑
ϕi yi+ +
i=1
n ∑
k
∑
−
yij xtij β
n ∑
k
∑
exp(ϕi + xtij β) .
i=1 j=1
i=1 j=1
Wir fixieren die i-te Zeilensumme yi+ und machen die Transformation
µi+ =
k
∑
µij = exp(ϕi )
j=1
k
∑
exp(xtij β) ,
also
ϕi = log µi+ − log
k
(∑
j=1
)
exp(xtij β) .
j=1
Die Log-Likelihood als Funktion in (µ+ , β) ist somit
k
k
n {∑
n {
)}
(∑
} ∑
∑
t
exp(xtij ′ β)
yij xij β − yi+ log
yi+ log µi+ − µi+ +
ℓ(µ+ , β|y) =
i=1
i=1
j=1
j ′ =1
= ℓ(µ+ |y+ ) + ℓ(β, y|y+ ) .
Der erste Term ist wieder die Poisson-Log-Likelihood zur Zeilensumme Yi+ ∼ Poisson(µi+ ).
Die zweite Größe ist die konditionale Log-Likelihood gegeben {Yi+ } und hängt nur von β
und nicht von ϕ ab. Die ganze Information bezüglich β ist in der zweiten Komponente.
Daher ist es klar, dass β̂ und var(β̂) basierend auf die Maximierung von ℓ(β, y|y+ ) identisch den entsprechenden Resultaten unter Verwendung der vollen Log-Likelihood ist. In
anderen Worten ist das loglineare Modell (5.2) äquivalent dem multinomialen Modell mit
exp(xtij β)
µij
µij
πij =
=∑
=
.
t
µi+
µi+
l exp(xil β)
5.2.4
(5.3)
Beispiel
Es werden wiederum die Häufigkeiten von Rezidiven analysiert. Hatten wir dafür in 4.3.1
unabhängige binomialverteilte Responses mit dem Logitlink verwendet, so werden nun
Poissonvariablen mit dem Loglink das Modell bilden. Wir betrachten somit eine Tabelle
mit n = 24 Zellen:
0
GZ nicht befallen
GZ befallen
über GZ befallen
R=0
103
40
10
R=1
21
18
4
1
2
R=0 R=1 R=0 R=1
14
7
7
9
6
6
2
5
3
16
3
9
≥3
R=0 R=1
0
13
0
5
2
10
62
Um die gleichen Ergebnisse wie beim logistischen Modell mit Prädiktor L + G zu erhalten,
muss die Summe der beiden Poisson-Beobachtungen in den von L und G aufgespannten
Zellen (in jeder Zelle befindet sich jeweils eine R = 0 und eine R = 1 Beobachtung) fixiert
werden. Das erreicht man durch Aufnahme der Interaktion L*G in den Prädiktor. Das
eigentliche Modell für den Erwartungswert geht als Interaktion mit R in den Prädiktor
ein, also betrachtet man
log µ = R ∗ (L + G) + L ∗ G .
>
>
>
>
y <- c(rez, total-rez); R <- gl(2, 12, labels=1:0)
L <- factor(rep(rep(0:3, 3), 2)); G <- factor(rep(rep(0:2, each=4), 2))
rezidiveMN <- data.frame(y, R, L, G); attach(rezidiveMN)
summary(MN.glm <- glm(y ~ R*(L+G) + L*G, family=poisson))
Coefficients:
0.203404 14.911 < 2e-16 ***
R0
1.604143
0.219202
7.318 2.51e-13 ***
L1
-0.852487
0.328546 -2.595 0.009467 **
L2
-0.870085
0.352170 -2.471 0.013487 *
L3
-0.573696
0.349225 -1.643 0.100431
G1
-0.196387
0.286157 -0.686 0.492530
G2
-1.387115
0.382373 -3.628 0.000286 ***
R0:L1
-1.287280
0.347971 -3.699 0.000216 ***
R0:L2
-1.778549
0.412032 -4.317 1.59e-05 ***
R0:L3
-3.797851
0.761597 -4.987 6.14e-07 ***
R0:G1
-0.728501
0.312710 -2.330 0.019825 *
R0:G2
-1.073534
0.381676 -2.813 0.004913 **
L1:G1
-0.007513
0.410137 -0.018 0.985385
L2:G1
-0.360864
0.502329 -0.718 0.472522
L3:G1
-0.705828
0.592756 -1.191 0.233749
L1:G2
1.766372
0.441979
3.997 6.43e-05 ***
L2:G2
1.456786
0.503794
2.892 0.003833 **
L3:G2
1.375382
0.546435
2.517 0.011836 *
AIC: 134.75
Der Term L∗G fixiert nur die Ränder bezüglich L und G, während die erklärenden Faktoren
des Logit-Modells in den Wechselwirkungen mit R (hier L + G) zu finden sind. Das Modell
beinhaltet daher p = 18 Parameter.
Man bemerke, dass die relevanten Parameter zu R0, R0:L1, R0:L2, R0:L3, R0:G1 und
R0:G2 gehören und exakt jenen im Logit-Modell entsprechen. Natürlich haben sich Deviance und Freiheitsgrade auch nicht geändert. Als Prognosewerte erhält man
63
> grid <- list(R=levels(R), L=levels(L), G=levels(G))
> MN.p <- predict(MN.glm, expand.grid(grid), type="response")
> options(digits=4); t(matrix(MN.p, 8))
[,1]
[,2]
[,3]
[,4] [,5] [,6]
[,7]
[,8]
[1,] 20.758 103.242 8.850 12.150 8.696 7.304 11.696 1.3041
[2,] 17.057 40.943 7.218 4.782 4.981 2.019 4.745 0.2553
[3,] 5.185
8.815 12.932 6.068 9.323 2.677 11.559 0.4405
Durch das Fixieren der Ränder
die Summe
∑ist in jeder Zelle (für jede L-G Kombination) ∑
der geschätzten Erwartungen r µ̂ijr gleich der beobachteten Gesamtanzahl r yijr .
Das Modell logit(µ) = 1 entspricht beispielsweise dem Modell
log µ = R + L ∗ G .
Man erhält ein Modell mit p = 13 Parametern. Wiederum fixiert L ∗ G nur die Ränder
und R = R ∗ 1 steht nur in ’Wechselwirkung’ mit dem Intercept.
> summary(MN.glm1 <- glm(y ~ R + L*G, family=poisson))$deviance
[1] 103.5
> MN.p1 <- predict(MN.glm1, expand.grid(grid), type="response")
> (pred <- t(matrix(MN.p1, 8)))
[,1]
[,2] [,3]
[,4] [,5] [,6] [,7] [,8]
[1,] 48.728 75.272 8.252 12.748 6.288 9.712 5.109 7.891
[2,] 22.792 35.208 4.716 7.284 2.751 4.249 1.965 3.035
[3,] 5.502 8.498 7.466 11.534 4.716 7.284 4.716 7.284
> pred[1,1]/pred[1,2]
[1] 0.6474
Jetzt ist die Wahrscheinlichkeit eines Rezidivs in jeder Zelle gleich, also die Verhältnisse
48.7/75.3 = 22.8/35.2 = 5.5/8.5 = · · · = 0.647.
Eine sehr einfache Alternative zum loglinearen Poissonmodell mit allen Interaktionen
stellt die Funktion multinom in der Bibliothek nnet dar. Hiermit können multinomiale
Daten direkt modelliert werden.
> library(nnet)
> summary(MN.direkt <- multinom(R ~ L+G, weights=y))
Coefficients:
Values Std. Err.
(Intercept) 1.6041
0.2192
L1
-1.2873
0.3480
L2
-1.7785
0.4120
L3
-3.7979
0.7616
G1
-0.7285
0.3127
G2
-1.0735
0.3817
AIC: 338.8
64
Hierbei vergleicht die Deviance das Modell mit einem Modell, das jedes der 313 einzelnen
Subjekte korrekt vorhersagt, und nicht mit dem saturierten Modell zu den 12 Eintragungen der 3 × 4 Tabelle.
> MN.direkt.sat <- multinom(R ~ L*G, weights=y)
> anova(MN.direkt, MN.direkt.sat) # resulting deviance difference
Model Resid. df Resid. Dev
Test
Df LR stat.
Pr(Chi)
1 L + G
-6
326.7615
NA
NA
NA
2 L * G
-12
315.9636 1 vs 2
6 10.79786 0.0948282
# the multinomial deviance can be derived by
> MN.direkt$deviance - MN.direkt.sat$deviance
[1] 10.79786
# this value exactly compares with the Binomial logistic deviance
5.3
5.3.1
Zweidimensionale Kontingenztafeln
Unabhängigkeitsmodell
Wir nehmen nun an, dass eine multinomialverteilte Stichprobe mit Umfang n vorliegt, die
auf N = I × J Zellen einer Kontingenztafel verteilt ist. Die Wahrscheinlichkeiten {πij }
dieser Multinomialverteilung stellen die gemeinsame Verteilung der beiden kategorialen
Responses dar. Diese sind stochastisch unabhängig, falls
πij = πi+ π+j ,
∀i = 1, . . . , I ,
j = 1, . . . , J .
In diesem Fall gilt für die zu erwartenden Häufigkeiten mij = nπij
mij = nπi+ π+j ,
∀i = 1, . . . , I ,
j = 1, . . . , J .
Auf der logarithmischen Skala hat dieses Modell folgendes Aussehen
log mij = log n + log πi+ + log π+j .
Der Logarithmus des Erwartungswertes für die Zelle (i, j) ist daher eine additive Funktion
des i-ten Zeileneffekts und des j-ten Spaltenffekts. Bezeichnet X den zeilen- und Y den
spaltenbildenden Faktor, so ist dieses Modell äquivalent mit
log mij = µ + λxi + λyj ,
(5.4)
5.3. ZWEIDIMENSIONALE KONTINGENZTAFELN
65
wobei mit der Kontrast Parametrisierung folgt
1∑
log πh+
I h=1
I
λxi = log πi+ −
λyj
= log π+j
J
1∑
−
log π+h
J h=1
I
J
1∑
1∑
µ = log n +
log πh+ +
log π+h .
I h=1
J h=1
Mit dieser gewählten Parametrisierung gilt
}
{
J
I
I
I
∑
∑
∑
∑
1
λxi =
log πi+ −
log πh+ = 0 =
λyj .
I
i=1
i=1
j=1
h=1
Modell (5.4) wird loglineares Unabhängigkeitsmodell genannt. Durch diese beiden Restriktionen sind nur I − 1 Zeilen- sowie J − 1 Spaltenparameter frei schätzbar.
5.3.2
Saturiertes (volles) Modell
Falls keine Unabhängigkeit angenommen werden kann, definiere
ηij = log mij
und
ηi+
J
1∑
=
ηij
J j=1
1∑
ηij
I i=1
I
η+j =
η++ = µ =
I
J
1 ∑∑
ηij .
IJ i=1 j=1
Der Parameter µ = η++ bezeichnet hier den sogenannten grand mean der log mij . Wir
definieren den Zeileneffekt λxi , Spalteneffekt λyj und Interaktionseffekt (Wechselwirkung)
λxy
ij als
λxi = ηi+ − η++
λyj = η+j − η++
λxy
= ηij − ηi+ − η+j + η++ = (ηij − η++ ) − (ηi+ − η++ ) − (η+j − η++ )
ij
{z
} |
{z
}
| {z } |
ηij −µ
λx
i
λyj
66
so dass damit das obige Modell geschrieben werden kann als
log mij = µ + λxi + λyj + λxy
ij .
(5.5)
Hierbei bezeichnen {λxi } und {λyj } Abweichungen von µ. Die Wechselwirkung {λxy
ij } ist
einfach der um den Zeilen- wie auch Spalteneffekt bereinigte Zelleneffekt. Wegen
I
∑
λxi
=
J
∑
λyj = 0
j=1
i=1
hat man I − 1 (bzw. J − 1) unabhängige Zeilenparameter (bzw. Spaltenparameter). Falls
λxi > 0, ist die durchschnittliche (log) erwartete Häufigkeit für Zellen der i-ten Zeile größer
als die durchschnittliche (log) erwartete Häufigkeit über die ganze Tabelle. Weiters gilt
I
∑
i=1
λxy
=
ij
I
∑
ηij −
i=1
= Iη+j
1
−
J
I
∑
ηi+ − Iη+j + Iη++
i=1
I ∑
J
∑
ηij − Iη+j
i=1 j=1
I
J
J
∑
1 ∑∑
+I
ηij = 0 =
λxy
ij .
IJ i=1 j=1
j=1
Falls die Parameter {λxy
ij } in den (I − 1)(J − 1) Zellen der ersten (I − 1) Spalten und
ersten (J − 1) Zeilen gegeben sind, so resultieren sofort die restlichen Parameter {λxy
ij }.
Daraus folgt, dass (I − 1)(J − 1) dieser Parameter linear unabhängig sind.
Das Unabhängigkeitsmodell (5.4) ist ein Spezialfall des saturierten Modells (5.5) mit
xy
λxy
ij = 0, ∀(i, j). Die zusätzlichen Parameter λij sind jetzt Assoziations-Parameter,
welche die Abweichungen von der Unabhängigkeit zwischen X und Y beschreiben. Die
totale Anzahl linear unabhängiger Parameter ist
Unabhängigkeitsmodell:
Abhängigkeitsmodell:
1 + (I − 1) + (J − 1) = I + J − 1
1 + (I − 1) + (J − 1) + (I − 1)(J − 1) = I × J = N .
In R arbeitet man standardmäßig mit einer anderen Kontrastierung, der sogenannten
treatment Kontrastierung. Möchte man mit der obigen Parametrisierung Modelle interpretieren, so ist dazu folgender Aufruf notwendig
> options(contrasts=c("contr.sum", "contr.poly"))
Die Default-Einstellung von R ist jedoch
> options(contrasts=c("contr.treatment", "contr.poly"))
5.3.3
67
Interpretation der Parameter
Ein spezieller Fall liegt vor, wenn binäre Variablen modelliert werden. Für die (I ×2)-Tafel
i 1
2
1 π11 π12
.. ..
..
. .
.
i πi1 πi2
.. ..
..
. .
.
I πI1 πI2
resultieren unter der Annahme der Unabhängigkeit für alle i = 1, . . . , I die log-odds
log
Da wiederum
∑2
j=1
πi1
πi1
mi1
= log
= log
= log mi1 − log mi2
πi2
1 − πi1
mi2
= (µ + λxi + λy1 ) − (µ + λxi + λy2 ) = λy1 − λy2 .
λyj = 0 gilt, also λy1 + λy2 = 0, folgt λy2 = −λy1 und damit für alle Zeilen
log
πi1
= λy1 − λy2 = 2λy1 .
1 − πi1
Somit ist die Quote (odds) dafür, dass die Spalten-Klassifikation Kategorie 1 ergibt im
Vergleich zu Kategorie 2
πi1
= exp(2λy1 ) .
1 − πi1
Hat man sogar nur eine (2 × 2)-Tafel wie
i 1
2
1 m11 m12
2 m21 m22
so ist das odds-ratio der erwarteten Häufigkeiten
ψ=
m11 /m12
m11 m22
=
m21 /m22
m21 m12
und unter dem saturierten Modell resultiert als log-odds-ratio
log ψ = log m11 + log m22 − log m12 − log m21
y
xy
x
= (µ + λx1 + λy1 + λxy
11 ) + (µ + λ2 + λ2 + λ22 )
y
xy
x
−(µ + λx1 + λy2 + λxy
12 ) − (µ + λ2 + λ1 + λ21 )
xy
xy
xy
= λxy
11 + λ22 − λ12 − λ21 .
68
Mit
∑
i
λxy
ij =
∑
j
λxy
ij = 0, folgt
xy
λxy
11 + λ21
xy
λxy
11 + λ12
xy
λxy
12 + λ22
xy
λxy
21 + λ22
=0
=0
=0
=0
→
→
→
→
λxy
11
λxy
11
λxy
12
λxy
21
= −λxy
21
= −λxy
12
= −λxy
22
= −λxy
22
xy
xy
xy
also λxy
11 = λ22 = −λ12 = −λ21 und somit
log ψ = 4λxy
11 .
Daher ist es sinnvoll, hier eine alternative Parametrisierung zu verwenden. Setzt man statt
dem + eine 1, so verwendet man die erste Zelle als Vergleichsreferenz, und es folgt
µ
λxi
λyj
λxy
ij
=
=
=
=
η11
ηi1 − η11
η1j − η11
(ηij − η11 ) − (ηi1 − η11 ) − (η1j − η11 ) = ηij − ηi1 − η1j + η11 .
| {z } | {z }
λx
i
λyj
Es resultiert wieder
log mij = µ + λxi + λyj + λxy
ij ,
jedoch ist jetzt
λx1
λy1
λxy
i1
λxy
1j
=
=
=
=
η11 − η11 = 0
η11 − η11 = 0
ηi1 − η11 − λxi − λy1 = 0
η1j − η11 − λx1 − λyj = 0,
also allgemein
log
m11 mij
=
m1j mi1
y
xy
x
(µ + λx1 + λy1 + λxy
11 ) + (µ + λi + λj + λij )
y
xy
x
−(µ + λx1 + λyj + λxy
1j ) − (µ + λi + λ1 + λi1 )
= λxy
ij .
Die Assoziations-Parameter beschreiben jetzt das log-odds-ratio. Falls λxy
ij = 0 dann folgt
m11 mij
= exp(λxy
ij ) = 1 ,
m1j mi1
und damit ist das odds-ratio beim Unabhängigkeitsmodell gleich 1.
5.3.4
69
Beispiel
Untersuche, ob der Lymphknotenbefall und die Rezidivbildung unabhängig sind.
R=0
R=1
L=0
153
43
L=1
23
29
L=2
12
23
L=3
2
28
Das loglineare Unabhängigkeitsmodell L + R ergibt unter Annahme der Poissonverteilung
eine Deviance von 82.12 bei 3 Freiheitsgraden. Die Pearson-Statistik
2 ∑
4
∑
(yij − µ̂ij )2
X =
µ̂ij
i=1 j=1
2
realisiert in 77.63. Dies entspricht genau der χ2 -Statistik bei der Kontingenztafel-Analyse.
> y <- c(153, 23, 12, 2, 43, 29, 23, 28)
> L <- factor(c(0, 1, 2, 3, 0, 1, 2, 3))
> R <- factor(c(0, 0, 0, 0, 1, 1, 1, 1))
> summary(LK.mod <- glm(y ~ L + R, family=poisson))
Coefficients:
(Intercept) 4.77894
0.08468 56.437 < 2e-16 ***
L1
-1.32687
0.15599 -8.506 < 2e-16 ***
L2
-1.72277
0.18350 -9.388 < 2e-16 ***
L3
-1.87692
0.19604 -9.574 < 2e-16 ***
R1
-0.43484
0.11573 -3.757 0.000172 ***
> sum(residuals(LK.mod, type="pearson")**2)
[1] 77.6328
Natürlich ist diese Hypothese der Unabhängigkeit eindeutig zu verwerfen. Eine alternative
Interpretation des Ergebnisses wäre zu sagen, dass das Unabhängigkeitsmodell nicht zu
passen scheint.
Dieses Ergebnis kann auch durch die folgende Sequenz von Befehlen erzielt werden
> N <- matrix(y, 2, 4, byrow=TRUE);
[,1] [,2] [,3] [,4]
[1,] 153
23
12
2
[2,]
43
29
23
28
N
70
> chisq.test(N) # only available for I x J tables
Pearson’s Chi-squared test
data: N
X-squared = 77.6328, df = 3, p-value < 2.2e-16
Dies entspricht dem χ2 -Test auf Unabhängigkeit zweier Faktoren, welcher jedoch nur für
zweidimensionale Situationen verwendbar ist. Im Gegensatz dazu erlaubt aber das loglineare Poisson-Modell verschiedenartige Verallgemeinerungen. Dazu zählen die Konzepte
der vollständigen Unabhängigkeit oder der konditionalen Unabhängigkeit (graphische Modelle).
Um zu sehen, welche Auswirkung die Wahl der Parametrisierung hat, betrachten wir
noch zusätzlich das Ergebnis der Schätzung wenn als Referenzstufe von L die vierte Stufe
gewählt wurde.
> summary(glm(y ~ C(L, base=4) + R, family=poisson)) #(1, 4)=reference cell
Coefficients:
(Intercept)
2.9020
0.1881 15.425 < 2e-16 ***
C(L, base = 4)1
1.8769
0.1960
9.574 < 2e-16 ***
C(L, base = 4)2
0.5500
0.2293
2.399 0.016428 *
C(L, base = 4)3
0.1542
0.2488
0.620 0.535530
R1
-0.4348
0.1157 -3.757 0.000172 ***
Im Gegensatz dazu liefert die sum Kontrastierung
> options(contrasts=c("contr.sum", "contr.poly"))
> summary(glm(y ~ L + R, family=poisson))
Coefficients:
(Intercept) 3.32988
0.07445 44.726 < 2e-16 ***
L1
1.23164
0.08911 13.822 < 2e-16 ***
L2
-0.09523
0.12249 -0.777 0.436899
L3
-0.49113
0.14027 -3.501 0.000463 ***
R1
0.21742
0.05786
3.757 0.000172 ***
> options(contrasts=c("contr.treatment", "contr.poly"))
Kapitel 6
Modelle mit zufälligen Effekten
6.1
Zufällige Prädiktoren
Bis jetzt basierten die betrachteten GLMs auf lineare Prädiktoren der Form
ηi = g(µi ) = xti β .
Die erklärenden Größen sind hierbei zum Vektor x zusammengefasst und β stellt den
unbekannten Parametervektor dar, der geschätzt werden muss. Wir werden jetzt eine
Klasse von Modellen diskutieren, die im linearen Prädiktor zusätzlich noch einen zufälligen
Effekt verwendet. Dies hat in den folgenden beiden Situationen eine sehr klare Motivation.
Falls beispielsweise einige relevante erklärende Variablen ui = (ui1 , . . . , uip′ )t gar nicht
beobachtet sind, kann durch Hinzunahme eines zufälligen (skalarwertigen) Effektes zi =
uti γ auf die ansonsten resultierende Überdispersion (Datenvariabilität ist größer als die
Modellvariabilität) eingegangen werden. Diese Überlegung führt zu Prädiktoren der Form
ηi = g(µi ) = xti β + zi .
Andererseits könnten n unabhängige Gruppen von Beobachtungen yi = (yi1 , . . . , yini )t
vorliegen, wofür innerhalb jeder Gruppe Abhängigkeit unter den yij besteht. Nimmt man
einen zufälligen Effekt für sämtliche Responses einer Gruppe in deren Prädiktor auf, d.h.
ηij = g(µij ) = xtij β + zi ,
so wird dadurch die Korrelation in den Daten (marginal) berücksichtigt. Da sich alle yij auf
denselben Effekt zi beziehen, gewinnt man automatisch ein Modell für deren Abhängigkeit.
Die nichtbeobachtbaren zi seien unabhängige und identisch verteilte Zufallsvariablen. Im
Gegensatz zu früher verwenden wir jetzt zufällige Prädiktoren, welche den konditionalen
Erwartungswert µi = E(yi |zi ) (bzw. µij = E(yij |zi )) modellieren. Weiters sei die konditionale Verteilung der Response, gegeben diese zufälligen Effekte, aus der Exponentialfamilie.
Für die Berechnung des Maximum-Likelihood Schätzers soll jedoch die marginale Dichte
maximiert werden. Da dies nur selten analytisch durchgeführt werden kann, wird oft als
Alternative die EM-Schätzung verwendet.
71
72
6.2
KAPITEL 6. MODELLE MIT ZUFÄLLIGEN EFFEKTEN
EM Schätzer
Für den von Dempster, Laird & Rubin (1977) entwickelten EM-Algorithmus wird angenommen, dass die Daten aus einem beobachtbaren Teil y und einem nicht beobachtbaren
Teil z zusammengesetzt sind. Die gemeinsame Dichte einer vollständigen Beobachtung
(y, z) sei f (y, z|θ), wobei alle unbekannten Parameter im System zum Vektor θ ∈ Θ zusammengefasst sind (hierbei bezeichnet Θ den Parameterraum). Somit gilt allgemein für
die marginale Dichte f (y|θ) der Response y
∫
ℓ(θ|y) = log f (y|θ) = log f (y, z|θ)dz .
(6.1)
Um den Schätzer θ̂ zu bestimmen, wird die marginale Log-Likelihood Funktion ℓ(θ|y)
maximiert. Dabei stößt man aber in der Praxis häufig auf Probleme mit dem Integral (6.1).
Mit der bedingten Dichte von z|y, gegeben durch
f (z|y, θ) =
f (y, z|θ)
,
f (y|θ)
lässt sich (6.1) schreiben als ℓ(θ|y) = log f (y|θ) = log f (y, z|θ)−log f (z|y, θ). Der Schätzer
θ̂ soll ℓ(θ|y) maximieren. Es gilt auch
log f (y, z|θ) = log f (z|y, θ) + ℓ(θ|y) .
Da z nicht beobachtet ist, ersetzen wir diese fehlende Information durch ihren konditionalen Erwartungswert, gegeben all das was beobachtet vorliegt. Für dessen Berechnung
verwenden wir einen beliebigen zulässigen Parameterwert θ0 ∈ Θ, d.h. bezüglich f (z|y, θ0 ).
Der konditionale Erwartungswert von ℓ(θ|y), gegeben die beobachteten Daten y, ist aber
wiederum ℓ(θ|y), also gilt
(
)
(
)
(
)
E log f (y, z|θ)y, θ0 = E log f (z|y, θ)y, θ0 + E ℓ(θ|y)y, θ0
∫
∫
∫
log f (y, z|θ)f (z|y, θ0 )dz =
log f (z|y, θ)f (z|y, θ0 )dz + ℓ(θ|y)f (z|y, θ0 )dz
Q(θ|θ0 ) = H(θ|θ0 ) + ℓ(θ|y) .
(6.2)
Die Maximierung von ℓ(θ|y) in θ ist daher äquivalent mit der Maximierung der Differenz
Q(θ|θ0 ) − H(θ|θ0 ). Bemerke, dass (6.2) für beliebige Parameterwerte θ ∈ Θ hält, also auch
für θ = θ0 wofür wir
Q(θ0 |θ0 ) = H(θ0 |θ0 ) + ℓ(θ0 |y)
erhalten. Somit resultiert als Differenz zu (6.2) für die marginale Log-Likelihood Funktion
[
]
ℓ(θ|y) − ℓ(θ0 |y) = Q(θ|θ0 ) − Q(θ0 |θ0 ) − H(θ|θ0 ) − H(θ0 |θ0 ) .
(6.3)
6.2. EM SCHÄTZER
73
Allgemein liefert die Jensen Ungleichung für eine konkave Funktion, wie g(x) = log(x),
die Abschätzung E(g(X)) ≤ g(E(X)). Damit folgt für beliebiges θ ∈ Θ
∫
f (z|y, θ)
H(θ|θ0 ) − H(θ0 |θ0 ) =
log
f (z|y, θ0 )dz
f (z|y, θ0 )
(
)
f (z|y, θ) = E log
y, θ0
f (z|y, θ0 )
( f (z|y, θ) )
≤ log E
y, θ0
f (z|y, θ0 )
∫
f (z|y, θ)
= log
f (z|y, θ0 )dz
f (z|y, θ0 )
∫
= log f (z|y, θ)dz = log 1 = 0 ,
also
H(θ|θ0 ) − H(θ0 |θ0 ) ≤ 0 .
(6.4)
Dies hat wiederum zur Folge, dass wir (6.3) schreiben können als
ℓ(θ|y) − ℓ(θ0 |y) ≥ Q(θ|θ0 ) − Q(θ0 |θ0 ) .
Sei θ′ jener Wert von θ, der für ein gegebenes (festes) θ0 die Funktion Q(θ|θ0 ) maximiert.
Somit gilt
Q(θ′ |θ0 ) − Q(θ|θ0 ) ≥ 0
und daher auch
Q(θ′ |θ0 ) − Q(θ0 |θ0 ) ≥ 0 .
Dies zeigt aber, dass durch die Maximierung von Q(θ|θ0 ) die Log-Likelihood nach diesem
(EM-) Schritt zumindest nicht verkleinert wird, denn das letzte Ergebnis impliziert
ℓ(θ′ |y) − ℓ(θ0 |y) ≥ 0 .
Stationarität: Weiters resultiert durch Differenzieren von (6.2) die Identität
∂
∂
∂
Q(θ|θ0 ) =
H(θ|θ0 ) + ℓ(θ|y) .
∂θ
∂θ
∂θ
Nun gilt aber wegen (6.4) gerade H(θ|θ0 ) ≤ H(θ0 |θ0 ) für alle θ. Unter dieser Extremalbedingung folgt, dass
∂
H(θ|θ0 )|θ=θ0 = 0
∂θ
hält was bedeutet, dass die Funktion H(θ|θ0 ) stationär ist in θ = θ0 . Ist somit Q(θ|θ0 )
stationär in θ = θ0 , dann ist dies dort auch ℓ(θ|y).
Der EM-Algorithmus ist zweistufig. Im E-Schritt wird der bedingte Erwartungswert
Q(θ|θ0 ) für gegebenes θ0 berechnet. Danach wird im M-Schritt diese Funktion Q(θ|θ0 )
bezüglich θ maximiert. Sei das Ergebnis dieser Maximierung θ′ , so wird damit wiederum
74
ein E-Schritt mit aktualisierten θ0 = θ′ durchgeführt. Diese Iteration wiederholt man bis
zur Konvergenz im marginalen Likelihood Schätzer θ̂.
Self-consistency des EM-Algorithmus: Falls der MLE θ̂ ein globales Maximum von ℓ(θ|y)
darstellt, so muss dieser auch
Q(θ̂|θ̂) ≥ Q(θ|θ̂)
genügen. Ansonsten würde es ja einen Parameterwert θ∗ geben mit der Eigenschaft
Q(θ̂|θ̂) < Q(θ∗ |θ̂)
was wiederum
ℓ(θ∗ |y) > ℓ(θ̂|y)
impliziert und somit einen Widerspruch darstellt zur Annahme, dass θ̂ das globale Maximum von ℓ(θ|y) ist.
Anstelle des Integrals in (6.1) muss also beim EM-Algorithmus das Integral Q(θ|θ0 ) in (6.2)
berechnet und maximiert werden. Wie das folgende Beispiel zeigt, ist diese Berechnung
in einigen Anwendungen möglich.
6.2.1
Beispiel: Endliche diskrete Mischungen
Sei y1 , . . . , yn eine Stichprobe aus einer diskreten Mischung von K Dichtekomponenten
mit gruppenspezifischen Parametern θ1 , . . . , θK (z.B. Lokation der k-ten Gruppe), einem
gemeinsamen Parameter
∑ ϕ (z.B. Variabilität – für alle Gruppen gleich) und den Anteilen π1 , . . . , πK mit k πk = 1. Die marginale Dichte des i-ten Elements yi kann daher
geschrieben werden als
K
∑
πk f (yi |θk , ϕ) .
f (yi |θ, ϕ, π) =
k=1
Somit ist die Likelihood Funktion
L(π, θ, ϕ|y) =
n ∑
K
∏
πk f (yi |θk , ϕ) =
i=1 k=1
n ∑
K
∏
πk fik .
(6.5)
i=1 k=1
Hier sind θ, ϕ und π unbekannt, also sind K + 1 + (K − 1) = 2K Parameter zu schätzen.
Aus der Log-Likelihood Funktion
(K
)
n
∑
∑
ℓ(π, θ, ϕ|y) = log L(π, θ, ϕ|y) =
log
πk fik
i=1
k=1
erhält man beispielsweise bezüglich ϕ
∑ ∑ πk fik ∂ log fik ∑ ∑
∂
∂ log fik
ℓ(π, θ, ϕ|y) =
=
,
wik
∑K
∂ϕ
∂ϕ
∂ϕ
l=1 πl fil
i=1 k=1
i=1 k=1
n
K
n
K
(6.6)
6.2. EM SCHÄTZER
75
wobei die Gewichte von allen Parametern abhängen, also w = w(π, θ, ϕ) gilt. Diese ScoreFunktion ist eine gewichtete Summe von Score-Funktionen, in der die Summanden aus
jeder einzelnen Komponetendichte der Mischung stammen.
Die Gewichte wik können auch aus der Sicht eines formalen Bayes-Modells sehr gut interpretiert werden. Da per Definition
P (k)P (yi |k)
πk fik
P (k|yi ) = ∑K
= ∑K
= wik
P
(l)P
(y
|l)
π
f
i
l
il
l=1
l=1
(6.7)
gilt, haben diese Gewichte folgende Bedeutung: Wähle die Komponente k zufällig mit
Wahrscheinlichkeit πk . Ziehe nun yi aus dieser Komponente, also aus einer Verteilung mit
Dichte fik . Gegeben yi ist die a posteriori Wahrscheinlichkeit, dass die Komponente k
gewählt wurde, gleich wik .
Die wik sind auch in den Score-Funktionen bezüglich θ und π wesentlich. So ist
∑ πk ∂fik /∂θk ∑
∂
∂ log fik
=
wik
ℓ(π, θ, ϕ|y) =
.
∑K
∂θk
∂θ
π
f
k
l
il
l=1
i=1
i=1
n
n
(6.8)
∑
Für den Schätzer von π benötigt man die Randbedingung k πk = 1, was unter Verwendung eines Lagrange Multiplikators zu
)
(
n
K
n
)
(∑
∑
∑
∂
fik
1
πk − 1
=
ℓ(π, θ, ϕ|y) − λ
−λ=
wik − λ
∑K
∂πk
πk
l=1 πl fil
i=1
i=1
k=1
∑
führt. Setzt man diesen Term Null, so folgt
∑ ∑ πk = i wik /λ. Summiert man
∑ als Lösung
über alle k, ergibt sich wegen (6.7) 1 = k πk = i k wik /λ = n/λ also λ = n. Damit
folgt als Score für die Anteilswerte
n
1 ∑
wik − n .
πk i=1
(6.9)
Die Maximum-Likelihood Schätzer sind definiert als die Nullstellen von (6.6), (6.8) und
(6.9).
Für die Anwendung des EM-Algorithmus wird jede Beobachtung yi wegen ihrer unbekannten Gruppenzugehörigkeit als unvollständig betrachtet. Zu jedem yi definiert man
einen nichtbeobachtbaren Indikatorvektor zi = (zi1 , . . . , ziK ) mit
{
1 falls yi aus Gruppe k
zik =
0 sonst.
Die gemeinsame Dichte von (y, z) lautet daher
f (y, z|π, θ, ϕ) =
n ∏
K
∏
i=1 k=1
f (yi |θk , ϕ)zik πkzik ,
76
also
log f (y, z|π, θ, ϕ) =
n ∑
K
∑
(
)
zik log f (yi |θk , ϕ) + log πk .
i=1 k=1
Im E-Schritt berechnet man für Werte π0 , θ0 , ϕ0 die Funktion Q(π, θ, ϕ|π0 , θ0 , ϕ0 ) also
( n K
)
(
)
)
∑∑ (
E log f (y, z|π, θ, ϕ)y, π0 , θ0 , ϕ0 = E
zik log f (yi |θk , ϕ)+log πk yi , π0 , θ0 , ϕ0 .
i=1 k=1
Durch das Konditionieren hat man im Argument dieses Erwartungswertes außer den zik
nur feste Größen. Somit folgt wegen E(zik |yi , π0 , θ0 , ϕ0 ) = P (zik = 1|yi , π0 , θ0 , ϕ0 ) = wik ,
wobei die wik in π0 , θ0 und ϕ0 ausgewertet sind,
Q(π, θ, ϕ|π0 , θ0 , ϕ0 ) =
n ∑
K
∑
(
)
wik log f (yi |θk , ϕ) + log πk .
(6.10)
i=1 k=1
Dies wird im E-Schritt berechnet, was wiederum im wesentlichen auf der Berechnung der
Größen wik beruht. Die Parameter π, θ und ϕ stellen jene Größen dar, die im folgenden
M-Schritt für feste wik maximiert werden. Dazu müssen aber gerade die Nullstellen der
gewichteten Score Funktionen (6.6), (6.8), und (6.9) berechnet werden.
Mischung von Normalverteilungen
Liegt eine Mischung aus K Normalverteilungen mit unterschiedlichen Erwartungen µk
und konstanter Varianz σ 2 vor, so ist
(
) (y − µ )2
1
i
k
log fik = − log 2πσ 2 −
2
2σ 2
und es folgt
∂ log fik
yi − µk
=
,
∂µk
σ2
∂ log fik
1( 1
(yi − µk )2 )
=−
−
.
∂σ 2
2 σ2
σ4
Für geeignete µk , σ 2 und πk berechnet man im E-Schritt die Werte von wik . Im M-Schritt
wird mit diesen wik die Maximierung durchgeführt. Aus (6.8) folgt
n
∑
i=1
yi − µk
=0
wik
σ2
=⇒
∑n
wik yi
.
µ̂k = ∑i=1
n
i=1 wik
Mit (6.6) ergibt sich
n ∑
K
∑
i=1 k=1
(
wik
(yi − µk )2 )
1
=0
− 2+
2σ
2σ 4
1 ∑∑
σ̂ =
wik (yi − µ̂k )2 .
n i=1 k=1
n
=⇒
2
K
6.3. ÜBERDISPERSIONSMODELLE
77
Schließlich wird noch (6.9) benötigt, d.h.
1∑
wik .
n i=1
n
π̂k =
Mit diesen µ̂k , σ̂ 2 und π̂k berechnet man im E-Schritt aktualisierte wik und geht damit
zum M-Schritt zurück.
6.3
Überdispersionsmodelle
Gegeben ein zufälliger Effekt z mit Dichte f (z) sei die bedingte Dichte einer Beobachtung y gleich f (y|z, θ). Somit folgt als gemeinsame Dichte f (y, z|θ) = f (y|z, θ)f (z|θ). Als
marginale Dichte ergibt sich
∫
∫
f (y|θ) = f (y, z|θ)dz = f (y|z, θ)f (z|θ)dz .
(6.11)
Die bedingte Dichte von z|y ist hier gegeben durch f (z|y, θ) = f (y|z, θ)f (z|θ)/f (y|θ). Als
zu maximierende Funktion resultiert daher für die Stichprobe
Q(θ|θ0 ) =
=
n ∫
∑
i=1
n ∫
∑
log f (yi , zi |θ)f (zi |yi , θ0 )dzi
log f (yi , zi |θ)
i=1
=
n
∑
i=1
1
f (yi |θ0 )
∫
f (yi |zi , θ0 )
f (zi |θ0 )dzi
f (yi |θ0 )
log f (yi , zi |θ)f (yi |zi , θ0 )f (zi |θ0 )dzi .
(6.12)
Dabei sind sowohl f (yi |θ0 ) (siehe (6.11)) als auch das Integral in (6.12) selbst sehr unangenehm und nur selten analytisch geschlossen darstellbar. Zwei Ansätze sollen nun diskutiert werden. Im ersten nehmen wir an, dass z aus einer Normalverteilung stammt und
daraufhin werden beide Integral durch eine K-Punkt Gauss-Quadratur approximiert.
Falls diese Annahme nicht getroffen werden kann, wird im zweiten Ansatz f (z) durch den
nicht-parametrischen Maximum-Likelihood, NPML Schätzer fˆ(z) ersetzt und die
dadurch resultierende Zielfunktion maximiert.
6.3.1
Normalverteilte zufällige Effekte
Für f (z) = ϕ(z) liefert die Gauss-Quadratur als Approximation
∫
f (y|θ0 ) =
f (y|z, θ0 )ϕ(z)dz ≈
K
∑
k=1
f (y|zk , θ0 )πk
78
mit bekannten Massen πk auf den festen (bekannten) Massepunkten zk . Wendet man
dieses Approximationsverfahren auch auf das zweite Integral an, so resultiert
n ∑K
∑
k=1 log f (yi , zk |θ)f (yi |zk , θ0 )πk
Q(θ|θ0 ) ≈
∑K
j=1 f (yi |zj , θ0 )πj
i=1
=
=
n ∑
K
∑
i=1 k=1
n ∑
K
∑
wik log f (yi , zk |θ)
(
wik log f (yi |zk , θ) + log πk
)
(6.13)
i=1 k=1
mit den Gewichten
πk f (yi |zk , θ0 )
,
wik = ∑K
f
(y
|z
,
θ
)π
i
j
0
j
j=1
(6.14)
die in θ = θ0 ausgewertet sind und daher für die folgende Maximierung feste Größen
darstellen. Die Approximation (6.13) ist identisch der Funktion Q in (6.10) und die Gewichte (6.14) entsprechen den Größen (6.7). Daher ist die Schätzung der Parameter im
Modell mit zufälligen Effekten äquivalent der Schätzung in diskreten Mischmodellen, wobei hier aber die Massen πk bekannte Größen darstellen und bedingte Dichten gemischt
werden. Schreibt man den Linearen Prädiktor dieses Modells als
ηi = xti β + σz zi ,
iid
mit zi ∼ N (0, 1) ,
(6.15)
so wird bei der Maximierung von (6.13) bezüglich β gerade die mit (6.14) gewichtete
Likelihood einer Stichprobe mit nK Elementen maximiert. Diese erweiterte Stichprobe
erhält man, wenn jeder Beobachtung yi gerade K Lineare Prädiktoren der Form
ηik = xti β + σz zk
mit bekannten Massestellen zk und unbekanntem β und σz zugeordnet werden. Dies bedeutet, dass jede Beobachtung K-fach betrachtet wird und deren Lineare Prädiktoren
jeweils mit zk erweitert werden. Der Schätzer zu dieser neuen Spalte stellt somit den
Schätzer von σz dar.
Für jede Iteration der EM-Schätzung ist daher eine Programm notwendig, mit dem eine
gewichtete ML-Schätzung eines Generalisierten Linearen Modells gerechnet werden kann.
79
Als Datensatz verwendet man dazu die erweiterte Struktur
x1p
..
.
σz
z1
..
.
xn1 . . .
x11 . . .
..
.
xnp
x1p
..
.
z1
z2
..
.
xn1 . . .
..
.
xnp
..
.
z2
..
.
y
y1
..
.
w
w11
..
.
x11
..
.
yn
y1
..
.
wn1
w12
..
.
yn
..
.
wn2
..
.
β
...
y1 w1K x11 . . .
..
..
..
.
.
.
yn wnK xn1 . . .
6.3.2
x1p zK
..
..
.
.
xnp zK
Zufällige Effekte aus unbekannter Verteilung
Falls über f (z) keine Annahmen getroffen werden können, so sollte f (z) nichtparametrisch
geschätzt werden. Der Schätzer fˆ(z) ist dann eine Wahrscheinlichkeitsfunktion, definiert
auf K geschätzte Massepunkte zk mit Massen πk . Entsprechendes Vorgehen wie bei der
Gauss-Quadratur liefert (6.13) als Zielfunktion mit Gewichten (6.14), wobei jetzt jedoch
die zk und πk unbekannt sind. Daher wird hier noch zusätzlich die Schätzung (6.9) für πk
verwendet. Für den hierbei betrachteten Linearen Prädiktor
ηi = xti β + zi ,
iid
mit zi ∼ F (z) ,
(6.16)
folgt
ηik = xti β + zk ,
wobei die K Stellen zk unbekannt sind. Mittels eines K-stufigen Faktors kann der Prädiktor umgeschrieben werden zu
ηik = xti β + z1 · 0 + · · · + zk−1 · 0 + zk · 1 + zk+1 · 0 + · · · + zK · 0
und die unbekannten z1 , . . . , zK stellen gerade die Parameter zu diesen K Dummy-Variablen
(0,1) dar. Falls x einen Intercept enthält, kann nicht zwischen diesem und z1 unterschieden werden. Der dazu notwendige, erweiterte Datensatz hat wiederum nK Elemente. Für
80
einen M-Schritt wird eine gewichtete ML-Schätzung für das GLM bezüglich
y
y1
..
.
w
w11
..
.
x11
..
.
yn
y1
..
.
wn1
w12
..
.
yn
..
.
wn2
..
.
β
...
x1p
..
.
1
..
.
z
0 ...
..
.
xn1 . . .
x11 . . .
..
.
xnp
x1p
..
.
1
0
..
.
0 ...
1 ...
..
.
0
0
..
.
xn1 . . .
..
.
xnp
..
.
0
..
.
1 ...
..
.
0
..
.
y1 w1K x11 . . .
..
..
..
.
.
.
yn wnK xn1 . . .
x1p
..
.
0
..
.
0 ...
..
.
1
..
.
xnp
0 0 ...
1
0
..
.
durchgeführt. Im folgenden E-Schritt werden nur die Gewichte wik entsprechend aktualisiert. Als nichtparametrischen Maximum-Likelihood Schätzer (NPMLE) für die Verteilung
der Zufallseffekte erhält man bei Konvergenz die K Paare
fˆ(z) = (ẑ1 , π̂1 ), . . . , (ẑK , π̂K ) .
Dies ergeben eine Multinomial-Verteilung auf den geschätzten K Massestellen ẑ mit
geschätzten Wahrscheinlichkeitsmassen π̂.
6.3.3
Prädiktionen bei NPML Schätzung
Als Schätzung für das konditionale Modell µik = E(yi |zk ) erhält man für jede Komponente k = 1, . . . , K
also µ̂ik = g −1 (η̂ik ) .
g(µ̂ik ) = η̂ik = xti β̂ + ẑk ,
Diese stellen parallele Regressionsebenen im (η, x)-Raum dar.
Interessant ist auch eine Schätzung des marginalen Modells, also von E(yi ). Die alternative Bezeichnung population average wird in der Literatur nicht konsistent genutzt. Da
die marginale Verteilung der yi die gemischte Exponentialfamilie ist, folgt
∫
∫
E(yi ) =
yi f (yi |zi )f (zi ) dzi dyi
∫
≈
yi
K
∑
f (yi |zk )πk dyi =
k=1
K
∑
∫
πk
yi f (yi |zk ) dyi =
k=1
k=1
und es resultiert
b i) =
E(y
K
∑
k=1
K
∑
π̂k µ̂ik .
πk E(yi |zk )
81
Der posterior Mean eines Zufallseffekts zi , gegeben die Beobachtung yi , ist gleich
∫
E(zi |yi ) =
zi f (zi |yi )dzi
∫
f (yi |zi )f (zi )
=
zi ∫
dzi
f (yi |zi )f (zi )dzi
K
∑
f (yi |zk )πk
.
≈
zk ∑K
f
(y
|z
)π
i
l
l
l=1
k=1
Der empirische Bayes Schätzer dafür ist
e i |yi ) =
E(z
K
∑
ẑk ŵik ,
k=1
das posteriori-gewichtete Mittel der geschätzten Massepunkte.
Damit ist es jetzt möglich,
e i |yi ) zu berechnen. Wegen ∑ ŵik = 1 resultiert dafür
den linearen Prädiktor sowie E(z
k
ηei =
xti β̂
e i |yi ) =
+ E(z
K
∑
)
(
ŵik xti β̂
+ ẑk
k=1
=
µ
ei =
K
∑
k=1
K
∑
ŵik η̂ik
ŵik µ̂ik .
k=1
6.3.4
Beispiel: Matched Pairs
In einer Studie des Landeshygienikers für die Steiermark wurden alle zwei Wochen über ein
volles Jahr bei zwei benachbarten Grazer Wohnsiedlungen (site=6 bzw. site=7) die Bakterienkonzentrationen in der Außenluft beobachtet. Die beiden Siedlungen unterscheiden
sich bezüglich des Vorhandenseins einer Kompostierungsanlage (site=7). Es ist bekannt,
dass die Anzahl kolonienbildender luftgetragener Mikroorganismen (cfu: colonies forming
units) vom vorherrschenden Wetter abhängig ist. Zu diesen 26 × 2 Beobachtungen bac
gehören deshalb auch Temperatur t und Luftfeuchtigkeit h.
Als Messgerät wurde ein sechsstufiger Luftsammler verwendet, dessen Stufen unterschiedlich große Keime filtern. Dabei sind besonders die kleinen Mikroorganismen (stage>3) für
den Menschen gefährlich, da diese bis zur Lunge vordringen können. Es ist zu untersuchen,
ob es einen relevanten Kompostieranlageneffekt gibt.
Die Erstanalyse dieser Daten ergibt einen extremen cfu Wert, weshalb beide Tripel nicht
in die folgenden Betrachtungen aufgenommen werden.
> bac67red <- bacteria[(site > 5 & bac < 20), ]
82
> bac456 <- rbind.data.frame(cbind(bac67red[ ,1:4], 4, bac <- b4),
cbind(bac67red[ ,1:4], 5, bac <- b5),
cbind(bac67red[ ,1:4], 6, bac <- b6))
> names(bac456) <- c("date","site","h","t","stage","bac")
> bac456[ ,5] <- factor(bac456[ ,5]); attach(bac456)
Da es sich hierbei um Anzahlen handelt, wird zuerst ein loglineares Poissonmodell betrachtet. Wir sind vor allem am Verhalten an den beiden Orten auf den drei Stufen interessiert
und wollen auf die Wetterbedingungen (an den beiden Orten ähnlich) standardisieren.
> gt <- glm(bac ~ stage*site + t + t^2, data=bac456, family=poisson)
> gth <- update(gt, . ~ . + h + h^2)
> anova(gt, gth, test="Chi")
Terms Df
Dev Test
Df Dev Pr(Chi)
1
stage * site + t + t^2 142 258.8
2 stage * site + t + t^2 + h + h^2 140 255.1 +h+I(h^2) 2 3.75 0.154
> summary(gt, cor=F)
Coefficients:
Value Std. Error t value
(Intercept) 0.344616 0.1874847 1.8381
stage5 0.397696 0.1969099 2.0197
stage6 -0.295463 0.2332816 -1.2666
site 0.059636 0.2120410 0.2812
t 0.059657 0.0175228 3.4045
I(t^2) -0.002146 0.0006113 -3.5106
stage5site -0.442148 0.2884261 -1.5330
stage6site 0.418077 0.3086641 1.3545
(Dispersion Parameter for Poisson family taken to be 1 )
Null Deviance: 284.2 on 149 degrees of freedom
Residual Deviance: 258.8 on 142 degrees of freedom
Nur die lineare und quadrierte Temperatur scheinen relevant. Bedenklich ist die Überdispersion (Deviance 258.8 bei df=142). Dies könnte im Fehlen von weiteren Prädiktorvariablen begründet sein, z.B. Wind oder Luftdruck. Ein Modell mit zufälligen Effekten
sollte dies teilweise kompensieren.
Wir beginnen mit der Annahme normalverteilter Effekte. Durch Erhöhen der Anzahl der
Quadraturpunkte kann die Deviance von 258.8 (K = 1) auf 235.5 (K = 2) und 227.6
(K = 3) reduziert werden. Eine weitere Vergrößerung von K führt jedoch zu keiner
Verbesserung.
> rem2 <-od(y=bac, method="GQ", K=2)
iter.: 8 deviance: 235.55
iter.: 7 deviance:
83
227.93
> summary(rem3$model, cor=F)
Coefficients:
Value Std. Error
t.i 0.05881 0.0175492
I(t.i^2) -0.00211 0.0006208
z[j] 0.61686 0.0609783
site.ikeinKstage.i4 0.14927 0.1888571
site.imitKstage.i4 0.24514 0.1860528
site.ikeinKstage.i5 0.59348 0.1688974
site.ikeinKstage.i6 -0.13885 0.2132799
t value
3.3511
-3.3981
10.1161
0.7904
1.3176
3.5139
0.9258
-0.6510
1.8697
Die geschätzte Standardabweichung der zufälligen Effekte ist σ̂z = 0.62. Standardfehler
und t-Werte stammen nur aus der letzten Iteration und sind nicht interpretierbar.
Alternativ wollen wir auch eine nichtparametrische Schätzung durchführen. Bei K = 2 resultiert eine (nur etwas geringere) Deviance von 225.6. Die Massepunkte sind (1.45, 0.14)
mit Massen (0.13, 0.87), was auf Abweichungen von der Normalverteilungsannahme hinweist. Diese nichtparametrische Schätzung ergibt eine zweipunktige Effektverteilung mit
µ̂z = 0.13 · 1.45 + 0.87 · 0.15 = 0.32 und σ̂z2 = 0.13 · (1.45 − µ̂z )2 + 0.87 · (0.15 − µ̂z )2 = 0.19,
also σ̂z = 0.44.
> remnp2 <-od(y=bac, method="NPMLE", K=2)
> remnp3 <-od(y=bac, method="NPMLE", K=3)
> summary(remnp2$model, cor=F)
Coefficients: (1 not defined because of singularities)
Value Std. Error t value
t.i 0.058465 0.0175709 3.32737
I(t.i^2) -0.002053 0.0006211 -3.30579
zf1 1.452755 0.1887234 7.69780
zf2 0.145988 0.1832268 0.79676
site.ikeinKstage.i4 -0.126373 0.2062250 -0.61279
site.imitKstage.i4 0.019329 0.2031400 0.09515
site.ikeinKstage.i5 0.267332 0.1868670 1.43060
site.imitKstage.i5 -0.092793 0.2049944 -0.45266
site.ikeinKstage.i6 -0.382658 0.2250004 -1.70070
site.imitKstage.i6
NA
NA
NA
> remnp2$pi
1
2
0.1298 0.8702
84
Die Aufnahme eines zufälligen Effektes ergibt für beide Zugänge beträchtlich geringere
Werte der Deviancen. Die Freiheitsgradanzahl von 142 muss bei der Gauß-Quadratur um
1 (wegen σz ) und beim nichtparametrischen Ansatz um 3 (wegen z1 , z2 , π1 ) reduziert
werden.
Beim nichtparametrischen Ansatz sei noch zu erwähnen, dass nur die beiden Parameter
zur Temperatur (0.0585, −0.0021) mit den Ergebnissen der Quadratur (0.0588, −0.0021)
direkt vergleichbar sind. Bei der Gauss-Quadratur ist kein expliziter Intercept enthalten;
daher können alle Stufen der Faktorinteraktion geschätzt werden. Im nichtparametrischen
Modell ist jedoch ein zweistufiger Intercept-Faktor inkludiert, weshalb nicht mehr alle
Interaktionsparameter schätzbar sind. Die gewählte Kontrastierung setzt die letzte Stufe
von site:stage auf Null (aliased mit der zweistufigen Modellkonstanten zf) und schätzt
alle verbleibenden Abweichungen zu dieser Referenzklasse.
> fc <- matrix(fitted(remnp2$model), ncol=2, byrow=T)
> plot(bac456$t, fc[,1], ylim=c(0,10), xlab="temperature",
ylab="fitted conditional means (k=1)")
> plot(bac456$t, fc[,2], ylim=c(0,10), xlab="temperature",
ylab="fitted conditional means (k=2)")
> fm <- fc %*% remnp2$pi
> plot(bac456$t, fm, ylim=c(0,10), xlab="temperature",
ylab="fitted marginal means")
> fp <- fitted(gt)
> plot(bac456$t, fp, ylim=c(0,10), xlab="temperature",
ylab="fitted Poisson means")
Die Verläufe der geschätzten konditionalen Modelle in der Abbildung 6.1 entsprechen
gerade den geschätzten Interaktionsparametern, d.h. die oberste Kurve gehört zu keine
Kompostieranlage:Stufe 5, dann Kompostieranlage:Stufe 4 gefolgt von Kompostieranlage:Stufe 6, u.s.w. Die marginalen Modelle darunter (links) stellen das mit π̂ gewichtete
Mittel der beiden oberen Ergebnisse dar und unterscheiden sich optisch nicht von den
Ergebnissen aus dem Poisson-Modell ohne Zufallseffekte (rechts).
> w <- matrix(remnp2$w, ncol=2, byrow=T)
> r <- (bac-fm)/sqrt(fm) plot(r, w[ ,1], xlab="Pearson residuals",
> ylab="posterior prob for component 1"); abline(h=0.5)
> plot(bac456$t, r, xlab="temperature", ylab="Pearson residuals")
abline(h=0)
In der Abbildung 6.2 (links) sieht man, dass nur wenige (etwa 15) yi mit großen Pearson
Residuen auch größere posteriori Wahrscheinlichkeiten (wi1 > 0.5) für die erste Komponente haben. Für die Mehrzahl gilt jedoch wi2 > wi1 , also eher eine Zugehörigkeit zur
zweiten Komponente. Der rechte Teil dieser Abbildung zeigt, dass die Residuen keine
verbleibende Struktur in der Temperatur haben und eher zufällig um Null liegen.
> z <- coef(remnp2$model)[3:4]
> eBz <- w %*% z; mean(eBz)
8
6
0
2
4
fitted conditional means (k=2)
6
4
0
2
fitted conditional means (k=1)
8
10
85
10
-10
0
10
20
30
40
-10
0
20
30
40
10
8
6
0
2
4
fitted Poisson means
8
6
4
0
2
fitted marginal means
10
temperature
10
temperature
0
10
temperature
20
30
0
10
20
30
temperature
Abbildung 6.1: Oben: Gefittete konditionale Modelle für k = 1 (links) und k = 2 (rechts)
der nichtparametrischen Schätzung. Unten: Gefittete marginale Means (links) gegen die
fitted Means beim Poisson-Modell (rechts).
0.3156
> plot(bac, eBz, ylim=c(0,1.5), xlab="bacteria counts in cfu’s",
ylab="posterior random effect means")
> eBmu <- diag(w %*% t(fc))
> plot(bac, eBmu, xlim=c(0,12),ylim=c(0,12),xlab="bacteria counts in cfu’s",
ylab="empirical Bayes estimates of mu") abline(0,1);
> abline(lsfit(bac, eBmu))
In der Abbildung 6.3 oben links ist zu erkennen, daß die empirischen Bayes Schätzer der
zi von den yi abhängen. Diese Werte sind dann groß, wenn auch die cfu-Werte hoch sind.
Ihr globales Mittel ist 0.3156, und entspricht etwa den Konstanten beim Poisson-Modell
(0.3446) oder beim Modell mit Gauss-Quadratur (0.3358 - letzte Stufe der Zweifachinteraktion). Die empirischen Bayes Schätzungen der µ’s sind oben rechts gegen die yi
aufgetragen. Prinzipiell ist ein lineares Muster zu sehen, jedoch wird auch klar, weshalb
4
0.0
0
2
Pearson residuals
0.6
0.4
0.2
posterior prob for component 1
0.8
6
1.0
86
0
2
Pearson residuals
4
6
0
10
20
30
temperature
Abbildung 6.2: Pearson Residuen gegen die geschätzten posteriori Wahrscheinlichkeiten
für die erste Komponente (links) und gegen die Temperatur (rechts).
man diese Schätzer als shrinkage estimates towards the mean bezeichnet. Große Responses
werden unterschätzt während Null-Responses eindeutig überschätzt sind.
Die Frage nach einen Kompostieranlageneffekt kann nicht so einfach beantwortet werden. Dieser Effekt findet sich im Modell in Wechselwirkung mit der Plattenstufe wieder.
Bereits die Schätzer dieser Interaktion im Modell zeigen dieses Verhalten deutlich. So
sind diese bei der Siedlung ohne Kompostieranlage am größten für Stufe 5, gefolgt von
der Stufe 4 und am kleinsten bei der Stufe 6. In der Nähe der Kompostieranlage sieht
diese Ordnung jedoch anders aus: alle drei Effekte sind ziemlich ähnlich und deren Reihenfolge lautet 6, 4 und 5, respektive 4, 6 und 5 bei der nichtparametrischen Schätzung.
Die Interaktionsplots in der Abbildung 6.3 zeigt dieses Verhalten deutlich. Links findet
man die Mittel der gefitteten marginal Means und rechts die entsprechenden empirischen
Bayes Schätzer unter der nichtparametrischen Modellschätzung. Die Verwendung der Originalbeobachtungen yi anstelle der Bayes Schätzer würde ein vom rechten Bild nicht zu
unterscheidendes Verhalten zeigen.
87
8
6
0
0.0
2
4
empirical Bayes estimates of mu
1.0
0.5
posterior random effect means
10
12
1.5
0
2
4
6
8
10
12
0
2
4
6
8
10
12
bacteria counts in cfu’s
2.6
bacteria counts in cfu’s
2.4
stage
2.2
2.0
1.8
mean emp Bayes estimates
2.0
1.8
4
5
6
1.4
1.4
1.6
2.2
4
5
6
1.6
mean fitted marginal model
2.4
stage
keinK
mit K
site
keinK
mit K
site
Abbildung 6.3: Oben: Posteriori Means der Zufallseffekte zi gegen die Responses yi (links)
und empirische Bayes Schätzungen der µi ’s gegen yi (rechts). Unten: Interaktionsplots für
stage:site. Mittel der fitted marginals (links) und empirische Bayes Schätzer (rechts).

Generalisierte Lineare Modelle

Transcription

Documents pareils

Produktübersicht

Bemerkungen zur Beratung. pdf

logo ceiling

Aufgaben zum Wachstum Zentralen Klassenarbeiten 1986

Folien

log 1 1 2 - Studienkolleg Sachsen

Handout

Computergrafik SS 2010 Oliver Vornberger noch Kapitel 10: 2D

Installation von BackupExec 11/12 unter Debian