Maximum de vraisemblance pur des champs gaussiens markoviens

Transcription

Maximum de vraisemblance pur des champs gaussiens markoviens
Maximum de vraisemblance pour des champs
gaussiens markoviens par une méthode de
Monte Carlo
Noel Cressie,
Ohio State University, Columbus, USA,
Olivier Perrin & Christine Thomas-Agnan
LEERNA et GREMAQ, Université Toulouse I.
Abstract. The computation of the normalizing constant in the joint distribution of
Markov random fields (MRF) can be difficult to evaluate for moderate to large sample
sizes (thousands to tens of thousands), even when a closed form expression is available,
because very demanding in time and memory. In the gaussian case (CAR models), it
amounts to the evaluation of the log-determinant of a definite positive matrix, for which
Martin (1993) proposes an approximation and Barry and Pace (1999) propose a Monte
Carlo estimation.
We develop an alternative Monte Carlo method and the ensuing maximum likelihood
methodology. This approach applies to models where the covariance structure may have
several parameters and does not involve neither additional constraints on the parameters,
neither additional truncation parameter. This method is illustrated in the case of a one
parameter model (except for the scale parameter) and its relative efficiency to the Barry
and Pace method is evaluated.
Keywords. spatial models, CAR models, maximum likelihood, normalization constant,
markov random fields.
Résumé.Le calcul de la constante de normalisation dans la distribution conjointe d’un
champ aléatoire markovien (MRF) peut être, même lorsque l’expression analytique est
disponible, difficile à évaluer pour des tailles d’échantillons importantes (de l’ordre de
milliers ou dizaines de milliers) car exigeant beaucoup de temps et de mémoire. Dans
le cas des champs gaussiens markoviens (modèles CAR), le calcul revient à celui du
log-déterminant d’une matrice définie positive, pour lequel Martin (1993) propose une
approximation, et Barry et Pace (1999) proposent une estimation par Monte Carlo.
Alternativement, nous proposons d’évaluer cette constante par Monte Carlo à partir d’une
expression de cette constante comme moyenne. Il est alors facile d’en déduire les estimations par maximum de vraisemblance des paramètres du modèle CAR. A la différence
de Barry et Pace, notre approche s’applique à des modèles où la structure de covariance
peut comporter plusieurs paramètres et ne comporte ni restrictions sur ces paramètres, ni
paramètre de troncature supplémentaire à choisir. Dans le cas d’un modèle à un paramètre
1
de covariance (hormis le paramètre d’échelle), une étude de simulation est conduite pour
comparer l’efficacité de cette méthode à celle de Barry et Pace.
Mots clefs. modèles spatiaux, modèles CAR, maximum de vraisemblance, constante de
normalisation, champs gaussiens markoviens.
La fréquence d’utilisation des modèles CAR peut s’expliquer par le fait que les données
agrégées sont souvent gaussiennes et que les données spatiales présentent souvent une
dépendence qui décroit avec la distance. Le modèle CAR spécifie les lois des valeurs du
champ Z en un site i (1 ≤ i ≤ n) conditionnellement à ses valeurs en les sites voisins
j ∈ N (i) par
n
X
Zi | ZN (i) ˜N (µi +
cij (Zj − µj ), τi2 )
(1)
j=1
Nous supposons que la moyenne µ du champ dépend linéairement de covariables X par
µ = Xβ, où β est un vecteur p × 1 de paramètres et que les variances conditionnelles τi
sont connues à un facteur d’échelle près τi2 = τ 2 φi , où le vecteur (φ1 , · · · , φn ) est donné
(on note Φ la matrice diagonale construite à partir de ce vecteur) . Nous supposons aussi
que la matrice C des coefficients cij dépend d’un vecteur de paramètres de dépendance
spatiale γ, C = C(γ), éventuellement multivarié.
Lorsque Φ−1 (In − C(γ)) est symétrique définie positive, la condition (1) est équivalente à
Z˜N (Xβ, (In − C(γ))−1 Φτ 2 )
(2)
Il est alors facile de voir que la constante de normalisation dans la vraisemblance peut
s’écrire
k(γ) = det(In − C(γ))−1/2 .
(3)
C’est l’évaluation de cette constante qui peut constituer une difficulté pour l’estimation
par maximum de vraisemblance pour des problèmes où la taille n devient grande. A γ fixé,
il est facile d’obtenir l’expression des valeurs de β et τ qui maximisent la vraisemblance
et lorsque l’on reporte ces valeurs dans la log-vraisemblance, on obtient ce qui s’appelle
la log-vraisemblance concentrée (profile log-likelihood) qui elle aussi dépend de k(γ), et
que l’on doit optimiser pour trouver l’estimateur du maximum de vraisemblance γ̂ de γ
et par suite les estimateurs du maximum de vraisemblance de β et τ .
Soit W un vecteur gaussien centré réduit de taille n. Il est facile de vérifier que
E(exp(W 0 C(γ)W/2)) = k(γ).
(4)
Il suffit alors de simuler un nombre L de vecteurs W indépendants gaussiens centrés réduits
et de s’appuyer sur la loi des grands nombres pour espérer que la moyenne empirique, sur
ces L réalisations, de la variable exp(W 0 C(γ)W/2) fournisse une bonne approximation
2
de la constante k(γ). Pour un modèle CAR à un paramètre avec C(γ) = γH, cette
approximation conduit donc à
L
1X
log(k(γ)CP T ) = log(
(exp(γWl0 HWl /2))).
L l=1
(5)
Pour ce même modèle, l’approximation de Barry et Pace s’écrit pour un même nombre L
de réalisations de W
L
M
X
Wl0 H m Wl γ m
1X
(n/2)
log(k(γ)BP ) =
L l=1
Wl0 Wl m
m=1
(6)
Les deux méthodes nécéssitent le choix du nombre L de réalisations de W , mais notons
que l’ approche de Barry et Pace nécessite de plus le choix du paramètre de troncature M .
En sus de la condition sur γ due à la définie positivité de Φ−1 (In − C(γ)), qui est imposée
par le modèle, l’approximation de Martin (1993) exige dans certains cas une condition
supplémentaire sur le paramètre γ qui restreint l’intervalle du coté des gamma négatifs.
La simulation des L réalisations du vecteur W est rendue aisée même pour un grand
nombre de sites grâce à l’existence d’algorithmes adaptés (voir Rue, 2001) et de librairies
de programmes telle que celle de Rue et Follestad (2003).
Nous comparons la méthode avec celle de Barry et Pace sur un jeu de données réelles
concernant l’activité des médecins généralistes en région Midi-Pyrénées ainsi que sur des
simulations.
Bibliographie
[1] Barry R.P. and Pace R.K (1999) Monte Carlo estimates of the log determinant of
large sparse matrices. Linear Algebra and its Applications, 209, 41–54.
[2] Martin R.J. (1993) Approximation to the determinant term in Gaussian maximum
likelihood estimation of some spatial models. Communications in Statistics. Theory and
Methods, 22, 120–126.
[3] Rue H. (2001) Fast sampling of gaussian Markov random fields, Journal of the
Royal Statistical Society, Series B, 63(2), 325–338.
[4] Rue H. et Follestad T. (2003) GMRFLib: a C-Library for fast and exact simulation
of gaussian Markov random fields. URL: http://www.math.ntnu.no/ hrue/GMRFLib
3