Maximum de vraisemblance pur des champs gaussiens markoviens
Transcription
Maximum de vraisemblance pur des champs gaussiens markoviens
Maximum de vraisemblance pour des champs gaussiens markoviens par une méthode de Monte Carlo Noel Cressie, Ohio State University, Columbus, USA, Olivier Perrin & Christine Thomas-Agnan LEERNA et GREMAQ, Université Toulouse I. Abstract. The computation of the normalizing constant in the joint distribution of Markov random fields (MRF) can be difficult to evaluate for moderate to large sample sizes (thousands to tens of thousands), even when a closed form expression is available, because very demanding in time and memory. In the gaussian case (CAR models), it amounts to the evaluation of the log-determinant of a definite positive matrix, for which Martin (1993) proposes an approximation and Barry and Pace (1999) propose a Monte Carlo estimation. We develop an alternative Monte Carlo method and the ensuing maximum likelihood methodology. This approach applies to models where the covariance structure may have several parameters and does not involve neither additional constraints on the parameters, neither additional truncation parameter. This method is illustrated in the case of a one parameter model (except for the scale parameter) and its relative efficiency to the Barry and Pace method is evaluated. Keywords. spatial models, CAR models, maximum likelihood, normalization constant, markov random fields. Résumé.Le calcul de la constante de normalisation dans la distribution conjointe d’un champ aléatoire markovien (MRF) peut être, même lorsque l’expression analytique est disponible, difficile à évaluer pour des tailles d’échantillons importantes (de l’ordre de milliers ou dizaines de milliers) car exigeant beaucoup de temps et de mémoire. Dans le cas des champs gaussiens markoviens (modèles CAR), le calcul revient à celui du log-déterminant d’une matrice définie positive, pour lequel Martin (1993) propose une approximation, et Barry et Pace (1999) proposent une estimation par Monte Carlo. Alternativement, nous proposons d’évaluer cette constante par Monte Carlo à partir d’une expression de cette constante comme moyenne. Il est alors facile d’en déduire les estimations par maximum de vraisemblance des paramètres du modèle CAR. A la différence de Barry et Pace, notre approche s’applique à des modèles où la structure de covariance peut comporter plusieurs paramètres et ne comporte ni restrictions sur ces paramètres, ni paramètre de troncature supplémentaire à choisir. Dans le cas d’un modèle à un paramètre 1 de covariance (hormis le paramètre d’échelle), une étude de simulation est conduite pour comparer l’efficacité de cette méthode à celle de Barry et Pace. Mots clefs. modèles spatiaux, modèles CAR, maximum de vraisemblance, constante de normalisation, champs gaussiens markoviens. La fréquence d’utilisation des modèles CAR peut s’expliquer par le fait que les données agrégées sont souvent gaussiennes et que les données spatiales présentent souvent une dépendence qui décroit avec la distance. Le modèle CAR spécifie les lois des valeurs du champ Z en un site i (1 ≤ i ≤ n) conditionnellement à ses valeurs en les sites voisins j ∈ N (i) par n X Zi | ZN (i) ˜N (µi + cij (Zj − µj ), τi2 ) (1) j=1 Nous supposons que la moyenne µ du champ dépend linéairement de covariables X par µ = Xβ, où β est un vecteur p × 1 de paramètres et que les variances conditionnelles τi sont connues à un facteur d’échelle près τi2 = τ 2 φi , où le vecteur (φ1 , · · · , φn ) est donné (on note Φ la matrice diagonale construite à partir de ce vecteur) . Nous supposons aussi que la matrice C des coefficients cij dépend d’un vecteur de paramètres de dépendance spatiale γ, C = C(γ), éventuellement multivarié. Lorsque Φ−1 (In − C(γ)) est symétrique définie positive, la condition (1) est équivalente à Z˜N (Xβ, (In − C(γ))−1 Φτ 2 ) (2) Il est alors facile de voir que la constante de normalisation dans la vraisemblance peut s’écrire k(γ) = det(In − C(γ))−1/2 . (3) C’est l’évaluation de cette constante qui peut constituer une difficulté pour l’estimation par maximum de vraisemblance pour des problèmes où la taille n devient grande. A γ fixé, il est facile d’obtenir l’expression des valeurs de β et τ qui maximisent la vraisemblance et lorsque l’on reporte ces valeurs dans la log-vraisemblance, on obtient ce qui s’appelle la log-vraisemblance concentrée (profile log-likelihood) qui elle aussi dépend de k(γ), et que l’on doit optimiser pour trouver l’estimateur du maximum de vraisemblance γ̂ de γ et par suite les estimateurs du maximum de vraisemblance de β et τ . Soit W un vecteur gaussien centré réduit de taille n. Il est facile de vérifier que E(exp(W 0 C(γ)W/2)) = k(γ). (4) Il suffit alors de simuler un nombre L de vecteurs W indépendants gaussiens centrés réduits et de s’appuyer sur la loi des grands nombres pour espérer que la moyenne empirique, sur ces L réalisations, de la variable exp(W 0 C(γ)W/2) fournisse une bonne approximation 2 de la constante k(γ). Pour un modèle CAR à un paramètre avec C(γ) = γH, cette approximation conduit donc à L 1X log(k(γ)CP T ) = log( (exp(γWl0 HWl /2))). L l=1 (5) Pour ce même modèle, l’approximation de Barry et Pace s’écrit pour un même nombre L de réalisations de W L M X Wl0 H m Wl γ m 1X (n/2) log(k(γ)BP ) = L l=1 Wl0 Wl m m=1 (6) Les deux méthodes nécéssitent le choix du nombre L de réalisations de W , mais notons que l’ approche de Barry et Pace nécessite de plus le choix du paramètre de troncature M . En sus de la condition sur γ due à la définie positivité de Φ−1 (In − C(γ)), qui est imposée par le modèle, l’approximation de Martin (1993) exige dans certains cas une condition supplémentaire sur le paramètre γ qui restreint l’intervalle du coté des gamma négatifs. La simulation des L réalisations du vecteur W est rendue aisée même pour un grand nombre de sites grâce à l’existence d’algorithmes adaptés (voir Rue, 2001) et de librairies de programmes telle que celle de Rue et Follestad (2003). Nous comparons la méthode avec celle de Barry et Pace sur un jeu de données réelles concernant l’activité des médecins généralistes en région Midi-Pyrénées ainsi que sur des simulations. Bibliographie [1] Barry R.P. and Pace R.K (1999) Monte Carlo estimates of the log determinant of large sparse matrices. Linear Algebra and its Applications, 209, 41–54. [2] Martin R.J. (1993) Approximation to the determinant term in Gaussian maximum likelihood estimation of some spatial models. Communications in Statistics. Theory and Methods, 22, 120–126. [3] Rue H. (2001) Fast sampling of gaussian Markov random fields, Journal of the Royal Statistical Society, Series B, 63(2), 325–338. [4] Rue H. et Follestad T. (2003) GMRFLib: a C-Library for fast and exact simulation of gaussian Markov random fields. URL: http://www.math.ntnu.no/ hrue/GMRFLib 3