Modélisation hiérarchique temporospatiale de données alignées d

Transcription

Modélisation hiérarchique temporospatiale de données alignées d
Modélisation hiérarchique spatiotemporelle de
données alignées d’incidence de cancers
Erik A. Sauleau, Arnaud Etienne et Antoine Buemi
Registre des Cancers du Haut-Rhin, 9 Rue du Dr Mangeney, BP 1370, F-68070
Mulhouse
1
Résumé
Dans un modèle de Poisson modélisant le nombre de cas de cancers, on introduit une
somme d’effets et d’interactions. Sur des données de registre des cancers, différents modèles hiérarchiques sont testés, tous intégrant une variabilité spatiale sous la forme d’une autocorrélation (processus conditionnel autorégressif) et d’une hétérogénéité (loi normale).
Les effets du sexe, du temps et leur interaction sont ensuite introduits. L’effet spatial est
peu important comparé aux autres effets principaux. C’est l’autocorrélation qui emporte
l’essentiel de l’effet par rapport à l’hétérogénéité résiduelle. Comparé au sexe, le temps a
un effet majeur mais il ne semble pas y avoir d’évolution d’incidence.
Mots-clés : Modèle de Poisson, modèles temporospatiaux, modèles hiérarchiques, CAR,
DIC, interaction.
2
Summary
In the Poisson model for cases of cancer, we add some main effects and their interactions.
Based on a cancer registry database, different hierarchical models are tested. All of these
models contain spatial variability modeled as the sum of CAR and heterogeneity components. Then sex, time and their interaction are introduced. Spatial effect is weak with
respect to other main effects. Autocorrelation component is dominant over heterogeneity.
Compared with sex, time has a major effect, without trend.
Keywords: Poisson models, time-space models, hierarchical models, CAR, DIC, interaction.
3
Introduction
Le nombre de données indexées sur l’espace et le temps augmente rapidement. Par exemple les registres des cancers français ont, pour les plus anciens, un recul de recueil de
1
l’ordre de 20 ans avec une notion annuelle des cas à l’échelon de la commune de résidence.
Le découpage communal change peu et les données sont donc dites alignées car la résolution du recueil est la même que celle de l’analyse. Le modèle le plus utilisé de distribution
des cas observés est le modèle poissonnien (dans le cas de maladies non transmissibles).
Dans l’unité géographique i (commune), la strate j (âge et/ou sexe) et au temps t (période
triennale ou année), les cas observés, Yijt , par approximation de la loi binomiale, suivent
une loi de Poisson de paramètre nijt pijt (Clayton et Kaldor, 1987), où nijt est le nombre
de personnes à risque et pijt le risque de maladie. Si µijt est le logarithme du risque
standardisé par p, risque global de maladie (standardisation interne ou externe), et si le
nombre de cas attendus Eijt est calculé par nijt p, la formulation est Yijt ∼ P (Eijt eµijt ).
L’intérêt est alors de modéliser µijt . L’approche bayésienne hiérarchique (Banerjee et al.,
2004) trouve alors tout son intérêt car elle permet de modéliser une variabilité aléatoire
extrapoissonnienne. De plus, dans l’hypothèse d’une autocorrélation spatiale (entre unités
géographiques), elle permet de lisser les incidences brutes Yijt /Eijt . Dans le log-risque µ,
différents effets principaux vont apparaître. On sait combien certaines covariables, telles
que le sexe ou différentes expositions, interviennent sur l’incidence du cancer. Knorr-Held
et Rainer (2001); Bray (2002) notamment, ont bien montré, dans les modèles âge-périodecohorte, l’importance des effets du temps et de l’âge sur l’incidence. Classiquement, la
variabilité géographique est décomposée en deux éléments : φ, l’autocorrélation (clustering) entre unités proches, modélisée par un processus autorégressif conditionnel (Besag
et al., 1991; Mollié, 1996) et θ, l’hétérogénéité résiduelle entre unités géographiques (modélisée par une loi normale). Ces modèles peuvent poser des problèmes de convergence car
assez peu identifiés (les données n’apportent de l’information que sur la somme θ + φ).
Par contre la spécification d’a priori différents permet de séparer les effets. La difficulté
est ensuite de prendre en compte les différentes interactions envisageables entre ces trois
facteurs (covariables, espace et temps). Par exemple, dans Waller et al. (1997), µ ijt est
la somme d’effets principaux (sexe, race, combinaison des deux, temps, espace par association d’hétérogénéité et autocorrélation) et d’un effet temps emboîté dans l’espace : des
θit d’hétérogénéité sont des normales de précision 1/τt et des φit d’autocorrélation sont
des processus autorégressifs conditionnels de paramètre λt .
Notre objectif est de mesurer sur les données du registre les effets respectifs du temps,
du sexe et de l’espace sur l’incidence des cancers.
4
Méthode
Même si l’incidence dans certains sites de cancer ne diffère pas selon le sexe, il est habituel
de systématiquement distinguer homme et femme. L’effet du temps sur l’incidence est
connu. Il sera envisagé comme une tendance linéaire ou sans forme particulière. La modélisation de l’effet spatial sous la forme θ + φ ne se justifie que par l’absence de covariables
2
explicatives de cet effet. L’interaction entre le sexe et le temps semble reconnue. Elle
devrait permettre, en plus de la progression différente des incidences selon les sexes, un
niveau de base différent. Au contraire, une interaction entre le sexe et l’espace ne semble pas se justifier. L’intérêt de ne pas utiliser d’interaction espace-temps est aussi que
les paramètres restent facilement interprétables. Finalement, ce sont six modèles hiérarchiques à trois niveaux qui seront comparés. Dans une unité géographique i, pour le sexe
j et au cours de la période t, le premier niveau du modèle consiste à dire que les cas
observés suivent une loi de Poisson : Yijt ∼ P (Eijt eµijt ) où Eijt sont les cas attendus
et µijt est le log-risque correspondant, qui se décompose par somme en plusieurs effets.
Ce qui est commun à tous les modèles est l’effet spatial en deux composantes : θi + φi
(hétérogénéité et autocorrélation). Les autres effets sont différents selon les modèles :
• effet du temps, sans structure, on ajoute αt (modèle M1) ou sous forme d’une
tendance linéaire, on ajoute αt (M2),
• effet du sexe, on ajoute βj (M3),
• effets du sexe et du temps, αt + βj (M4),
• effets du sexe, du temps et interaction avec temps sans structure, αt + βj + γjt (M5)
ou tendance linéaire, αj t + βj (M6).
Le second niveau correspond aux priors des différents paramètres. Les θi suivent une
N (0, 1/τ ). Les φi sont des CAR(λ) dont le poids est la matrice d’adjacence des communes.
Les α, β et γ des différents modèles suivent des lois normales, de moyenne nulle et de
précision vague (0.005), puisqu’ils sont identifiés par la vraisemblance. Enfin, le troisième
niveau précise les hyperparamètres des priors. Les τ et λ suivent des lois Γ(a, b) et
Γ(c, d). Le choix des hyperparamètres a, b, c et d s’est fait selon Bernardinelli et al.
(1995) qui suggère que la précision sur l’hétérogénéité doit être de l’ordre de 70% de celle
sur l’autocorrélation, ce qui revient à λ ' 2τm̄ , où m̄ est le nombre moyen de voisins de
chaque commune (en l’occurrence 5.5).
L’ensemble de la modélisation a été réalisée avec le logiciel WinBUGS (Spiegelhalter
et al., 2003). Une première série d’itérations a permis de noter l’étendue des estimations
des paramètres pour déterminer des points initiaux "dispersés" de cinq chaînes, en imposant la contrainte que λ = τ /10. Pour chaque modèle, la longueur de la phase de
burn-in est décidée sur le diagnostic de Gelman-Rubin modifié (Brooks et Gelman, 1998)
et sur les autocorrélations des estimations des paramètres. Un nombre 10 fois plus important d’itérations est ensuite utilisé pour l’estimation du modèle. Les modèles sont
comparés entre eux par le "Deviance Information Criterion" (Spiegelhalter et al., 2002)
(DIC), décomposé en une mesure d’adéquation et une mesure de complexité.
3
5
Matériel
Des données du registre, on extrait par sexe les cas observés de cancers par commune,
en distinguant 1988-90, 1991-3, 1994-6 et 1997-9 (publications triennales des données).
Dans les cas, on ne tient pas compte des tumeurs bénignes ni des carcinomes cutanés
basocellulaires. L’Institut National de la Statistique et des Études Économiques fournit
des chiffres communaux de population lors des recensements (1990 et 1999). Les populations de 1990 sont appliquées entre 1988 et 1991 et celle de 1999 entre 1998 et 2000.
Des interpolations linéaires en 1993 et 1996 sont appliquées entre, respectivement, 1992
et 1994 et entre 1995 et 1997. Les populations sont ensuite sommées pour correspondre
aux regroupements d’années des cas. Les incidences annuelles par tranche d’âge sont
appliquées aux populations pour calculer des effectifs attendus communaux sur chacune
des quatre périodes. L’Institut Géographique National fournit pour chaque commune ses
coordonnées géographiques et on a construit une matrice d’adjacence où deux communes
sont considérées comme voisines si elles partagent une frontière.
6
Résultats
Un burn-in de 2.000 itérations (400 itérations de chacune des 5 chaînes) est nécessaire
pour obtenir la convergence des estimations. En règle général, les paramètres θ convergent
moins bien mais le diagnostic de Gelman-Rubin reste près de la valeur 1 de convergence.
Ce sont ensuite 20.000 itérations qui sont monitorées.
L’effet de l’autocorrélation spatiale est très faible : de l’ordre de 10 −2 , quelque soit le
modèle, en moyenne de médianes sur l’ensemble des 377 communes. L’hétérogénéité est
encore plus faible (de l’ordre de 10−4 ). Ceci signifie que, dans le risque de la maladie, la
variabilité géographique n’intervient quasiment pas (exp(10−2 + 10−4 ) ' 1). La variabilité
de l’autocorrélation parmi la variabilité spatiale est entre 0,70 et 0,80 selon les modèles.
Le DIC le plus bas des différents modèles, malgré un nombre de paramètres effectifs
élevé (169), est celui du modèle M4, intégrant les effets du temps sans structure et du
sexe, sans interaction. Dans ce modèle, l’estimateur de l’effet du temps, en médiane, est
quasiment constant sur les quatre périodes. Converti en risque relatif, sa valeur varie
de 1,87 à 1,81. L’effet du sexe, faible, est le même pour les deux sexes (risques relatifs
à 0,30). Lorsque le temps est seul dans les effets principaux (modèle M1), son effet est
quasiment constant sur les quatres périodes (en risque relatif, la valeur varie de 0,92 à
0,95). L’effet du sexe sans notion de temps (modèle M3) est de 0,94. Lorsqu’on ajoute une
interaction sexe-temps (modèle M5), elle se manifeste surtout lors de la dernière période
(risque relatif à 36 pour l’homme et 16 pour la femme), alors que l’effet principal du
temps devient 0,18 et l’effet du sexe 0,12 pour l’homme et 0,34 pour la femme. Le modèle
avec la simple tendance linéaire (M2) donne une pente très basse et les risques sont très
légèrement décroissants de 0,98 à 0,92. L’introduction de l’effet du sexe en plus de la
tendance (modèle M6) ne modifie pas les paramètres. L’ordonnée à l’origine est la même
4
pour les deux sexes.
7
Discussion
On retrouve dans les résultats des constatations connues ou explicables. L’hétérogénéité
spatiale est d’autant plus faible que la variabilité aléatoire spatiale est prise en charge
par le processus autorégressif (Waller et al., 1997). Le temps a un effet fort mais constant sur l’incidence alors que le sexe ne semble pas avoir d’effet. La forte interaction au
cours de la dernière période entre les sexes est peut être le signe du début de dissociation des incidences entre hommes (diminution des cancers ORL, faible augmentation des
cancers bronchopulmonaires) et femmes (augmentation des cancers du sein et bronchopulmonaires). En tous cas, il est maintenant primordial de mener l’analyse en différenciant
les sites de cancer. Il est de plus important de vérifier par une analyse de sensibilité
l’impact du choix des lois a priori sur les distributions a posteriori.
Un écueil essentiel à toute modélisation utilisant un échelon géographique fin est la
difficulté de déterminer la population de cet échelon à un moment donné (Benhamou et
Laplanche, 1991). Le problème est de déterminer les populations communales entre les
recensements, notamment par tranche d’âge. Les communes, surtout lorsqu’elles sont
petites, sont sujettes à de très fortes et très brutales variations.
L’échantillonneur de Gibbs n’est pas la meilleure solution pour estimer les modèles
hiérarchiques temporospatiaux car peu de distributions conditionnelles complètes ont une
forme standard. L’algorithme de Metropolis serait plus efficace notamment en permettant
la mise à jour en un bloc des θi et des φi . Ce qui ralentit fortement la convergence c’est
que ces paramètres sont faiblement identifiés : les données n’apportent de l’information
que sur la somme des deux effets et leur identification ne se fait que par la spécification
des lois a priori. Effectivement en utilisant l’échantillonneur de Gibbs, la convergence
de nos estimations ne semblait pas acceptable avant 2.000 itérations et la réalisation
(avec monitoring) des 20.000 itérations demandait plusieurs heures. Le poids de chaque
observation dans les processus CAR repose sur une matrice d’adjacence. Mais l’utilisation
des distances géographiques entre communes (Cressie et Chan, 1989; Devine et al., 1994)
permettrait peut être une meilleure efficience du processus.
Pour ce qui est de l’épidémiologie, des études cas-témoins sont sûrement à préférer
aux études d’observation. Les résultats de ces dernières, c’est à dire l’interprétation
des modèles temporospatiaux, servent à justifier de la nécessité de réaliser des études
analytiques mais ne constituent pas une fin en soi.
References
S. Banerjee, BP. Carlin et AE. Gelfan. Hierarchical modeling and analysis for spatial
data, volume 101 of Monographs on statistics and applied probability. Chapman and
5
Hall/CRC, Boca Raton, 2004.
E. Benhamou et A. Laplanche. Estimation de la population à risque entre deux recensements pour le calcul d’un taux d’incidence ou de mortalité par cancer. Revue
Epidémiologie et Santé Publique, 39:71–7, 1991.
L. Bernardinelli, D. Clayton et C. Montomoli. Bayesian estimates of disease maps: how
important are priors? Statistics in Medicine, 14:2411–31, 1995.
J. Besag, J. York et A. Mollié. Bayesian image restoration, with two applications in spatial
statistics (with discussion). Annals of the Institute of Statistical Mathematics, 43:1–59,
1991.
I. Bray. Application of markov chain monte carlo methods to projecting cancer incidence
and mortality. Journal of the Royal Statistical Society, Series C: Applied Statistics, 51:
151–64, 2002.
SP. Brooks et A. Gelman. Alternative methods for monitoring convergence of iterative
simulations. Journal of Computational and Graphical Statistics, 7:434–55, 1998.
D. Clayton et J. Kaldor. Empirical bayes estimates of age-standardized relative risks for
use of disease mapping. Biometrics, 43:671–81, 1987.
NAC. Cressie et NH. Chan. Spatial modeling of regional variables. Journal of the American Statistical Association, 84:393–401, 1989.
OJ. Devine, TA. Louis et ME. Halloran. Empirical bayes estimators for spatially correlated
incidence rates. Environmetrics, 5:381–98, 1994.
L. Knorr-Held et E. Rainer. Projections of lung cancer mortality in west germany: a case
study in bayesian prediction. Biostatistics, 2(1):109–29, 2001.
A. Mollié. Bayesian mapping of disease. In WR. Gilks, S. Richardson et JC. Wakefield,
editors, Markov Chain Monte Carlo in practice, pages 359–79. Chapman and Hall, New
York, 1996.
DJ. Spiegelhalter, N. Best, BP. Carlin et A. Van der Linde. Bayesian measures of model
complexity and fit (with discussion). Journal of the Royal Statistical Society, Series B,
64:583–639, 2002.
DJ. Spiegelhalter, A. Thomas, N. Best et D. Lunn. WinBUGS Version 1.4 user manual.
Institute of Public Health, Cambridge, Janvier 2003.
LA. Waller, BP. Carlin, H. Xia et AE. Gelfand. Hierarchical spatio-temporal mapping of
disease rates. Journal of the American Statistical Association, 92:607–17, 1997.
6