Une modélisation âge-période-cohorte des cas
Transcription
Une modélisation âge-période-cohorte des cas
Une modélisation âge-période-cohorte des cas incidents de cancers cutanés Carole LANGLOIS a , Julien JACQUES b , Arlette DANZON a a Registre des Tumeurs du Doubs, CHU 2 place St Jacques - 25030 BESANÇON; b LABSAD, Université Pierre Mendès France, GRENOBLE; [email protected], [email protected] Résumé : L’évolution de la fréquence des nouveaux cas de cancers cutanés est expliquée en fonction de trois variables temporelles : l’âge du patient au moment du diagnostic, la période de diagnostic du cancer et la cohorte de naissance du patient. Pour ceci, plusieurs modèles linéaires généralisés sont comparés afin de déterminer celui qui permet le meilleur ajustement des taux d’incidence de cancers cutanés dans le département du Doubs. Mots-Clefs : épidémiologie, modélisation âge-période-cohorte, incidence, cancers cutanés. Abstract: The evolution of the frequency of new cases of cutaneous cancers is explained according to three temporal variables: age of the patient at the time of the diagnosis, period of diagnosis of cancer and troop of birth of the patient. For this, several generalized linear models are compared in order to determine that which allows the best adjustment of the incidence rates of cutaneous cancers in the department of Doubs. Key words: epidemiology, age-period-cohort modelisation, incidence, cutaneous cancers. 1 Introduction L’objectif de cette étude est de décrire l’état actuel et l’évolution de l’incidence (fréquence des nouveaux cas) des cancers cutanés, à partir des données du Registre des Tumeurs du Doubs de 1980 à 1999. Pour l’étude d’un phénomène démographique par rapport à la naissance des individus d’une population, trois références temporelles entrent en jeu à savoir l’âge, la période de diagnostic et la cohorte de naissance. Après avoir présenté succinctement les données, nous décrivons les modèles utilisés puis présentons les résultats obtenus à l’aide du logiciel SAS. 2 Les données Les cancers de la peau, dont l’apparition de nouveaux cas est en hausse constante, sont essentiellement classés en trois catégories : les mélanomes, les carcinomes basocellulaires 1 âge du patient 20-24 25-29 30-34 35-39 40-44 45-49 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85 et plus 1980-1984 0 1.05 6.03 12.64 25.07 33.56 54.19 101.76 126.12 144.99 187.22 247.43 252.46 304.02 période de diagnostic 1985-1989 1990-1994 0.98 0.95 4.28 4.14 9.09 3.35 14.83 16.04 21.04 35.97 46.69 72.50 43.85 88.47 105.87 109.77 171.55 250.73 235.33 270.89 263.28 328.66 276.30 499 369.61 597.21 391.45 533.58 1995-1999 4.20 4.19 8.72 21.29 36.58 68.65 120.32 193.19 226.02 385.36 521.25 726.85 509.85 721.20 Table 1: Taux spécifiques d’incidence de CB pour 100000 hommes dans le département du Doubs, en fonction de l’âge du patient et de la période de diagnostic. et les carcinomes spinocellulaires. Nous nous restreignons dans cet article à l’étude des carcinomes basocellulaires chez l’homme dans le département du Doubs. En France, seuls les Registres de cancers du Doubs et du Haut-Rhin procèdent à l’enregistrement de carcinomes basocellulaires (CB). Le Tableau 1 présente les taux spécifiques par âge d’incidence de CB (pour 100000 habitants), pour les hommes dans le département du Doubs sur une période d’étude de 1980 à 1999, en fonction de l’âge du patient au moment du diagnostic et de la date de ce dernier. Le taux spécifique (par âge) est défini par le nombre de cas de CB rapporté à la population du département du Doubs pour chaque tranche d’âge. Pour l’étude de l’évolution des carcinomes basocellulaires, une troisième variable explicative est prise en compte : la cohorte de naissance, qui identifie les patients ayant la même année de naissance. À partir du découpage en périodes et classes d’âge quinquennales, nous obtenons dix-sept cohortes, que nous désignons par leur année centrale (ex : période 1980-1984 et classe d’âge 20-24 correspond à la cohorte de naissance 1956-1964, appelée cohorte 1960 ), afin d’éviter les problèmes de chevauchement de cohorte. La Figure 1 représente les taux spécifiques d’incidence en fonction des périodes et des âges. On remarque que ces taux d’incidence croissent avec l’âge et avec la période. 3 Méthodes Les modèles âge-période-cohorte (APC) sont largement utilisés par les épidémiologistes pour analyser les tendances de l’incidence de certaines maladies (Clayton et Schifflers (1987), Kupper et al. (1985)). Soit Oij (1) Rij = nij le taux spécifique d’incidence pour la classe d’âge i (1 ≤ i ≤ a) et la période j (1 ≤ j ≤ p), où Oij est la variable aléatoire représentant le nombre de patients atteints par la maladie et nij est l’effectif de la population étudiée. Pour notre application relative aux carcinomes 2 Taux spécifique 800 600 400 200 0 2000 1995 100 80 1990 60 1985 Période 40 1980 20 Âge Figure 1: Taux spécifiques d’incidence en fonction des périodes de diagnostic et des âges des patients. basocellulaires, les nombres de classes d’âge et de périodes sont respectivement a = 14 et p = 4. Un modèle APC peut s’écrire sous la forme : Yij = µ + αi + βj + γa−i+j + εij , (2) où Yij = f (Rij ) est une fonction du taux spécifique, µ est la moyenne globale de Yij , αi est l’effet fixe pour la classe d’âge i, βj est l’effet fixe pour la période j, γa−i+j est l’effet fixe pour la cohorte a − i + j. Au vue de l’allure exponentielle des données représentées par la Figure 1, nous choisissons la fonction logarithme comme fonction des taux : Yij = ln(Rij ). Ce choix est classique pour ce type d’analyse. Dans l’équation (2), l’aléatoire de Yij est dû uniquement à l’erreur εij , supposée d’espérance nulle (E[εij ] = 0). Les autres propriétés (variance, distribution) de εij sont dues à la nature stochastique de Yij , ou autrement dit de Oij , le nombre de nouveaux cas de cancer, que nous supposons classiquement, dans un premier temps, de loi de Poisson. Comme nous verrons par la suite que cette hypothèse de Poisson est trop restrictive, nous l’étendons alors en supposant que Oij est de loi binomiale négative, définie par : Γ(z + k1 ) (kµ)z p(Z = z; k, µ) = 1 1 , Γ( k )Γ(z + 1) (1 + kµ)z+ k où µ = E[Z], et où k est le paramètre de dispersion (V (Y ) = µ+kµ2 ). À noter que lorsque ce paramètre de dispersion tend vers 0, la loi binomiale négative est réduite à une loi de Poisson (de paramètre µ). Le passage de la loi de Poisson vers une loi binomiale négative est courant lorsque les données sont ”sur-dispersées”, c’est-à-dire lorsque la variance de Rij est significativement supérieure à son espérance (McCullagh et Nelder (1989)). Le modèle linéaire généralisé (2) ainsi défini est un modèle log-linéaire, avec dans un premier temps une hypothèse de Poisson, puis une hypothèse binomiale négative. 3 3.1 Modèles dérivés Plusieurs modèles dérivés du modèle APC (2) sont aussi envisagés : • le modèle âge-dérive (age-drift) qui considère une variation semblable et linéaire des logarithmes des taux d’incidence au cours du temps pour tous les groupes d’âge : (1) Yij = µ + αi + β × j + εij , • le modèle âge-période qui ne considère pas d’effet de cohorte : (2) Yij = µ + αi + βj + εij , • et le modèle âge-cohorte qui ne considère aucun effet des périodes de diagnostic : (3) Yij = µ + αi + γa−i+j + εij . 3.2 Estimation des paramètres du modèle L’estimation des paramètres des différents modèles est faite par maximisation de la vraisemblance, à l’aide du logiciel SAS. Ce dernier effectue cette maximisation par un processus itératif basé sur une variante de l’algorithme de Newton-Raphson. Pour le modèle âge-période-cohorte, l’existence d’une relation entre les trois variables explicatives du modèle : cohorte + âge = période, entraı̂ne un problème d’identifiabilité. Kupper et al. (1985) ont montré qu’il était nécessaire de fixer une contrainte sur les paramètres du modèle, du type α1 = β1 = γ1 = 0 (contrainte utilisée par SAS), pour assurer l’identifiabilité du modèle (2). Le choix de ces contraintes à été étudié à de nombreuses reprises ; pour une synthèse se reporter à Robertson et Boyle (1998). 3.3 Validation du modèle Le critère de qualité du modèle utilisé est la déviance, définie comme deux fois la différence entre le maximum possible de la log-vraisemblance et le maximum atteint sous le modèle estimé (McCullagh et Nelder (1989)). Pour un modèle linéaire normalement distribué, la déviance n’est autre que la somme des carrés des résidus. Sous l’hypothèse que le modèle est juste, cette déviance suit une loi du χ2 à n degrés de liberté, où n est égal au nombre de données (nombre de classes d’âge multiplié par le nombre de périodes) moins le nombre de paramètres estimés. Il est alors possible de construire un test d’acceptation du modèle à partir de cette déviance, consistant à rejeter l’hypothèse nulle que le modèle est juste si la deviance est supérieure au quantile de la loi du χ2 à n degrés de liberté (d.l.) d’ordre 1 − α, où α est le risque de première espèce que l’on se fixe arbitrairement. Nous présenterons lors 4 modèle AD-Poisson AD-NegBin AP-Poisson AP-NegBin AC-Poisson AC-NegBin APC-Poisson APC-NegBin d.l. 41 41 39 39 26 26 24 24 déviance 165.63 50.82 157.92 50.94 97.62 39.69 89.99 39.44 déviance/d.l. 4.04 1.24 4.05 1.31 3.75 1.53 3.75 1.64 log-vraisemblance 46612.20 46646.40 46616.06 46647.06 46646.21 46660.73 46650.02 46661.73 p-value 1.11 × 10−16 0.140 3.33 × 10−16 0.096 3.18 × 10−10 0.042 5.60 × 10−9 0.025 BIC -9314.0 -93232.4 -93159.6 -93221.6 -93167.6 -93196.6 -93159.1 -93182.5 Table 2: Récapitulatif des estimations des différents modèles. des résultats les p-value (valeur maximale de α pour lequel le test est accepté) correspondantes à ce test. Enfin, pour comparer la qualité d’ajustement des huit modèles que nous testons, nous utilisons le critère BIC (Raftery (1994)). 4 Résultats Les quatre modèles âge-dérive (AD), âge-période (AP), âge-cohorte (AC) et âge-périodecohorte (APC) sont ajustés sur les données des carcinomes basocellulaires présentées précédemment. Pour chacun de ces modèles, les deux hypothèses de Poisson et binomiale négative sont testées. Les résultats, obtenus à l’aide de la procédure GENMOD du logiciel SAS, sont présentés dans le Tableau 2. D’après les p-value, seuls les modèles sous l’hypothèse binomiale négative sont acceptables. Si on se fixe un risque de première espèce (accepter le modèle alors qu’il est faux) de 5%, nous acceptons deux modèles : le modèle âge-dérive et le modèle âge-période. Le rapport de la déviance sur le nombre de degrés de liberté étant significativement supérieur à 1 pour la loi de Poisson indique une sur-dispersion des données (variance À espérance). C’est pour ceci que la loi binomiale négative a été introduite. En effet, pour cette dernière, le rapport déviance sur d.l. est satisfaisant (plus proche de 1). Il serait possible de construire un test du rapport de vraisemblance pour confirmer la sur-dispersion des données des carcinomes basocellulaires. Parmi les deux modèles acceptés, nous ne présentons ici (Figure 2) que les résultats concernant le modèle âge-dérive sous l’hypothèse binomiale négative. Ce modèle est le meilleur des huit modèles au sens du critère BIC. Pour interpréter l’évolution de l’incidence des cancers, et non son logarithme, nous présentons à la Figure 2 l’exponentielle des coefficients αi et β × j du modèle âge-dérive. On constate alors que plus l’âge des patients est important, plus les taux d’incidence croı̂ssent rapidement (évolution de type exponentielle). Par contre, les périodes ont un effet croissant linéaire sur ces taux d’incidence. Le nombre de nouveaux cas de cancers (CB) rapporté à la population augmente donc linéairement en fonction de la période de diagnostic et exponentiellement en fonction de l’âge du patient. 5 exp( β × j) exp (αi) 20 30 40 50 60 70 80 90 1982 Âge ai 1987 1992 1997 période pj Figure 2: Coefficients estimés du modèle âge-dérive (hyp. binomiale négative). 5 Conclusion Ce travail avait pour but d’expliquer l’évolution de l’incidence des cancers cutanés de type carcinome basocellulaire chez l’homme dans le département du Doubs. Trois variables temporelles ont été utilisées : l’âge, la période de diagnostic et la cohorte de naissance. Le meilleur modèle explique le logarithme des taux spécifiques d’incidence additivement en fonction de l’âge et de la dérive (effet linéaire des périodes). Les valeurs des coefficients estimés ont permis de conclure que le nombre de nouveaux cas de carcinomes basocellulaires rapporté à la population augmente régulièrement avec les périodes de diagnostic, et de plus en plus rapidement avec l’âge des patients. Remerciements Nous remercions pour leur contribution à ce travail les équipes des Registres des Tumeurs du Doubs et du Haut-Rhin, ainsi que Christophe Biernacki et le Laboratoire de Mathématique de l’Université de Franche-Comté. Bibliographie [1] D. Clayton and E. Schifflers. (1987) Models for temporal variation in cancer rates II: Age-Period-Cohort models, Statistics in Medecine, Vol. 6, 469-481. [2] P. McCullagh and J.A. Nelder. (1989) Generalized Linear Models, Chapman & Hall. [3] L.L. Kupper, J.M. Janis, A.Karmous and B.G.Greenberg. (1985) Statistical AgePeriod-Cohorte analysis: a review and critique, Journal of Chronical Disease, Vol. 38, No. 10,pp. 811-830. [4] A.E. Raftery. (1995). Bayesian model selection in social research, Sociological Methodology, Vol. 25, pp. 111-163. [5] C. Robertson and P. Boyle. (1998) Age-Period-Cohort analysis of chronic disease rates. I: Modeling Approach, Statistics in Medecine, Vol. 17, 1305-1323. 6