Une modélisation âge-période-cohorte des cas

Transcription

Une modélisation âge-période-cohorte des cas
Une modélisation âge-période-cohorte
des cas incidents de cancers cutanés
Carole LANGLOIS a , Julien JACQUES b , Arlette DANZON
a
a
Registre des Tumeurs du Doubs, CHU 2 place St Jacques - 25030 BESANÇON;
b
LABSAD, Université Pierre Mendès France, GRENOBLE;
[email protected], [email protected]
Résumé :
L’évolution de la fréquence des nouveaux cas de cancers cutanés est expliquée en fonction
de trois variables temporelles : l’âge du patient au moment du diagnostic, la période de
diagnostic du cancer et la cohorte de naissance du patient. Pour ceci, plusieurs modèles
linéaires généralisés sont comparés afin de déterminer celui qui permet le meilleur ajustement des taux d’incidence de cancers cutanés dans le département du Doubs.
Mots-Clefs : épidémiologie, modélisation âge-période-cohorte, incidence, cancers cutanés.
Abstract:
The evolution of the frequency of new cases of cutaneous cancers is explained according
to three temporal variables: age of the patient at the time of the diagnosis, period of
diagnosis of cancer and troop of birth of the patient. For this, several generalized linear
models are compared in order to determine that which allows the best adjustment of the
incidence rates of cutaneous cancers in the department of Doubs.
Key words: epidemiology, age-period-cohort modelisation, incidence, cutaneous cancers.
1
Introduction
L’objectif de cette étude est de décrire l’état actuel et l’évolution de l’incidence (fréquence
des nouveaux cas) des cancers cutanés, à partir des données du Registre des Tumeurs
du Doubs de 1980 à 1999. Pour l’étude d’un phénomène démographique par rapport à
la naissance des individus d’une population, trois références temporelles entrent en jeu
à savoir l’âge, la période de diagnostic et la cohorte de naissance. Après avoir présenté
succinctement les données, nous décrivons les modèles utilisés puis présentons les résultats
obtenus à l’aide du logiciel SAS.
2
Les données
Les cancers de la peau, dont l’apparition de nouveaux cas est en hausse constante, sont
essentiellement classés en trois catégories : les mélanomes, les carcinomes basocellulaires
1
âge
du patient
20-24
25-29
30-34
35-39
40-44
45-49
50-54
55-59
60-64
65-69
70-74
75-79
80-84
85 et plus
1980-1984
0
1.05
6.03
12.64
25.07
33.56
54.19
101.76
126.12
144.99
187.22
247.43
252.46
304.02
période de diagnostic
1985-1989
1990-1994
0.98
0.95
4.28
4.14
9.09
3.35
14.83
16.04
21.04
35.97
46.69
72.50
43.85
88.47
105.87
109.77
171.55
250.73
235.33
270.89
263.28
328.66
276.30
499
369.61
597.21
391.45
533.58
1995-1999
4.20
4.19
8.72
21.29
36.58
68.65
120.32
193.19
226.02
385.36
521.25
726.85
509.85
721.20
Table 1: Taux spécifiques d’incidence de CB pour 100000 hommes dans le département
du Doubs, en fonction de l’âge du patient et de la période de diagnostic.
et les carcinomes spinocellulaires. Nous nous restreignons dans cet article à l’étude des
carcinomes basocellulaires chez l’homme dans le département du Doubs.
En France, seuls les Registres de cancers du Doubs et du Haut-Rhin procèdent à l’enregistrement de carcinomes basocellulaires (CB). Le Tableau 1 présente les taux spécifiques par
âge d’incidence de CB (pour 100000 habitants), pour les hommes dans le département du
Doubs sur une période d’étude de 1980 à 1999, en fonction de l’âge du patient au moment
du diagnostic et de la date de ce dernier. Le taux spécifique (par âge) est défini par le
nombre de cas de CB rapporté à la population du département du Doubs pour chaque
tranche d’âge.
Pour l’étude de l’évolution des carcinomes basocellulaires, une troisième variable explicative est prise en compte : la cohorte de naissance, qui identifie les patients ayant la même
année de naissance. À partir du découpage en périodes et classes d’âge quinquennales,
nous obtenons dix-sept cohortes, que nous désignons par leur année centrale (ex : période
1980-1984 et classe d’âge 20-24 correspond à la cohorte de naissance 1956-1964, appelée
cohorte 1960 ), afin d’éviter les problèmes de chevauchement de cohorte.
La Figure 1 représente les taux spécifiques d’incidence en fonction des périodes et des
âges. On remarque que ces taux d’incidence croissent avec l’âge et avec la période.
3
Méthodes
Les modèles âge-période-cohorte (APC) sont largement utilisés par les épidémiologistes
pour analyser les tendances de l’incidence de certaines maladies (Clayton et Schifflers
(1987), Kupper et al. (1985)).
Soit
Oij
(1)
Rij =
nij
le taux spécifique d’incidence pour la classe d’âge i (1 ≤ i ≤ a) et la période j (1 ≤ j ≤ p),
où Oij est la variable aléatoire représentant le nombre de patients atteints par la maladie
et nij est l’effectif de la population étudiée. Pour notre application relative aux carcinomes
2
Taux spécifique
800
600
400
200
0
2000
1995
100
80
1990
60
1985
Période
40
1980
20
Âge
Figure 1: Taux spécifiques d’incidence en fonction des périodes de diagnostic et des âges
des patients.
basocellulaires, les nombres de classes d’âge et de périodes sont respectivement a = 14 et
p = 4.
Un modèle APC peut s’écrire sous la forme :
Yij = µ + αi + βj + γa−i+j + εij ,
(2)
où Yij = f (Rij ) est une fonction du taux spécifique, µ est la moyenne globale de Yij , αi
est l’effet fixe pour la classe d’âge i, βj est l’effet fixe pour la période j, γa−i+j est l’effet
fixe pour la cohorte a − i + j.
Au vue de l’allure exponentielle des données représentées par la Figure 1, nous choisissons
la fonction logarithme comme fonction des taux : Yij = ln(Rij ). Ce choix est classique
pour ce type d’analyse.
Dans l’équation (2), l’aléatoire de Yij est dû uniquement à l’erreur εij , supposée d’espérance
nulle (E[εij ] = 0). Les autres propriétés (variance, distribution) de εij sont dues à la nature
stochastique de Yij , ou autrement dit de Oij , le nombre de nouveaux cas de cancer, que
nous supposons classiquement, dans un premier temps, de loi de Poisson. Comme nous
verrons par la suite que cette hypothèse de Poisson est trop restrictive, nous l’étendons
alors en supposant que Oij est de loi binomiale négative, définie par :
Γ(z + k1 )
(kµ)z
p(Z = z; k, µ) = 1
1 ,
Γ( k )Γ(z + 1) (1 + kµ)z+ k
où µ = E[Z], et où k est le paramètre de dispersion (V (Y ) = µ+kµ2 ). À noter que lorsque
ce paramètre de dispersion tend vers 0, la loi binomiale négative est réduite à une loi de
Poisson (de paramètre µ). Le passage de la loi de Poisson vers une loi binomiale négative
est courant lorsque les données sont ”sur-dispersées”, c’est-à-dire lorsque la variance de
Rij est significativement supérieure à son espérance (McCullagh et Nelder (1989)).
Le modèle linéaire généralisé (2) ainsi défini est un modèle log-linéaire, avec dans un
premier temps une hypothèse de Poisson, puis une hypothèse binomiale négative.
3
3.1
Modèles dérivés
Plusieurs modèles dérivés du modèle APC (2) sont aussi envisagés :
• le modèle âge-dérive (age-drift) qui considère une variation semblable et linéaire des
logarithmes des taux d’incidence au cours du temps pour tous les groupes d’âge :
(1)
Yij = µ + αi + β × j + εij ,
• le modèle âge-période qui ne considère pas d’effet de cohorte :
(2)
Yij = µ + αi + βj + εij ,
• et le modèle âge-cohorte qui ne considère aucun effet des périodes de diagnostic :
(3)
Yij = µ + αi + γa−i+j + εij .
3.2
Estimation des paramètres du modèle
L’estimation des paramètres des différents modèles est faite par maximisation de la
vraisemblance, à l’aide du logiciel SAS. Ce dernier effectue cette maximisation par un
processus itératif basé sur une variante de l’algorithme de Newton-Raphson.
Pour le modèle âge-période-cohorte, l’existence d’une relation entre les trois variables
explicatives du modèle : cohorte + âge = période, entraı̂ne un problème d’identifiabilité.
Kupper et al. (1985) ont montré qu’il était nécessaire de fixer une contrainte sur les
paramètres du modèle, du type α1 = β1 = γ1 = 0 (contrainte utilisée par SAS), pour
assurer l’identifiabilité du modèle (2). Le choix de ces contraintes à été étudié à de nombreuses reprises ; pour une synthèse se reporter à Robertson et Boyle (1998).
3.3
Validation du modèle
Le critère de qualité du modèle utilisé est la déviance, définie comme deux fois la différence
entre le maximum possible de la log-vraisemblance et le maximum atteint sous le modèle
estimé (McCullagh et Nelder (1989)). Pour un modèle linéaire normalement distribué, la
déviance n’est autre que la somme des carrés des résidus.
Sous l’hypothèse que le modèle est juste, cette déviance suit une loi du χ2 à n degrés
de liberté, où n est égal au nombre de données (nombre de classes d’âge multiplié par le
nombre de périodes) moins le nombre de paramètres estimés.
Il est alors possible de construire un test d’acceptation du modèle à partir de cette
déviance, consistant à rejeter l’hypothèse nulle que le modèle est juste si la deviance
est supérieure au quantile de la loi du χ2 à n degrés de liberté (d.l.) d’ordre 1 − α, où
α est le risque de première espèce que l’on se fixe arbitrairement. Nous présenterons lors
4
modèle
AD-Poisson
AD-NegBin
AP-Poisson
AP-NegBin
AC-Poisson
AC-NegBin
APC-Poisson
APC-NegBin
d.l.
41
41
39
39
26
26
24
24
déviance
165.63
50.82
157.92
50.94
97.62
39.69
89.99
39.44
déviance/d.l.
4.04
1.24
4.05
1.31
3.75
1.53
3.75
1.64
log-vraisemblance
46612.20
46646.40
46616.06
46647.06
46646.21
46660.73
46650.02
46661.73
p-value
1.11 × 10−16
0.140
3.33 × 10−16
0.096
3.18 × 10−10
0.042
5.60 × 10−9
0.025
BIC
-9314.0
-93232.4
-93159.6
-93221.6
-93167.6
-93196.6
-93159.1
-93182.5
Table 2: Récapitulatif des estimations des différents modèles.
des résultats les p-value (valeur maximale de α pour lequel le test est accepté) correspondantes à ce test.
Enfin, pour comparer la qualité d’ajustement des huit modèles que nous testons, nous
utilisons le critère BIC (Raftery (1994)).
4
Résultats
Les quatre modèles âge-dérive (AD), âge-période (AP), âge-cohorte (AC) et âge-périodecohorte (APC) sont ajustés sur les données des carcinomes basocellulaires présentées
précédemment. Pour chacun de ces modèles, les deux hypothèses de Poisson et binomiale
négative sont testées.
Les résultats, obtenus à l’aide de la procédure GENMOD du logiciel SAS, sont présentés
dans le Tableau 2.
D’après les p-value, seuls les modèles sous l’hypothèse binomiale négative sont acceptables. Si on se fixe un risque de première espèce (accepter le modèle alors qu’il est faux)
de 5%, nous acceptons deux modèles : le modèle âge-dérive et le modèle âge-période.
Le rapport de la déviance sur le nombre de degrés de liberté étant significativement
supérieur à 1 pour la loi de Poisson indique une sur-dispersion des données (variance À
espérance). C’est pour ceci que la loi binomiale négative a été introduite. En effet, pour
cette dernière, le rapport déviance sur d.l. est satisfaisant (plus proche de 1).
Il serait possible de construire un test du rapport de vraisemblance pour confirmer la
sur-dispersion des données des carcinomes basocellulaires.
Parmi les deux modèles acceptés, nous ne présentons ici (Figure 2) que les résultats concernant le modèle âge-dérive sous l’hypothèse binomiale négative. Ce modèle est le meilleur
des huit modèles au sens du critère BIC. Pour interpréter l’évolution de l’incidence des
cancers, et non son logarithme, nous présentons à la Figure 2 l’exponentielle des coefficients αi et β × j du modèle âge-dérive. On constate alors que plus l’âge des patients
est important, plus les taux d’incidence croı̂ssent rapidement (évolution de type exponentielle). Par contre, les périodes ont un effet croissant linéaire sur ces taux d’incidence.
Le nombre de nouveaux cas de cancers (CB) rapporté à la population augmente donc
linéairement en fonction de la période de diagnostic et exponentiellement en fonction de
l’âge du patient.
5
exp( β × j)
exp (αi)
20
30
40
50
60
70
80
90
1982
Âge ai
1987
1992
1997
période pj
Figure 2: Coefficients estimés du modèle âge-dérive (hyp. binomiale négative).
5
Conclusion
Ce travail avait pour but d’expliquer l’évolution de l’incidence des cancers cutanés de type
carcinome basocellulaire chez l’homme dans le département du Doubs. Trois variables
temporelles ont été utilisées : l’âge, la période de diagnostic et la cohorte de naissance.
Le meilleur modèle explique le logarithme des taux spécifiques d’incidence additivement
en fonction de l’âge et de la dérive (effet linéaire des périodes). Les valeurs des coefficients
estimés ont permis de conclure que le nombre de nouveaux cas de carcinomes basocellulaires rapporté à la population augmente régulièrement avec les périodes de diagnostic, et
de plus en plus rapidement avec l’âge des patients.
Remerciements
Nous remercions pour leur contribution à ce travail les équipes des Registres des Tumeurs
du Doubs et du Haut-Rhin, ainsi que Christophe Biernacki et le Laboratoire de Mathématique de l’Université de Franche-Comté.
Bibliographie
[1] D. Clayton and E. Schifflers. (1987) Models for temporal variation in cancer rates II:
Age-Period-Cohort models, Statistics in Medecine, Vol. 6, 469-481.
[2] P. McCullagh and J.A. Nelder. (1989) Generalized Linear Models, Chapman & Hall.
[3] L.L. Kupper, J.M. Janis, A.Karmous and B.G.Greenberg. (1985) Statistical AgePeriod-Cohorte analysis: a review and critique, Journal of Chronical Disease, Vol. 38,
No. 10,pp. 811-830.
[4] A.E. Raftery. (1995). Bayesian model selection in social research, Sociological Methodology, Vol. 25, pp. 111-163.
[5] C. Robertson and P. Boyle. (1998) Age-Period-Cohort analysis of chronic disease
rates. I: Modeling Approach, Statistics in Medecine, Vol. 17, 1305-1323.
6