télécharger cette publication
Transcription
télécharger cette publication
R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE Revue comparative des modèles régressifs de survie brute et de survie relative Regression models for crude and for relative survival: a comparative review R. GIORGI(1), A. ARMANET(1), J. GOUVERNET(1), P. BONNIER(2), M. FIESCHI(1) (1) Laboratoire d’Enseignement et de Recherche sur le Traitement de l’Information Médicale, Faculté de médecine, Université de la méditerranée, 27 Bd Jean Moulin, 13005 Marseille, France. Email : [email protected] (2) Service de Gynécologie-Obstétrique, Hôpital de la Conception, 147 Bd Baille, 13005 Marseille, France. Background: Statistical analysis of lifetime data is frequently used in the biomedical field. Our objective is to present a comparative review of the different regression models according to the survival concept (crude survival or relative survival) in order to express guidelines. Methods: In a methodological point of view, we present and compare a regressive crude survival model (Cox model) and regressive relative survival models for grouped data (Hakulinen and Tenkanen) and for individuals data (Esteve et al.). Our study is illustrated by an analysis of survival data of 3,555 incident cases of breast cancer identified by a hospital registry. Comportment of the models was studied in situation where censors rates ranged from 31.7 to 96.5%. Results: Because relative survival analysis (Hakulinen and Tenkanen, Esteve et al.) takes into account the natural mortality, the risk of death for women older than 50 years is smaller than this for women aged from 35 to 49, which was not pointed out in the crude survival analysis (Cox). Estimations obtained from Cox model are more accurate than those obtained from both studied regressive relative survival models. Estimations obtained from Esteve et al. model were not very different than those obtained from Hakulinen and Tenkanen model and they were more accurate. Conclusion: By definition, analysis of relative survival is more appropriate to estimate survival for a specific cause of death. It is preferable to use models based on individual estimation when the data set is small or when the number of individual per strata is small. Crude survival. Relative survival. Survival analysis. Proportional hazards models. Non-proportional hazards models. Position du problème : L’analyse statistique des durées de vie est relativement fréquente dans le domaine biomédical. L’objectif de cet article est de présenter une revue comparative des différents modèles régressifs en fonction du type de survie analysée (survie brute ou survie relative) afin de guider l’utilisateur dans son choix. Méthodes : Nous présentons et comparons d’un point de vue méthodologique un modèle régressif de survie brute (modèle de Cox) et les principaux modèles régressifs de survie relative sur données groupées (Hakulinen et Tenkanen) et sur données individuelles (Estève et coll.). Notre étude est illustrée à partir des 3 355 cas de cancer du sein provenant d’un registre hospitalier. Les comportements sont étudiés dans des situations où les taux de censures varient de 31,7 à 96,5 %. Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 1 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE Résultats : L’analyse par la survie relative (Hakulinen et Tenkanen, Estève et coll.) montre qu’une fois la mortalité naturelle prise en compte le risque de décès par cancer du sein chez les patientes âgées de plus de 50 ans est plus faible que celui des patientes de la tranche d’âge 35 - 49 ans, ce qui n’était pas mis en évidence dans l’analyse par la survie brute (Cox). Les estimations obtenues par le modèle de Cox sont plus précises que celles obtenues par les deux modèles régressifs de survie relative. Les estimations obtenues par la méthode d’Estève et coll. sont peu différentes et plus précises que celles obtenues par la méthode d’Hakulinen et Tenkanen. Conclusion : L’analyse de la survie relative, par définition, est plus à même d’étudier un phénomène de mortalité lié à une pathologie donnée. Il vaut mieux utiliser des modèles basés sur l’estimation individuelle lorsque l’on dispose d’échantillons de faible taille ou bien lorsque le nombre d’individus dans les différentes strates de l’étude est petit. Survie brute. Survie relative. Analyse de survie. Modèles à taux proportionnels. Modèles à taux nonproportionnels. Introduction L’analyse statistique des durées de vie est fréquente dans le domaine biomédical. Les différents modèles et méthodes existantes sont largement utilisés, que ce soit au cours d’essais thérapeutiques ou bien dans les registres de populations (registres du cancer et registres de morbidité) et d’une manière plus générale en épidémiologie descriptive ou analytique. Le type de données ainsi étudiées ne se limite pas à l’événement fatal d’une pathologie létale (la survenue du décès) mais peut s’étendre à tout autre événement faisant intervenir le temps (la récidive ou la guérison d’une maladie donnée, la normalisation d’un paramètre biologique après une certaine action, …). Les premiers modèles d’analyse de survie ont été développés afin de modéliser, d’une manière unifactorielle, la survie observée dans le cadre de l’estimation de la survie brute [1,2]. Puis, devant les besoins cliniques et épidémiologiques de prendre en compte simultanément plusieurs facteurs, le modèle régressif semi-paramétrique de Cox [3] a été développé, ce qui constitue une des recherches majeures en biostatistique [4,5]. Vers les années 1950 est apparu le concept de la survie relative [6] afin de tenir compte des risques différentiels de décès pour fournir une estimation de la survie nette. Il s’agit en effet de pouvoir estimer la survie pour une pathologie donnée en l’absence des autres causes de décès. Des méthodes de calcul unifactoriel, reposant sur des statistiques non paramétriques, ont ensuite été développées [7-9]. Là encore, les besoins d’estimer la survie en fonction de plusieurs facteurs pronostiques à partir de modèles statistiquement puissants sont à l’origine de modèles régressifs de survie relative [10,11]. Dans cet article nous présentons une revue à visée comparative des différents modèles de régression en fonction du type de survie analysée (survie brute ou survie relative) afin de Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 2 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE guider l’utilisateur dans son choix. Les modèles régressifs étudiés sont, d’une part le modèle de Cox [3] pour l’analyse de la survie brute, et d’autre part le modèle d’Estève et coll. [10] et le modèle d’Hakulinen et Tenkanen [11] pour l’analyse de la survie relative. Ces trois modèles reposent sur l’hypothèse des risques proportionnels qui considère que le rapport des taux de décès entre deux sous-groupes de patients reste constant au cours du temps. L’utilisation de ces modèles est illustrée à partir de données de cancer du sein. Définitions des différents concepts de survie Lorsque l’on parle d’analyse de survie d’un collectif il faut au préalable préciser du type de survie dont il s’agit. En effet, on peut distinguer deux concepts selon que l’on parle de survie brute ou de survie nette [12]. La survie brute (ou survie globale) représente la survie en prenant en compte toutes les causes de décès. Par exemple, une personne présentant un cancer du sein est soumise à une certaine force de mortalité liée à son cancer mais elle est également soumise à d’autres forces de mortalités, spécifiques à sa personne ou non spécifiques, comme c’est le cas pour l’ensemble de la population générale. La survie brute mesure la résultante de l’ensemble de ces forces de mortalité. Le concept de la survie nette diffère dans la mesure où l’on conçoit que la pathologie faisant l’objet de l’étude de survie ne soit pas l’unique source de mortalité à laquelle sont exposés, ou par laquelle sont décédés, les individus du collectif étudié. La survie nette représente donc la survie d’une cause donnée lorsque toutes les autres causes de décès ont été éliminées. Pour pouvoir l’estimer, on considère que la cause spécifique de décès que l’on étudie est indépendante des autres causes de décès. La survie nette peut être estimée par deux méthodes : (1) La méthode de la survie spécifique nécessite de savoir si la cause du décès est directement imputable à la pathologie étudiée (les décès pour d’autres causes sont traités comme des données censurées) ; (2) La méthode de la survie relative, ou survie corrigée, ne nécessite pas de savoir si la cause du décès est directement imputable à la pathologie étudiée puisque la survie observée du collectif étudié est « corrigée » par sa survie attendue issue des tables de mortalité de la population générale. Méthodes d'estimation Survie brute Modèle de Cox Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 3 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE Le modèle régressif semi-paramétrique de Cox établit une relation entre le risque instantané et les facteurs pronostiques qui agissent sur la survie brute. Ce modèle s’écrit : λ(t,z) = λ0(t)exp(β’z) où λ0(t), fonction laissée indéterminée et dépendant uniquement du temps, est le risque instantané de base correspondant aux individus pour qui le vecteur-colonne des facteurs pronostiques z est nul, et β’ est le vecteur-ligne des paramètres de régression du modèle. Le paramètre βj représente l’effet propre du facteur pronostique zj sur le risque instantané. Si zj est un facteur binaire dont les valeurs 0 ou 1 définissent deux groupes de patients, exp(βjzj) est le risque relatif de décès entre ces deux groupes, ajusté sur les autres facteurs inclus dans le modèle. Le modèle suppose que l’effet βj de chaque zj est constant au cours du temps, de sorte que le rapport des risques instantanés correspondant à deux « profils » de facteurs caractérisés par deux vecteurs z1 et z2 ne dépend que des valeurs des facteurs qui composent z1 et z2 (modèle « à risques proportionnels »). Survie relative La survie relative (Sc(t)) vise à « corriger » la survie observée du collectif étudié (So(t)) par la survie attendue dans une population générale en l’absence de la maladie étudiée (Sa(t)). La survie relative au temps t vaut : S c (t ) = S o (t ) S a (t ) (1) En notant respectivement λo(t), λa(t) et λc(t) le risque instantané observé du collectif suivi, attendu, et spécifique à la pathologie étudiée, la relation (1) est équivalente à : λo(t) = λa(t) + λc(t) (2) Le calcul de Sa(t) ou λa(t) est effectué à partir des fonctions de survie, ou d’incidence, issues des tables de mortalité de la population générale pour des sous-populations présentant des caractéristiques identiques, excepté la maladie étudiée, à celles du collectif suivi, comme le sexe et l’âge [7-9]. Les fonctions calculées sont alors considérées comme des constantes, et non des estimations, égales à Sa(t) ou λa(t), en faisant l’hypothèse que le risque étudié est faible par rapport à l’ensemble des autres causes compétitives de mortalité de la population générale. Pour exprimer la survie relative en fonction de facteurs pronostiques, les deux principaux modèles de régression reposant sur les relations (1) ou (2) qui ont été décrits sont ceux de Estève et coll. [10] et de Hakulinen et Tenkanen [11]. Tous deux sont des modèles paramétriques à risques proportionnels, exponentiel par intervalle pour le premier, et Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 4 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE discret pour le second. Ils permettent d’exprimer l’excès de risque auquel est soumis le collectif étudié. Modèle d’Estève et coll. Ce modèle régressif de survie relative repose sur l’équation (2) en exprimant λc(t) en fonction des facteurs pronostiques selon une relation à risques proportionnels avec un risque instantané de base constant par intervalles de temps. Chacun de ces intervalles, notés [tk, tk+1), k = 0, …, K, avec t0 =0 et tk+1 = ∞ résulte d’un découpage a priori du temps de suivi. Le modèle s’écrit : λo(t ; x, z) = λa(x + t ; zs) + αkexp(β’z), tk, ≤ t < tk+1 ; k = 0, …, K où x est l’âge des individus à l’entrée dans l’étude et qui vaut x + t après un suivi de longueur t, zs est un sous vecteur de z (zs correspond le plus souvent au sexe) et αk représente le risque instantané spécifique de base supposé constant sur le kème intervalle. Le risque attendu λa(x + t ; zs) est connu pour chaque sujet du collectif étudié, et considéré comme constant sur le kème intervalle, k = 1, ..., K+1 : c’est l’incidence obtenue à partir des tables de mortalité de la population générale pour les sujets présentant les facteurs zs et d’âge (x + tk) au temps calendaire correspondant à tk. Pour estimer les paramètres inconnus et effectuer des tests d’hypothèse, la vraisemblance est maximisée sous le modèle en imposant une contrainte de positivité aux paramètres αk. Modèle d’Hakulinen et Tenkanen Ce modèle, comme le précédent, repose sur l’équation (2) avec une expression à risques proportionnels pour le risque spécifique selon : λc(t ; z) = exp(µ(t) + β’z) (3) où µ(t) es tune fonction non précisée du temps. Le modèle est particulièrement adapté au cas où les durées de suivi ne sont pas connues exactement, mais groupées par intervalles de temps [tk, tk+1). Il utilise les probabilités conditionnelles de survies après tk +1 sachant que la durée de survie est supérieure à tk, définies par : { = exp {− ∫ = exp {− ∫ Sok = exp − ∫ tk +1 tk S ak Sck tk +1 tk tk +1 tk } λ ( t ) dt} λ ( t ) dt} λo ( t ) dt a c et qui conduisent finalement à définir le modèle qui s’écrit, compte tenu de (1) et (3) : Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 5 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE ln {− ln ( pok pak )} = γ k + β ' z où exp ( γ k ) = ∫ tk +1 tk exp {µ ( t )} dt . Il s’agit d’un modèle linéaire généralisé [13] avec une fonction de lien ln(-ln) et une distribution binomiale des erreurs, à partir duquel une vraisemblance portant sur les nombres de sujets à risque en chaque tk peut être calculée, et maximisée pour conduire à l’estimation des paramètres βj et γk. Les constantes pak sont calculées pour chaque sujet, de façon similaire à celle utilisée dans la méthode d’Estève et coll., à partir des tables de mortalité de la population générale. Pour des raisons de commodité informatique, les sujets peuvent être regroupés en strates définies par le croisement de catégories obtenues à partir des valeurs des facteurs pronostiques, une strate pouvant par ailleurs ne contenir qu’un seul sujet. Application aux données de cancer du sein Données utilisées Nous avons utilisé les données de survie de 3 355 cas de cancer infiltrant du sein diagnostiqués entre 1970 et 2002 et identifiés de manière prospective par le registre des tumeurs du sein de l’hôpital de la Conception, Marseille, France (PB). Pour étudier le comportement des différents modèles en fonction du taux de censures, nous avons considéré différents temps après le diagnostic (5, 10, 15 et 20 ans) pour censurer les patientes encore en vie. Par exemple, une patiente décédée dans la 12ème année de la maladie a été considérée comme censurée lorsque le suivi individuel a été limité aux 5 et aux 10 premières années, mais plus au-delà. L’analyse porte sur 4 facteurs pronostiques, renseignés au moment du diagnostic : l’âge (≤ 34 ans, 35 - 49 ans, 50 - 69 ans et ≥ 70 ans), la taille de la tumeur (< 2 cm, ≥ 2 cm et taille inconnue), la notion d’envahissement ganglionnaire (absence, présence ou notion inconnue) et la notion d’extension métastatique à distance (absence ou présence). Logiciels statistiques utilisés L’analyse des données par le modèle de Cox a été réalisée avec le logiciel SPSS [14]. Pour le modèle d’Hakulinen et Tenkanen nous avons utilisé la version 3 du logiciel SURV [15] (les données ont été groupées dans autant de strates qu’il y a de combinaisons possibles entre les 4 facteurs pronostiques étudiés, soit 72 strates) couplée avec le logiciel SAS [16] afin d’obtenir les estimations dans le modèle linéaire généralisé. Les estimations du modèle d’Estève et coll. ont été obtenus avec la fonction RSURV [17] sous le logiciel SPLUS [18]. Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 6 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE Description de la population La distribution des facteurs pronostiques et le nombre de décès aux différents temps considérés et correspondants à chacune des catégories de ces facteurs sont rapportés dans le tableau I. Les taux de censures varient entre 31,7% et 96,5% en fonction des facteurs pronostiques du cancer du sein aux différents temps considérés (5, 10, 15 et 20 ans). Comparaisons des modèles régressifs de survie brute et de survie relative Lorsque les quatre facteurs pronostiques sont inclus dans l’analyse, on observe une certaine stabilité des estimations des risque relatifs (RR) ajustés obtenus en fonction des différents temps de suivi (5, 10, 15 et 20 ans) pour chacun des trois modèles considérés. De même, les différences observées des estimations des RR ajustés entre les trois modèles sont retrouvées aux différents temps de suivi. Cette stabilité dans l’estimation des RR est en faveur du respect de l’hypothèse de proportionnalité des taux de décès dans ce jeu de données. Tableau I : Distribution des facteurs pronostiques des 3 355 cas de cancer du sein et taux brut de décès à 5, 10, 15 et 20 ans. Facteurs pronostiques Age N (%) Décès à 5 ans (%) Décès à 10 ans (%) Décès à 15 ans (%) Décès à 20 ans (%) 142 (4,2%) 36 (25,4%) 54 (38,0%) 60 (42,3%) 61 (43,0%) 35 - 49 1 023 (30,5%) 113 (11,0%) 158 (15,4%) 170 (16,6%) 178 (17,4%) 50 - 69 1 670 (49,8%) 167 (10,0%) 232 (13,9%) 257 (15,4%) 267 (16,0%) 520 (15,5%) 59 (11,3%) 81 (15,6%) 83 (16,0%) 83 (16,0%) < 2 cm 1 538 (45,8%) 54 (3,5%) 91 (5,9%) 106 (6,9%) 109 (7,1%) ≥ 2 cm 1 388 (41,4%) 187 (13,5%) 264 (19,0%) 285 (20,5%) 294 (21,2%) 429 (12,8%) 134 (31,2%) 170 (39,6%) 179 (41,7%) 186 (43,4%) Non envahis 1 675 (49,9%) 67 (4,0%) 113 (6,7%) 131 (7,8%) 143 (8,5%) Envahis 264 (18,2%) 361 (24,8%) 385 (26,5%) 391 (26,9%) (6,7%) 44 (19,5%) 51 (22,6%) 54 (23,9%) 55 (24,3%) 3 188 (95,0%) 274 (8,6%) 411 (12,9%) 456 (14,3%) 475 (14,9%) (5,0%) 101 (60,5%) 114 (68,3%) 114 (68,3%) 114 (68,3%) 3 355 (100%) 375 (11,2%) 525 (15,6%) 570 (17,0%) 589 (17,6%) ≤ 34 ≥ 70 Taille Inconnue Ganglions Inconnu 1 454 (43,3%) 226 Métastases Absence Présence Total 167 Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 7 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE Tableau II : Estimations des risques relatifs (RR) de décès ajustés, avec intervalles de confiance à 95 % (IC 95 %), avec le modèle de Cox, le modèle d’Hakulinen et Tenkanen, le modèle d’Estève et coll. pour chaque facteurs pronostiques dans l’étude à 10 ans de 3 355 cas de cancers du sein. Facteurs pronostiques Modèle de Cox RR IC 95 % p RR IC 95 % 0,003 b Age ≤ 34 Estève et coll. Hakulinen & Tenkanen p RR IC 95 % < 10-4 b p < 10-4 b 1,67 1,22 - 2,28 0,01 1,67 1,20 - 2,33 0,002 1,66 1,20 - 2,30 0,002 35 - 49 a 1 - - 1 - - 1 - - 50 - 69 0,98 0,80 - 1,21 0,87 0,67 0,51 - 0,87 0,002 0,76 0,60 - 0,97 0,026 ≥ 70 1,21 0,92 - 1,59 0,18 0,39 0,21 - 0,74 0,004 0,44 0,26 - 0,75 0,003 < 10-4 b Taille < 10-4 b < 10-4 b < 2 cm a 1 - - 1 - - 1 - - ≥ 2 cm 2,45 1,92 - 3,14 < 10-4 3,30 2,22 - 4,88 < 10-4 3,05 2,13 - 4,36 < 10-4 Inconnue 4,09 3,13 - 5,34 < 10-4 5,83 3,88 - 8,76 < 10-4 5,36 3,70 - 7,76 < 10-4 < 10-4 b Ganglions Non envahis a < 10-4 b < 10-4 b 1 - - 1 - - 1 - - Envahis 2,40 1,93 - 3,00 < 10-4 2,98 2,11 - 4,22 < 10-4 2,91 2,11 - 4,02 < 10-4 Inconnu 2,37 1,67 - 3,36 < 10-4 3,15 1,93 - 5,13 < 10-4 3,08 1,95 - 4,85 < 10-4 < 10-4 b Métastases Absence a 1 - - < 10-4 b 1 - - < 10-4 b 1 - - Présence 7,09 5,67 - 8,87 < 10-4 9,14 6,95 - 12,02 < 10-4 8,62 6,66 - 11,17 < 10-4 a) Catégorie de référence. b) Valeur de p pour le test global de la variable. Le tableau II fournit les estimations des RR ajustés, avec intervalles de confiance à 95 % (IC), obtenues avec les trois modèles lorsque l’on s’intéresse à la survie à 10 ans (des résultats similaires ont été trouvés lors des analyses effectuées à 5, 15 et 20 ans ; données non montrées). Si l’on compare les résultats obtenus avec le modèle de Cox aux résultats obtenus avec les deux modèles régressif de survie relative le principal résultat concerne l’estimation du risque de décès lié à l’âge des patientes. En effet, l’analyse par le modèle régressif de survie brute (Cox) montre un effet non significatif pour la tranche d’âge 50 69 ans et celle supérieure à 70 ans. En revanche, l’analyse par les modèles régressifs de survie relative (Hakulinen et Tenkanen, Estève et coll.) conclue à un effet protecteur significatif pour ces deux tranches d’âge. Une fois la mortalité naturelle prise en compte, l’excès de risque de décès par cancer du sein chez les patientes âgées de plus de 50 ans est Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 8 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE plus faible que celui des patientes de la tranche d’âge 35 - 49 ans. En ce qui concerne les autres facteurs pronostiques, les estimations obtenues par le modèle régressif de survie brute et par les modèles régressifs de survie relative vont dans le même sens, les RR estimés pour l’analyse de la survie brute étant inférieurs à ceux obtenus pour l’analyse de la survie relative. Nous pouvons également constater (tableau II) que l’écart est faible entre les estimations des RR ajustés obtenus par la méthode d’Hakulinen et Tenkanen d’une part et par la méthode d’Estève et coll. d’autre part. Les IC à 95 % obtenus avec la méthode d’Estève et coll. sont moins larges que ceux obtenus avec la méthode d’Hakulinen et Tenkanen. Par ailleurs, les estimations obtenues par le modèle de Cox sont plus précises que celles obtenues par les deux modèles régressifs de survie relative. Discussion Nous pouvons dégager un certain nombre de points à partir de cette revue comparative des principaux modèles régressifs de survie brute et de survie relative. Survie brute La stabilité dans l’estimation des RR ajustés que nous avons constaté dans notre étude à différents temps de suivi est en faveur du respect de l’hypothèse de proportionnalité des taux. Un écart à cette hypothèse remettrait en cause l’utilisation du modèle de Cox à taux proportionnels pour ce jeu de données. Différentes méthodes ou tests ont été développés pour vérifier cette hypothèse [3,19-28] et différents modèles ont été élaborés pour prendre en compte une modification du rapport des taux de décès au cours du temps [3,26,29-36]. Dans leur étude, réalisée sur des données réelles de registre de population concernant le cancer du colon, Quantin et coll. [37] ont comparé les estimations obtenues avec un modèle de Cox à taux proportionnels classique à celles obtenues à partir de modèles qui généralisent le modèle de Cox en permettant une modification au cours du temps du rapport du taux de décès [3,26,36]. Les auteurs ont ainsi évalué les avantages et les limites de différents modèles à taux non-proportionnels et ils ont ainsi mis en évidence l’intérêt de modéliser la variation du rapport du taux de décès au cours du temps dans cette pathologie. Survie nette Les résultats présentés dans le tableau II ont montré que les estimations obtenues pour le modèle d’Estève et coll. étaient plus précises que celles obtenues pour le modèle d’Hakulinen et Tenkanen. Cette notion de précision, qui a été montrée par ailleurs dans une étude basée sur des données de simulation [38], n’est pas intrinsèque aux modèles et Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 9 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE dépend de l’estimateur de la matrice de variance-covariance du logiciel utilisé pour estimer les paramètres du modèle. Cette étude a également montré que, dans une situation de proportionnalité des taux de décès, le modèle d’Estève et coll. a une certaine robustesse par rapport à l’hypothèse d’indépendance entre le taux de censures et le taux de décès [38]. D’un point de vue mathématique, ces deux modèles sont similaires à une transformation ln{-{ln}} près. Les différences que l’on peut noter entre ces deux modèles portent sur la façon d’estimer les paramètres puisque le modèle d’Estève et coll. utilise la vraisemblance totale basée sur des données individuelles alors que celui d’Hakulinen et Tenkanen utilise, dans le cadre des modèles linéaires généralisés, des données groupées. Cette approche peut donc conduire à un manque de précision dans l’estimation des paramètres et à un manque de puissance statistique lorsque les unités d’observations (strates par intervalles de temps) comportent peu d’individus. De plus, dans le modèle d’Estève et coll. les patients peuvent être ajustés individuellement (de la même manière que dans le modèle de Cox) ce qui évite les éventuels problèmes consécutifs au groupement de patients hétérogènes en terme de survie lorsque l’analyse est réalisée sur données groupées. Dans certains registres de population de grande taille, les données sont enregistrées par intervalles de temps et c’est alors le modèle pour données groupées d’Hakulinen et Tenkanen qui s’appliquerait plutôt que celui d’Estève et coll., alors que dans d’autres cas où les données individuelles sont disponibles, c’est le modèle d’Estève et coll. qui doit être choisi. A partir de données réelles du registre Finlandais de cancer, une étude a comparé les résultats obtenus avec le modèle d’Hakulinen et Tenkanen aux résultats de trois autres modèles régressifs (sur données groupées et sur données individuelles) proposés alors. Ces quatre approches ont donné des résultats sensiblement similaires [39]. Comme le modèle de Cox, le modèle d’Hakulinen et Tenkanen et le modèle d’Estève et coll. reposent sur l’hypothèse des taux proportionnels de décès. A notre connaissance, il n’y a pas à ce jour de développements théoriques qui ont été réalisés pour prendre en compte la non proportionnalité des taux avec le modèle d’Hakulinen et Tenkanen. Les logiciels utilisés pour obtenir les estimations dans le modèle linéaire généralisé (SAS, GLIM, …) permettent d’introduire une interaction entre le temps et un facteur pronostique pour modéliser une modification du rapport des taux de décès au cours du temps. Cependant, il a été montré qu’une limite de cette méthode était d’imposer a priori une contrainte paramétrique sur la forme de l’interaction, aussi bien dans le cadre de la survie brute [37] que dans celui de la survie relative [40]. Des extensions au modèle d’Estève et coll. ont été proposées pour prendre en compte la modification du rapport des taux de Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 10 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE décès au cours du temps [40-42]. Une version du logiciel RELSURV [43] permet également l’introduction d’une interaction entre le temps et un facteur pronostique et la fonction RSURV [17], utilisable avec le logiciel S-PLUS ou R, permet de modéliser la modification du rapport des taux de décès au cours du temps avec un modèle régressif de survie relative utilisant des fonctions B-splines [42] ainsi que l’étude de la survie relative avec plusieurs évènements du même type (par exemple, la récidive du cancer). Survie brute versus survie nette Notre étude, comme d’autres [10,41,42,44], retrouve, au travers du facteurs pronostic âge, l’importance de l’analyse de la survie relative pour séparer l’impact des facteurs pronostiques sur la mortalité spécifique de leurs effets sur les autres causes de décès. Une étude basée sur des données de simulation a montré que, dans une situation où la mortalité spécifique était connue, le modèle de Cox sous-estimait l’impact de l’âge sur la mortalité spécifique (Communication orale : Le Teuff G, Quantin C, Bolard P, Abrahamowicz M. Comparison of Cox and relative survival models when estimating the effect of prognostic factors on disease-specific mortality: a simulation study. 25th annual conference of the International Society for Clinical Biostatistics, Leiden, Netherlands, Agust 2004.). Cependant, la comparaison entre l’analyse de la survie brute et l’analyse de la survie nette n’est pas aisée et théoriquement pas toujours justifiée dans la mesure où ces deux types d’analyses fournissent deux informations différentes. Dans certains cas la survie observée sera suffisante pour étudier la survie d’un groupe de patients ; dans d’autres cas la prise en compte de l’évolution de la mortalité naturelle liée à l’âge devra être prise en compte. Dans certains cas la cause exacte de décès sera connue ; dans d’autres cas cela ne sera pas possible. Il en résulte que le choix de la méthode utilisée reste dépendant du problème posé et des données disponibles [45]. Remerciements Nous remercions les deux lecteurs anonymes pour leurs commentaires constructifs qui ont permis d’améliorer cet article. REFERENCES : 1. Böhmer PE. Theorie der unabhängigen Wahrscheinlichkeiten Rapports. In: Mémoires et procès verbaux du septième congrès international d’actuaires. Amsterdam 1912; 2: 327-43. Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 11 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE 2. Kaplan EL, Meier P. Non parametric estimation from incomplete observations. J Am Stat Assoc 1958; 53: 457-481. 3. Cox DR. Regression models and life table (with discussion). J R Stat Soc 1972; B34: 187-202. 4. Andersen PK. Survival analysis 1982-1991: the second decade of the proportional hazards regression model. Stat Med 1991; 10: 1931-41. 5. Richardson S. Développements récents de la biostatistique. Rev Epidemiol Sante Publique 1996; 44: 482-93. 6. Berkson J, Gage RP. Calculation of survival rates for cancer. Proceeding of the Staff Meeting of the Mayo Clinic 1950; 25: 270-86. 7. Ederer F, Heise H. The effect of eliminating deaths from cancer in general population survival rates, methodological note 11, End Result Evaluation Section, National Cancer Institute, 1959. 8. Ederer F, Axtell LM, Cutler SJ. The relative survival rate: a statistical methodology. J Natl Cancer Inst Monogr 1961; 6: 101-21. 9. Hakulinen T. Cancer survival corrected for heterogeneite in patient withdrawal. Biometrics 1982; 38: 933-42. 10. Estève J, Benhamou E, Croasdale M, Raymond L. Relative survival and estimation of net survival: elements for further discussion. Stat Med 1990; 9: 529-38. 11. Hakulinen T, Tenkanen L. Regression analysis of relative survival rates. Appl Statist 1987; 36: 309-17. 12. Estève J, Benhamou E, Raymond L. Statistical methods in descriptive epidemiology. IARC Scientific Publication n°128, International Agency for Research on Cancer, Lyon, 1994. 13. McCullagh P, Nelder JA. Generalized linear models. New York: Chapman and hall, 1989. 14. SPSS pour Windows version 11.0. SPSS Inc, 1989-2001. 15. Dickman PW, Hakulinen T, Voutilainen ET. Surv3: relative survival analysis program, version 3.01. Helsinki: Finnish cancer registry, 2002. 16. SAS Institute Inc, Version 8, Cary, NC: SAS Institute Inc, 2000. 17. Giorgi R, Payan J, Gouvernet J. RSURV: a function to perform relative survival analysis with S-PLUS or R. Comput Methods Programs Biomed 2005 (sous presse). 18. S-PLUS 6.0. Professional release 2. Insightful Corp, 1988-2001. Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 12 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE 19. Kay R. Proportional hazard regression models and the analysis of censored survival data. Appl Stat 1977; 26: 227-237. 20. Schoenfeld D. Chi-squared goodness-of-fit tests for the proportional hazards regression model. Biometrika 1980; 67: 145-153. 21. Kalbleisch JD, Prentice R. The statistical analysis of failure time data. Wiley, New York, 1980. 22. Andersen PK, Gill RD. Cox’s regression model for counting processes: a large-sample study. Ann Stat 1982; 10: 1100-1120. 23. Schoenfeld D. Partial residuals for the proportional hazards regression model. Biometrika 1982; 69: 239-241. 24. Nagelkerke NJD, Oostings J, Hart AAM. A simple test for goodness of fit of Cox’s proportional hazards model. Biometrics 1984; 40: 483-486. 25. Wei LJ. Testing goodness of fit for proportional hazard model with censored observations. J Am Stat Assoc 1984; 9: 649-652. 26. Moreau T, O'Quigley J, Mesbah M. A global goodness of fit statistic for the proportional hazards model. Appl Stat 1985; 34: 212-218. 27. O’Quigley J, Pessione F. Score test for homogeneity of regression effect in the proportional hazards model. Biometrics 1989; 45: 135-144. 28. Gill R, Schumacher M. A simple test of the proportional hazard assumption. Biometrika 1987; 74: 289-300. 29. Zucker DM, Karr AF. Nonparametric survival analysis with time-dependent covariate effects: a penalized partial likelihood approach. Ann Stat 1990; 18: 329-353. 30. Gray RJ. Flexible methods for analyzing survival data using splines, with applications to breast cancer prognosis. J Am Stat Assoc 1992; 87: 942-951. 31. Hastie TJ, Tibshirami RJ. Varying-coefficient models (with discussion). J R Stat Soc 1993, B55: 757-796. 32. Hess K. Assessing time-by-covariate interactions in proportional hazards regression models using cubic spline functions. Stat Med 1994; 13: 1045-1062. 33. Kooperberg C, Stone CJ, Truong YK. Hazard regression. J Am Stat Assoc 1995; 90: 78-94. 34. Verweij JM, Houwelingen HC. Time-dependent effects of fixed covariates in Cox regression. Biometrics 1995; 51: 1550-1556. Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 13 R. GIORGI ET COLLABORATEURS REVUE DES MODELES REGRESSIFS DE SURVIE 35. Heinzl H, Kaider A. Assessing interactions of binary time-dependent covariates with time in Cox proportional hazards regression models using cubic spline functions. Stat Med 1996; 15: 2589-2601. 36. Abrahamowicz M, MacKenzie T, Esdaile JM. Time-dependent hazard ratio: modeling and hypothesis testing with application in lupus nephritis. J Am Stat Assoc 1996; 91: 1432-1439. 37. Quantin C, Abrahamowicz M, Moreau T, Bartlett G, MacKenzie T, Tazi MA, et al. Variation over time of the effects of prognostic factors in a population-based study of colon cancer: comparison of statistical models. Am J Epidemiol 1999; 150: 1188-1200. 38. Giorgi R, Hedelin G, Schaffer P. Relative survival: comparison of regressive models and advice for user. J Epidemiol Biostat 2001; 6: 455-462. 39. Dickman PW, Sloggett A, Hills M, Hakulinen T. Regression models for relative survival. Stat Med 2004; 23: 51-64. 40. Bolard P, Quantin C, Esteve J, Faivre J, Abrahamowicz M. Time dependent hazard ratio in relative survival with application in colon cancer. J Clin Epidemiol 2001; 54: 986-96. 41. Bolard P, Quantin C, Abrahamowicz M, Esteve J, Giorgi R, Chadha-Boreham H, et al. Assessing time-by-covariate interactions in relative survival models using restrictive cubic spline functions: application to colon cancer. J Cancer Epidemiol Prev. 2002; 7: 113-22. 42. Giorgi R, Abrahamowicz M, Quantin C, Bolard P, Estève J, Gouvernet J, et al.. A relative survival regression model using B-spline functions to model non-proportional hazards. Stat Med 2003; 22: 2767-84. 43. Hédelin G. RELSURV 2.0 a program for relative survival. Laboratoire d’épidémiologie et de santé publique, Faculté de médecine, F-67085 Strasbourg Cedex, France, 1997. 44. Monnet E, Boutron MC, Arveux P, Milan C, Faivre J. Different multiple regressions models for estimating survival: use in a population-based series of colorectal cancer. J Clin Epidemiol 1992; 45: 267-73. 45. Hédelin G. Les modèles de survie relative et leurs applications. Thèse de Doctorat de Biostatistique, Université de Strasbourg, 2000. Publié dans : Rev Epidemiol Sante Publique, 2005, 53 : 409-417 14