Analyse de survie : comment gérer les données censurées ?
Transcription
Analyse de survie : comment gérer les données censurées ?
Mémento biostatistique Analyse de survie : comment gérer les données censurées ? Méthode de Kaplan-Meier C. Alberti1, J.-F. Timsit2, S. Chevret3 En 1998, les médecins d’un centre de cancérologie décident d’étudier la survie de leurs patients atteints de cancer broncho-pulmonaire et d’en étudier les facteurs pronostiques. Afin d’assurer une bonne qualité des données par un recueil prospectif, ils décident d’inclure dans cette cohorte les patients nouvellement atteints et débutent leur étude au 1er janvier 1999. Les patients sont suivis tous les mois au début de leur traitement puis tous les 6 mois après la première année. L’événement étudié au cours du temps est la survenue du décès. Au bout de 5 ans d’étude, une première analyse des résultats est effectuée. Pour cela, il est fait un point sur l’étude au 31 décembre 2003, autrement dit pour les patients décédés il est spécifié sur le cahier de recueil la survenue du décès et la date de décès, pour les patients survivants il est spécifié l’état vivant à la date du 31 décembre 2003. En l’absence de décès connu et d’information sur l’état du patient au 31 décembre 2003 il est noté la dernière date où le patient était connu comme étant vivant. Ces patients sont dits « perdus de vue » à la date de point que constitue le 31 décembre 2003. Dans cette cohorte sont inclus 250 patients parmi lesquels 180 sont décédés. On peut calculer un taux de survie de 250 – 180 28 % . Cependant, ces résultats ne tiennent pas ------------------------= 250 1 2 3 Centre d’Epidémiologie Clinique, Hôpital Robert Debré, 48 Boulevard Serrurier, 75019 Paris, France. Réanimation Médicale, CHU A Michallon, Cedex France, et Institut Albert Bonniot, Université Joseph Fourier Grenoble I, unité INSERM U 578, 38043, Grenoble, France. Département de Biostatistique et Informatique Médicale, Hôpital Saint Louis, 1 avenue Claude Vellefaux, 75010, Paris, France. Correspondance : J.-F. Timsit Service de Réanimation Médicale, Département de médecine aigüe spécialisée, CHU A Michallon, 38043, Grenoble, Cedex. Réception version princeps à la Revue : 07.05.2004. Retour aux auteurs pour révision : 30.06.2004. Réception 1ère version revisée : 30.09.2004. Acceptation définitive : 06.11.2004. Rev Mal Respir 2005 ; 22 : 333-7 Doi : 10.1019/200539989 compte du fait que certains patients ont été suivis plus longtemps que d’autres, les inclusions s’étant succédé au cours du temps du 1er janvier 1999 au 31 décembre 2003 ; ils ignorent de plus les délais observés d’apparition des décès durant le suivi. Enfin, une quinzaine de patients ont été perdus de vue la plupart en raison d’un déménagement et d’autres en raison d’un changement de filière médicale, et donc on ne dispose pas d’informations quant à leur statut vital au 31 décembre 2003 mais seulement à la dernière date où ils se sont présentés à la visite médicale. Il faut noter que le calcul du taux de survie effectué ci-dessus, qui est un taux de survie brut, suppose que ces 15 patients perdus de vue sont restés vivants jusqu’au 31 décembre 2003. © 2005 SPLF, tous droits réservés 333 C. Alberti et coll. Les données censurées Lorsque l’on s’intéresse à l’étude de la survenue au cours du temps d’un événement « en tout ou rien » comme le décès (mais aussi, la récidive tumorale ou l’apparition de métastases, etc.), on désigne souvent ces données sous le terme générique de « données de survie ». La particularité de ces données, c’est qu’à la fin de la période d’observation (dans notre exemple au 31 décembre 2003), l’événement d’intérêt (ici le décès) ne sera probablement pas survenu pour tous les patients. Pour ces patients, le temps de survie est dit « censuré » (à droite), indiquant que le délai exact de décès du sujet (non observé) est supérieur ou égal (« à droite ») à son délai de suivi. Nous ne savons pas quand et si l’événement se produira mais à la date où sont analysées les données, le patient est toujours vivant. On dit parfois que ces sujets sont des « exclus vivants ». L’autre mécanisme principal de censure concerne les patients dits « perdus de vue », c’est-à-dire ceux dont le suivi s’interrompt avant la date de point (ici, le 31 décembre 2003), de manière inopinée (dans notre exemple, du fait d’un déménagement ou de changement de filière médicale, par exemple). Pour ces derniers sujets, le temps de survie sera également censuré puisque la période d’observation s’est arrêtée à la dernière date où l’on savait que le patient était vivant. Dans ce cas une hypothèse importante est que la raison du départ des patients de l’étude doit être indépendante de leur risque de décès. C’est-à-dire qu’à chaque temps, les patients censurés ont la même perspective de survie que ceux qui continuent d’être suivis. En d’autres termes, si le patient est perdu de vue du fait d’une altération de son état de santé, l’indépendance entre la cause de censure et le décès ne peut plus être assurée. On parle de censure « informative » (ou dépendante du décès). Ceci est important à vérifier car les méthodes qui seront exposées plus loin ne sont valides qu’en cas de censure dite « non-informative » (ou indépendante du décès). Enfin la dernière notion associée aux données censurées est celle de censure à droite ou à gauche. Dans toutes les situations identiques à l’exemple précédent, où l’on sait seulement que l’événement ne s’est pas produit à une certaine date (dans notre exemple le 31 décembre 2003), on a vu que le délai de survie constitue une observation dite censurée à droite. En effet la durée de survie est supérieure à un délai donné. Mais il peut arriver que l’événement se soit produit avant la date de point sans qu’il soit possible d’en connaître la date exacte. L’observation est dite censurée à gauche. C’est-à-dire que le véritable délai de survie du patient est inférieur au délai d’observation. Le plus souvent on se trouve dans les conditions de censure à droite et c’est ce cas qui sera traité dans ce chapitre. Date d’origine Patient 10 Patient 9 Patient 8 Patient 7 Patient 6 Patient 5 Patient 4 Patient 3 Patient 2 Patient 1 01/01/99 Date des dernières nouvelles Date d’inclusion Date du point 01/01/00 01/01/01 01/01/02 01/01/03 01/01/04 temps Echelonnement dans le temps de l’inclusion des patients dans la cohorte Durées de suivi (mois) Patient 10 Patient 9 Patient 8 Patient 7 Patient 6 Patient 5 Patient 4 Patient 3 Patient 2 Patient 1 0 17 28 14 36 18 40 26 30 38 60 1 an 2 ans 3 ans 4 ans 5 ans temps Description des durées de suivi Fig. 1. Représentation des données de survie. 2, 4, 6 et 10 sont décédés. Les données des patients 1, 5, 7 et 9, toujours vivants à la fin du suivi, sont censurées, de même que les données des patients 3 et 8 qui ont été perdus de vue (leur suivi s’interrompant avant la date de point). Un glissement des données sur l’axe du temps permet de constituer la partie inférieure de la fig. 1 représentant les délais de suivi comptabilisés en années. En effet, ce qui nous intéresse c’est le délai entre la date d’inclusion de chaque patient et la date du décès ou du dernier suivi. Cette figure met en relief le fait que tous les patients ne sont pas suivis pendant la même période de temps, les patients suivis pendant la période la plus courte ont une « chance » moins importante de présenter l’événement que ceux suivis plusieurs années. Principes de l’analyse de survie L’analyse de la survie est un terme générique pour toute analyse de la survenue au cours du temps d’un événement « en tout ou rien », comme par exemple le décès, et ceci en présence de données censurées. Ce type d’analyse est largement utilisé en épidémiologie clinique. Il permet la description de la survie d’un groupe de patients mais aussi la comparaison de la survie de deux ou plusieurs groupes de patients afin d’étudier les facteurs pronostiques, c’est-à-dire les facteurs susceptibles d’expliquer la survenue du décès (ou d’un autre événement) au cours du temps (prochaine note méthodologique). Illustrons ces notions par un graphique La partie supérieure de la fig. 1 représente les délais de suivi de 10 patients dont la date d’inclusion dans l’étude de cohorte est échelonnée dans le temps de janvier 1999 à janvier 2002. La date de point de l’analyse de ces données a été fixée à 5 ans après l’inclusion du premier patient, soit en janvier 2004. Les patients 334 Rev Mal Respir 2005 ; 22 : 333-7 Quelles sont les données indispensables pour l’analyse de la survie ? Quatre informations sont essentielles à collecter pour tous les patients de la cohorte étudiée (fig. 1) : Analyse de survie : comment gérer les données censurées ? – une date origine, c’est-à-dire la date à laquelle a débuté l’observation, par exemple : la date de diagnostic du cancer broncho-pulmonaire. Cette date doit avoir un sens clinique, afin que la « survie » analysée puisse être interprétée facilement par les lecteurs ; – la date des dernières nouvelles, c’est-à-dire la date de décès pour les patients décédés ou la date à laquelle on dispose des dernières données relatives à l’état du patient sachant qu’il n’est pas décédé ; – la date de point, c’est-à-dire la date à laquelle on fait le point ou date de fin d’observation. Dans notre exemple, c’est le 31 décembre 2003. Tout patient chez qui l’événement d’intérêt n’a pas été observé à la date de point est censuré à cette date. Un sujet perdu de vue à la date de point sera censuré à la date de dernières nouvelles. La connaissance de la date de point n’est pas indispensable au calcul mais permet de limiter le risque d’une censure informative (cf. infra) ; – un événement « en tout ou rien » (binaire) correspondant à l’état du patient en deux éventualités (dans notre exemple, vivant ou décédé) à la date des dernières nouvelles. Tout événement binaire autre que le décès associé à un délai de survenue peut être analysé en délai de survie. Par exemple on peut étudier la survenue de la rechute ou de la récidive tumorale après traitement ou la survenue de métastases. À partir de ces données, les durées de suivi de chaque patient sont calculées par différence. Elles correspondent au délai entre la date d’origine et la date des dernières nouvelles qui sera la date de décès en cas de décès, la date de point pour les patients vivants pour lesquels le suivi est assuré ou la date de perte de vue pour les patients vivants n’étant plus suivi dans la cohorte à la date de point. Estimation de la fonction de survie par la méthode de Kaplan-Meier L’estimation de la proportion de patients vivants à un temps de suivi donné en tenant compte de la possibilité de censure utilise la méthode décrite par Kaplan et Meier en 1958. Le principe de cette estimation repose sur une idée simple : être encore en vie après un instant t, c’est être en vie juste avant cet instant t et ne pas mourir à cet instant. C’est une probabilité conditionnelle, c’est-à-dire la probabilité d’avoir survécu à un instant donné conditionnellement au fait d’être en vie juste avant cet instant. Ainsi la survie à un instant quelconque est le produit des probabilités conditionnelles de survie de chacun des instants précédents. Elle est donnée par l’estimateur de Kaplan-Meier qui s’écrit S ( t )= ∏ ti < t ni – di --------------- , où ni ti représente le délai de suivi (généralement exprimé en mois) après l’inclusion dans l’étude, ni est le nombre de sujets à risque à l’instant ti et di est le nombre de décès au temps ti. Illustrons ceci par un exemple numérique issu des données de la Fig. 2. Représentation graphique de la fonction de survie par la méthode de Kaplan-Meier. figure 1. La table 1 reprend les durées de suivi des 10 patients ordonnées par ordre croissant. – À chaque temps ti, on calcule la probabilité de survie en ti notée n – d . Remarquons qu’en cas de donnée censurée en ti, i -i q i = --------------ni cette quantité est égale à 1 : les données censurées n’influencent pas la probabilité de survie cumulée à ce temps donné ; par contre, le nombre de patients à risque décroît de 1 pour l’intervalle suivant. À 60 mois, la probabilité cumulée de survie est le produit des qi, soit S(t) = 0,889 × 0,875 × 0,857 × 0,667 = 0,445. Dans cet exemple, la probabilité cumulée de survie à 60 mois est estimée à 44,5 %. On peut aussi parler de fonction de décès, qui est le complément à 1 de la fonction de survie1. Représentation graphique de la fonction de survie La figure 2 représente l’évolution de la probabilité cumulée de survie en fonction du temps des 10 patients dont les données sont décrites sur la figure 1 et dans le tableau I. La probabilité cumulée de survie, en ordonnée, varie entre 0 et 1. Le temps en mois constitue l’axe des abscisses. On observe que la fonction de survie est une représentation « en marches d’escaliers », chaque marche correspondant aux délais d’événement. De plus, il est utile de figurer d’une part le nombre de patients restant à risque pour quelques temps donnés sous l’axe des abscisses, et d’autre part, les délais de censure par de petits traits verticaux sur la courbe. La médiane de survie cor1 À 60 mois la probabilité cumulée de décès vaut 55,5 %, ce qui est différent du rapport brut nombre de décès totaux/nombre total de patients sur la période d’étude soit 4/10 (40 %) ne tenant pas compte des perdus de vue et des durées de suivi. © 2005 SPLF, tous droits réservés 335 C. Alberti et coll. Tableau I. Calcul de la fonction de survie. Numéro Durées de Nombre de Nombre de Probabilité de Probabilité du suivi en mois patients décès survie à chaque cumulée de survie patient ti à risque di instant ti à l’instant ti ni S(ti) n –d i i q = -----------------i n i Patient 8 14 10 0 1 1 Patient 10 17 9 1 0,889 0,889 Patient 6 18 8 1 0,875 0,778 Patient 4 26 7 1 0,857 0,667 Patient 9 28 6 0 1 0,667 Patient 3 30 5 0 1 0,667 Patient 7 36 4 0 1 0,667 Patient 2 38 3 1 0,667 0,445 Patient 5 40 2 0 1 0,445 Patient 1 60 1 0 1 0,445 respond au temps pour lequel la probabilité cumulée de survie est égale à 50 %, c’est-à-dire le temps au-delà duquel l’événement a été observé chez 50 % des patients, soit 38 mois dans notre exemple. Comme souvent en statistique, des hypothèses régissent l’utilisation de la méthode de Kaplan-Meier. Afin d’avoir des estimations non biaisées de la survie au cours du temps, 3 hypothèses sont importantes à considérer. La première hypothèse, déjà énoncée plus haut concerne la censure qui doit être non informative de l’événement. Dans notre exemple, imaginez que les patients perdus de vue n’aient pas pu se rendre à la consultation parce qu’ils étaient décédés à leur domicile. Dans ce cas, la survie des patients censurés diffère systématiquement de la survie des patients non censurés, et l’ignorer conduit à une estimation biaisée de la fonction de survie. De même, la date de sortie de l’hôpital peut être une censure informative. En effet, le patient sorti de l’hôpital vivant est « censuré », mais il a certainement un risque de décès plus bas que s’il avait fallu le garder hospitalisé2. Dans la deuxième hypothèse, on suppose que les patients inclus dans la cohorte au début de l’étude (en 1999) et plus tard (disons, en 2002) ont la même fonction de survie. Cette hypothèse d’absence d’effet période peut être testée. La troisième hypothèse implique que l’événement auquel on s’intéresse survient à un temps précis connu avec exactitude. Ce qui est le cas du décès pour lequel une date précise peut être recueillie. Ceci est moins vrai si on s’intéresse à la rechute du cancer par exemple où bien souvent on saura qu’elle est survenue entre 2 dates d’examen clinique mais avec une imprécision sur la date exacte de l’événement. Il s’agit de données dites censurées par intervalle. Ignorer cette imprécision sur les dates exactes d’événement peut biaiser les estimations de la probabilité de survenue de la rechute. Si les examens cliniques sont programmés à des intervalles de temps réguliers, une échelle de temps adaptée peut être utilisée (par exemple tous les 6 mois au lieu du mois). C’est le principe de la méthode actuarielle illustrée sur la figure 3. Cette méthode peut aussi être employée même si les temps exacts des événements sont connus quand les temps d’observation sont longs et le nombre d’événements élevé. Les résultats sont alors moins fins avec une courbe de survie plus lissée3. 2 En pratique, il convient de limiter au maximum le nombre de perdus de vue et de s’assurer que la censure n’est pas liée d’une manière ou d’une autre à l’événement que l’on étudie. D’une manière générale, il est préférable de censurer les malades après une durée de suivi fixe (28 jours, 3 mois, 6 mois, 5 ans etc.) qu’après une durée de suivi variable (sortie de l’hôpital, sortie de réanimation etc.). 3 Alors que la méthode de Kaplan-Meier repose sur le calcul de la probabilité de survie après chaque événement, la méthode actuarielle repose sur des probabilités de survies estimées sur des intervalles de temps fixés a priori. 336 Rev Mal Respir 2005 ; 22 : 333-7 Fig. 3. Représentation graphique de la fonction de survie par la méthode actuarielle. Analyse de survie : comment gérer les données censurées ? En résumé Lorsque l’on s’intéresse à l’étude de la survenue au cours du temps d’un événement en tout ou rien comme le décès mais aussi la récidive tumorale ou l’apparition de métastases, on désigne souvent ces données sous le terme générique de « données de survie ». La particularité de ces données, c’est qu’à la fin de la période de suivi l’événement d’intérêt n’est pas survenu pour tous les patients : le temps de survie est dit censuré. Quatre informations sont essentielles pour analyser les données de survie. Une date origine à laquelle débute la période d’observation. La date des dernières nouvelles, soit la date de décès, soit la date à laquelle on dispose des dernières données relatives à l’état du patient sachant qu’il n’est pas décédé. Un événement « en tout ou rien » (binaire) correspondant à la survenue ou non de l’événement à la date des dernières nouvelles. La date de point ou date de fin d’observation. Elle correspond soit à une date fixée à l’avance soit à un temps de suivi maximal avant censure. L’estimation de la proportion de patients vivants à un temps de suivi donné en tenant compte de la possibilité de censure utilise la méthode de Kaplan-Meier. Le principe de cette méthode repose sur l’idée qu’être encore en vie après un instant t, c’est être en vie juste avant cet instant t et ne pas mourir à cet instant. Ainsi la survie à un instant quelconque est le produit de probabilités conditionnelles de survie de chacun des instants précédents. La détermination de la date du point permet de limiter les biais d’estimation liés à la censure. L’évolution de la survie en fonction du temps est représenté de manière non paramétrique par les courbes de KaplanMeier qui est une représentation en marches d’escaliers, chaque marche correspondant aux délais de suivi où surviennent les événements. © 2005 SPLF, tous droits réservés 337