Analyse de survie : comment gérer les données censurées ?

Transcription

Analyse de survie : comment gérer les données censurées ?
Mémento biostatistique
Analyse de survie :
comment gérer les données censurées ?
Méthode de Kaplan-Meier
C. Alberti1, J.-F. Timsit2, S. Chevret3
En 1998, les médecins d’un centre de cancérologie décident d’étudier la survie de leurs patients atteints de cancer
broncho-pulmonaire et d’en étudier les facteurs pronostiques.
Afin d’assurer une bonne qualité des données par un recueil
prospectif, ils décident d’inclure dans cette cohorte les
patients nouvellement atteints et débutent leur étude au
1er janvier 1999. Les patients sont suivis tous les mois au
début de leur traitement puis tous les 6 mois après la première
année. L’événement étudié au cours du temps est la survenue
du décès. Au bout de 5 ans d’étude, une première analyse des
résultats est effectuée. Pour cela, il est fait un point sur l’étude
au 31 décembre 2003, autrement dit pour les patients décédés il est spécifié sur le cahier de recueil la survenue du décès
et la date de décès, pour les patients survivants il est spécifié
l’état vivant à la date du 31 décembre 2003. En l’absence de
décès connu et d’information sur l’état du patient au
31 décembre 2003 il est noté la dernière date où le patient
était connu comme étant vivant. Ces patients sont dits
« perdus de vue » à la date de point que constitue le
31 décembre 2003.
Dans cette cohorte sont inclus 250 patients parmi lesquels 180 sont décédés. On peut calculer un taux de survie de
250
– 180 28 % . Cependant, ces résultats ne tiennent pas
------------------------=
250
1
2
3
Centre d’Epidémiologie Clinique, Hôpital Robert Debré,
48 Boulevard Serrurier, 75019 Paris, France.
Réanimation Médicale, CHU A Michallon, Cedex France,
et Institut Albert Bonniot, Université Joseph Fourier Grenoble I,
unité INSERM U 578, 38043, Grenoble, France.
Département de Biostatistique et Informatique Médicale, Hôpital
Saint Louis, 1 avenue Claude Vellefaux, 75010, Paris, France.
Correspondance : J.-F. Timsit
Service de Réanimation Médicale, Département de médecine
aigüe spécialisée, CHU A Michallon, 38043, Grenoble, Cedex.
Réception version princeps à la Revue : 07.05.2004.
Retour aux auteurs pour révision : 30.06.2004.
Réception 1ère version revisée : 30.09.2004.
Acceptation définitive : 06.11.2004.
Rev Mal Respir 2005 ; 22 : 333-7
Doi : 10.1019/200539989
compte du fait que certains patients ont été suivis plus longtemps que d’autres, les inclusions s’étant succédé au cours du
temps du 1er janvier 1999 au 31 décembre 2003 ; ils ignorent
de plus les délais observés d’apparition des décès durant le
suivi. Enfin, une quinzaine de patients ont été perdus de vue
la plupart en raison d’un déménagement et d’autres en raison
d’un changement de filière médicale, et donc on ne dispose
pas d’informations quant à leur statut vital au 31 décembre
2003 mais seulement à la dernière date où ils se sont présentés
à la visite médicale. Il faut noter que le calcul du taux de survie effectué ci-dessus, qui est un taux de survie brut, suppose
que ces 15 patients perdus de vue sont restés vivants jusqu’au
31 décembre 2003.
© 2005 SPLF, tous droits réservés
333
C. Alberti et coll.
Les données censurées
Lorsque l’on s’intéresse à l’étude de la survenue au cours
du temps d’un événement « en tout ou rien » comme le décès
(mais aussi, la récidive tumorale ou l’apparition de métastases,
etc.), on désigne souvent ces données sous le terme générique
de « données de survie ». La particularité de ces données, c’est
qu’à la fin de la période d’observation (dans notre exemple au
31 décembre 2003), l’événement d’intérêt (ici le décès) ne
sera probablement pas survenu pour tous les patients. Pour
ces patients, le temps de survie est dit « censuré » (à droite),
indiquant que le délai exact de décès du sujet (non observé)
est supérieur ou égal (« à droite ») à son délai de suivi. Nous
ne savons pas quand et si l’événement se produira mais à la
date où sont analysées les données, le patient est toujours
vivant. On dit parfois que ces sujets sont des « exclus
vivants ». L’autre mécanisme principal de censure concerne les
patients dits « perdus de vue », c’est-à-dire ceux dont le suivi
s’interrompt avant la date de point (ici, le 31 décembre
2003), de manière inopinée (dans notre exemple, du fait d’un
déménagement ou de changement de filière médicale, par
exemple). Pour ces derniers sujets, le temps de survie sera également censuré puisque la période d’observation s’est arrêtée à
la dernière date où l’on savait que le patient était vivant. Dans
ce cas une hypothèse importante est que la raison du départ
des patients de l’étude doit être indépendante de leur risque
de décès. C’est-à-dire qu’à chaque temps, les patients censurés
ont la même perspective de survie que ceux qui continuent
d’être suivis. En d’autres termes, si le patient est perdu de vue
du fait d’une altération de son état de santé, l’indépendance
entre la cause de censure et le décès ne peut plus être assurée.
On parle de censure « informative » (ou dépendante du
décès). Ceci est important à vérifier car les méthodes qui
seront exposées plus loin ne sont valides qu’en cas de censure
dite « non-informative » (ou indépendante du décès).
Enfin la dernière notion associée aux données censurées
est celle de censure à droite ou à gauche. Dans toutes les situations identiques à l’exemple précédent, où l’on sait seulement
que l’événement ne s’est pas produit à une certaine date (dans
notre exemple le 31 décembre 2003), on a vu que le délai de
survie constitue une observation dite censurée à droite. En effet
la durée de survie est supérieure à un délai donné. Mais il peut
arriver que l’événement se soit produit avant la date de point
sans qu’il soit possible d’en connaître la date exacte. L’observation est dite censurée à gauche. C’est-à-dire que le véritable
délai de survie du patient est inférieur au délai d’observation.
Le plus souvent on se trouve dans les conditions de censure à
droite et c’est ce cas qui sera traité dans ce chapitre.
Date d’origine
Patient 10
Patient 9
Patient 8
Patient 7
Patient 6
Patient 5
Patient 4
Patient 3
Patient 2
Patient 1
01/01/99
Date des dernières nouvelles
Date d’inclusion
Date du point
01/01/00
01/01/01
01/01/02
01/01/03
01/01/04
temps
Echelonnement dans le temps de l’inclusion des patients dans la cohorte
Durées de suivi (mois)
Patient 10
Patient 9
Patient 8
Patient 7
Patient 6
Patient 5
Patient 4
Patient 3
Patient 2
Patient 1
0
17
28
14
36
18
40
26
30
38
60
1 an
2 ans
3 ans
4 ans
5 ans
temps
Description des durées de suivi
Fig. 1.
Représentation des données de survie.
2, 4, 6 et 10 sont décédés. Les données des patients 1, 5, 7 et 9,
toujours vivants à la fin du suivi, sont censurées, de même que
les données des patients 3 et 8 qui ont été perdus de vue (leur
suivi s’interrompant avant la date de point).
Un glissement des données sur l’axe du temps permet de
constituer la partie inférieure de la fig. 1 représentant les délais
de suivi comptabilisés en années. En effet, ce qui nous intéresse c’est le délai entre la date d’inclusion de chaque patient et
la date du décès ou du dernier suivi. Cette figure met en relief
le fait que tous les patients ne sont pas suivis pendant la même
période de temps, les patients suivis pendant la période la plus
courte ont une « chance » moins importante de présenter
l’événement que ceux suivis plusieurs années.
Principes de l’analyse de survie
L’analyse de la survie est un terme générique pour toute
analyse de la survenue au cours du temps d’un événement « en
tout ou rien », comme par exemple le décès, et ceci en présence
de données censurées. Ce type d’analyse est largement utilisé
en épidémiologie clinique. Il permet la description de la survie
d’un groupe de patients mais aussi la comparaison de la survie
de deux ou plusieurs groupes de patients afin d’étudier les facteurs pronostiques, c’est-à-dire les facteurs susceptibles d’expliquer la survenue du décès (ou d’un autre événement) au cours
du temps (prochaine note méthodologique).
Illustrons ces notions par un graphique
La partie supérieure de la fig. 1 représente les délais de suivi
de 10 patients dont la date d’inclusion dans l’étude de cohorte
est échelonnée dans le temps de janvier 1999 à janvier 2002. La
date de point de l’analyse de ces données a été fixée à 5 ans après
l’inclusion du premier patient, soit en janvier 2004. Les patients
334
Rev Mal Respir 2005 ; 22 : 333-7
Quelles sont les données indispensables
pour l’analyse de la survie ?
Quatre informations sont essentielles à collecter pour
tous les patients de la cohorte étudiée (fig. 1) :
Analyse de survie : comment gérer les données censurées ?
– une date origine, c’est-à-dire la date à laquelle a débuté l’observation, par exemple : la date de diagnostic du cancer
broncho-pulmonaire. Cette date doit avoir un sens clinique,
afin que la « survie » analysée puisse être interprétée facilement
par les lecteurs ;
– la date des dernières nouvelles, c’est-à-dire la date de décès
pour les patients décédés ou la date à laquelle on dispose des
dernières données relatives à l’état du patient sachant qu’il
n’est pas décédé ;
– la date de point, c’est-à-dire la date à laquelle on fait le point
ou date de fin d’observation. Dans notre exemple, c’est le
31 décembre 2003. Tout patient chez qui l’événement d’intérêt n’a pas été observé à la date de point est censuré à cette date.
Un sujet perdu de vue à la date de point sera censuré à la date
de dernières nouvelles. La connaissance de la date de point
n’est pas indispensable au calcul mais permet de limiter le risque d’une censure informative (cf. infra) ;
– un événement « en tout ou rien » (binaire) correspondant à
l’état du patient en deux éventualités (dans notre exemple, vivant ou décédé) à la date des dernières nouvelles. Tout événement binaire autre que le décès associé à un délai de survenue
peut être analysé en délai de survie. Par exemple on peut étudier la survenue de la rechute ou de la récidive tumorale après
traitement ou la survenue de métastases.
À partir de ces données, les durées de suivi de chaque
patient sont calculées par différence. Elles correspondent au
délai entre la date d’origine et la date des dernières nouvelles
qui sera la date de décès en cas de décès, la date de point pour
les patients vivants pour lesquels le suivi est assuré ou la date
de perte de vue pour les patients vivants n’étant plus suivi
dans la cohorte à la date de point.
Estimation de la fonction de survie
par la méthode de Kaplan-Meier
L’estimation de la proportion de patients vivants à un
temps de suivi donné en tenant compte de la possibilité de
censure utilise la méthode décrite par Kaplan et Meier en
1958. Le principe de cette estimation repose sur une idée
simple : être encore en vie après un instant t, c’est être en vie
juste avant cet instant t et ne pas mourir à cet instant. C’est
une probabilité conditionnelle, c’est-à-dire la probabilité
d’avoir survécu à un instant donné conditionnellement au fait
d’être en vie juste avant cet instant. Ainsi la survie à un instant
quelconque est le produit des probabilités conditionnelles de
survie de chacun des instants précédents. Elle est donnée par
l’estimateur de Kaplan-Meier qui s’écrit S ( t )=
∏
ti < t
ni – di
--------------- , où
ni
ti représente le délai de suivi (généralement exprimé en mois)
après l’inclusion dans l’étude, ni est le nombre de sujets à risque à l’instant ti et di est le nombre de décès au temps ti. Illustrons ceci par un exemple numérique issu des données de la
Fig. 2.
Représentation graphique de la fonction de survie par la méthode
de Kaplan-Meier.
figure 1. La table 1 reprend les durées de suivi des 10 patients
ordonnées par ordre croissant.
– À chaque temps ti, on calcule la probabilité de survie en ti notée
n – d . Remarquons qu’en cas de donnée censurée en ti,
i -i
q i = --------------ni
cette quantité est égale à 1 : les données censurées n’influencent
pas la probabilité de survie cumulée à ce temps donné ; par contre, le nombre de patients à risque décroît de 1 pour l’intervalle
suivant. À 60 mois, la probabilité cumulée de survie est le produit des qi, soit S(t) = 0,889 × 0,875 × 0,857 × 0,667 = 0,445.
Dans cet exemple, la probabilité cumulée de survie à 60 mois est
estimée à 44,5 %. On peut aussi parler de fonction de décès, qui
est le complément à 1 de la fonction de survie1.
Représentation graphique
de la fonction de survie
La figure 2 représente l’évolution de la probabilité cumulée de survie en fonction du temps des 10 patients dont les
données sont décrites sur la figure 1 et dans le tableau I. La
probabilité cumulée de survie, en ordonnée, varie entre 0 et 1.
Le temps en mois constitue l’axe des abscisses. On observe
que la fonction de survie est une représentation « en marches
d’escaliers », chaque marche correspondant aux délais d’événement. De plus, il est utile de figurer d’une part le nombre
de patients restant à risque pour quelques temps donnés sous
l’axe des abscisses, et d’autre part, les délais de censure par de
petits traits verticaux sur la courbe. La médiane de survie cor1
À 60 mois la probabilité cumulée de décès vaut 55,5 %, ce qui est différent du rapport brut nombre de décès totaux/nombre total de
patients sur la période d’étude soit 4/10 (40 %) ne tenant pas compte
des perdus de vue et des durées de suivi.
© 2005 SPLF, tous droits réservés
335
C. Alberti et coll.
Tableau I.
Calcul de la fonction de survie.
Numéro
Durées de Nombre de Nombre de Probabilité de
Probabilité
du
suivi en mois patients
décès
survie à chaque cumulée de survie
patient
ti
à risque
di
instant ti
à l’instant ti
ni
S(ti)
n –d
i
i
q = -----------------i
n
i
Patient 8
14
10
0
1
1
Patient 10
17
9
1
0,889
0,889
Patient 6
18
8
1
0,875
0,778
Patient 4
26
7
1
0,857
0,667
Patient 9
28
6
0
1
0,667
Patient 3
30
5
0
1
0,667
Patient 7
36
4
0
1
0,667
Patient 2
38
3
1
0,667
0,445
Patient 5
40
2
0
1
0,445
Patient 1
60
1
0
1
0,445
respond au temps pour lequel la probabilité cumulée de survie est égale à 50 %, c’est-à-dire le temps au-delà duquel
l’événement a été observé chez 50 % des patients, soit
38 mois dans notre exemple.
Comme souvent en statistique, des hypothèses régissent
l’utilisation de la méthode de Kaplan-Meier. Afin d’avoir des
estimations non biaisées de la survie au cours du temps,
3 hypothèses sont importantes à considérer.
La première hypothèse, déjà énoncée plus haut concerne
la censure qui doit être non informative de l’événement. Dans
notre exemple, imaginez que les patients perdus de vue n’aient
pas pu se rendre à la consultation parce qu’ils étaient décédés
à leur domicile. Dans ce cas, la survie des patients censurés
diffère systématiquement de la survie des patients non censurés, et l’ignorer conduit à une estimation biaisée de la fonction de survie. De même, la date de sortie de l’hôpital peut
être une censure informative. En effet, le patient sorti de
l’hôpital vivant est « censuré », mais il a certainement un risque de décès plus bas que s’il avait fallu le garder hospitalisé2.
Dans la deuxième hypothèse, on suppose que les
patients inclus dans la cohorte au début de l’étude (en 1999)
et plus tard (disons, en 2002) ont la même fonction de survie.
Cette hypothèse d’absence d’effet période peut être testée.
La troisième hypothèse implique que l’événement
auquel on s’intéresse survient à un temps précis connu avec
exactitude. Ce qui est le cas du décès pour lequel une date
précise peut être recueillie. Ceci est moins vrai si on s’intéresse
à la rechute du cancer par exemple où bien souvent on saura
qu’elle est survenue entre 2 dates d’examen clinique mais avec
une imprécision sur la date exacte de l’événement. Il s’agit de
données dites censurées par intervalle. Ignorer cette imprécision sur les dates exactes d’événement peut biaiser les estimations de la probabilité de survenue de la rechute. Si les
examens cliniques sont programmés à des intervalles de temps
réguliers, une échelle de temps adaptée peut être utilisée (par
exemple tous les 6 mois au lieu du mois). C’est le principe de
la méthode actuarielle illustrée sur la figure 3. Cette méthode
peut aussi être employée même si les temps exacts des événements sont connus quand les temps d’observation sont longs
et le nombre d’événements élevé. Les résultats sont alors
moins fins avec une courbe de survie plus lissée3.
2
En pratique, il convient de limiter au maximum le nombre de perdus
de vue et de s’assurer que la censure n’est pas liée d’une manière ou
d’une autre à l’événement que l’on étudie. D’une manière générale, il
est préférable de censurer les malades après une durée de suivi fixe
(28 jours, 3 mois, 6 mois, 5 ans etc.) qu’après une durée de suivi variable (sortie de l’hôpital, sortie de réanimation etc.).
3
Alors que la méthode de Kaplan-Meier repose sur le calcul de la probabilité de survie après chaque événement, la méthode actuarielle
repose sur des probabilités de survies estimées sur des intervalles de
temps fixés a priori.
336
Rev Mal Respir 2005 ; 22 : 333-7
Fig. 3.
Représentation graphique de la fonction de survie par la méthode
actuarielle.
Analyse de survie : comment gérer les données censurées ?
En résumé
Lorsque l’on s’intéresse à l’étude de la survenue au cours du
temps d’un événement en tout ou rien comme le décès mais
aussi la récidive tumorale ou l’apparition de métastases, on
désigne souvent ces données sous le terme générique de
« données de survie ».
La particularité de ces données, c’est qu’à la fin de la période
de suivi l’événement d’intérêt n’est pas survenu pour tous les
patients : le temps de survie est dit censuré.
Quatre informations sont essentielles pour analyser les données de survie.
Une date origine à laquelle débute la période d’observation.
La date des dernières nouvelles, soit la date de décès,
soit la date à laquelle on dispose des dernières données relatives à l’état du patient sachant qu’il n’est pas décédé.
Un événement « en tout ou rien » (binaire) correspondant à la survenue ou non de l’événement à la date des dernières nouvelles.
La date de point ou date de fin d’observation. Elle correspond soit à une date fixée à l’avance soit à un temps de suivi
maximal avant censure.
L’estimation de la proportion de patients vivants à un
temps de suivi donné en tenant compte de la possibilité de
censure utilise la méthode de Kaplan-Meier. Le principe de
cette méthode repose sur l’idée qu’être encore en vie après
un instant t, c’est être en vie juste avant cet instant t et ne
pas mourir à cet instant. Ainsi la survie à un instant quelconque est le produit de probabilités conditionnelles de survie
de chacun des instants précédents. La détermination de la
date du point permet de limiter les biais d’estimation liés à
la censure.
L’évolution de la survie en fonction du temps est représenté
de manière non paramétrique par les courbes de KaplanMeier qui est une représentation en marches d’escaliers, chaque marche correspondant aux délais de suivi où surviennent
les événements.
© 2005 SPLF, tous droits réservés
337