Analyse de survie : le test du logrank
Transcription
Analyse de survie : le test du logrank
Mémento biostatistique Analyse de survie : le test du logrank C. Alberti1, J.-F. Timsit2, S. Chevret3 1 CIC-EC, Unité d’Epidémiologie Clinique, Hôpital Robert Debré, Paris, France. Réanimation Médicale, CHU A Michallon, et département d’épidémiologie Unité INSERM U578, Grenoble, France. 3 Département de Biostatistique et Informatique Médicale, ERM 0321 INSERM, AP-HP, Hôpital Saint-Louis, Paris, France. 2 Correspondance : J.-F. Timsit Service de Réanimation Médicale, CHU A. Michallon, 38043 Grenoble Cedex. [email protected] Réception version princeps à la Revue : 09.12.2004. Acceptation définitive : 30.01.2005. Reprenons l’exemple décrit dans la note statistique précédente sur les données de survie, soit 10 patients inclus dans une étude de cohorte à partir de janvier 1999 avec une date de point en janvier 2004. Imaginons que ces patients sont suivis pour un cancer broncho-pulmonaire de type épidermoïde. En parallèle, un autre groupe de 10 patients est suivi pour un cancer pulmonaire de type anaplasique à petites cellules. Le tableau I présente les données des 20 patients et la figure 1 la représentation graphique de la fonction de survie estimée selon la méthode de Kaplan-Meier dans chaque groupe de patients. Sur la figure 1, on peut voir que, dans cet échantillon, la survie des cancers broncho-pulmonaires diffère de la survie des cancers broncho-pulmonaires épidermoïdes. Mais cette différence est-elle statistiquement significative ? Le test du logrank est le test le plus populaire pour comparer plusieurs courbes de survie. C’est un test dit non-paramétrique. En effet, il permet de prendre en compte toute l’information sur l’ensemble du suivi sans la nécessité de faire des hypothèses sur la distribution des temps de survie. Par souci de simplicité, le test est présenté pour la comparaison de deux groupes, mais il est généralisable à un nombre quelconque de groupes de comparaison. L’hypothèse nulle testée, H0, est celle de l’égalité des fonctions de survie dans les 2 groupes, ici dans notre exemple cancer broncho-pulmonaire épidermoïde (A) et cancer broncho-pulmonaire anaplasique à petites cellules (B). Le test repose sur une approche conditionnelle : les temps où des décès surviennent sont supposés fixés, et l’on compare le nombre de décès observés dans chaque groupe à son espérance (ou nombre attendu) sous l’hypothèse nulle d’égalité des distributions de survie dans les deux groupes. Ainsi, sous H0, au temps de décès ti, la proportion attendue de décès parmi les sujets à risque est identique dans les 2 groupes. Ceci peut être résumé dans un tableau 2 x 2 à chaque temps de décès ti (tableau II) : Pour chaque groupe, le nombre de décès attendu ei à chaque temps d’événement est calculé dans le groupe A et le Rev Mal Respir 2005 ; 22 : 829-32 Doi : 10.1019/200530113 © 2010 Elsevier Masson SAS. Tous droits réservés. - Document téléchargé le 30/09/2010 par BRETAGNE OCCIDENTALE - (261120) © 2005 SPLF, tous droits réservés 829 C. Alberti et coll. Tableau I. Présentation des données. Groupe Durées de suivi Etat à la fin épidermoïde en mois du suivi* Probabilité cumulée de survie Groupe Durées de suivi anaplasique en mois à petites cellules Etat à la fin du suivi* Probabilité cumulée de survie Patient 8 14 0 1 Patient 2 6 0 1 Patient 10 17 1 0,889 Patient 4 7 1 0,889 0,778 Patient 6 18 1 0,778 Patient 1 15 1 Patient 4 26 1 0,667 Patient 3 16 1 0,667 Patient 9 28 0 0,667 Patient 10 21 1 0,556 Patient 3 30 0 0,667 Patient 8 23 1 0,444 Patient 7 36 0 0,667 Patient 9 24 1 0,333 Patient 2 38 1 0,445 Patient 6 30 1 0,222 Patient 5 40 0 0,445 Patient 7 35 1 0,111 Patient 1 60 0 0,445 Patient 5 50 1 0 *0=survie ; 1=décès n ud ni Ai groupe B, soit pour le groupe A e Ai = -----------------i et le groupe B e Bi n Bi u d i = ----------------- Ensuite dans chaque groupe, on somme les ni nombres de décès attendus à chaque temps d’événements dans les deux groupes, soit, EA et EB, et de même pour les 1.0 Probabilité cumulée de survie 0.0 0.2 0.4 0.6 0.8 groupe épidermoïde groupe anaplasique 0 10 20 30 40 50 60 Mois Fig. 1. Représentation graphique de la fonction de survie en fonction de l’histologie du cancer broncho-pulmonaire. La médiane de survie est de 38 mois dans le groupe épidermoïde et 23 mois dans le groupe anaplasique. décès observés, OA et OB. La statistique « approchée » du 2 2 O –E EB 2 suit sous H0 une loi du Chi2 à 1 degré de liberté (nombre de groupes – 1 si on compare plus de 2 courbes). 1 Illustrons ce calcul avec le tableau III. À 6 mois, il n’y a aucun événement dans le groupe épidermoïde et 1 censure dans le groupe anaplasique, soit au total les 20 patients du début de la cohorte et aucun décès. À 7 mois, il y a toujours 10 patients dans le groupe épidermoïde et aucun événement ni censure tandis que dans le groupe anaplasique, il reste 9 patients et 1 décès survient. Au total, à 7 mois il reste 19 patients à risque et la probabilité de décès est de 1/19. Si l’hypothèse nulle est vraie, le nombre attendu de décès dans le groupe épidermoïde est de 10 x (1/19) = 0,526 et dans le groupe anaplasique de 9 x (1/19) = 0,474. Ces calculs sont effectués à chaque temps d’événement, la censure intervenant dans la diminution du nombre de patients à risque (mais non dans les calculs des probabilités). À la fin du suivi, le nombre total de décès attendus dans le groupe épidermoïde est de 7,8 et dans le groupe anaplasique de 5,2 (soit 7,8 + 5,2 = 13 le nombre observé de décès) et la statistique du logrank 2 2 9 – 5,2 = 4,6 correspondant à 4 – 7,8 - + -----------------------vaut X = --------------------7,8 5, 2 Tableau II. Groupe A NB : Attention, il ne s’agit pas ici d’un Chi2 simple comme développé dans la note méthodologique sur les tables de contingence. Ici on calcule, pour chaque temps de décès, les décès observées et les décès estimés. la différence entre les décès observés et estimés est positive ou négative. On fait la somme de ces différences, en respectant le signe. O –E EA A A B B - + -------------------------- qui logrank est donnée par X = -------------------------- Groupe B Total 1 830 Décès dAi dBi di Survie nAi - dAi nBi – dBi ni – di nAi nBi ni Total Rev Mal Respir 2005 ; 22 : 829-32 © 2010 Elsevier Masson SAS. Tous droits réservés. - Document téléchargé le 30/09/2010 par BRETAGNE OCCIDENTALE - (261120) Analyse de survie : le test du logrank Tableau III. Calcul de la statistique du logrank. Groupe A Temps Groupe B Ensemble Nombre Nombre Nombre Nombre de patients de décès de patients de décès à risque observés à risque observés nAi dAi nBi dBi Nombre total Nombre total Probabilité de patients de décès de décès à risque observés au temps ti ni di di /ni Nombre de décès attendus dans le groupe A (nAi x di )/ni Nombre de décès attendus dans le groupe B (nBi x di)/ni 6 10 0 10* 0 20 0 0 0 0 7 10 0 9 1 19 1 0,053 0,526 0,474 14 10* 0 8 0 18 0 0 0 0 15 9 0 8 1 17 1 0,059 0,529 0,471 16 9 0 7 1 16 1 0,063 0,563 0,438 17 9 1 6 0 15 1 0,067 0,600 0,400 18 8 1 6 0 14 1 0,071 0,571 0,429 21 7 0 6 1 13 1 0,077 0,538 0,462 23 7 0 5 1 12 1 0,083 0,583 0,417 24 7 0 4 1 11 1 0,091 0,636 0,364 26 7 1 3 0 10 1 0,1 0,700 0,300 28 6* 0 3 0 9 0 0 0 0 30 5* 0 3 1 8 1 0,125 0,625 0,375 35 4 0 2 1 6 1 0,167 0,667 0,333 36 4* 0 1 0 5 0 0 0 0 38 3 1 1 0 4 1 0,25 0,750 0,250 40 2* 0 1 0 3 0 0 0 0 50 1 0 1 1 2 1 0,50 0,500 0,500 60 1* 0 0 0 1 0 0 Total 4 9 13 0 0 7,789 5,211 L’étoile * indique la présence d’une donnée censurée (c’est-à-dire une interruption de suivi à cette date). une valeur de p = 0,03. Donc la différence de survie entre les 2 groupes de cancers est statistiquement significative au risque alpha = 0,05. À noter que, comme l’estimation de Kaplan-meier, le test du logrank n’est valide que sous l’hypothèse de censure non informative, c’est-à-dire d’un mécanisme de censure indépendant de l’événement observé. Il existe d’autres méthodes de calcul de cette statistique, mais celle décrite est la plus simple. En pratique, l’utilisation d’un logiciel est fortement recommandée.2 Des interprétations erronées peuvent être liées à la lecture de la partie droite d’une courbe de survie. Il est habituel qu’une courbe s’aplanisse après un certain délai lorsque les 2 NB : Le test du logrank est fondé sur une statistique qui donne des poids égaux à toutes les observations. Il existe d’autres tests que sont les tests de Wilcoxon (souvent rebaptisé test de Gehan) et de Peto-Prentice qui donnent plus de poids aux décès précoces qu’aux décès tardifs dans la comparaison. En pratique ces tests sont plus aptes à déceler une différence entre les groupes en présence de nombreux décès précoces, alors que les poids correspondants au test du logrank sont les mêmes pour toutes les observations. Mais il faut noter que le test de Gehan dépend plus de la distribution des censures que le test de Peto-Prentice, son emploi n’est pas recommandé. événements sont moins fréquents. Ceci doit être interprété avec prudence et uniquement si le nombre de sujets encore à risque reste important. À l’inverse, si la dernière donnée est un décès comme dans le groupe B de notre exemple, la courbe de survie plonge vers l’axe des abscisses. Ceci ne signifie pas qu’aucun sujet ne survivrait au-delà de ce temps de suivi, mais que sur l’échantillon de données, le(s) dernier(s) patient(s) suivi(s) (i ;e., dont le suivi est maximal) est(sont) décédé(s). Il arrive parfois que deux courbes se croisent (figure 2), alors les risques s’inversent pour chaque groupe à un moment donné. Le test du logrank perd alors en puissance (car il est de puissance maximale lorsque les fonctions de risque instantané sont proportionnelles). Le test du logrank mesure en effet la différence entre les deux groupes sur l’ensemble du temps de suivi. Dans la figure 2 jusqu’à 38 mois de suivi, la courbe de survie du groupe A est plus favorable. À l’opposé après 39 mois la courbe de survie du groupe B est plus favorable. Le test de logrank dans ce cas conclura à l’absence de différence entre les fonctions de survie alors qu’elles sont différentes dans l’intervalle] 0 ; 38 mois] et dans l’intervalle] 39 ; 60 mois], bien que le sens de la différence soit opposé. En effet, dans ce cas, © 2005 SPLF, tous droits réservés © 2010 Elsevier Masson SAS. Tous droits réservés. - Document téléchargé le 30/09/2010 par BRETAGNE OCCIDENTALE - (261120) 831 C. Alberti et coll. l’hypothèse de proportionnalité des risques n’est pas vérifiée, et le test du logrank, devient inadapté. Si l’investigateur ne fait pas attention à l’allure des courbes de survie, il peut donc conclure à l’absence de différence 1.0 Probabilité cumulée de survie dans la fonction de survie entre les deux groupes alors qu’en fait, ces fonctions de survie sont différentes dans certains intervalles de temps de suivi. 3 L’hypothèse des risques proportionnels que nous venons de décrire par un exemple est également l’une des hypothèses fortes des principaux modèles de survie que nous reverrons en détail lors de la prochaine note méthodologique. 0.0 0.2 0.4 0.6 0.8 En résumé, Le test du logrank est le test le plus populaire pour comparer 2 ou plusieurs courbes de survie. Il permet de prendre en compte toute l’information sur l’ensemble du suivi sans nécessité de faire des hypothèses sur la distribution des temps de survie. Il consiste à comparer le nombre d’événements observés au nombre d’événements attendus sous l’hypothèse nulle d’égalité de fonctions de survie des groupes. La statistique de test suit sous cette hypothèse approximativement une distribution du Chi2 à (nombre de groupes de comparaisons – 1) degré(s) de liberté. 0 20 40 Mois Fig. 2. Quand 2 courbes de survie se croisent… 832 60 80 3 NB : Plusieurs méthodes sont disponibles pour tester l’hypothèse de proportionnalité des risques. Elles reposent sur l’évaluation graphique de l’évolution des risques instantanés ou sur l’utilisation d’un modèle de Cox. Rev Mal Respir 2005 ; 22 : 829-32 © 2010 Elsevier Masson SAS. Tous droits réservés. - Document téléchargé le 30/09/2010 par BRETAGNE OCCIDENTALE - (261120)