Méthode actuarielle d`estimation des courbes de survie : principe
Transcription
Méthode actuarielle d`estimation des courbes de survie : principe
Méthode actuarielle d’estimation des courbes de survie : principe, différences avec la méthode de Kaplan-Meier Kankoé SALLAH DELBIM – Université de Lomé Abstract L’analyse des données de survie est fréquente en recherche clinique. Aujourd’hui de nombreuses méthodes existent à cette fin. Parmi les premières à avoir vu le jour, se trouvent la méthode actuarielle et la méthode de Kaplan-Meier. On peut à juste titre s’interroger aujourd’hui sur la pertinence et l’opportunité de ces méthodes que l’on pourrait être tenté de qualifier d’anciennes. Ce mémoire fait l’analyse des principes de base de la méthode actuarielle après une considération générale des notions de survie. Il compare ensuite la méthode actuarielle à la méthode de Kaplan-Meier en précisant les domaines d’indication de l’une et l’autre méthode. Keywords Actuarial Analysis; Survival Analysis; Kaplan-Meier 1 Introduction On parle de survie lorsqu’on est amené à étudier des événements qui, lorsqu'ils se produisent, n’apparaissent qu'une seule fois: décès, 1ère apparition d'un événement indésirable ... Le terme « survie » vient du fait que cette notion a d'abord été étudiée en démographie puis en cancérologie où l’événement étudié était le décès. Il existe différents concepts de survie (brute, nette, relative) et les méthodes d’estimation utilisées sont variables : bayesiennes, fréquentistes…, ces dernières pouvant être paramétriques, non paramétriques ou semi-paramétriques. La méthode actuarielle[1] et la méthode KaplanMeier[2] sont 2 méthodes non paramétriques d’estimation de la survie brute. Comme la plupart des autres méthodes d'analyse de survie, ces 2 méthodes permettent d'associer la probabilité de réalisation et le délai de survenue de l'événement étudié. Face à la multitude de méthodes existantes à ce jour, il convient de resituer la place de ces méthodes plus anciennes et d’examiner aussi ce qui les différencie l’une de l’autre. Après un aperçu général des notions de survie dans la première partie, nous exposons l’estimation de la survie par la méthode actuarielle dans la seconde partie. Nous y présenterons le principe de cette méthode et examinerons comment la mettre en œuvre sur le plan pratique à travers un exemple simple. Dans la 3ème partie, nous présentons différences entre la méthode actuarielle et la méthode de Kaplan-Meier. Ces 2 parties sont suivies d’une conclusion. 1 2 La notion de survie 2.1 Généralités Parler de survie, c’est analyser des données censurées. L’intérêt majeur est d’étudier directement le délai de survenue d’un événement. La durée de survie s’exprime généralement par des courbes obtenues à l’aide d’un calcul probabiliste. Il s’agit de courbes de non-survenue de l’événement. L’analyse de survie prend en compte simultanément le nombre d’événements survenus pendant une période donnée, le moment où ces événements se produisent et les sujets pour lesquels l’événement ne s’est pas encore réalisé (données censurées). 2.2 Signification d’un taux de survie Dans un groupe donné de malades, le taux de survie à 5 ans est de 0,43 signifie qu’un malade appartenant à ce groupe a 43% de chances d’être vivant au bout de 5 ans à partir d’une date d’origine préfixée. 2.3 Terminologie des courbes de survie Pour estimer les taux de survie, on doit disposer pour chaque sujet d’un certain nombre de données le jour où l’on désire effectuer l’analyse de l’étude. Date d’origine: point de départ du suivi du patient. Il doit être le même pour tous les patients, c’est à dire défini de façon précise. Généralement, la date du calendrier varie d’un sujet à l’autre. Date des dernières nouvelles: date à laquelle on a eu pour la dernière fois des nouvelles du malade. Date de point: date à laquelle on cesse de prendre en compte les informations de suivi. Recul : différence entre la date de point et la date d’origine. Temps de participation: différence entre date des dernières nouvelles et date d’origine. Etat aux dernières nouvelles : variable binaire, l’événement s’est produit ou ne s’est pas «encore » produit. Données censurées à droite : –Exclus vivants : sujet suivi régulièrement et vivant à la date de point ou à la date des DN –Perdus de vue : sujet qui a échappé à la surveillance, pour lequel il manque de l’information. 2 3 La méthode actuarielle : principes et mise en œuvre 3.1 Historique et principe Le terme « actuarielle » vient du latin actuarius[3] qui signifierait littéralement secrétaire aux comptes. C’est la première méthode d’analyse de survie à voir le jour[1] en 1912 en tant que théorie statistique. Elle a été introduite pour la 1ère fois dans le champ des applications médicales en 1950[4]. C’était alors la seule méthode disponible pour estimer la survie. Elle suppose a priori une analyse univariée, c’est-à-dire une situation où seul un unique facteur influence la survie. Elle fait le bilan des occurrences de survenue de l’événement étudié à intervalles fixes. Dans la méthode actuarielle, l’axe des temps est divisé en intervalles égaux (mois, trimestre ou année). L’idée de base est la suivante : être en vie au bout de j intervalles, c’est avoir survécu au 1er intervalle, puis au 2ème, … puis au j-ème. L’échelle des temps étant donc divisée en r intervalles de temps arbitrairement choisis : [0, a1[,[a1 , a2 [,[a2 , a3[,...,[a j −1 , a j [,...,[ar −1 , +∞[ . Et pour tout dans l’intervalle [a j −1 , a j [ , on a S (t ) = Pr(T ≥ t ) = Pr(T ≥ t | T ≥ a j −1 ) Pr(T ≥ a j −1 ) (1) Soit Q j la probabilité conditionnelle d’être vivant en a j sachant qu’on était vivant en a j −1 . Q j = Pr(T ≥ a j | T ≥ a j −1 ) Pour estimer Qj, il faut déterminer dans l’intervalle [a j −1 , a j [ , le nombre e j de sujets exposés au risque de décès et le nombre m j −1 de sujets décédés. On a q j = 1 − p j = 1 − ( m j −1 ej ) (2) Si dans l’intervalle [a j −1 , a j [ , il n’y a aucune donnée censurée, alors le nombre n j de sujets vivants en a j est égal au nombre n j −1 de sujets vivants en a j −1 moins le nombre m j −1 de sujets décédés en dans l’intervalle [a j −1 , a j [ . On a aussi e j = n j −1 = n j + m j −1 Si dans l’intervalle [a j −1 , a j [ , il y a des données censurées, alors ces données correspondent à des sujets qui ne sont présents que sur une partie de l’intervalle. Ces sujets ne contribuent que pour une fraction au nombre de sujets exposés au risque de décès dans [a j −1 , a j [ . Pour simplifier les calculs, on suppose que les censures sont uniformément réparties dans l’intervalle. Le nombre de sujets exposés au risque de décès dans l’intervalle est donc c m j −1 (3) e j = n j −1 − j −1 On obtient : q j = 1 − p j = 1 − c j −1 2 n j −1 − 2 À un temps t, la probabilité de survie est le produit des survies conditionnelles calculées pas à pas. C’est la probabilité cumulée de survie. ⎡ ⎤ ⎢ mh −1 ⎥ D’où l’estimation actuarielle de la survie : S = ∏ ⎢1 − ⎥ {h|ah ≤ a j } ⎢ nh −1 − ch −1 ⎥ 2 ⎦ ⎣ ^ (4) En toute rigueur, on peut remarquer que le nombre de décès m j −1 peut inclure des sujets qui n’auraient pas pu être suivis pendant tout l’intervalle s’ils n’étaient pas morts. On va cependant négliger ce détail en considérant que le nombre de ces sujets est faible. 3 Pour tout t ∈ [a j −1 , a j [ , on obtient S(t) par interpolation linéaire entre les valeurs obtenues en a j −1 et a j . 3.2 Application pratique 3.2.1 Calcul de la survie aux différents intervalles Exemple : Les 3 premières colonnes du tableau correspondent aux observations de départ. On sait qu’au départ, on a 210 sujets. Nous allons calculer les 3 dernières colonnes grâce à la méthode actuarielle en détaillant les calculs. Tableau 1 : Estimation de la survie par la méthode actuarielle Instants aj) (en semaines) 0 3 Censurés dans [a j −1 , a j [ Morts dans ( c j −1 ) ( m j −1 ) Non défini 0 Non défini 0 [a j −1 , a j [ Connus vivants à a j −1 ( n j −1 ) Survie conditionnelle Non défini 210 Non défini Sˆ (a j / a j −1 ) 1= 1 − 0 0 2 40 0,805= 1 − 10 210 − 2 10 0,931= 1 − 30 160 − 2 20 0,826= 1 − 10 120 − 2 0 1= 1 − 20 90 − 2 20 0,714= 1 − 0 70 − 2 3 0,927= 1 − 18 50 − 2 2 0,920= 1 − 8 29 − 2 210 − 9 10 40 210 (210-0-0) 12 30 10 160 (210-10-40) 18 10 20 120 (160-30-10) 21 20 0 90 (120-10-20) 23 0 20 70 (90-20-0) 27 18 3 50 (70-0-20) 36 8 2 29 (50-18-3) Survie Sˆ (a j ) 1 1 (1 × 1) 0,805 (0,805 × 1) 0,749 (0,931 × 0,805) 0,619 (0,826 × 0,749) 0,619 (1 × 0,619) 0,442 (0,714 × 0,619) 0,410 (0,927 × 0,442) 0,377 (0,920 × 0,410) 4 3.2.2 Courbe de survie Les valeurs de la fonction de survie à d'autres temps, et jusqu'au dernier temps ar, s'obtiennent par interpolation linéaire. D'où l'allure de la courbe de survie estimée par méthode actuarielle (figure 1). Par ailleurs on peut estimer la médiane de survie comme le temps auquel la fonction de survie estimée vaut 0,5 (figure1) Figure 1 : Courbe de survie obtenue Des méthodes existent pour comparer les courbes de survie entre elles. On peut comparer 2 taux de survie (taux de survie de 2 traitements A et B par exemple) à un moment donné, 6 mois par exemple, en appliquant la formule: SA - SB. Il semble cependant plus pertinent de comparer les courbes de survie dans leur ensemble grâce à la méthode du Logrank. Le test du Logrank ne permet de prendre en compte qu'un seul facteur. Le test du Logrank a été décrit par Mantel en 1966. Le principe en est le suivant : si pour un jour donné, la moitié des patients observés sont dans le groupe A et la moitié dans le groupe B, alors en moyenne la moitié des décès devrait survenir dans le groupe A et la moitié dans le groupe B, à moins que le traitement A soit beaucoup moins efficace que le traitement B, ou l’inverse. Ainsi, on recense dans chacun des 2 groupes, le nombre observé de décès (OA et OB) pendant une période considérée. On détermine ensuite le nombre estimé de décès que l'on devrait observer si la mortalité était la même dans les 2 groupes (EA et EB). On compare OA à EA, OB à EB au moyen d'un test du Chi2 dont l'interprétation se lit dans une table pour un degré de liberté (1 ddl). Si l'on compare k courbes de survie, on utilise alors un test du Chi2 avec (k-1) ddl. Le test du Logrank permet également de calculer, dans chaque groupe, le taux relatif de décès (O/E). Cela permet de conclure que le risque de décès dans le groupe A est X fois supérieur à celui dans le groupe B (X = RR). 5 4 Comparaison entre méthode actuarielle et Kaplan-Meier 4.1 Les intervalles sur lesquelles se font les calculs Dans la méthode de Kaplan-Meier, les intervalles sont déterminés par les dates d’événements observées alors que pour la méthode actuarielle les intervalles de temps sont fixés à priori. La méthode de Kaplan-Meier calcule la survie chaque fois que l’événement attendu se produit. Etant donné que le rythme de survenue des événements est aléatoire, les intervalles sur lesquelles la valeur de la survie est considérée comme fixe n’ont pas la même longueur. On obtient une courbe en marches d’escaliers pour laquelle l’étendue des marches varie d’un palier à l’autre. Par contre dans la méthode actuarielle, ces intervalles correspondent à des périodes de temps fixes. De plus, dans la méthode actuarielle pour estimer la survie entre 2 points de calcul, on procède à une extrapolation linéaire. Pour Kaplan-Meier la survie calculée en un point est celle conservée sur l’intervalle jusqu’au point de calcul suivant. Avec Kaplan-Meier, il n’y a pas d’hypothèse formulée concernant la force de mortalité dans les intervalles étudiées, alors qu’elle est supposée constante dans les intervalles définis pour la méthode actuarielle. 4.2 Les indications de chacune des 2 méthodes Lorsque les effectifs sont grands, la méthode actuarielle peut donner des résultats assez fiables. Dans le cas contraire il est recommandé de choisir la méthode de Kaplan-Meier qui utilise toute l’information disponible. Ceci provient du fait que la méthode actuarielle présuppose les hypothèses suivantes : – Les sujets censurés et les décès se distribuent uniformément dans l’intervalle – Les sujets censurés sont exposés au risque en moyenne pendant la moitié de l’intervalle Ces hypothèses tendent à être vérifiées d’autant plus que les effectifs sont grands. Grâce à ces hypothèses, la méthode actuarielle demande moins de calculs que la méthode de Kaplan-Meier, mais reste aussi moins précise La méthode actuarielle est recommandée dans les situations où les temps exacts de réalisation des événements ne sont pas connus[3]. Pour les populations de grande taille, regrouper les événements par périodes simplifie les calculs. Mais en général, pour un grand nombre d’auteurs cette méthode est aujourd’hui considérée comme obsolète. 5 Conclusion Même si dans certaines cas particuliers la méthode actuarielle peu encore garder des indications d’utilisation de nos jours (temps de survenue des événements non connus et effectifs d’étude élevés, force est de reconnaître que dans la plupart des situations rencontrées aujourd’hui en recherche clinique, la méthode de Kaplan-Meier paraît plus indiquée et plus précise. Mieux encore, des méthodes fréquentistes paramétriques et bayésiennes offrent de nouvelles possibilités d’analyse. 6 Références [1] Böhmer, P. Theorie der unabhängigen Wahrscheinlichkeiten Rapports. Mémoires et procès verbaux du septième congrès international d’actuaires. Amsterdam, 1912 (2): p. 327-43 [2] Kaplan EL, Meier P. Nonparametric estimation from incomplete observations. J Am Stat Assoc, 1958(53): p. 457-81 [3] Blackstone EH. Actuarial and Kaplan-meier survival analysis: there is a difference. J Thorac Cardiovasc Surg, 1999. 118(5): p. 973-5 [4] Berkson J, Gage R. Calculation of survivalrates for cancer. Mayo Clin Proc, 1950(25): p. 270-86 Adresse de correspondance SALLAH Kankoé DELBIM – Université de Lomé [email protected] 7