Méthode actuarielle d`estimation des courbes de survie : principe

Transcription

Méthode actuarielle d`estimation des courbes de survie : principe
Méthode actuarielle d’estimation des courbes de survie :
principe, différences avec la méthode de Kaplan-Meier
Kankoé SALLAH
DELBIM – Université de Lomé
Abstract
L’analyse des données de survie est fréquente en recherche clinique. Aujourd’hui de
nombreuses méthodes existent à cette fin. Parmi les premières à avoir vu le jour, se
trouvent la méthode actuarielle et la méthode de Kaplan-Meier. On peut à juste titre
s’interroger aujourd’hui sur la pertinence et l’opportunité de ces méthodes que l’on
pourrait être tenté de qualifier d’anciennes. Ce mémoire fait l’analyse des principes de
base de la méthode actuarielle après une considération générale des notions de survie. Il
compare ensuite la méthode actuarielle à la méthode de Kaplan-Meier en précisant les
domaines d’indication de l’une et l’autre méthode.
Keywords
Actuarial Analysis; Survival Analysis; Kaplan-Meier
1 Introduction
On parle de survie lorsqu’on est amené à étudier des événements qui, lorsqu'ils se
produisent, n’apparaissent qu'une seule fois: décès, 1ère apparition d'un événement
indésirable ... Le terme « survie » vient du fait que cette notion a d'abord été étudiée en
démographie puis en cancérologie où l’événement étudié était le décès. Il existe différents
concepts de survie (brute, nette, relative) et les méthodes d’estimation utilisées sont
variables : bayesiennes, fréquentistes…, ces dernières pouvant être paramétriques, non
paramétriques ou semi-paramétriques. La méthode actuarielle[1] et la méthode KaplanMeier[2] sont 2 méthodes non paramétriques d’estimation de la survie brute. Comme la
plupart des autres méthodes d'analyse de survie, ces 2 méthodes permettent d'associer la
probabilité de réalisation et le délai de survenue de l'événement étudié.
Face à la multitude de méthodes existantes à ce jour, il convient de resituer la place de ces
méthodes plus anciennes et d’examiner aussi ce qui les différencie l’une de l’autre.
Après un aperçu général des notions de survie dans la première partie, nous exposons
l’estimation de la survie par la méthode actuarielle dans la seconde partie. Nous y
présenterons le principe de cette méthode et examinerons comment la mettre en œuvre sur
le plan pratique à travers un exemple simple. Dans la 3ème partie, nous présentons
différences entre la méthode actuarielle et la méthode de Kaplan-Meier. Ces 2 parties sont
suivies d’une conclusion.
1
2 La notion de survie
2.1
Généralités
Parler de survie, c’est analyser des données censurées. L’intérêt majeur est d’étudier
directement le délai de survenue d’un événement. La durée de survie s’exprime
généralement par des courbes obtenues à l’aide d’un calcul probabiliste. Il s’agit de
courbes de non-survenue de l’événement. L’analyse de survie prend en compte
simultanément le nombre d’événements survenus pendant une période donnée, le moment
où ces événements se produisent et les sujets pour lesquels l’événement ne s’est pas encore
réalisé (données censurées).
2.2
Signification d’un taux de survie
Dans un groupe donné de malades, le taux de survie à 5 ans est de 0,43 signifie qu’un
malade appartenant à ce groupe a 43% de chances d’être vivant au bout de 5 ans à partir
d’une date d’origine préfixée.
2.3
Terminologie des courbes de survie
Pour estimer les taux de survie, on doit disposer pour chaque sujet d’un certain nombre de
données le jour où l’on désire effectuer l’analyse de l’étude.
Date d’origine: point de départ du suivi du patient. Il doit être le même pour tous les
patients, c’est à dire défini de façon précise. Généralement, la date du calendrier varie d’un
sujet à l’autre.
Date des dernières nouvelles: date à laquelle on a eu pour la dernière fois des nouvelles du
malade.
Date de point: date à laquelle on cesse de prendre en compte les informations de suivi.
Recul : différence entre la date de point et la date d’origine.
Temps de participation: différence entre date des dernières nouvelles et date d’origine.
Etat aux dernières nouvelles : variable binaire, l’événement s’est produit ou ne s’est pas
«encore » produit.
Données censurées à droite :
–Exclus vivants : sujet suivi régulièrement et vivant à la date de point ou à la date des DN
–Perdus de vue : sujet qui a échappé à la surveillance, pour lequel il manque de
l’information.
2
3 La méthode actuarielle : principes et mise en œuvre
3.1
Historique et principe
Le terme « actuarielle » vient du latin actuarius[3] qui signifierait littéralement secrétaire aux
comptes. C’est la première méthode d’analyse de survie à voir le jour[1] en 1912 en tant que
théorie statistique. Elle a été introduite pour la 1ère fois dans le champ des applications
médicales en 1950[4]. C’était alors la seule méthode disponible pour estimer la survie. Elle
suppose a priori une analyse univariée, c’est-à-dire une situation où seul un unique facteur
influence la survie. Elle fait le bilan des occurrences de survenue de l’événement étudié à
intervalles fixes. Dans la méthode actuarielle, l’axe des temps est divisé en intervalles égaux
(mois, trimestre ou année). L’idée de base est la suivante : être en vie au bout de j intervalles,
c’est avoir survécu au 1er intervalle, puis au 2ème, … puis au j-ème. L’échelle des temps étant
donc divisée en r intervalles de temps arbitrairement choisis :
[0, a1[,[a1 , a2 [,[a2 , a3[,...,[a j −1 , a j [,...,[ar −1 , +∞[ . Et pour tout dans l’intervalle [a j −1 , a j [ , on a
S (t ) = Pr(T ≥ t ) = Pr(T ≥ t | T ≥ a j −1 ) Pr(T ≥ a j −1 )
(1)
Soit Q j la probabilité conditionnelle d’être vivant en a j sachant qu’on était vivant en a j −1 .
Q j = Pr(T ≥ a j | T ≥ a j −1 )
Pour estimer Qj, il faut déterminer dans l’intervalle [a j −1 , a j [ , le nombre e j de sujets exposés
au risque de décès et le nombre m j −1 de sujets décédés. On a q j = 1 − p j = 1 − (
m j −1
ej
)
(2)
Si dans l’intervalle [a j −1 , a j [ , il n’y a aucune donnée censurée, alors le nombre n j de sujets
vivants en a j est égal au nombre n j −1 de sujets vivants en a j −1 moins le nombre m j −1 de
sujets décédés en dans l’intervalle [a j −1 , a j [ . On a aussi e j = n j −1 = n j + m j −1
Si dans l’intervalle [a j −1 , a j [ , il y a des données censurées, alors ces données correspondent à
des sujets qui ne sont présents que sur une partie de l’intervalle. Ces sujets ne contribuent que
pour une fraction au nombre de sujets exposés au risque de décès dans [a j −1 , a j [ . Pour
simplifier les calculs, on suppose que les censures sont uniformément réparties dans
l’intervalle. Le nombre de sujets exposés au risque de décès dans l’intervalle est donc
c
m j −1
(3)
e j = n j −1 − j −1 On obtient : q j = 1 − p j = 1 −
c j −1
2
n j −1 −
2
À un temps t, la probabilité de survie est le produit des survies
conditionnelles calculées pas à pas. C’est la probabilité cumulée de survie.
⎡
⎤
⎢
mh −1 ⎥
D’où l’estimation actuarielle de la survie : S = ∏ ⎢1 −
⎥
{h|ah ≤ a j } ⎢ nh −1 − ch −1 ⎥
2 ⎦
⎣
^
(4)
En toute rigueur, on peut remarquer que le nombre de décès m j −1 peut inclure des sujets qui
n’auraient pas pu être suivis pendant tout l’intervalle s’ils n’étaient pas morts. On va
cependant négliger ce détail en considérant que le nombre de ces sujets est faible.
3
Pour tout t ∈ [a j −1 , a j [ , on obtient S(t) par interpolation linéaire entre les valeurs obtenues en
a j −1 et a j .
3.2
Application pratique
3.2.1 Calcul de la survie aux différents intervalles
Exemple : Les 3 premières colonnes du tableau correspondent aux observations de départ.
On sait qu’au départ, on a 210 sujets. Nous allons calculer les 3 dernières colonnes grâce à
la méthode actuarielle en détaillant les calculs.
Tableau 1 : Estimation de la survie par la méthode actuarielle
Instants
aj)
(en semaines)
0
3
Censurés
dans [a j −1 , a j [
Morts dans
( c j −1 )
( m j −1 )
Non défini
0
Non défini
0
[a j −1 , a j [
Connus
vivants à
a j −1 ( n j −1 )
Survie
conditionnelle
Non défini
210
Non défini
Sˆ (a j / a j −1 )
1= 1 −
0
0
2
40
0,805= 1 −
10
210 −
2
10
0,931= 1 −
30
160 −
2
20
0,826= 1 −
10
120 −
2
0
1= 1 −
20
90 −
2
20
0,714= 1 −
0
70 −
2
3
0,927= 1 −
18
50 −
2
2
0,920= 1 −
8
29 −
2
210 −
9
10
40
210
(210-0-0)
12
30
10
160
(210-10-40)
18
10
20
120
(160-30-10)
21
20
0
90
(120-10-20)
23
0
20
70
(90-20-0)
27
18
3
50
(70-0-20)
36
8
2
29
(50-18-3)
Survie
Sˆ (a j )
1
1
(1 × 1)
0,805
(0,805 × 1)
0,749
(0,931 × 0,805)
0,619
(0,826 × 0,749)
0,619
(1 × 0,619)
0,442
(0,714 × 0,619)
0,410
(0,927 × 0,442)
0,377
(0,920 × 0,410)
4
3.2.2 Courbe de survie
Les valeurs de la fonction de survie à d'autres temps, et jusqu'au dernier temps ar,
s'obtiennent par interpolation linéaire. D'où l'allure de la courbe de survie estimée par
méthode actuarielle (figure 1). Par ailleurs on peut estimer la médiane de survie comme le
temps auquel la fonction de survie estimée vaut 0,5 (figure1)
Figure 1 : Courbe de survie obtenue
Des méthodes existent pour comparer les courbes de survie entre elles. On peut comparer 2
taux de survie (taux de survie de 2 traitements A et B par exemple) à un moment donné, 6
mois par exemple, en appliquant la formule: SA - SB. Il semble cependant plus pertinent
de comparer les courbes de survie dans leur ensemble grâce à la méthode du Logrank.
Le test du Logrank ne permet de prendre en compte qu'un seul facteur. Le test du Logrank
a été décrit par Mantel en 1966. Le principe en est le suivant : si pour un jour donné, la
moitié des patients observés sont dans le groupe A et la moitié dans le groupe B, alors en
moyenne la moitié des décès devrait survenir dans le groupe A et la moitié dans le groupe
B, à moins que le traitement A soit beaucoup moins efficace que le traitement B, ou
l’inverse. Ainsi, on recense dans chacun des 2 groupes, le nombre observé de décès (OA et
OB) pendant une période considérée. On détermine ensuite le nombre estimé de décès que
l'on devrait observer si la mortalité était la même dans les 2 groupes (EA et EB). On
compare OA à EA, OB à EB au moyen d'un test du Chi2 dont l'interprétation se lit dans
une table pour un degré de liberté (1 ddl). Si l'on compare k courbes de survie, on utilise
alors un test du Chi2 avec (k-1) ddl. Le test du Logrank permet également de calculer, dans
chaque groupe, le taux relatif de décès (O/E).
Cela permet de conclure que le risque de décès dans le groupe A est X fois supérieur à
celui dans le groupe B (X = RR).
5
4 Comparaison entre méthode actuarielle et Kaplan-Meier
4.1
Les intervalles sur lesquelles se font les calculs
Dans la méthode de Kaplan-Meier, les intervalles sont déterminés par les dates
d’événements observées alors que pour la méthode actuarielle les intervalles de temps sont
fixés à priori. La méthode de Kaplan-Meier calcule la survie chaque fois que l’événement
attendu se produit. Etant donné que le rythme de survenue des événements est aléatoire, les
intervalles sur lesquelles la valeur de la survie est considérée comme fixe n’ont pas la
même longueur. On obtient une courbe en marches d’escaliers pour laquelle l’étendue des
marches varie d’un palier à l’autre. Par contre dans la méthode actuarielle, ces intervalles
correspondent à des périodes de temps fixes. De plus, dans la méthode actuarielle pour
estimer la survie entre 2 points de calcul, on procède à une extrapolation linéaire. Pour
Kaplan-Meier la survie calculée en un point est celle conservée sur l’intervalle jusqu’au
point de calcul suivant. Avec Kaplan-Meier, il n’y a pas d’hypothèse formulée concernant
la force de mortalité dans les intervalles étudiées, alors qu’elle est supposée constante dans
les intervalles définis pour la méthode actuarielle.
4.2
Les indications de chacune des 2 méthodes
Lorsque les effectifs sont grands, la méthode actuarielle peut donner des résultats assez
fiables. Dans le cas contraire il est recommandé de choisir la méthode de Kaplan-Meier qui
utilise toute l’information disponible. Ceci provient du fait que la méthode actuarielle
présuppose les hypothèses suivantes :
– Les sujets censurés et les décès se distribuent uniformément dans l’intervalle
– Les sujets censurés sont exposés au risque en moyenne pendant la moitié de l’intervalle
Ces hypothèses tendent à être vérifiées d’autant plus que les effectifs sont grands.
Grâce à ces hypothèses, la méthode actuarielle demande moins de calculs que la méthode
de Kaplan-Meier, mais reste aussi moins précise
La méthode actuarielle est recommandée dans les situations où les temps exacts de
réalisation des événements ne sont pas connus[3]. Pour les populations de grande taille,
regrouper les événements par périodes simplifie les calculs. Mais en général, pour un grand
nombre d’auteurs cette méthode est aujourd’hui considérée comme obsolète.
5 Conclusion
Même si dans certaines cas particuliers la méthode actuarielle peu encore garder des
indications d’utilisation de nos jours (temps de survenue des événements non connus et
effectifs d’étude élevés, force est de reconnaître que dans la plupart des situations
rencontrées aujourd’hui en recherche clinique, la méthode de Kaplan-Meier paraît plus
indiquée et plus précise. Mieux encore, des méthodes fréquentistes paramétriques et
bayésiennes offrent de nouvelles possibilités d’analyse.
6
Références
[1] Böhmer, P. Theorie der unabhängigen Wahrscheinlichkeiten Rapports. Mémoires et
procès verbaux du septième congrès international d’actuaires. Amsterdam, 1912 (2):
p. 327-43
[2] Kaplan EL, Meier P. Nonparametric estimation from incomplete observations. J Am
Stat Assoc, 1958(53): p. 457-81
[3] Blackstone EH. Actuarial and Kaplan-meier survival analysis: there is a difference. J
Thorac Cardiovasc Surg, 1999. 118(5): p. 973-5
[4] Berkson J, Gage R. Calculation of survivalrates for cancer. Mayo Clin Proc, 1950(25):
p. 270-86
Adresse de correspondance
SALLAH Kankoé
DELBIM – Université de Lomé
[email protected]
7