4.7 Censures doubles

Transcription

4.7 Censures doubles
4.7
Censures doubles
• Dans ce type d’étude, le temps d’événement d’un sujet peut avoir été
censuré soit à gauche, soit à droite (mais pas les deux).
• Encore une fois ici, c’est le calcul du nombre de personnes à risque Yi
qui présente un défi.
• Par contre, contrairement au cas précédent d’une étude avec des troncations à gauche, on ne pourra évaluer avec certitude le nombre de
personnes à risque, il faudra l’estimer Ŷi .
• Le problème vient des censures à gauche: considérons un individu dont
le temps d’événement est censuré à gauche à t = t3 , p.ex. un jeune
âgé de 18 ans affirme avoir déjà consommé de la marijuana, c.-à-d.
Xj < t3 = 18. Faisait-il partie de l’échantillon Y2 de personnes à risque
à t = t2 < 18 ou avait-il déjà subi l’événement ?
• Notation:
– Yi , ti et di tels que précédemment
– li : nombre de censure à gauche au temps ti
– ri : nombre de censure à droite au temps ti
• Algorithme de Turnbull pour études à censures doubles
Étape 0: Initialisation: k = 0, Ŝk (t) est l’estimateur de Kaplan Meier calculé en excluant complètement les sujets avec censure à gauche
des calculs.
Étape 1: p̂ij : À l’aide de Ŝk (t), on estime la probabilité, pour j = 1, 2, . . . , i,
qu’un sujet avec censure à gauche à ti ait subi l’événement dans
l’intervalle (tj−1 , tj ]
p̂ij =
Ŝk (tj−1 ) − Ŝk (tj )
1 − Ŝk (ti )
1
j = 1, 2, . . . , i
Étape 2: dˆj , Ŷj :
dˆj = dj +
D
X
li p̂ij
i=j
Ŷj =
D
X
dˆi + ri
i=j
= Ŷj+1 + dˆj + rj
ŶD+1 = 0
Étape 3: Ŝk (t):
Ŝk+1 (ti ) = Ŝk+1 (ti−1 )(1 − dˆi /Ŷi )
Étape 4: Test: on calcule l’écart maximal de la fonction de survie d’une
itération à l’autre:
∆ = max Ŝk+1 (tj ) − Ŝk (tj )
j
Si ∆ < ., alors on arrête l’algorithme et Ŝk+1 (t) est l’estimation
obtenue pour la fonction de survie et le nombre d’itérations complétés
est k + 1. Sinon, on incrémente le compteur d’itérations k ← k + 1
et on retourne à l’Étape 1.
4.8
Censure par intervalles
• Encore ici, on devra estimer le nombre de personnes à risque pour les
différents temps.
• Soit un sujet dont le temps d’événement a eu lieu entre les temps ti et
ti+2 , alors on ne peut savoir si l’événement s’est produit dans l’intervalle
(ti , ti+1 ] ou l’intervalle (ti+1 , ti+2 ]. Donc, le nombre de personnes à
risque Yi+1 est incertain et l’on ne peut que l’estimer.
• Encore une fois, en absence de solution analytique, on devra se rabattre
sur un algorithme itératif pour l’estimation de la fonction de survie.
• Notation:
2
– Li : temps de censure à gauche de l’événement de l’individu i
– Ri : temps de censure à droite de l’événement de l’individu i
S
– {tj } = j {Li , Ri }
– 0 = t0 < t1 < t2 < . . . < tD
1 (tj−1 , tj ] ⊂ (Li , Ri ]
– αij =
0 sinon
– pj = S(tj−1 ) − S(tj ),
j = 1, 2, . . . , D
• Algorithme de Turnbull pour études avec censures par intervalles
Étape 0: Initialisation
– Calcul des tj .
– Calcul des αij .
– Estimation initiale pour pj et S(tj ):
n
p̂j =
1 X αij
P
n i=1 l αil
Ŝ0 (tj ) = Ŝ0 (tj−1 ) − p̂j
Étape 1: dˆj
dˆj =
n
X
α p̂
P ij j
l αil p̂l
i=1
Étape 2: Ŷj
Ŷj = Ŷj+1 + dˆj
j = D, D − 1, . . . , 1,
Étape 3: Ŝk+1 (tj ) :
Ŝk+1 (tj ) = Ŝk+1 (tj−1 )(1 − dˆj /Ŷj )
Étape 4: p̂j :
p̂j = Ŝk+1 (tj−1 ) − Ŝk+1 (tj )
3
ŶD+1 = 0
Étape 5: Test: on calcule l’écart maximal de la fonction de survie d’une
itération à l’autre:
∆ = max Ŝk+1 (tj ) − Ŝk (tj )
j
Si ∆ < ., alors on arrête l’algorithme et Ŝk+1 (t) est l’estimation
obtenue pour la fonction de survie et le nombre d’itérations complétés
est k + 1. Sinon, on incrémente le compteur d’itérations k ← k + 1
et on retourne à l’Étape 1.
4.9
Troncation à droite
• Ce type de troncation survient lorsqu’on considère une maladie qui
prend un certain temps à se développer, c.-à-d. qu’il y a un délai entre
le moment d’infection et le moment d’apparition des symptômes qui
permettent de confirmer l’existence de la maladie chez le sujet. Dans
ce contexte, le temps d’événement est le temps entre l’infection et le
développement des symptômes et il n’est observé que si les symptômes
sont apparus avant le moment de l’étude. Autrement dit, au moment
de l’étude certaines personnes auront contracté la maladie sans que l’on
puisse la détecter. Ici, on fait l’hypothèse qu’une fois les symptômes
apparus, on peut retracer avec certitude le moment de l’infection.
• Une autre application est celle mentionnée au chapitre 3, au sujet des
études de survie basées sur les dossiers de décès. Dans ce cas, un sujet
doit avoir subi l’événement avant le moment de l’étude pour qu’il en
fasse partie.
• Notation
– Ti : temps d’infection de l’individu i
– Xi : temps entre l’infection et l’apparition de la maladie pour
l’individu i.
– [0, τ ]: la période d’observation pour l’étude. Pour tous les sujets
on doit avoir que Ti + Xi ≤ τ . Un sujet pour lequel Ti + Xi > τ
ne fera pas partie de l’étude.
• La variable Xi est tronquée à droite par τ − Ti et est nécessairement
positive, c.à-d. Xi ∈ [0, τ − Ti ]
4
• On considère la variable Ri = τ − Xi qui est tronquée à gauche à Ti :
Ri ∈ [Ti , τ ] et on utilise la technique développée à la section 4.5 pour le
calcul du nombre de sujets à risque et on estime la fonction de survie
pour R.
• Algorithme
1) Trier les sujets en ordre décroissant de Ri
2) di = #{j : Rj = Ri }
3) Yi = #{j : Tj ≤ Ri ≤ Rj }
4) SR (ti ) = SR (ti−1 )(1 − di /Yi )
5) P (X ≥ ti |X ≤ τ ) = 1−SR (ti ) = SX (ti )/FX (τ )+P (X = ti |X ≤ τ )
4.10
Cohorte
• Une cohorte est un groupe d’individus avec une même origine dans le
temps pour lesquels on observera le temps d’événement.
• On suit les membres d’une cohorte du début à la fin. Pour les tables
de mortalité ça implique que l’on suive le groupe de la 1re naissance au
dernier décès. C’est ce que l’on appelle une étude longitudinale.
• Il n’y a pas de troncation.
• Il peut y avoir des censures par intervalles et/ou censures aléatoires.
Le problème est qu’on ne connaı̂t pas le temps des censures aléatoires.
On fera l’hypothèse qu’elle sont distribuées uniformément à l’intérieur
des intervalles.
• Construction de la table de mortalité (méthode actuarielle)
1. Ij : intervalles mutuellement exclusifs et conjointement exhaustifs.
Ij = (aj−1 , aj ],
j = 1, 2, . . . , k + 1
a0 = 0, ak+1 = ∞
2. Yj0 : nombre d’individus à risque au début du j e intervalle.
3. w : nombre de censures aléatoires dans le j e intervalle.
j
5
4. Yj : nombre d’individus à risque en moyenne dans le j e intervalle.
Yj = Yj0 − wj /2
5. dj : nombre d’individus qui subissent l’événement dans le j e intervalle.
6. Ŝ(a ): estimateur de la fonction de survie à la fin du j e intervalle.
j
Ŝ(a0 ) = Ŝ(0) = 1,
Ŝ(aj ) = Ŝ(aj−1 )(1 − dj /Yj ),
Ŝ(ak+1 ) = Ŝ(∞) = 0.
7. fˆ(amj ): fonction de densité estimée au point milieu du j e intervalle.
aj−1 + aj
2
Ŝ(aj−1 ) − Ŝ(aj )
fˆ(amj ) =
aj − aj−1
amj =
=
Ŝ(aj−1 )dj /Yj
aj − aj−1
8. ĥ(amj ): taux de panne (force de mortalité) estimé au point milieu
du j e intervalle.
ĥ(amj ) =
fˆ(amj )
Ŝ(amj )
Ŝ(aj−1 ) − Ŝ(aj )
2
·
aj − aj−1
Ŝ(aj−1 ) + Ŝ(aj )
dj
=
(aj − aj−1 )(Yj − dj /2)
=
• Espérance de vie résiduelle: ambiguité liée à la définition de la fonction
de survie après le dernier temps observé si ce temps est un temps de
censure.
6
• χ̂0,5 (ai ): temps médian de survie résiduelle:
– On trouve l’intervalle tel que
Ŝ(aj ) ≤ Ŝ(ai )/2 ≤ Ŝ(aj−1 )
– On effectue une interpolation linéaire entre aj−1 et aj :
χ̂0,5 (ai ) =
aj (Ŝ(aj−1 ) − Ŝ(ai )/2) + aj−1 (Ŝ(ai )/2 − Ŝ(aj ))
Ŝ(aj−1 ) − Ŝ(aj )
• χ̂0,5 = χ̂0,5 (0): temps médian de survie. On remplace Ŝ(ai ) par 1.
7