Convergence faible d`estimateurs des fonctions d`incidence

Transcription

Convergence faible d`estimateurs des fonctions d`incidence
Convergence faible d’estimateurs des fonctions
d’incidence cumulée sous biais de longueur
Jean-Yves Dauxois & Agathe Guilloux
CREST-ENSAI, Campus de Ker Lann, Rue Blaise Pascal, 35 170 Bruz
Résumé
Dans une population, où K causes de mort sont actives, on échantillonne à un instant
donné t0 les individus vivants que l’on suit jusqu’à la mort (ou censure). A partir de
cet échantillon ”‘biaisé en longueur”, on construit des estimateurs pour les fonctions
d’incidence cumulée associées aux durées de vie initiales (pour la population entière)
dans le cadre des risques compétitifs. On obtient une convergence faible jointe pour ces
estimateurs.
Abstract
In a population, where K causes of death are acting, we observe a sample of individuals
who are alive at a fixed time t0 and follow them until death or possible censoring time.
Given this length bias sample, we construct estimators of cumulative incidence functions
associated to the ”‘initial survival times” (i.e. for the entire population). We establish
the joint weak limit of these estimators.
Mots-clés : biais de longueur, risques compétitifs, fonctions d’incidence cumulée
Keywords : length-bias, competing risks, cumulative incidence function
1
Introduction
Dans une population d’individus, on suppose que K causes de mort agissent.V On note
XkIn (k = 1, . . . , K) la durée de vie associée à la k-ième cause. On note T In = k XkIn (le
minimum des XkIn ) la durée de vie et δ In l’indicatrice de la cause de mort, i.e. δ In = k
si la cause de mort est la k-ième. Dans ce cadre des risques compétitifs, en ne supposant
aucune indépendance entre les causes de mort, on définit les fonctions d’incidence cumulée
(F.I.C.), pour k = 1, . . . , K; comme suit :
Gk (t) = P(T In ≤ t, δ In = k).
La fonction de survie de la variable aléatoire T In est définie par
Ḡ(t) = P(T In > t).
On suppose dans cet article que l’on observe les durées de vie (éventuellement censurées) des individus vivants à un instant t0 donné. Dans cet échantillon, les durées de
1
vie latentes (associées aux K causes de mort) Xk , k = 1, . . . , K, n’ont pas la même distribution que les durées de vie initiales (sur toute la population), on dit qu’il y a un biais
de longueur. Pour les individus vivants à t0 , on note T = ∧k Xk la durée de vie et δ
l’indicatrice de la cause de mort. On définit les F.I.C. sous biais de longueur comme suit
Fk (t) = P(T ≤ t, δ = k).
On introduit également les sous-fonctions de survie associées aux K causes de mort
F̃k (t) = P(T > t, δ = k)
et la fonction de survie de la v.a. T
F̄ (t) = P(T > t) =
K
X
F̃k (t).
k=1
Une modélisation par processus ponctuels permet d’établir, sous certaines hypothèses, les
relations suivantes
Rt 1
dFk (x)
Gk (t) = − R 0∞x1
(1)
dF̄ (x)
0 x
Rt 1
dF̄ (x)
0 x
.
(2)
G(t) = R ∞
1
dF̄ (x)
0 x
On suppose, de plus, que la v.a. T est censurée aléatoirement à droite par une v.a. C,
supposée indépendante de T . Ainsi, pour l’individu i de l’échantillon biaisé en longueur
(i ∈ {1, . . . , n}), on observe
½
Ti∗ =
Ti ∧ Ci
∗
δi = δi I({Ti ≤ Ci })
Le but de cet article est d’estimer les fonctions Gk (k = 1, . . . , K) et Ḡ à partir d’un
échantillon d’individus vivants au temps t0 et d’obtenir pour ces estimateurs un résultat
de convergence faible jointe. Pour cela, nous allons dans une première partie présenter les
estimateurs des fonctions Fk (k = 1, . . . , K) et F̄ puis des fonctions Gk (k = 1, . . . , K) et
Ḡ. Dans une troisième partie, nous énoncerons le théorème de convergence faible jointe
des estimateurs des F.I.C. pour la population initiale introduits dans la seconde partie.
2
Estimation
Pour l’estimation des F.I.C. (Fk ) et de la fonction de survie (F̄ ) biaisées, nous suivons
la méthode introduite par Andersen et al. (1993) pour les processus markoviens nonhomogènes. On introduit, pour cela, les processus
Pn
∗
∗
k = 1, 2,
Nk (t) =
i ≤ t, δi = k})
i=1
PI({T
n
∗
et
Y (t) =
i=1 I({Ti ≥ t})
J(t) =
I({Y (t) > 0}).
2
On définit, pour la fonction de survie F̄ , l’estimateur de Kaplan-Meier par
¶
Y µ
J(u)d(N1 + N2 )(u)
ˆ
F̄ (t) =
1−
.
Y
(u)
0<u≤t
Pour les F.I.C. biaisés, on introduit les estimateurs d’Aalen-Johansen, pour k = 1, 2,
Z t
dNk (x)
F̂k (t) =
F̄ˆ (x−)J(x)
.
Y (x)
0
La relation (1) permet d’introduire les estimateurs des F.I.C. Gk et de la fonction de
survie Ḡ non-biaisées suivants, construits par plug-in :
Rt 1
dF̂k (x)
Ĝk (t) = − R 0∞x
(3)
1 ˆ
d
F̄
(x)
0 x
Rt 1 ˆ
dF̄ (x)
0 x
.
Ĝ(t) = R ∞
1 ˆ
dF̄ (x)
0
3
3.1
x
Théorèmes de convergence faible
Théorèmes pour les estimateurs des F.I.C. biasées
Andersen et al (1993) ont montré le théorème suivant.
Théorème 1 On a, dans D3 [0, τ ) (espace
tout τ < ∞, la convergence faible suivante

ˆ
√  F̄ − F̄
Ẑn = n  F̂1 − F1
F̂2 − F2
produit des fonctions càdlàg sur [0, τ )) , pour



Z0
 D
 → Z =  Z1 
Z2
où (Z0 , Z1 , Z2 ) est un processus gaussien de moyenne nulle défini par
Z0 = F̄ U0
Z ·
Z ·
Zk (·) =
(Fk (·) − Fk (u))dU0 (u) +
F̄ (u)dUk , pour k = 1, 2,
0
0
U1 et U2 sont des martingales orthogonales gaussiennes de moyenne nulle et de carré
intégrable avec pour fonctions de variance (k = 1, 2)
Z s∧t
dFk (u)
< Uk (s), Uk (t) >=
F̄ (u)S(u)
0
et U0 = −(U1 + U2 ).
3
Les dénominateurs des estimateurs définis dans l’equation (3) faisant intervenir les
estimateurs des fonctions biaisées jusqu’à l’infini, il est nécessaire d’étendre ce théorème
à D3 [0, ∞]. Pour cela, on s’inspire du résultat de Gill (1983), amélioré par Ying (1989),
qui fait largement intervenir le théorème 4.2 de Billingsley (1968).
Théorème
R ∞ (x)2 Sous l’hypothèse
A : 0 dF
< ∞, on a la convergence suivante dans D3 [0, ∞]
H̄(x)




ˆ − F̄
∞
Z
F̄
0
√ 
 D
n F̂1 − F1  → Z ∞ =  Z1∞ 
Z2∞
F̂2 − F2
où Z ∞ est l’extension de Z à [0, ∞].
3.2
Théorème pour les estimateurs des F.I.C. non-biasées
Nous donnons dans ce paragraphe le principal résultat de cet article. Au delà de son
intérêt propre, il permettra de construire des tests (d’égalité au sein d’une ou plusieurs
populations) pour les F.I.C. de la (des) population(s) initiale(s) à partir de l’échantillon
des vivants à t0 .
Théorème 3 Sous les hypothèses A
on obtient la convergence faible dans D3 [0, ∞]




Ĝ − G
L0
√
D
n  Ĝ1 − G1  →  L1 
L2
Ĝ2 − G2
quand n → ∞, où
R· 1 ∞
R∞ 1 ∞
dZ0 (x)
dZ (x)
x
0
L0 (·) = R ∞ 1
− G(·) R0 ∞x1 0
dF̄ (x)
dF̄ (x)
0 x
0 x
et, pour k = 1, 2,
R∞ 1 ∞
Rt 1 ∞
(x)
dZ
dZ (x)
Lk (·) = Gk (·) R0 ∞x1 0
− R0∞x 1 k
.
dF̄ (x)
dF̄ (x)
0 x
0 x
La preuve de ce théorème est principalement fondée sur la méthode-delta fonctionnelle
du théorème 3.9.4 de van der Waart et Wellner (1996).
Notons ici que, sous biais de longueur et dans le cas où une
√ seule cause de mort agit,
où x > 0;
de Uña-Àlvarez (2002) a établit la convergence ponctuelle de n(Ĝ(x) − G(x)),
√
tandis qu’Asgharian et al. (2002) ont établit la convergence du processus n(Ĝ − G) mais
4
en considérant une censure particulière. Toujours sous biais de longueur et dans le cas où
K causes
de mort agissent, Huang et Wang (1995) ont montré la convergence ponctuelle
√
de n(Ĝk (x) − Gk (x)), où x > 0 et k = 1, . . . , K, sans considérer de mécanisme de
censure.
Bibliographie
[1] Andersen, P.K., Borgan, O., Gill, R.D. et Keiding, N. (1993),=. Statistical models
based on counting processes. Springer-Verlag.
[2] Asgharian, M., M’Lan, C.E. et Wolfson, D.B. (2002). Length-biased sampling with
right censoring : an unconditional approach, J. Amer. Statist. Assoc. 97, 201-209.
[3] Billingsley, P. (1968). Convergence of probability measures. Wiley.
[4] Dauxois, J.Y. et Guilloux A. (2004). Inference for cumulative incidence functions
under length-bias. Soumis aux Documents de Travail du CREST.
[5] Gill, R.D. (1983). Large sample behaviour of the product-limit estimator on the whole
line. Ann. Statis. 11, 49-58.
[6] Huang, Y. et Wang, M-C (1995). Estimating the occurence rate for prevalent survival
data in competing risks models J. Amer. Statist. Assoc. 90, 1406-1415.
[7] de Uña-Álvarez, J. (2002). Product-limit estimation for length-biased censored data.
Test, 11, 109-125.
[8] Van Der Vaart, A.W. et Wellner, J.A. (1996), Weak convergence and empirical processes, Springer.
[9] Ying, Z. (1989), A note on the asymptotic properties of the product-limit estimator
on the whole line, Statist. Probab. Lett. 7, 311-314.
5

Documents pareils