Convergence faible d`estimateurs des fonctions d`incidence
Transcription
Convergence faible d`estimateurs des fonctions d`incidence
Convergence faible d’estimateurs des fonctions d’incidence cumulée sous biais de longueur Jean-Yves Dauxois & Agathe Guilloux CREST-ENSAI, Campus de Ker Lann, Rue Blaise Pascal, 35 170 Bruz Résumé Dans une population, où K causes de mort sont actives, on échantillonne à un instant donné t0 les individus vivants que l’on suit jusqu’à la mort (ou censure). A partir de cet échantillon ”‘biaisé en longueur”, on construit des estimateurs pour les fonctions d’incidence cumulée associées aux durées de vie initiales (pour la population entière) dans le cadre des risques compétitifs. On obtient une convergence faible jointe pour ces estimateurs. Abstract In a population, where K causes of death are acting, we observe a sample of individuals who are alive at a fixed time t0 and follow them until death or possible censoring time. Given this length bias sample, we construct estimators of cumulative incidence functions associated to the ”‘initial survival times” (i.e. for the entire population). We establish the joint weak limit of these estimators. Mots-clés : biais de longueur, risques compétitifs, fonctions d’incidence cumulée Keywords : length-bias, competing risks, cumulative incidence function 1 Introduction Dans une population d’individus, on suppose que K causes de mort agissent.V On note XkIn (k = 1, . . . , K) la durée de vie associée à la k-ième cause. On note T In = k XkIn (le minimum des XkIn ) la durée de vie et δ In l’indicatrice de la cause de mort, i.e. δ In = k si la cause de mort est la k-ième. Dans ce cadre des risques compétitifs, en ne supposant aucune indépendance entre les causes de mort, on définit les fonctions d’incidence cumulée (F.I.C.), pour k = 1, . . . , K; comme suit : Gk (t) = P(T In ≤ t, δ In = k). La fonction de survie de la variable aléatoire T In est définie par Ḡ(t) = P(T In > t). On suppose dans cet article que l’on observe les durées de vie (éventuellement censurées) des individus vivants à un instant t0 donné. Dans cet échantillon, les durées de 1 vie latentes (associées aux K causes de mort) Xk , k = 1, . . . , K, n’ont pas la même distribution que les durées de vie initiales (sur toute la population), on dit qu’il y a un biais de longueur. Pour les individus vivants à t0 , on note T = ∧k Xk la durée de vie et δ l’indicatrice de la cause de mort. On définit les F.I.C. sous biais de longueur comme suit Fk (t) = P(T ≤ t, δ = k). On introduit également les sous-fonctions de survie associées aux K causes de mort F̃k (t) = P(T > t, δ = k) et la fonction de survie de la v.a. T F̄ (t) = P(T > t) = K X F̃k (t). k=1 Une modélisation par processus ponctuels permet d’établir, sous certaines hypothèses, les relations suivantes Rt 1 dFk (x) Gk (t) = − R 0∞x1 (1) dF̄ (x) 0 x Rt 1 dF̄ (x) 0 x . (2) G(t) = R ∞ 1 dF̄ (x) 0 x On suppose, de plus, que la v.a. T est censurée aléatoirement à droite par une v.a. C, supposée indépendante de T . Ainsi, pour l’individu i de l’échantillon biaisé en longueur (i ∈ {1, . . . , n}), on observe ½ Ti∗ = Ti ∧ Ci ∗ δi = δi I({Ti ≤ Ci }) Le but de cet article est d’estimer les fonctions Gk (k = 1, . . . , K) et Ḡ à partir d’un échantillon d’individus vivants au temps t0 et d’obtenir pour ces estimateurs un résultat de convergence faible jointe. Pour cela, nous allons dans une première partie présenter les estimateurs des fonctions Fk (k = 1, . . . , K) et F̄ puis des fonctions Gk (k = 1, . . . , K) et Ḡ. Dans une troisième partie, nous énoncerons le théorème de convergence faible jointe des estimateurs des F.I.C. pour la population initiale introduits dans la seconde partie. 2 Estimation Pour l’estimation des F.I.C. (Fk ) et de la fonction de survie (F̄ ) biaisées, nous suivons la méthode introduite par Andersen et al. (1993) pour les processus markoviens nonhomogènes. On introduit, pour cela, les processus Pn ∗ ∗ k = 1, 2, Nk (t) = i ≤ t, δi = k}) i=1 PI({T n ∗ et Y (t) = i=1 I({Ti ≥ t}) J(t) = I({Y (t) > 0}). 2 On définit, pour la fonction de survie F̄ , l’estimateur de Kaplan-Meier par ¶ Y µ J(u)d(N1 + N2 )(u) ˆ F̄ (t) = 1− . Y (u) 0<u≤t Pour les F.I.C. biaisés, on introduit les estimateurs d’Aalen-Johansen, pour k = 1, 2, Z t dNk (x) F̂k (t) = F̄ˆ (x−)J(x) . Y (x) 0 La relation (1) permet d’introduire les estimateurs des F.I.C. Gk et de la fonction de survie Ḡ non-biaisées suivants, construits par plug-in : Rt 1 dF̂k (x) Ĝk (t) = − R 0∞x (3) 1 ˆ d F̄ (x) 0 x Rt 1 ˆ dF̄ (x) 0 x . Ĝ(t) = R ∞ 1 ˆ dF̄ (x) 0 3 3.1 x Théorèmes de convergence faible Théorèmes pour les estimateurs des F.I.C. biasées Andersen et al (1993) ont montré le théorème suivant. Théorème 1 On a, dans D3 [0, τ ) (espace tout τ < ∞, la convergence faible suivante ˆ √ F̄ − F̄ Ẑn = n F̂1 − F1 F̂2 − F2 produit des fonctions càdlàg sur [0, τ )) , pour Z0 D → Z = Z1 Z2 où (Z0 , Z1 , Z2 ) est un processus gaussien de moyenne nulle défini par Z0 = F̄ U0 Z · Z · Zk (·) = (Fk (·) − Fk (u))dU0 (u) + F̄ (u)dUk , pour k = 1, 2, 0 0 U1 et U2 sont des martingales orthogonales gaussiennes de moyenne nulle et de carré intégrable avec pour fonctions de variance (k = 1, 2) Z s∧t dFk (u) < Uk (s), Uk (t) >= F̄ (u)S(u) 0 et U0 = −(U1 + U2 ). 3 Les dénominateurs des estimateurs définis dans l’equation (3) faisant intervenir les estimateurs des fonctions biaisées jusqu’à l’infini, il est nécessaire d’étendre ce théorème à D3 [0, ∞]. Pour cela, on s’inspire du résultat de Gill (1983), amélioré par Ying (1989), qui fait largement intervenir le théorème 4.2 de Billingsley (1968). Théorème R ∞ (x)2 Sous l’hypothèse A : 0 dF < ∞, on a la convergence suivante dans D3 [0, ∞] H̄(x) ˆ − F̄ ∞ Z F̄ 0 √ D n F̂1 − F1 → Z ∞ = Z1∞ Z2∞ F̂2 − F2 où Z ∞ est l’extension de Z à [0, ∞]. 3.2 Théorème pour les estimateurs des F.I.C. non-biasées Nous donnons dans ce paragraphe le principal résultat de cet article. Au delà de son intérêt propre, il permettra de construire des tests (d’égalité au sein d’une ou plusieurs populations) pour les F.I.C. de la (des) population(s) initiale(s) à partir de l’échantillon des vivants à t0 . Théorème 3 Sous les hypothèses A on obtient la convergence faible dans D3 [0, ∞] Ĝ − G L0 √ D n Ĝ1 − G1 → L1 L2 Ĝ2 − G2 quand n → ∞, où R· 1 ∞ R∞ 1 ∞ dZ0 (x) dZ (x) x 0 L0 (·) = R ∞ 1 − G(·) R0 ∞x1 0 dF̄ (x) dF̄ (x) 0 x 0 x et, pour k = 1, 2, R∞ 1 ∞ Rt 1 ∞ (x) dZ dZ (x) Lk (·) = Gk (·) R0 ∞x1 0 − R0∞x 1 k . dF̄ (x) dF̄ (x) 0 x 0 x La preuve de ce théorème est principalement fondée sur la méthode-delta fonctionnelle du théorème 3.9.4 de van der Waart et Wellner (1996). Notons ici que, sous biais de longueur et dans le cas où une √ seule cause de mort agit, où x > 0; de Uña-Àlvarez (2002) a établit la convergence ponctuelle de n(Ĝ(x) − G(x)), √ tandis qu’Asgharian et al. (2002) ont établit la convergence du processus n(Ĝ − G) mais 4 en considérant une censure particulière. Toujours sous biais de longueur et dans le cas où K causes de mort agissent, Huang et Wang (1995) ont montré la convergence ponctuelle √ de n(Ĝk (x) − Gk (x)), où x > 0 et k = 1, . . . , K, sans considérer de mécanisme de censure. Bibliographie [1] Andersen, P.K., Borgan, O., Gill, R.D. et Keiding, N. (1993),=. Statistical models based on counting processes. Springer-Verlag. [2] Asgharian, M., M’Lan, C.E. et Wolfson, D.B. (2002). Length-biased sampling with right censoring : an unconditional approach, J. Amer. Statist. Assoc. 97, 201-209. [3] Billingsley, P. (1968). Convergence of probability measures. Wiley. [4] Dauxois, J.Y. et Guilloux A. (2004). Inference for cumulative incidence functions under length-bias. Soumis aux Documents de Travail du CREST. [5] Gill, R.D. (1983). Large sample behaviour of the product-limit estimator on the whole line. Ann. Statis. 11, 49-58. [6] Huang, Y. et Wang, M-C (1995). Estimating the occurence rate for prevalent survival data in competing risks models J. Amer. Statist. Assoc. 90, 1406-1415. [7] de Uña-Álvarez, J. (2002). Product-limit estimation for length-biased censored data. Test, 11, 109-125. [8] Van Der Vaart, A.W. et Wellner, J.A. (1996), Weak convergence and empirical processes, Springer. [9] Ying, Z. (1989), A note on the asymptotic properties of the product-limit estimator on the whole line, Statist. Probab. Lett. 7, 311-314. 5