Estimation adaptative dans des modèles de censure par

Transcription

Estimation adaptative dans des modèles de censure par
Estimation adaptative dans des modèles de
censure par intervalle
Elodie Brunel, I3M, Université Montpellier 2.
Novembre 2014
Adaptive estimation for interval censoring models
Thématique
La statistique des durées de vie est un domaine actif de recherche stimulé
par de nombreuses applications, notamment biomédicales, mais aussi en fiabilité ou en actuariat. Le terme générique de durée de vie désigne le temps
écoulé jusqu’à la survenue d’un événement d’intérêt. L’inférence statistique
pour ces données consiste à estimer leur loi de probabilité, à comparer les
fonctions de survie de plusieurs groupes ou à analyser l’influence de variables
explicatives. Des mécanismes de censure viennent très souvent affecter ces
données et il est rare de pouvoir travailler à partir d’un échantillon complètement observé X1 , X2 , · · · , Xn des durées de vie. Une littérature importante
est consacrée au développement de méthodes pour traiter efficacement ces
données par nature incomplètes. La censure à droite constitue sans doute
l’exemple le plus populaire et a été très étudiée. La censure par intervalle décrit un phénomène où la durée de vie X n’est jamais directement observée :
la seule information dont on dispose est l’appartenance de X à un intervalle
aléatoire dont les bornes sont définies par des instants d’observations. Le cas
le plus simple est la censure par intervalle de type I. Illustrons son mécanisme
si la durée de vie X d’intérêt représente le délai entre la contamination d’un
sujet par le VIH et sa séroconversion. Supposons que U désigne la durée écoulée jusqu’à un instant où a lieu une observation de l’état courant du sujet,
un examen médical par exemple. Considérons alors le vecteur aléatoire des
observations (U, ∆) où ∆ = 1I(X ≤ U ) ou (U, ∆, Z) si une covariable Z est
également observée. La seule information disponible sur la durée X, qui est
en somme une variable cachée, est la survenue de la séroconversion avant la
date d’examen et dans ce cas X ≤ U ou après cette date et alors X > U . Les
1
premiers travaux sur ce modèle portent sur l’estimateur non-paramétrique du
maximum de vraisemblance (NPMLE) de la fonction de survie. Groeneboom
et Wellner (1992) ont montré que le NPMLE de la fonction de survie était
uniformément convergent et qu’il convergeait en loi vers une distribution non
gaussienne à la vitesse n−1/3 . On se référera à Jewell et van der Laan (2004)
pour un état de l’art concernant la censure par intervalle de type I.
Bien qu’aussi fréquente dans les applications, la censure par intervalle
de type II a été beaucoup moins étudiée jusqu’à très récemment. Dans ce
modèle, nous supposons que deux durées d’examen U et V sont observées :
(U, V, ∆1 , ∆2 , Z) où ∆1 = 1I(X ≤ U ), ∆2 = 1I(U < X ≤ V ).
Ce schéma se généralise naturellement à la censure par intervalle de type k qui
correspond au cas où l’on dispose de k dates d’examens pour chaque individu.
Néanmoins, comme au plus deux intervalles d’observation parmi les (k + 1)
intervalles aléatoires sont pertinents pour localiser la variable cachée X, les
autres intervalles n’apportant aucune information supplémentaire pourront
être ignorés : on se ramène alors aisément au cas de la censure de type II.
Cette remarque justifie que les recherches actuelles s’orientent désormais sur
l’étude de la censure par intervalle de type II.
Contexte
Récemment, des méthodes adaptatives par sélection de modèles ou par
noyaux ont été proposées pour estimer la fonction de répartition et la fonction
de répartition conditionnelle en présence d’une covariable dans le modèle de
censure par intervalle de type I. Ces stratégies ont le double avantage d’être
adaptatives et optimales au sens minimax, ce qui permet d’atteindre les vitesses non-paramétriques optimales dans ce problème lorsque la fonction de
répartition est plus régulière, contrairement au NPMLE. Un estimateur pénalisé de type moindres carrés est étudié par Brunel et Comte (2009) qui
présente l’avantage d’être facilement implémentable et minimax optimal. Il
est généralisé par Plancade (2011) en présence d’une covariable qui obtient
une borne inférieure pour le risque et la vitesse optimale minimax ; une méthode par noyaux déformés est également proposée par Chagny (2014) qui
évite l’écueil des estimateurs à noyaux usuels des fonctions de régression
construits par quotient.
Très récemment, une série de travaux de Groeneboom et ses co-auteurs
est consacrée à la censure de type II ; citons Groeneboom et Ketelaars (2011)
et Groeneboom (2014) qui proposent des versions lissées par noyau de l’estimateur par maximum de vraisemblance de la fonction de répartition ; ils
2
montrent que sous certaines conditions de régularité, l’estimateur lissé converge
ponctuellement à la vitesse n−2/5 . Cependant, l’estimateur proposé n’est pas
adaptatif et le choix de la fenêtre de lissage n’est pas discuté dans ces travaux.
Objectifs et résultats attendus
Dans le contexte de données censurées par intervalle, nous proposons de
développer des stratégies d’estimation adaptatives de la fonction de répartition ou de ses fonctionnelles (par exemple la fonction de hasard). On pourra
aussi s’intéresser à la comparaison des fonctions de survie de deux échantillons indépendants ou à l’estimation de la fonction de répartition bivariée
pour des échantillons de deux variables censurées par intervalle. Ce travail nécessitera une familiarisation avec les méthodes d’estimation par projection et
de sélection de modèles développées dans un cadre général par Barron, Birgé
et Massart (1999), et les méthodes d’estimation par noyaux et de sélection de
fenêtres optimales (Goldenschluger et Lepski, 2011). Il s’agira ensuite de généraliser les approches existantes au cas des données censurées par intervalle.
L’échantillon dans le contexte de la censure par intervalle de type II étant de
nature bivariée, cette généralisation s’appuiera dans un premier temps sur
l’étude d’un modèle de régression général bivarié. En particulier, les techniques d’estimation par noyau usuels ou déformés, avec sélection de fenêtres
automatique pourront être soigneusement étudiées dans le cas bivarié. Les
méthodes proposées s’accompagneront d’une étude numérique par simulation
ou sur données réelles et seront comparées à taille d’échantillon finie. Pour
cela, outre une culture solide en analyse et en probabilités, une aisance et un
goût pour la programmation sous R ou Matlab sont très souhaitables.
Références :
Barron, A.R., Birgé, L., Massart, P. (1999) Risk bounds for model selection
via penalization. Probab. Theory Relat. Fields 113, 301-413.
Brunel E., Comte F. (2009) Cumulative distribution function estimation under interval censoring case 1, Electron. J. Stat. 3, 1-24.
Chagny G. (2014) Adaptive warped kernel estimators, à paraître. Scand. J.
Statist. prépublication hal.archives-ouvertes.fr/hal-00715184.
Goldenshluger, A., Lepski, O. (2011) Bandwidth selection in kernel density
estimation : oracle inequalities and adaptive minimax optimality.Ann. Statist.
39, 1608-1632.
Groeneboom, P. (2014) Maximum smoothed likelihood estimators for the
interval censoring model, Ann. Statist. 42, 2092-2137.
3
Groeneboom, P., Ketelaars, T. (2011) Estimators for the interval censoring
problem. Electron. J. Stat. 5, 1797-1845.
Groeneboom, P., Wellner, J. A. (1992) Information Bounds and Nonparametric Maximum Likelihood Estimation. DMV Seminar Band 19, Birkhäuser,
Basel.
Jewell, N. P., van der Laan, M. (2004) Current status data : review, recent developments and open problems. Advances in survival analysis, 625-642, Handbook of Statist., 23, Elsevier, Amsterdam.
Plancade, S. (2013) Adaptive estimation of the conditional cumulative distribution function from current status data, J. Statist. Plann. Inference, 143,
1466-1485.
4