Estimation adaptative dans des modèles de censure par
Transcription
Estimation adaptative dans des modèles de censure par
Estimation adaptative dans des modèles de censure par intervalle Elodie Brunel, I3M, Université Montpellier 2. Novembre 2014 Adaptive estimation for interval censoring models Thématique La statistique des durées de vie est un domaine actif de recherche stimulé par de nombreuses applications, notamment biomédicales, mais aussi en fiabilité ou en actuariat. Le terme générique de durée de vie désigne le temps écoulé jusqu’à la survenue d’un événement d’intérêt. L’inférence statistique pour ces données consiste à estimer leur loi de probabilité, à comparer les fonctions de survie de plusieurs groupes ou à analyser l’influence de variables explicatives. Des mécanismes de censure viennent très souvent affecter ces données et il est rare de pouvoir travailler à partir d’un échantillon complètement observé X1 , X2 , · · · , Xn des durées de vie. Une littérature importante est consacrée au développement de méthodes pour traiter efficacement ces données par nature incomplètes. La censure à droite constitue sans doute l’exemple le plus populaire et a été très étudiée. La censure par intervalle décrit un phénomène où la durée de vie X n’est jamais directement observée : la seule information dont on dispose est l’appartenance de X à un intervalle aléatoire dont les bornes sont définies par des instants d’observations. Le cas le plus simple est la censure par intervalle de type I. Illustrons son mécanisme si la durée de vie X d’intérêt représente le délai entre la contamination d’un sujet par le VIH et sa séroconversion. Supposons que U désigne la durée écoulée jusqu’à un instant où a lieu une observation de l’état courant du sujet, un examen médical par exemple. Considérons alors le vecteur aléatoire des observations (U, ∆) où ∆ = 1I(X ≤ U ) ou (U, ∆, Z) si une covariable Z est également observée. La seule information disponible sur la durée X, qui est en somme une variable cachée, est la survenue de la séroconversion avant la date d’examen et dans ce cas X ≤ U ou après cette date et alors X > U . Les 1 premiers travaux sur ce modèle portent sur l’estimateur non-paramétrique du maximum de vraisemblance (NPMLE) de la fonction de survie. Groeneboom et Wellner (1992) ont montré que le NPMLE de la fonction de survie était uniformément convergent et qu’il convergeait en loi vers une distribution non gaussienne à la vitesse n−1/3 . On se référera à Jewell et van der Laan (2004) pour un état de l’art concernant la censure par intervalle de type I. Bien qu’aussi fréquente dans les applications, la censure par intervalle de type II a été beaucoup moins étudiée jusqu’à très récemment. Dans ce modèle, nous supposons que deux durées d’examen U et V sont observées : (U, V, ∆1 , ∆2 , Z) où ∆1 = 1I(X ≤ U ), ∆2 = 1I(U < X ≤ V ). Ce schéma se généralise naturellement à la censure par intervalle de type k qui correspond au cas où l’on dispose de k dates d’examens pour chaque individu. Néanmoins, comme au plus deux intervalles d’observation parmi les (k + 1) intervalles aléatoires sont pertinents pour localiser la variable cachée X, les autres intervalles n’apportant aucune information supplémentaire pourront être ignorés : on se ramène alors aisément au cas de la censure de type II. Cette remarque justifie que les recherches actuelles s’orientent désormais sur l’étude de la censure par intervalle de type II. Contexte Récemment, des méthodes adaptatives par sélection de modèles ou par noyaux ont été proposées pour estimer la fonction de répartition et la fonction de répartition conditionnelle en présence d’une covariable dans le modèle de censure par intervalle de type I. Ces stratégies ont le double avantage d’être adaptatives et optimales au sens minimax, ce qui permet d’atteindre les vitesses non-paramétriques optimales dans ce problème lorsque la fonction de répartition est plus régulière, contrairement au NPMLE. Un estimateur pénalisé de type moindres carrés est étudié par Brunel et Comte (2009) qui présente l’avantage d’être facilement implémentable et minimax optimal. Il est généralisé par Plancade (2011) en présence d’une covariable qui obtient une borne inférieure pour le risque et la vitesse optimale minimax ; une méthode par noyaux déformés est également proposée par Chagny (2014) qui évite l’écueil des estimateurs à noyaux usuels des fonctions de régression construits par quotient. Très récemment, une série de travaux de Groeneboom et ses co-auteurs est consacrée à la censure de type II ; citons Groeneboom et Ketelaars (2011) et Groeneboom (2014) qui proposent des versions lissées par noyau de l’estimateur par maximum de vraisemblance de la fonction de répartition ; ils 2 montrent que sous certaines conditions de régularité, l’estimateur lissé converge ponctuellement à la vitesse n−2/5 . Cependant, l’estimateur proposé n’est pas adaptatif et le choix de la fenêtre de lissage n’est pas discuté dans ces travaux. Objectifs et résultats attendus Dans le contexte de données censurées par intervalle, nous proposons de développer des stratégies d’estimation adaptatives de la fonction de répartition ou de ses fonctionnelles (par exemple la fonction de hasard). On pourra aussi s’intéresser à la comparaison des fonctions de survie de deux échantillons indépendants ou à l’estimation de la fonction de répartition bivariée pour des échantillons de deux variables censurées par intervalle. Ce travail nécessitera une familiarisation avec les méthodes d’estimation par projection et de sélection de modèles développées dans un cadre général par Barron, Birgé et Massart (1999), et les méthodes d’estimation par noyaux et de sélection de fenêtres optimales (Goldenschluger et Lepski, 2011). Il s’agira ensuite de généraliser les approches existantes au cas des données censurées par intervalle. L’échantillon dans le contexte de la censure par intervalle de type II étant de nature bivariée, cette généralisation s’appuiera dans un premier temps sur l’étude d’un modèle de régression général bivarié. En particulier, les techniques d’estimation par noyau usuels ou déformés, avec sélection de fenêtres automatique pourront être soigneusement étudiées dans le cas bivarié. Les méthodes proposées s’accompagneront d’une étude numérique par simulation ou sur données réelles et seront comparées à taille d’échantillon finie. Pour cela, outre une culture solide en analyse et en probabilités, une aisance et un goût pour la programmation sous R ou Matlab sont très souhaitables. Références : Barron, A.R., Birgé, L., Massart, P. (1999) Risk bounds for model selection via penalization. Probab. Theory Relat. Fields 113, 301-413. Brunel E., Comte F. (2009) Cumulative distribution function estimation under interval censoring case 1, Electron. J. Stat. 3, 1-24. Chagny G. (2014) Adaptive warped kernel estimators, à paraître. Scand. J. Statist. prépublication hal.archives-ouvertes.fr/hal-00715184. Goldenshluger, A., Lepski, O. (2011) Bandwidth selection in kernel density estimation : oracle inequalities and adaptive minimax optimality.Ann. Statist. 39, 1608-1632. Groeneboom, P. (2014) Maximum smoothed likelihood estimators for the interval censoring model, Ann. Statist. 42, 2092-2137. 3 Groeneboom, P., Ketelaars, T. (2011) Estimators for the interval censoring problem. Electron. J. Stat. 5, 1797-1845. Groeneboom, P., Wellner, J. A. (1992) Information Bounds and Nonparametric Maximum Likelihood Estimation. DMV Seminar Band 19, Birkhäuser, Basel. Jewell, N. P., van der Laan, M. (2004) Current status data : review, recent developments and open problems. Advances in survival analysis, 625-642, Handbook of Statist., 23, Elsevier, Amsterdam. Plancade, S. (2013) Adaptive estimation of the conditional cumulative distribution function from current status data, J. Statist. Plann. Inference, 143, 1466-1485. 4