Estimation non paramétrique pour les systèmes multi

Transcription

Estimation non paramétrique pour les systèmes multi
Estimation non paramétrique pour les systèmes
multi-états : applications biomédicales
Gérard Derzko∗ & Eve Leconte∗∗
∗
∗∗
SANOFI-SYNTHELABO Recherche, 371, rue du Professeur Joseph Blayac
34184 Montpellier cedex 04
[email protected]
GREMAQ, Université des Sciences Sociales, 21, allée de Brienne, 31000 Toulouse
et LSP, Université Paul Sabatier, 31062 Toulouse cedex 04
[email protected]
Résumé
Nous présentons une méthode d’estimation non paramétrique consistante de l’incidence
d’événements récurrents catégorisés en présence de censure indépendante et de troncature
aléatoires à droite. La méthode consiste à associer à un événement de catégorie donnée une
transition dans l’un des états du système multi-états “progressif” [3] observé, et de ramener
ainsi le problème à une collection d’estimations non paramétriques pour des incidences
d’événements récurrents en présence de censure indépendante et de troncature aléatoires
à droite : une solution empirique consistante pour ce problème plus simple a été proposée
dans [7]. La méthode produit au passage des estimations non paramétriques consistantes
pour les prévalences des états et les intensités de transition entre les états de systèmes
multi-états quelconques (par exemple non progressifs, non markoviens). Les algorithmes
de calculs sont simples et faciles à mettre en œuvre. Les implications d’une troncature
aléatoire à gauche, ainsi que d’un état initial lui-même catégorisé, sont également envisagées.
Mots-clés : système multi-états, estimation non paramétrique marginale, censure à
droite, troncature à droite (à gauche), événements récurrents, incidence, prévalence, intensité de transition.
Abstract
We present a method for the nonparametric consistent estimation of incidences of categorized recurrent events with random right truncations and independent censoring. The
method consists in modeling categorized events by transitions into the various states of
the associated “progressive” [3] observed multi-state system. The problem then amounts
to estimating a series of incidences of recurrent events with random right truncations
and independent censoring : in this latter setting an empirical solution was proposed in
1
[7]. By the way this method provides consistent nonparametric estimates for prevalence
of states and transition intensities between pairs of states in general multi-state systems
(eg. non progressive, non markovian). Computation algorithms are simple and easily
implemented. We discuss the possible addition of random left truncation and categorized
initial state to the model.
Key-words : multi-state model, nonparametric marginal estimation, right censoring,
right (left) truncation, recurrent events, incidence, prevalence, transition intensity.
1
Introduction
L’idée d’associer à la survenue d’un événement catégorisé l’entrée dans un certain état d’un
système multi-états n’est pas nouvelle (voir par ex. [1]). Ainsi les notions de temps d’interarrivée entre événements récurrents et de temps de séjour dans un état sont équivalentes.
De même l’incidence d’un premier événement renvoie à la notion de probabilité de transition dans un état.
Les méthodes d’estimation non paramétrique des incidences d’événements présentent
quelques difficultés qui gènent leur généralisation à des situations complexes, entre autres :
l’interruption des observations (censure), la récurrence des événements, avec éventuellement un événement terminal (troncature aléatoire). Aussi ne sont-elles largement utilisées
que pour estimer l’incidence d’un premier ou d’un unique événement (estimateurs de
Kaplan-Meier ou de Nelson-Aalen), éventuellement catégorisé (estimateurs de Prentice
ou d’Aalen-Johansen) ; l’estimation non paramétrique a été étendue à des modèles plus
complexes [2], mais d’une façon générale les modèles multi-états n’apportent rien d’utile
lorsqu’une unité statistique produit au plus un événement.
Plus récemment, l’approche multi-états a été promue dans le cadre de l’étude de la
survie multivariée [3]. Les systèmes multi-états étudiés sont très simples et peu nombreux
(modèle à trois états irréversible, modèle de fertilité), et les méthodes d’estimation sont
exclusivement paramétriques, avec hypothèse markovienne ou semi-markovienne.
L’estimation non paramétrique marginale pour des temps d’inter-arrivée utilisant les
modèles multi-états est toute récente [4] ; l’incidence totale d’événements récurrents avec
censure indépendante et absorption (i.e. troncature à droite) a par ailleurs été proposée
[5], mais elle ne peut, par construction, être étendue à un modèle multi-états.
Pour finir, deux méthodes d’estimation non paramétrique marginale de l’incidence,
alternatives à [5], mais portant de plus sur les incidences d’événements de rang donné,
ont été proposées [6][7]. Les estimateurs obtenus dans [6] ne sont pas consistants, et
le modèle n’inclut pas d’absorption. Nous montrons ici qu’en revanche la méthode [7]
permet l’estimation non paramétrique de toutes les fonctionnelles usuelles d’un système
multi-états quelconque.
2
Transitoire
Absorbé
Absorbant
Censure
Exemple 2
1
Rec.
2
0
D
Exemple 1
Figure 1: Système multi-états : schéma théorique
2
Motivation
Les situations expérimentales complexes rencontrées en recherche clinique ou en épidémiologie, et où les variables d’intérêt sont des temps de survenue d’événements avec censure
et absorption, sont très fréquentes ([3][5][7]).
Plus fondamentalement, les modèles paramétriques, markoviens ou semi-markoviens,
utilisés dans le cadre multi-états, sont utiles pour la prévision, mais leur validation passe
par une comparaison avec une référence non paramétrique. Le présent travail propose
une telle référence.
3
Méthode
Nous illustrons ci-dessous sur un modèle multi-états raisonnablement complexe la démarche proposée. La figure 1 représente le schéma théorique d’un système où les individus
partent d’un état unique 0, et diffusent vers un état absorbant D, ou vers les états transitoires 1 et 2 (avec échange réversible entre eux, et absorption vers D). Une censure
aléatoire indépendante ne peut être représentée sur ce schéma par un état ; en effet,
elle peut intervenir sur l’ensemble des sorties de l’un quelconque des états du schéma, et
empêche de connaı̂tre la nature exacte de cette sortie.
La donnée d’un n-échantillon, compatible avec le système de la figure 1, {(Ti , Ri , Ji )}ni=1 ,
3
Etat d’intérêt
Transitoire
Absorbant
Censure
6 : chemin
1
i
1-2-3-4
1
2
3
1
1
2
2
D
D
4
0
5-6-7-8
9
10
2
D
5
1
5
6
2
6
7
D
8
Figure 2: Système multi-états développé observé
où T, R, J sont des vecteurs à ni (aléatoire) composantes, T des temps de réalisation, R
des rangs intra-individu, et J des natures d’événements, permet de construire le système
multi-états “observé développé” de la figure 2. Ce système est unique, “progressif” au
sens de [3], c’est-à-dire qu’il n’entre qu’une flèche dans chaque état, à l’exception de l’état
initial. Un état de la figure 1 est représenté par plusieurs états de la figure 2, où également
la censure peut être représentée par des états.
Les estimations des fonctionnelles utiles du système de la figure 2 se ramènent à celles
de fonctionnelles associées à des systèmes multi-états plus simples construits sur chaque
“branche”, ou “chemin”, du type représenté figure 3 (modèle à événements récurrents
avec censure indépendante à droite, et troncature aléatoire (dépendante) à droite à chaque
rang).
Une méthode d’estimation non paramétrique pour un tel système est disponible dans
[7]. Les estimations des fonctionnelles utiles du système de la figure 1 s’obtiennent par
sommation de celles associées aux états correspondants sur la figure 2. Elles intègrent
l’ensemble des parcours complets des individus dans le schéma multi-états. Les estimations des probabilités de transition entre états s’obtiennent par conditionnement sur un
sous-arbre de la figure 2.
On fournira plusieurs exemples issus de données d’études cliniques réelles.
4
Chemin 2
0
1
2
D
2&D
1&D
2
2
Chemin 6
0
1&D
1&D
Figure 3: Schémas multi-états utiles pour l’état d’intérêt 2
Bibliographie
[1] Andersen, P. K. (1988), Multi-state models in survival analysis : A study of nephropathy
and mortality in diabetes, Stat. Med., 7, 661–670
[2] Derzko G. & Leconte E. (2004) Estimation non paramétrique d’incidences d’événements
en compétition avec censure à droite, Journal de la Société Française de Statistique, à
paraı̂tre.
[3] Hougaard P. (2000) Analysis of Multivariate Survival Data, Springer-Verlag.
[4] Satten G. A. & Datta S. (2002), Marginal estimation for multi-stage models: waiting
time distributions and competing risks analyses, Stat. Med. 21:3, 3–19
[5] Gosh D. & Lin D. Y. (2000) Non parametric analysis of recurrent events and deaths,
Biometrics 56, 554–562
[6] Menjoge S. S. (2003) On estimation of frequency data with censored observations,
Pharmaceutical Statistics 2, 191–197
[7] Derzko G. & Leconte E. (2004) Estimation non paramétrique pour des événements
répétés et censurés aléatoirement à droite - Applications biomédicales, soumis pour publication.
5