Cours 6- Tests dans les modèles de durée I

Transcription

Cours 6- Tests dans les modèles de durée I
Cours 6- Tests dans les modèles de durée
I- tests d’adéquation
II- tests d’homogénéité
III- tests de significativité des covariables
dans un modèle avec covariable
IV- tests de validation de l’hypothèse de HP
I - Tests d’adéquation
Objectif : on a supposé une forme pour la loi
de la durée de vie, on veut la valider.
Hypothèse simple : forme complètement
spécifiée
Hypothèse composite : forme paramétrique
I- Tests d’adéquation
1- hypothèse simple
Test :
 H 0 : F (t ) = F0 (t )

 H1 : F (t ) ≠ F0 (t )
Au risque α
Où F0 est une fdr spécifiée (suggérée par exemple par les
procédures d’estimation)
I- Tests d’adéquation
1- hypothèse simple
Cas non censuré :
Statistiques de test classiques :
Dn = sup x∈R+ Fn ( x) − F0 ( x)
Kolmogorov-Smirnov:
Cramer-Von-Mises:
W = n∫
Anderson-Darling:
A = n∫
2
n
2
n
+∞
0
+∞
0
( Fn ( x) − F0 ( x) )
2
dF0 ( x)
Fn ( x ) − F0 ( x)
dF0 ( x)
F0 ( x ) (1 − F0 ( x ) )
Loi des statistiques sous H0 : Quantiles asymptotiques tabulés
Décision : on rejette H0 si la valeur de la stat stique dépasse le
quantile d’ordre α lu dans la table.
I- Tests d’adéquation
1- hypothèse simple
Cas d’une censure aléatoire droite
on remplace Fn par l’estimateur de Kaplan-Meier. La
distribution des statistiques de tests dépend du processus de
censure.
Lorsque la censure est de type Koziol-Green la distribution
asymptotique de la statistique de CVM est connue (Koziol-Green
,1976) .
I- Tests d’adéquation
2 - hypothèse composite
Test :
 H 0 : F (t ) ∈ { F (t ,θ ),θ ∈ Θ}

 H1 : F (t ) ∉ { F (t ,θ ),θ ∈ Θ}
Problème: La distribution sous H0 des statistiques de test
précédentes dépend généralement du paramètre inconnu θ 0 ; les
tests sont donc infaisables en pratique
Exception: famille exponentielle. Loi limite indépendante du
paramètre. Quantiles asymptotiques tabulés dans le cas non
censuré.
I- Tests d’adéquation
3- test graphique des résidus de Cox-Snell
Idée : si T suit un loi de fonction de hasard cumulé H(t), alors Y=H(T)
suit une loi Exp(1).
Mise en pratique :
•
On estime H dans le cadre (para ou semi-para) du modèle supposé par
Ĥ
On calcule Yi = Hˆ ( X i )
On estime la fonction de hasard cumulée des Yi de façon non
paramétrique (Nelson). Soit Hˆ Y
cet estimateur.
Si le modèle est correct, Hˆ Y est à peu près égal au H d’une
exponentielle de paramètre 1 (=1 bissectrice).
•
•
I- Tests d’adéquation
5- test graphique des résidus de Cox-Snell
t=rexp(100,3); d=rep(1,100)
theta=100/sum(t)
y=theta*t
HY=basehaz(coxph(Surv(Hhat,d)~1)
plot(HY[[2]],HY[[1]], type="s")
II- Tests d’homogénéité
1- comparaison de deux échantillons
Données:
B : X 1B ,....., X nBB
Test:
nA + nB = n
A : X 1A ,....., X nAA
X (1) < ... < X ( n ) classement des observations
 H 0 : S A (t ) = S B (t )

 H1 : S A (t ) ≠ S B (t )
Cas non censuré : tests de rang de Wilcoxon, Savage, MantelHaenzsel
II- Tests d’homogénéité
1- comparaison de deux échantillons
Statistiques :
 A RiA 
V = ∑ δ iWi  M i −

R
i =1
i 

n
Wi =poids
M iA =nombre de morts dans le 1° échantillon à l’instant X (i )
RiA =nombre de sujets à risques dans le 1° échantillon juste
avant X (i )
Ri = nombre de sujets à risques juste avant X (i )
Rq : RiA / Ri =espérance conditionnelle de M iA sachant les
observations juste avant X (i ) , sous H0
II- Tests d’homogénéité
1- comparaison de deux échantillons
Wi = Ri : test de Gehan
: test du log-rank ou de mantel haenszel
Wi = 1
W =
i
Wi =
Ri : test de Tarone et Ware
Rj
i
∏R
j =1
j
+Mj
: test de prentice
La loi exacte sous H0 de la statistique est obtenue par des arguments de
permutations, dès lors que la loi de la censure est la même dans les
deux échantillons.
II- Tests d’homogénéité
2- Un exemple : test de Gehan
Exemple : loi asymptotique sous H0 de la statistique de test de
Gehan
On peut montrer que
n
n
V = ∑U i* Z i ; U i* = ∑∑U ij ;
i =1
j =1 i ≠ j
 1 X (i ) > X ( j ) , δ j = 1

U ij = −1 X (i ) < X ( j ) , δ i = 1
0
sinon

Interprétation : Le score est non nul lorsque de l’ordre des deux
durées on peut conclure à un ordre sur les vraies durées
(puisque la plus petite des deux correspond à une mort).
II- Tests d’homogénéité
2- Un exemple : test de Gehan
Hyp : La censure a même loi dans les deux échantillons
Loi sous H0 de V :
n
V
n
n
A
B
V% =
→ N (0,1) ,Var (U ) =
U i* ²
∑
n(n − 1) i =1
Var (V )
Décision :
V% ≥ q1−α / 2 ⇒ H 0 rejetée
q1−α / 2 fractile d'ordre 1-α /2 de N(0,1)
II- Tests d’homogénéité
3- extensions
Adaptation des tests précédents au cas de p échantillons
Tests paramétriques : tests d’exponentialité, tests de tendance
Sous R : Le test d'une difference de survie statistiquement significative
entre plusieurs sous-groupes ou echantillons se fait dans le logiciel R au
moyen de la fonction survdiff du package survival. L'instruction de base
pour un test sur un traitement est :
survdiff(Surv(time,status)~treatment, data=mydata) (test du log-rank)
survdiff(Surv(time,status)~treatment,data=mydata, rho=1) (test de Gehan)
II- Tests d’homogénéité
3- extensions
Test du log-rank d’une différence entre les groupes :
xx=c(6,6,6,6,7,9,10,10,11,13,16,17,19,20,22,23,25,32,32,34,35,1,1,2,2,3,4
,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23)
dd=c(1,1,1,0,1,0,1,0,0,1,1,0,0,0,1,1,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1
,1,1,1,1,1); t=c(rep("T",21),rep("P",21))
survdiff(Surv(xx,dd)~t)
Call:
survdiff(formula = Surv(xx, dd) ~ t)
N Observed Expected (O-E)^2/E (O-E)^2/V
t=P 21
21 10.7 9.77 16.8
t=T 21
9 19.3 5.46 16.8
Chisq= 16.8 on 1 degrees of freedom, p= 4.17e-05
III- Tests de significativité d’une (ou d’un groupe de)
variables dans un modèle avec covariables
β 
Hypothèses : h(t / z ) ∈ h(t , z ,υ ) υ =   ∈ R p , β ∈ R q , θ ∈ R r , r + q = p
θ 
(h paramétrique)
Test
H0 : β = 0

 H1 : β ≠ 0
Notations et rappels : βˆn (resp.υˆn ) = EMV de β (resp. v);
ln =log-vrais. observable; sous de bonnes conditions :
L
n (υˆn − υ ) 
→ N (0, Σ −1/ 2 (υ ))
avec Σ(v) matrice de var-cov des coefficients, estimée
par


ˆΣ = − 1  ∂ ²ln (O ,..., O ,νˆ ) 
1
n
n
n
n  ∂υk ∂υ j

1≤ k ≤ p ,1≤ j ≤ p
III- Tests de significativité de variables
dans un modèle avec covariables
Test de Wald
1)
Statistique de test : U W =
n βˆn
Σˆ β (υ )
Σˆ β (υ ) = bloc de dim q dans Σˆ n associé au vecteur βˆ
(matrice de var-cov empirique de βˆn )
Loi sous H 0 : U W → N (0,1)
Décision: UW ≥ q1−α / 2 ⇒ on rejette H 0
2)
Statistique de test : ξW = nβˆn' Σ β (υ ) −1 βˆn
Loi sous H 0 : ξW → χ ²(q)
Décision: ξW ≥ χ12−α (q ) ⇒ on rejette H 0
III- Tests de significativité de variables
dans un modèle avec covariables
Rapport des maxima de vraisemblances
Idée : On compare les deux valeurs de la fonction objectif suivant que l’on est sous
H0 ou non; on rejette si l’écart entre les deux valeurs est trop grand
Sous l’hypothèse générale : υn = arg maxυ∈Θ ln (O1 ,..., On ,υ )
Si l’on impose H0 :
υˆ 0 = arg max l (O ,..., O ,υ )
ˆ
n
υ∈Θ n
β =0
1
n
Statistique de test: ξ RMV = 2 ln (O1 ,..., On ,υˆn ) − ln (O1 ,..., On ,υˆn 0 ) 
Loi sous H 0 : ξ RMV → χ ²(q )
Décision: ξ RMV ≥ χ12−α (q ) ⇒ on rejette H 0
III- Tests de significativité de variables
dans un modèle avec covariables
Test du score:
Idée : si H0 est satisfaite, υˆn ≈ υˆn 0
donc
∂
ln (O1 ,..., On ,υˆn0 ) ≈ 0
∂β
'

1 ∂
∂
Statistique de test : ξ S = 
ln (O1 ,..., On ,υˆn0 )  Σ β (υˆn0 ) −1
ln (O1 ,..., On ,υˆn0 )
∂β
n  ∂β

Loi sous H 0 : ξ S → χ ²( p )
Décision : ξ S ≥ χ12−α ( p ) ⇒ on rejette H 0
Application aux données de Freireich :
hp2=coxph(Surv(xx,dd)~t)
summary(hp2)
Call:
coxph(formula = Surv(xx, dd) ~ t)
n= 42
coef exp(coef) se(coef) z
p
tT -1.57 0.208 0.412 -3.81 0.00014
exp(coef) exp(-coef) lower .95 upper .95
tT 0.208
4.82 0.0925 0.466
Rsquare= 0.322 (max possible= 0.988 )
Likelihood ratio test= 16.4 on 1 df, p=5.26e-05
Wald test
= 14.5 on 1 df, p=0.000138
Score (logrank) test = 17.2 on 1 df, p=3.28e-05
IV- Tests dans les modèles de HP
Une fois estimé les paramètres sous l’hypothèse de HP, on peut
se demander si le modèle de HP est adéquat. On utilise alors des
tests pour
• Valider l’hypothèse de HP.
• Tester la forme fonctionnelle de l’influence d’une covariable, les
autres covariables étant dans le modèle.
• Tester la qualité de prévision du modèle.
• Tester l’influence de chaque individu sur l’estimation des
paramètres
IV- Tests dans les modèles de HP
1- Validation de l’hypothèse de HP
Modèle de HP ⇒ le rapport des taux de hasard entre deux sousensembles de valeurs des covariables est constant dans le temps.
Trois méthodes possibles:
Tests graphiques basés sur des estimateurs des
fonctionnelles de survie
Tests basés sur les résidus de Schoenfeld
Tests basés sur les résidus de Cox-Snell (cf précédemment)
IV- Tests dans les modèles de HP
1- Validation de l’hypothèse de HP
Tests graphiques
Pour les différents sous-ensembles de valeurs des covariables:
tracer les graphes d’un estimateur de S(t/z) (Prentice ou Breslow) versus
les temps de pannes : on doit obtenir des courbes proportionnelles
Tracer les graphes d’un estimateur de H(t/z) (Breslow) ou de h(t/z) versus
les temps de pannes : on doit obtenir des courbes translatées
Tracer les graphes du rapport des estimateur de H(t/z) (Breslow) ou de
h(t/z) versus les temps de pannes pour différentes valeurs des covariables:
on doit obtenir des droites parallèles à l’axe des abscisses
Pour plus de lisibilité, on peut lisser les estimations par des
splines
fonctionne bien lorsqu’on a peu de strates et un nombre
suffisant d’individus, peu lisible lorsque l’on a beaucoup de
strates (covariables continues) ou peu de données.
IV- Tests dans les modèles de HP
1- Validation de l’hypothèse de HP
Application aux données de
Freireich :
hp3=coxph(formula = Surv(xx, dd)
~ 1 + strata(t))
plot(survfit(hp3),lty=c(1,2),
+ ylim=c(.6, 1))
IV- Tests dans les modèles de HP
1- Validation de l’hypothèse de HP
Résidu de Schoenfeld (1982) : pour chaque individu i, vecteur s
i
dont la j° composante mesure la différence entre la valeur de la
covariable j pour l’individu i et une moyenne pondérée des valeurs de
cette covariable sur l’ensemble des sujets à risque au temps
d’observation de i.
(
)
sij = δ i ( zij − z R (i ) j )
si = s ,..., sij ,...sip '
i1
z R ( i ) j = ∑ zkj pk ;
k∈R ( i )
Ψ ( zk , βˆn )
pk =
∑ Ψ ( zk , βˆn )
(vraisemblance d’observer k)
k∈R ( i )
Scaled Schoenfeld residuals:
observées.
si* = r Σˆ n si
où r est le nombre de pannes
IV- Tests dans les modèles de HP
1- Validation de l’hypothèse de HP
On montre que
∑ sij =
i
∂
ln ( βˆ ) = 0
∂β j
Les résidus de Schoenfeld sont des fonctionnelles de la
différence entre les coefficient d’un modèle de HP et ceux d’un
modèle de type HP, où les coefficients sont autorisés à varier
dans le temps
Correspondent à la contribution au score de chaque décès
L’analyse des résidus de Schoenfeld permet de tester pour
H 0 : β j (t ) = β j contre H1 : β j (t ) ≠ β j
chaque covariable Zj:
IV- Tests dans les modèles de HP
1- Validation de l’hypothèse de HP
Idée : Supposons qu’il y ait un ou plusieurs coefficients dépendant du
temps. On peut montrer que :
sij* ≈ β j (t(i ) ) − β j
Tests :
Graphique : pour chaque covariable j, on trace sij*
versus les
temps de décès : les résidus doivent être répartis aléatoirement à
l’intérieur d’une bande horizontale centrée en zero (indépendance).
Si indépendance HP accepté. Pour plus de lisibilité, on lisse ces
plots par des splines
analytique : pour chaque covariable j on effectue la régression des
résidus sur le temps : s* = at + ε
et on teste la nullité de a
ij
i
i
HP accepté :
res.c=cox.zph(hp2)
plot(res.c)
IV-2 Validation de la forme du lien: Test
des résidus de martingales
Test de résidus de martingales : permet de tester l’hypothèse de
HP et le cas échéant la forme fonctionnelle d’une covariable,
dans un modèle qui tient déjà compte des autres covariables.
IV-2 Validation de la forme du lien: Test
des résidus de martingales
Résidu de Martingales :
∞
M i (t ) = N i (t ) − Λ (t ) = N i (t ) − Ψ ( zi , β ) ∫ Ri ( s)dH 0 ( s ) est une martingale
0
pour chaque individu i, on compare au temps xi le nombre de morts sur
[O,xi] et le nombre espéré de mort sur [O,xi] sachant T>=t (excès de mort).
On a :
Mˆ i = δ i − Hˆ 0 ( xi )Ψ ( zi , βˆ )
Lorsque le modèle est vrai, Mˆ i
Mˆ i ∈ ( −∞,1]
est nul en moyenne, car E ( M i (t )) = 0
.
Test graphique : le nuage des points ( zij , Mˆ i ) montre la forme fonctionnelle
correcte de la relation entre la covariable Z j et la fonction de taux.
Lorsque le lien est correct, on n’observe pas de tendance sur le graphe (cf
slide précédent).
res.m=residuals(hp2,type="martingale"
)
IV-2 Validation de la forme du lien: Test
des résidus de martingales
Variante : résidus de déviance: renormalisation résidus de
martingales, pour corriger leur asymétrie . Même fonction
Les résidus de déviance sont compris entre 0 et 1.
Valent 0 en HP
IV-3 Recherche des observations
influentes dans un modèle de HP
Résidus du score : permet d’identifier les observations qui
contribuent fortement à la détermination des paramètres du
modèle.
IV-4 Issues des tests
Lorsque les tests relatifs à l’hypothèse de HP montrent que l’hypothèse
n’est pas vérifiée, c’est que le modèle n’est pas multiplicatif et/ou des
covariables dépendent du temps. Plusieurs solutions :
- Changer de type de modèles (fraailty, modele de Aalen,…)
- Si les covariables dépendent du temps, on peut
Stratifier sur la (les) covariable responsable (intéractions). Cela revient
à considérer que la baseline est différente suivant les valeurs de la
covariable. Un tel modèle ne permet pas d’analyser l’effet de la
covariable sur laquelle repose la stratification.
partitionner le temps. Le modèle sera donc à HP par morceaux. Le
choix parfois subjectif et arbitraire quelquefois.
Utiiliser des modèles avec intéraction

Documents pareils