Cours 6- Tests dans les modèles de durée I
Transcription
Cours 6- Tests dans les modèles de durée I
Cours 6- Tests dans les modèles de durée I- tests d’adéquation II- tests d’homogénéité III- tests de significativité des covariables dans un modèle avec covariable IV- tests de validation de l’hypothèse de HP I - Tests d’adéquation Objectif : on a supposé une forme pour la loi de la durée de vie, on veut la valider. Hypothèse simple : forme complètement spécifiée Hypothèse composite : forme paramétrique I- Tests d’adéquation 1- hypothèse simple Test : H 0 : F (t ) = F0 (t ) H1 : F (t ) ≠ F0 (t ) Au risque α Où F0 est une fdr spécifiée (suggérée par exemple par les procédures d’estimation) I- Tests d’adéquation 1- hypothèse simple Cas non censuré : Statistiques de test classiques : Dn = sup x∈R+ Fn ( x) − F0 ( x) Kolmogorov-Smirnov: Cramer-Von-Mises: W = n∫ Anderson-Darling: A = n∫ 2 n 2 n +∞ 0 +∞ 0 ( Fn ( x) − F0 ( x) ) 2 dF0 ( x) Fn ( x ) − F0 ( x) dF0 ( x) F0 ( x ) (1 − F0 ( x ) ) Loi des statistiques sous H0 : Quantiles asymptotiques tabulés Décision : on rejette H0 si la valeur de la stat stique dépasse le quantile d’ordre α lu dans la table. I- Tests d’adéquation 1- hypothèse simple Cas d’une censure aléatoire droite on remplace Fn par l’estimateur de Kaplan-Meier. La distribution des statistiques de tests dépend du processus de censure. Lorsque la censure est de type Koziol-Green la distribution asymptotique de la statistique de CVM est connue (Koziol-Green ,1976) . I- Tests d’adéquation 2 - hypothèse composite Test : H 0 : F (t ) ∈ { F (t ,θ ),θ ∈ Θ} H1 : F (t ) ∉ { F (t ,θ ),θ ∈ Θ} Problème: La distribution sous H0 des statistiques de test précédentes dépend généralement du paramètre inconnu θ 0 ; les tests sont donc infaisables en pratique Exception: famille exponentielle. Loi limite indépendante du paramètre. Quantiles asymptotiques tabulés dans le cas non censuré. I- Tests d’adéquation 3- test graphique des résidus de Cox-Snell Idée : si T suit un loi de fonction de hasard cumulé H(t), alors Y=H(T) suit une loi Exp(1). Mise en pratique : • On estime H dans le cadre (para ou semi-para) du modèle supposé par Ĥ On calcule Yi = Hˆ ( X i ) On estime la fonction de hasard cumulée des Yi de façon non paramétrique (Nelson). Soit Hˆ Y cet estimateur. Si le modèle est correct, Hˆ Y est à peu près égal au H d’une exponentielle de paramètre 1 (=1 bissectrice). • • I- Tests d’adéquation 5- test graphique des résidus de Cox-Snell t=rexp(100,3); d=rep(1,100) theta=100/sum(t) y=theta*t HY=basehaz(coxph(Surv(Hhat,d)~1) plot(HY[[2]],HY[[1]], type="s") II- Tests d’homogénéité 1- comparaison de deux échantillons Données: B : X 1B ,....., X nBB Test: nA + nB = n A : X 1A ,....., X nAA X (1) < ... < X ( n ) classement des observations H 0 : S A (t ) = S B (t ) H1 : S A (t ) ≠ S B (t ) Cas non censuré : tests de rang de Wilcoxon, Savage, MantelHaenzsel II- Tests d’homogénéité 1- comparaison de deux échantillons Statistiques : A RiA V = ∑ δ iWi M i − R i =1 i n Wi =poids M iA =nombre de morts dans le 1° échantillon à l’instant X (i ) RiA =nombre de sujets à risques dans le 1° échantillon juste avant X (i ) Ri = nombre de sujets à risques juste avant X (i ) Rq : RiA / Ri =espérance conditionnelle de M iA sachant les observations juste avant X (i ) , sous H0 II- Tests d’homogénéité 1- comparaison de deux échantillons Wi = Ri : test de Gehan : test du log-rank ou de mantel haenszel Wi = 1 W = i Wi = Ri : test de Tarone et Ware Rj i ∏R j =1 j +Mj : test de prentice La loi exacte sous H0 de la statistique est obtenue par des arguments de permutations, dès lors que la loi de la censure est la même dans les deux échantillons. II- Tests d’homogénéité 2- Un exemple : test de Gehan Exemple : loi asymptotique sous H0 de la statistique de test de Gehan On peut montrer que n n V = ∑U i* Z i ; U i* = ∑∑U ij ; i =1 j =1 i ≠ j 1 X (i ) > X ( j ) , δ j = 1 U ij = −1 X (i ) < X ( j ) , δ i = 1 0 sinon Interprétation : Le score est non nul lorsque de l’ordre des deux durées on peut conclure à un ordre sur les vraies durées (puisque la plus petite des deux correspond à une mort). II- Tests d’homogénéité 2- Un exemple : test de Gehan Hyp : La censure a même loi dans les deux échantillons Loi sous H0 de V : n V n n A B V% = → N (0,1) ,Var (U ) = U i* ² ∑ n(n − 1) i =1 Var (V ) Décision : V% ≥ q1−α / 2 ⇒ H 0 rejetée q1−α / 2 fractile d'ordre 1-α /2 de N(0,1) II- Tests d’homogénéité 3- extensions Adaptation des tests précédents au cas de p échantillons Tests paramétriques : tests d’exponentialité, tests de tendance Sous R : Le test d'une difference de survie statistiquement significative entre plusieurs sous-groupes ou echantillons se fait dans le logiciel R au moyen de la fonction survdiff du package survival. L'instruction de base pour un test sur un traitement est : survdiff(Surv(time,status)~treatment, data=mydata) (test du log-rank) survdiff(Surv(time,status)~treatment,data=mydata, rho=1) (test de Gehan) II- Tests d’homogénéité 3- extensions Test du log-rank d’une différence entre les groupes : xx=c(6,6,6,6,7,9,10,10,11,13,16,17,19,20,22,23,25,32,32,34,35,1,1,2,2,3,4 ,4,5,5,8,8,8,8,11,11,12,12,15,17,22,23) dd=c(1,1,1,0,1,0,1,0,0,1,1,0,0,0,1,1,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ,1,1,1,1,1); t=c(rep("T",21),rep("P",21)) survdiff(Surv(xx,dd)~t) Call: survdiff(formula = Surv(xx, dd) ~ t) N Observed Expected (O-E)^2/E (O-E)^2/V t=P 21 21 10.7 9.77 16.8 t=T 21 9 19.3 5.46 16.8 Chisq= 16.8 on 1 degrees of freedom, p= 4.17e-05 III- Tests de significativité d’une (ou d’un groupe de) variables dans un modèle avec covariables β Hypothèses : h(t / z ) ∈ h(t , z ,υ ) υ = ∈ R p , β ∈ R q , θ ∈ R r , r + q = p θ (h paramétrique) Test H0 : β = 0 H1 : β ≠ 0 Notations et rappels : βˆn (resp.υˆn ) = EMV de β (resp. v); ln =log-vrais. observable; sous de bonnes conditions : L n (υˆn − υ ) → N (0, Σ −1/ 2 (υ )) avec Σ(v) matrice de var-cov des coefficients, estimée par ˆΣ = − 1 ∂ ²ln (O ,..., O ,νˆ ) 1 n n n n ∂υk ∂υ j 1≤ k ≤ p ,1≤ j ≤ p III- Tests de significativité de variables dans un modèle avec covariables Test de Wald 1) Statistique de test : U W = n βˆn Σˆ β (υ ) Σˆ β (υ ) = bloc de dim q dans Σˆ n associé au vecteur βˆ (matrice de var-cov empirique de βˆn ) Loi sous H 0 : U W → N (0,1) Décision: UW ≥ q1−α / 2 ⇒ on rejette H 0 2) Statistique de test : ξW = nβˆn' Σ β (υ ) −1 βˆn Loi sous H 0 : ξW → χ ²(q) Décision: ξW ≥ χ12−α (q ) ⇒ on rejette H 0 III- Tests de significativité de variables dans un modèle avec covariables Rapport des maxima de vraisemblances Idée : On compare les deux valeurs de la fonction objectif suivant que l’on est sous H0 ou non; on rejette si l’écart entre les deux valeurs est trop grand Sous l’hypothèse générale : υn = arg maxυ∈Θ ln (O1 ,..., On ,υ ) Si l’on impose H0 : υˆ 0 = arg max l (O ,..., O ,υ ) ˆ n υ∈Θ n β =0 1 n Statistique de test: ξ RMV = 2 ln (O1 ,..., On ,υˆn ) − ln (O1 ,..., On ,υˆn 0 ) Loi sous H 0 : ξ RMV → χ ²(q ) Décision: ξ RMV ≥ χ12−α (q ) ⇒ on rejette H 0 III- Tests de significativité de variables dans un modèle avec covariables Test du score: Idée : si H0 est satisfaite, υˆn ≈ υˆn 0 donc ∂ ln (O1 ,..., On ,υˆn0 ) ≈ 0 ∂β ' 1 ∂ ∂ Statistique de test : ξ S = ln (O1 ,..., On ,υˆn0 ) Σ β (υˆn0 ) −1 ln (O1 ,..., On ,υˆn0 ) ∂β n ∂β Loi sous H 0 : ξ S → χ ²( p ) Décision : ξ S ≥ χ12−α ( p ) ⇒ on rejette H 0 Application aux données de Freireich : hp2=coxph(Surv(xx,dd)~t) summary(hp2) Call: coxph(formula = Surv(xx, dd) ~ t) n= 42 coef exp(coef) se(coef) z p tT -1.57 0.208 0.412 -3.81 0.00014 exp(coef) exp(-coef) lower .95 upper .95 tT 0.208 4.82 0.0925 0.466 Rsquare= 0.322 (max possible= 0.988 ) Likelihood ratio test= 16.4 on 1 df, p=5.26e-05 Wald test = 14.5 on 1 df, p=0.000138 Score (logrank) test = 17.2 on 1 df, p=3.28e-05 IV- Tests dans les modèles de HP Une fois estimé les paramètres sous l’hypothèse de HP, on peut se demander si le modèle de HP est adéquat. On utilise alors des tests pour • Valider l’hypothèse de HP. • Tester la forme fonctionnelle de l’influence d’une covariable, les autres covariables étant dans le modèle. • Tester la qualité de prévision du modèle. • Tester l’influence de chaque individu sur l’estimation des paramètres IV- Tests dans les modèles de HP 1- Validation de l’hypothèse de HP Modèle de HP ⇒ le rapport des taux de hasard entre deux sousensembles de valeurs des covariables est constant dans le temps. Trois méthodes possibles: Tests graphiques basés sur des estimateurs des fonctionnelles de survie Tests basés sur les résidus de Schoenfeld Tests basés sur les résidus de Cox-Snell (cf précédemment) IV- Tests dans les modèles de HP 1- Validation de l’hypothèse de HP Tests graphiques Pour les différents sous-ensembles de valeurs des covariables: tracer les graphes d’un estimateur de S(t/z) (Prentice ou Breslow) versus les temps de pannes : on doit obtenir des courbes proportionnelles Tracer les graphes d’un estimateur de H(t/z) (Breslow) ou de h(t/z) versus les temps de pannes : on doit obtenir des courbes translatées Tracer les graphes du rapport des estimateur de H(t/z) (Breslow) ou de h(t/z) versus les temps de pannes pour différentes valeurs des covariables: on doit obtenir des droites parallèles à l’axe des abscisses Pour plus de lisibilité, on peut lisser les estimations par des splines fonctionne bien lorsqu’on a peu de strates et un nombre suffisant d’individus, peu lisible lorsque l’on a beaucoup de strates (covariables continues) ou peu de données. IV- Tests dans les modèles de HP 1- Validation de l’hypothèse de HP Application aux données de Freireich : hp3=coxph(formula = Surv(xx, dd) ~ 1 + strata(t)) plot(survfit(hp3),lty=c(1,2), + ylim=c(.6, 1)) IV- Tests dans les modèles de HP 1- Validation de l’hypothèse de HP Résidu de Schoenfeld (1982) : pour chaque individu i, vecteur s i dont la j° composante mesure la différence entre la valeur de la covariable j pour l’individu i et une moyenne pondérée des valeurs de cette covariable sur l’ensemble des sujets à risque au temps d’observation de i. ( ) sij = δ i ( zij − z R (i ) j ) si = s ,..., sij ,...sip ' i1 z R ( i ) j = ∑ zkj pk ; k∈R ( i ) Ψ ( zk , βˆn ) pk = ∑ Ψ ( zk , βˆn ) (vraisemblance d’observer k) k∈R ( i ) Scaled Schoenfeld residuals: observées. si* = r Σˆ n si où r est le nombre de pannes IV- Tests dans les modèles de HP 1- Validation de l’hypothèse de HP On montre que ∑ sij = i ∂ ln ( βˆ ) = 0 ∂β j Les résidus de Schoenfeld sont des fonctionnelles de la différence entre les coefficient d’un modèle de HP et ceux d’un modèle de type HP, où les coefficients sont autorisés à varier dans le temps Correspondent à la contribution au score de chaque décès L’analyse des résidus de Schoenfeld permet de tester pour H 0 : β j (t ) = β j contre H1 : β j (t ) ≠ β j chaque covariable Zj: IV- Tests dans les modèles de HP 1- Validation de l’hypothèse de HP Idée : Supposons qu’il y ait un ou plusieurs coefficients dépendant du temps. On peut montrer que : sij* ≈ β j (t(i ) ) − β j Tests : Graphique : pour chaque covariable j, on trace sij* versus les temps de décès : les résidus doivent être répartis aléatoirement à l’intérieur d’une bande horizontale centrée en zero (indépendance). Si indépendance HP accepté. Pour plus de lisibilité, on lisse ces plots par des splines analytique : pour chaque covariable j on effectue la régression des résidus sur le temps : s* = at + ε et on teste la nullité de a ij i i HP accepté : res.c=cox.zph(hp2) plot(res.c) IV-2 Validation de la forme du lien: Test des résidus de martingales Test de résidus de martingales : permet de tester l’hypothèse de HP et le cas échéant la forme fonctionnelle d’une covariable, dans un modèle qui tient déjà compte des autres covariables. IV-2 Validation de la forme du lien: Test des résidus de martingales Résidu de Martingales : ∞ M i (t ) = N i (t ) − Λ (t ) = N i (t ) − Ψ ( zi , β ) ∫ Ri ( s)dH 0 ( s ) est une martingale 0 pour chaque individu i, on compare au temps xi le nombre de morts sur [O,xi] et le nombre espéré de mort sur [O,xi] sachant T>=t (excès de mort). On a : Mˆ i = δ i − Hˆ 0 ( xi )Ψ ( zi , βˆ ) Lorsque le modèle est vrai, Mˆ i Mˆ i ∈ ( −∞,1] est nul en moyenne, car E ( M i (t )) = 0 . Test graphique : le nuage des points ( zij , Mˆ i ) montre la forme fonctionnelle correcte de la relation entre la covariable Z j et la fonction de taux. Lorsque le lien est correct, on n’observe pas de tendance sur le graphe (cf slide précédent). res.m=residuals(hp2,type="martingale" ) IV-2 Validation de la forme du lien: Test des résidus de martingales Variante : résidus de déviance: renormalisation résidus de martingales, pour corriger leur asymétrie . Même fonction Les résidus de déviance sont compris entre 0 et 1. Valent 0 en HP IV-3 Recherche des observations influentes dans un modèle de HP Résidus du score : permet d’identifier les observations qui contribuent fortement à la détermination des paramètres du modèle. IV-4 Issues des tests Lorsque les tests relatifs à l’hypothèse de HP montrent que l’hypothèse n’est pas vérifiée, c’est que le modèle n’est pas multiplicatif et/ou des covariables dépendent du temps. Plusieurs solutions : - Changer de type de modèles (fraailty, modele de Aalen,…) - Si les covariables dépendent du temps, on peut Stratifier sur la (les) covariable responsable (intéractions). Cela revient à considérer que la baseline est différente suivant les valeurs de la covariable. Un tel modèle ne permet pas d’analyser l’effet de la covariable sur laquelle repose la stratification. partitionner le temps. Le modèle sera donc à HP par morceaux. Le choix parfois subjectif et arbitraire quelquefois. Utiiliser des modèles avec intéraction