Analyse de la variance Comparaison de plusieurs moyennes
Transcription
Analyse de la variance Comparaison de plusieurs moyennes
Introduction Théorie Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER ——————— Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg ——————— Mars 2011 Exemple Introduction Théorie Plan 1 Introduction 2 Théorie de l’Analyse de la Variance (ANOVA) 3 Application de l’ANOVA Exemple Introduction Théorie Plan 1 Introduction 2 Théorie de l’Analyse de la Variance (ANOVA) 3 Application de l’ANOVA Exemple Introduction Théorie Exemple Contexte Précédemment : Comparaison d’une moyenne à une moyenne de référence comparaison de deux moyennes observée par test z ou t Quid des cas où il y a plusieurs moyennes ? comparer l’effet de trois traitements A, B et C sur la cholestérolémie comparer l’expression d’un gène entre 4 stades de cancer comparer la durée de séjour entre 3 établissements hospitaliers ou plusieurs techniques opératoires comparer une protéine sérique entre tabagiques actifs, anciens tabagiques et non tabagiques Introduction Théorie Contexte • Soit un facteur F à J classes, de j = 1, . . . , J → traitement, stades de cancer, hôpitaux, techn. chir. • Soit une variable aléatoire X → cholestérolémie, niveau d’expression du gène, durée de séjours, • Comparaison des J moyennes µj • La question : existe-t-il au moins un groupe qui diffère des autres ? • µ0 = µ1 = · · · = µJ ? • ou µj 6= µj 0 pour au moins un couple (j , j 0 ) ? Exemple Introduction Théorie Exemple Contexte Donc, comparaison de différents groupes indépendants • une mauvaise solution : comparaisons deux à deux entre les groupes car : augmentation du risque α : si 4 groupes → 6 comparaisons de deux groupes risque de conclure à tort à au moins une différence = 1 − 0,956 = 0,265 au lieu de 0,05 mauvaise estimation de la variance sous H0 si H0 vraie, la meilleure estimation de la variance commune est faite sur l’ensemble des groupes simultanément Introduction Théorie Plan 1 Introduction 2 Théorie de l’Analyse de la Variance (ANOVA) 3 Application de l’ANOVA Exemple Introduction Théorie Théorème fondamental de la Variance Les éléments de base : soient une V.A. X , continue, distribuée suivant une loi de Gauss un facteur F constitué de J groupes avec nj sujets par groupe et N le nombre total de sujets xij la valeur de la mesure pour le sujet i du groupe j µ la moyenne générale inconnue (popo ) des valeurs de X µj la moyenne inconnue (popo ) des valeurs de X dans le groupe j αj l’écart entre la moyenne µj du groupe j et la moyenne générale µ : αj = µj − µ x̄j la moyenne observée dans le groupe j → aj = x̄j − x̄ un résidu εij = xij − µj estimé par eij Exemple Introduction Théorie Exemple Théorème fondamental de la Variance Le modèle théorique decrivant les données est : xij = µ + αj + εij le test de comparaison de moyennes implique sous H0 que les αj = 0, ∀j . dans ce cas, le facteur F n’a pas d’effet sur la variable X sous H1 , αj 6= 0 pour au moins un j : alors, le facteur F a un effet non nul sur la valeur de X données gaussiennes, sinon réaliser une transformation des valeurs pour normaliser les valeurs Introduction Théorie Décomposition de la variation totale A partir du modèle fondamental : xij xij xij − x̄ = µ + αj + εij = x̄ + aj + eij pour les valeurs observées = (x̄j − x̄ ) + (xij − x̄j ) où (xij − x̄j ) est un résidu eij estimant εij = modèle observé de l’ANOVA, pour un sujet i dans le groupe j . → les écarts entre les observations individuelles et la moyenne générale sont constitués des écarts des observations individuelles à la moyenne des groupes et des écarts de la moyenne des groupes à la moyenne générale. Exemple Introduction Théorie Exemple Décomposition de la variation totale Passage d’une unité statistique à l’ensemble des unités : xij − x̄ = (x̄j − x̄ ) + (xij − x̄j ) En élevant au carré et en sommant sur toutes les unités : nj J X X (xij − x̄ )2 = i=1 j =1 nj nj J J X X X X (x̄j − x̄ )2 + (xij − x̄j )2 i=1 j =1 i=1 j =1 J X nj J X X (xij − x̄j )2 soit : nj J X X i=1 j =1 (xij − x̄ )2 = j =1 [nj (x̄j − x̄ )2 ] + i=1 j =1 Introduction Théorie Exemple Décomposition de la variation totale L’équation fondamentale de la variance nj J X X 2 (xij − x̄ ) = i=1 j =1 J X 2 [nj (x̄j − x̄ ) ] + (xij − x̄j )2 i=1 j =1 j =1 1 nj J X X 2 3 Cette équation contient plusieurs sources de variations : une variation totale 1 une variation factorielle i.e. liée au facteur contrôlé 2 une variation résiduelle i.e. entre unités statistiques dans chacun des groupes 3 Introduction Théorie Décomposition de la variation totale Les moyennes ne diffèrent pas : la variabilité inter-groupes est proche de la variabilité intra-groupe Exemple Introduction Théorie Exemple Décomposition de la variation totale Les moyennes diffèrent : la variabilité inter-groupes est supérieure à la variabilité intra-groupe Introduction Théorie Exemple Décomposition de la variation totale Remarque L’équation ne contient pas de double produit car la somme des doubles produits est nulle en raison de la nullité de la somme des écarts par rapport à la moyenne En effet : 2 nj J X X i=1 j =1 (xij − x̄j )(x̄j − x̄ ) = 2 nj X i=1 (x̄j − x̄ ) J X j =1 (xij − x̄j ) = 0 Introduction Théorie Exemple Décomposition de la variation totale L’équation fondamentale de la variance nj J X X 2 (xij − x̄ ) = i=1 j =1 J X 2 [nj (x̄j − x̄ ) ] + (xij − x̄j )2 i=1 j =1 j =1 1 nj J X X 2 3 Cette équation contient plusieurs sources de variations : une variation totale 1 une variation factorielle ou liée au facteur contrôlé 2 une variation résiduelle = i.e. entre unités statistiques dans chacun des groupes 3 Introduction Théorie Les sources de variations Donc : variation totale = Somme des Carrés Totaux (SCET ) nj J X X (xij − x̄ )2 = i=1 j =1 variation factorielle = Somme des Carrés Factoriels (SCEF ) = J X [nj (x̄j − x̄ )2 ] j =1 variation résiduelle = Somme des Carrés Résiduels (SCER ) = nj J X X i=1 j =1 (xij − x¯j )2 Exemple Introduction Théorie Les sources de variations On a alors : SCET = SCEF + SCER On y associe des degrés de libertés : N − 1 = (J − 1) + (N − J ) Exemple Introduction Théorie Définition des carrés moyens • Les sommes des carrés des écarts peuvent être divisées par leur nombres de degré de liberté respectifs • on obtient alors : CMT = SCET /(N − 1) CMF = SCEF /(J − 1) CMR = SCER /(N − J ) Ces carrés moyens ont les propriétés de variances, notamment en ce qui concernent leur distribution d’échantillonage. Exemple Introduction Théorie Exemple Le tableau d’analyse de la variance : première partie Les données d’une analyse de la variance sont généralement présentées dans un tableau de la forme suivante : Sources de variation Degrés de liberté Sommes des carrés des écarts Carrés moyens diff. entre groupes diff. entre unités (dans les groupes) (= résiduelle) J-1 N-J SCEF SCER CMF CMR Total N-1 SCET Introduction Théorie Exemple Les tests statistiques associés Comment tester l’écart entre les moyennes à partir de ces éléments ? plusieurs moyennes et un test, H0 vs H1 des sommes de carrés d’écarts et leur distributions d’échantillonnage La solution : les sommes de carrés d’écart sont assimilables à des variances. sous H0 , les CMF et la CMR sont deux estimations différentes d’une même (( variance )) leur rapport est donc égal à 1 sous H0 leur comparaison se fait par leur rapport CMF /CMR si le rapport est trop grand, on rejette l’hypothèse d’égalité des moyennes Introduction Théorie Exemple Les tests statistiques associés • le rapport CMF /CMR est un rapport de variance, i.e. variance factorielle / variance résiduelle (rappel : le terme de variance est abusif mais utilisé partout et donc aussi ici, à partir de maintenant) • un rapport de variances suit une loi de Fisher F • donc pour tester l’écart de plusieurs moyennes : test de Fisher CMF → FJ −1;N −J CMR • ce qui permet donc de tester les écarts entre plusieurs moyennes simultanément ! Introduction Théorie Exemple Le tableau d’analyse de la variance : première partie Le tableau complet d’une ANOVA : Sources de variation Degrés de liberté Sommes des carrés des écarts Carrés moyens Test F p-valeur diff. entre groupes J −1 SCEF CMF CMF CMR p diff. entre N − J unités (résiduelle) SCER CMR N −1 SCET Total Introduction Théorie Retour sur le concept de l’ANOVA Plusieurs points : si plus de deux moyennes : ne pas faire de comparaisons deux à deux car estimation commune des variances sur plusieurs groupes sous H0 l’eqo . fondamentale de l’ANOVA : somme d’écart inter-groupes et d’écarts intra-groupes si pas de différence, la variabilité inter-groupes ≈ variabilité intra-groupes si l’un au moins des groupes s’éloigne des autres : l’écart des moyennes (inter-groupes) est supérieur à l’écart intra groupes Exemple Introduction Théorie Retour sur le concept de l’ANOVA Les moyennes ne diffèrent pas : la variabilité inter-groupes est proche de la variabilité intra-groupe Exemple Introduction Théorie Exemple Retour sur le concept de l’ANOVA Les moyennes diffèrent : la variabilité inter-groupes est supérieure à la variabilité intra-groupe Introduction Théorie Retour sur le concept de l’ANOVA on compare donc plusieurs variables en comparant des variances ! cette comparaison ⇒ test F de Fisher (ou Fisher-Snedecor) (ne pas confondre avec test exact de Fisher) test de rapport de variances, avec des ddl. si le rapport CMF /CMR est supérieur à la valeur seuil de la loi de F pour J − 1 et N − J ddl, on rejette H0 . Exemple Introduction Théorie Exemple Les calculs de l’ANOVA P • Calculs des moyennes : x̄j = n1j i xij P • Soit Tj = i xij la somme des xij dans le groupe j P • Soit Tj2 = ( i xij )2 le carré de la somme des xij dans le groupe j • Calcul des carrés moyens : Tj2 j nj P CMF = P ( j Tj )2 N J −1 P CMR = − xij2 − Tj2 j nj P N −J Introduction Théorie Plan 1 Introduction 2 Théorie de l’Analyse de la Variance (ANOVA) 3 Application de l’ANOVA Exemple Introduction Théorie Exemple On veut étudier l’effet de deux médicaments sur le taux de lymphocytes d’animaux de laboratoires. On construit un plan factoriel dans lequel il y a trois groupes d’animaux d’effectifs 10 animaux par groupe. On garde un des groupes comme témoin et l’on administre les médicaments A et B aux deux autres groupes. Exemple Introduction Théorie Exemple Exemples Valeurs observées (103 ) : Groupe témoin : 272 ; 193 ; 432 ; 259 ; 386 ; 349 ; 320 ; 247 ; 260 ; 478 ; Groupe traité par A : 468 ; 333 ; 375 ; 398 ; 534 ; 451 ; 474 ; 278 ; 255 ; 528 ; Groupe traité par B : 368 ; 290 ; 325 ; 298 ; 314 ; 350 ; 378 ; 321 ; 275 ; 401 ; Les données correspondent au modèle d’ANOVA : une variable de groupe, une variable continue dont on veut comparer les moyennes Introduction Théorie Exemple Exemple Descriptif des données : $Descriptif leuco Effectifs présents 30.000 Proportions de présents 100.000 Effectifs manquants 0.000 Proportions de manquants 0.000 Moyenne 353.667 Ecart-type 87.787 Variance 7706.644 Erreur standard (s.e.m) 16.302 Err. Std (basée sur l’ANOVA) NA groupes = 1 10.000 100.000 0.000 0.000 319.600 90.546 8198.489 28.633 25.541 groupes = 2 10.000 100.000 0.000 0.000 409.400 98.423 9687.156 31.124 25.541 groupes = 3 10.000 100.000 0.000 0.000 332.000 41.042 1684.444 12.979 25.541 Introduction Théorie Exemple Les valeurs : n1 = n2 = n3 = 10 x̄1 = 319.6, x̄2 = 409.4, x̄3 = 332.0 T1 = 3196, T2 = 4094, T3 = 3320 T12 = 31962 , T22 = 40942 , T32 = 33202 Exemple Introduction Théorie Exemple Exemple Résultats de l’analyse de la variance (logiciel R) : summary(aov(leuco~groupes)) Df Sum Sq Mean Sq F value Pr(>F) groupes 2 47362 23680.9 3.6302 0.04015 * Residuals 27 176131 6523.4 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1 Introduction Théorie SCE : SCEt = SCEA ddl : (30-1) = (3-1) Valeurs : Carrés Moyens : Exemple + SCEe + (30-3) 223492,7 = 47361,9 + 176130,8 CMA = 47361,9/2 = 23680,9 CM_R = 176130,8/27 = 6523,4 Rapport et test (CMA / CMe ) = 23680,9 / 6523,4 = 3,63 --> F calculé Valeur seuil F à 2 et 27 ddl = 3,354 Fobs < Fseuil d’où la conclusion : on rejette H0 et au moins un des groupes a une moyenne différente des deux autres groupes.