Analyse de la variance Comparaison de plusieurs moyennes

Transcription

Analyse de la variance Comparaison de plusieurs moyennes
Introduction
Théorie
Analyse de la variance
Comparaison de plusieurs moyennes
Biostatistique
Pr. Nicolas MEYER
———————
Laboratoire de Biostatistique et Informatique Médicale
Fac. de Médecine de Strasbourg
———————
Mars 2011
Exemple
Introduction
Théorie
Plan
1
Introduction
2
Théorie de l’Analyse de la Variance (ANOVA)
3
Application de l’ANOVA
Exemple
Introduction
Théorie
Plan
1
Introduction
2
Théorie de l’Analyse de la Variance (ANOVA)
3
Application de l’ANOVA
Exemple
Introduction
Théorie
Exemple
Contexte
Précédemment :
Comparaison d’une moyenne à une moyenne de référence
comparaison de deux moyennes observée
par test z ou t
Quid des cas où il y a plusieurs moyennes ?
comparer l’effet de trois traitements A, B et C sur la
cholestérolémie
comparer l’expression d’un gène entre 4 stades de cancer
comparer la durée de séjour entre 3 établissements hospitaliers
ou plusieurs techniques opératoires
comparer une protéine sérique entre tabagiques actifs, anciens
tabagiques et non tabagiques
Introduction
Théorie
Contexte
• Soit un facteur F à J classes, de j = 1, . . . , J
→ traitement, stades de cancer, hôpitaux, techn. chir.
• Soit une variable aléatoire X
→ cholestérolémie, niveau d’expression du gène, durée de séjours,
• Comparaison des J moyennes µj
• La question : existe-t-il au moins un groupe qui diffère des
autres ?
• µ0 = µ1 = · · · = µJ ?
• ou µj 6= µj 0 pour au moins un couple (j , j 0 ) ?
Exemple
Introduction
Théorie
Exemple
Contexte
Donc, comparaison de différents groupes indépendants
• une mauvaise solution : comparaisons deux à deux entre les
groupes car :
augmentation du risque α :
si 4 groupes → 6 comparaisons de deux groupes
risque de conclure à tort à au moins une différence
= 1 − 0,956 = 0,265 au lieu de 0,05
mauvaise estimation de la variance sous H0
si H0 vraie, la meilleure estimation de la variance commune est
faite sur l’ensemble des groupes simultanément
Introduction
Théorie
Plan
1
Introduction
2
Théorie de l’Analyse de la Variance (ANOVA)
3
Application de l’ANOVA
Exemple
Introduction
Théorie
Théorème fondamental de la Variance
Les éléments de base : soient
une V.A. X , continue, distribuée suivant une loi de Gauss
un facteur F constitué de J groupes avec nj sujets par
groupe et N le nombre total de sujets
xij la valeur de la mesure pour le sujet i du groupe j
µ la moyenne générale inconnue (popo ) des valeurs de X
µj la moyenne inconnue (popo ) des valeurs de X dans le
groupe j
αj l’écart entre la moyenne µj du groupe j et la moyenne
générale µ : αj = µj − µ
x̄j la moyenne observée dans le groupe j → aj = x̄j − x̄
un résidu εij = xij − µj estimé par eij
Exemple
Introduction
Théorie
Exemple
Théorème fondamental de la Variance
Le modèle théorique decrivant les données est :
xij = µ + αj + εij
le test de comparaison de moyennes implique sous H0 que les
αj = 0, ∀j .
dans ce cas, le facteur F n’a pas d’effet sur la variable X
sous H1 , αj 6= 0 pour au moins un j : alors, le facteur F a un
effet non nul sur la valeur de X
données gaussiennes, sinon réaliser une transformation des
valeurs pour normaliser les valeurs
Introduction
Théorie
Décomposition de la variation totale
A partir du modèle fondamental :
xij
xij
xij − x̄
= µ + αj + εij
= x̄ + aj + eij pour les valeurs observées
= (x̄j − x̄ ) + (xij − x̄j )
où (xij − x̄j ) est un résidu eij estimant εij
= modèle observé de l’ANOVA, pour un sujet i dans le groupe j .
→ les écarts entre les observations individuelles et la moyenne
générale sont constitués des écarts des observations individuelles à
la moyenne des groupes et des écarts de la moyenne des groupes à
la moyenne générale.
Exemple
Introduction
Théorie
Exemple
Décomposition de la variation totale
Passage d’une unité statistique à l’ensemble des unités :
xij − x̄ = (x̄j − x̄ ) + (xij − x̄j )
En élevant au carré et en sommant sur toutes les unités :
nj
J
X
X
(xij − x̄ )2 =
i=1 j =1
nj
nj
J
J
X
X
X
X
(x̄j − x̄ )2 +
(xij − x̄j )2
i=1 j =1
i=1 j =1
J
X
nj
J
X
X
(xij − x̄j )2
soit :
nj
J
X
X
i=1 j =1
(xij − x̄ )2 =
j =1
[nj (x̄j − x̄ )2 ] +
i=1 j =1
Introduction
Théorie
Exemple
Décomposition de la variation totale
L’équation fondamentale de la variance
nj
J
X
X
2
(xij − x̄ ) =
i=1 j =1
J
X
2
[nj (x̄j − x̄ ) ] +
(xij − x̄j )2
i=1 j =1
j =1
1
nj
J
X
X
2
3
Cette équation contient plusieurs sources de variations :
une variation totale 1
une variation factorielle i.e. liée au facteur contrôlé 2
une variation résiduelle i.e. entre unités statistiques dans
chacun des groupes 3
Introduction
Théorie
Décomposition de la variation totale
Les moyennes ne diffèrent pas : la variabilité inter-groupes est
proche de la variabilité intra-groupe
Exemple
Introduction
Théorie
Exemple
Décomposition de la variation totale
Les moyennes diffèrent : la variabilité inter-groupes est supérieure à
la variabilité intra-groupe
Introduction
Théorie
Exemple
Décomposition de la variation totale
Remarque
L’équation ne contient pas de double produit car la somme des
doubles produits est nulle en raison de la nullité de la somme des
écarts par rapport à la moyenne
En effet :
2
nj
J
X
X
i=1 j =1
(xij − x̄j )(x̄j − x̄ ) = 2
nj
X
i=1

(x̄j − x̄ )
J
X
j =1

(xij − x̄j ) = 0
Introduction
Théorie
Exemple
Décomposition de la variation totale
L’équation fondamentale de la variance
nj
J
X
X
2
(xij − x̄ ) =
i=1 j =1
J
X
2
[nj (x̄j − x̄ ) ] +
(xij − x̄j )2
i=1 j =1
j =1
1
nj
J
X
X
2
3
Cette équation contient plusieurs sources de variations :
une variation totale 1
une variation factorielle ou liée au facteur contrôlé 2
une variation résiduelle = i.e. entre unités statistiques dans
chacun des groupes 3
Introduction
Théorie
Les sources de variations
Donc :
variation totale = Somme des Carrés Totaux (SCET )
nj
J
X
X
(xij − x̄ )2
=
i=1 j =1
variation factorielle = Somme des Carrés Factoriels (SCEF )
=
J
X
[nj (x̄j − x̄ )2 ]
j =1
variation résiduelle = Somme des Carrés Résiduels (SCER )
=
nj
J
X
X
i=1 j =1
(xij − x¯j )2
Exemple
Introduction
Théorie
Les sources de variations
On a alors :
SCET = SCEF + SCER
On y associe des degrés de libertés :
N − 1 = (J − 1) + (N − J )
Exemple
Introduction
Théorie
Définition des carrés moyens
• Les sommes des carrés des écarts peuvent être divisées par leur
nombres de degré de liberté respectifs
• on obtient alors :
CMT = SCET /(N − 1)
CMF = SCEF /(J − 1)
CMR = SCER /(N − J )
Ces carrés moyens ont les propriétés de variances, notamment en
ce qui concernent leur distribution d’échantillonage.
Exemple
Introduction
Théorie
Exemple
Le tableau d’analyse de la variance : première partie
Les données d’une analyse de la variance sont généralement
présentées dans un tableau de la forme suivante :
Sources
de variation
Degrés
de liberté
Sommes des
carrés des écarts
Carrés
moyens
diff. entre groupes
diff. entre unités
(dans les groupes)
(= résiduelle)
J-1
N-J
SCEF
SCER
CMF
CMR
Total
N-1
SCET
Introduction
Théorie
Exemple
Les tests statistiques associés
Comment tester l’écart entre les moyennes à partir de ces
éléments ?
plusieurs moyennes et un test, H0 vs H1
des sommes de carrés d’écarts
et leur distributions d’échantillonnage
La solution :
les sommes de carrés d’écart sont assimilables à des variances.
sous H0 , les CMF et la CMR sont deux estimations
différentes d’une même (( variance ))
leur rapport est donc égal à 1 sous H0
leur comparaison se fait par leur rapport CMF /CMR
si le rapport est trop grand, on rejette l’hypothèse d’égalité
des moyennes
Introduction
Théorie
Exemple
Les tests statistiques associés
• le rapport CMF /CMR est un rapport de variance, i.e. variance
factorielle / variance résiduelle (rappel : le terme de variance est
abusif mais utilisé partout et donc aussi ici, à partir de maintenant)
• un rapport de variances suit une loi de Fisher F
• donc pour tester l’écart de plusieurs moyennes : test de Fisher
CMF
→ FJ −1;N −J
CMR
• ce qui permet donc de tester les écarts entre plusieurs moyennes
simultanément !
Introduction
Théorie
Exemple
Le tableau d’analyse de la variance : première partie
Le tableau complet d’une ANOVA :
Sources
de variation
Degrés de
liberté
Sommes
des carrés
des écarts
Carrés
moyens
Test F
p-valeur
diff. entre
groupes
J −1
SCEF
CMF
CMF
CMR
p
diff. entre N − J
unités
(résiduelle)
SCER
CMR
N −1
SCET
Total
Introduction
Théorie
Retour sur le concept de l’ANOVA
Plusieurs points :
si plus de deux moyennes : ne pas faire de comparaisons deux
à deux
car estimation commune des variances sur plusieurs groupes
sous H0
l’eqo . fondamentale de l’ANOVA : somme d’écart
inter-groupes et d’écarts intra-groupes
si pas de différence, la variabilité inter-groupes ≈ variabilité
intra-groupes
si l’un au moins des groupes s’éloigne des autres : l’écart des
moyennes (inter-groupes) est supérieur à l’écart intra groupes
Exemple
Introduction
Théorie
Retour sur le concept de l’ANOVA
Les moyennes ne diffèrent pas : la variabilité inter-groupes est
proche de la variabilité intra-groupe
Exemple
Introduction
Théorie
Exemple
Retour sur le concept de l’ANOVA
Les moyennes diffèrent : la variabilité inter-groupes est supérieure à
la variabilité intra-groupe
Introduction
Théorie
Retour sur le concept de l’ANOVA
on compare donc plusieurs variables
en comparant des variances !
cette comparaison ⇒ test F de Fisher (ou Fisher-Snedecor)
(ne pas confondre avec test exact de Fisher)
test de rapport de variances, avec des ddl.
si le rapport CMF /CMR est supérieur à la valeur seuil de la
loi de F pour J − 1 et N − J ddl, on rejette H0 .
Exemple
Introduction
Théorie
Exemple
Les calculs de l’ANOVA
P
• Calculs des moyennes : x̄j = n1j i xij
P
• Soit Tj = i xij la somme des xij dans le groupe j
P
• Soit Tj2 = ( i xij )2 le carré de la somme des xij dans le groupe
j
• Calcul des carrés moyens :
Tj2
j nj
P
CMF =
P
( j Tj )2
N
J −1
P
CMR =
−
xij2 −
Tj2
j nj
P
N −J
Introduction
Théorie
Plan
1
Introduction
2
Théorie de l’Analyse de la Variance (ANOVA)
3
Application de l’ANOVA
Exemple
Introduction
Théorie
Exemple
On veut étudier l’effet de deux médicaments sur le taux de
lymphocytes d’animaux de laboratoires. On construit un plan
factoriel dans lequel il y a trois groupes d’animaux d’effectifs 10
animaux par groupe. On garde un des groupes comme témoin et
l’on administre les médicaments A et B aux deux autres groupes.
Exemple
Introduction
Théorie
Exemple
Exemples
Valeurs observées (103 ) :
Groupe témoin
: 272 ; 193 ; 432 ; 259 ; 386 ; 349 ; 320 ; 247 ;
260 ; 478 ;
Groupe traité par A
: 468 ; 333 ; 375 ; 398 ; 534 ; 451 ; 474 ; 278 ;
255 ; 528 ;
Groupe traité par B
: 368 ; 290 ; 325 ; 298 ; 314 ; 350 ; 378 ; 321 ;
275 ; 401 ;
Les données correspondent au modèle d’ANOVA : une variable de
groupe, une variable continue dont on veut comparer les moyennes
Introduction
Théorie
Exemple
Exemple
Descriptif des données :
$Descriptif
leuco
Effectifs présents
30.000
Proportions de présents
100.000
Effectifs manquants
0.000
Proportions de manquants
0.000
Moyenne
353.667
Ecart-type
87.787
Variance
7706.644
Erreur standard (s.e.m)
16.302
Err. Std (basée sur l’ANOVA)
NA
groupes = 1
10.000
100.000
0.000
0.000
319.600
90.546
8198.489
28.633
25.541
groupes = 2
10.000
100.000
0.000
0.000
409.400
98.423
9687.156
31.124
25.541
groupes = 3
10.000
100.000
0.000
0.000
332.000
41.042
1684.444
12.979
25.541
Introduction
Théorie
Exemple
Les valeurs :
n1 = n2 = n3 = 10
x̄1 = 319.6, x̄2 = 409.4, x̄3 = 332.0
T1 = 3196, T2 = 4094, T3 = 3320
T12 = 31962 , T22 = 40942 , T32 = 33202
Exemple
Introduction
Théorie
Exemple
Exemple
Résultats de l’analyse de la variance (logiciel R) :
summary(aov(leuco~groupes))
Df Sum Sq Mean Sq F value Pr(>F)
groupes
2 47362 23680.9 3.6302 0.04015 *
Residuals
27 176131 6523.4
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Introduction
Théorie
SCE :
SCEt
=
SCEA
ddl :
(30-1)
=
(3-1)
Valeurs :
Carrés Moyens :
Exemple
+
SCEe
+ (30-3)
223492,7 = 47361,9 + 176130,8
CMA =
47361,9/2 = 23680,9
CM_R = 176130,8/27 = 6523,4
Rapport et test
(CMA / CMe ) = 23680,9 / 6523,4
= 3,63 --> F calculé
Valeur seuil F à 2 et 27 ddl = 3,354
Fobs < Fseuil d’où la conclusion : on rejette H0 et au moins un des
groupes a une moyenne différente des deux autres groupes.