Analyse de la variance Comparaison de plusieurs moyennes

Transcription

Introduction
Théorie
Analyse de la variance
Comparaison de plusieurs moyennes
Biostatistique
Pr. Nicolas MEYER
———————
Laboratoire de Biostatistique et Informatique Médicale
Fac. de Médecine de Strasbourg
———————
Mars 2011
Exemple
Introduction
Théorie
Plan
1
Introduction
2
Théorie de l’Analyse de la Variance (ANOVA)
3
Application de l’ANOVA
Exemple
Introduction
Théorie
Plan
1
Introduction
2
3
Exemple
Introduction
Théorie
Exemple
Contexte
Précédemment :
Comparaison d’une moyenne à une moyenne de référence
comparaison de deux moyennes observée
par test z ou t
Quid des cas où il y a plusieurs moyennes ?
comparer l’effet de trois traitements A, B et C sur la
cholestérolémie
comparer l’expression d’un gène entre 4 stades de cancer
comparer la durée de séjour entre 3 établissements hospitaliers
ou plusieurs techniques opératoires
comparer une protéine sérique entre tabagiques actifs, anciens
tabagiques et non tabagiques
Introduction
Théorie
Contexte
• Soit un facteur F à J classes, de j = 1, . . . , J
→ traitement, stades de cancer, hôpitaux, techn. chir.
• Soit une variable aléatoire X
→ cholestérolémie, niveau d’expression du gène, durée de séjours,
• Comparaison des J moyennes µj
• La question : existe-t-il au moins un groupe qui diffère des
autres ?
• µ0 = µ1 = · · · = µJ ?
• ou µj 6= µj 0 pour au moins un couple (j , j 0 ) ?
Exemple
Introduction
Théorie
Exemple
Contexte
Donc, comparaison de différents groupes indépendants
• une mauvaise solution : comparaisons deux à deux entre les
groupes car :
augmentation du risque α :
si 4 groupes → 6 comparaisons de deux groupes
risque de conclure à tort à au moins une différence
= 1 − 0,956 = 0,265 au lieu de 0,05
mauvaise estimation de la variance sous H0
si H0 vraie, la meilleure estimation de la variance commune est
faite sur l’ensemble des groupes simultanément
Introduction
Théorie
Plan
1
Introduction
2
3
Exemple
Introduction
Théorie
Théorème fondamental de la Variance
Les éléments de base : soient
une V.A. X , continue, distribuée suivant une loi de Gauss
un facteur F constitué de J groupes avec nj sujets par
groupe et N le nombre total de sujets
xij la valeur de la mesure pour le sujet i du groupe j
µ la moyenne générale inconnue (popo ) des valeurs de X
µj la moyenne inconnue (popo ) des valeurs de X dans le
groupe j
αj l’écart entre la moyenne µj du groupe j et la moyenne
générale µ : αj = µj − µ
x̄j la moyenne observée dans le groupe j → aj = x̄j − x̄
un résidu εij = xij − µj estimé par eij
Exemple
Introduction
Théorie
Exemple
Théorème fondamental de la Variance
Le modèle théorique decrivant les données est :
xij = µ + αj + εij
le test de comparaison de moyennes implique sous H0 que les
αj = 0, ∀j .
dans ce cas, le facteur F n’a pas d’effet sur la variable X
sous H1 , αj 6= 0 pour au moins un j : alors, le facteur F a un
effet non nul sur la valeur de X
données gaussiennes, sinon réaliser une transformation des
valeurs pour normaliser les valeurs
Introduction
Théorie
Décomposition de la variation totale
A partir du modèle fondamental :
xij
xij
xij − x̄
= µ + αj + εij
= x̄ + aj + eij pour les valeurs observées
= (x̄j − x̄ ) + (xij − x̄j )
où (xij − x̄j ) est un résidu eij estimant εij
= modèle observé de l’ANOVA, pour un sujet i dans le groupe j .
→ les écarts entre les observations individuelles et la moyenne
générale sont constitués des écarts des observations individuelles à
la moyenne des groupes et des écarts de la moyenne des groupes à
la moyenne générale.
Exemple
Introduction
Théorie
Exemple
Passage d’une unité statistique à l’ensemble des unités :
xij − x̄ = (x̄j − x̄ ) + (xij − x̄j )
En élevant au carré et en sommant sur toutes les unités :
nj
J
X
X
(xij − x̄ )2 =
i=1 j =1
nj
nj
J
J
X
X
X
X
(x̄j − x̄ )2 +
(xij − x̄j )2
i=1 j =1
i=1 j =1
J
X
nj
J
X
X
(xij − x̄j )2
soit :
nj
J
X
X
i=1 j =1
(xij − x̄ )2 =
j =1
[nj (x̄j − x̄ )2 ] +
i=1 j =1
Introduction
Théorie
Exemple
L’équation fondamentale de la variance
nj
J
X
X
2
(xij − x̄ ) =
i=1 j =1
J
X
2
[nj (x̄j − x̄ ) ] +
(xij − x̄j )2
i=1 j =1
j =1
1
nj
J
X
X
2
3
Cette équation contient plusieurs sources de variations :
une variation totale 1
une variation factorielle i.e. liée au facteur contrôlé 2
une variation résiduelle i.e. entre unités statistiques dans
chacun des groupes 3
Introduction
Théorie
Les moyennes ne diffèrent pas : la variabilité inter-groupes est
proche de la variabilité intra-groupe
Exemple
Introduction
Théorie
Exemple
Les moyennes diffèrent : la variabilité inter-groupes est supérieure à
la variabilité intra-groupe
Introduction
Théorie
Exemple
Remarque
L’équation ne contient pas de double produit car la somme des
doubles produits est nulle en raison de la nullité de la somme des
écarts par rapport à la moyenne
En effet :
2
nj
J
X
X
i=1 j =1
(xij − x̄j )(x̄j − x̄ ) = 2
nj
X
i=1

(x̄j − x̄ )
J
X
j =1

(xij − x̄j ) = 0
Introduction
Théorie
Exemple
L’équation fondamentale de la variance
nj
J
X
X
2
(xij − x̄ ) =
i=1 j =1
J
X
2
[nj (x̄j − x̄ ) ] +
(xij − x̄j )2
i=1 j =1
j =1
1
nj
J
X
X
2
3
Cette équation contient plusieurs sources de variations :
une variation totale 1
une variation factorielle ou liée au facteur contrôlé 2
une variation résiduelle = i.e. entre unités statistiques dans
chacun des groupes 3
Introduction
Théorie
Les sources de variations
Donc :
variation totale = Somme des Carrés Totaux (SCET )
nj
J
X
X
(xij − x̄ )2
=
i=1 j =1
variation factorielle = Somme des Carrés Factoriels (SCEF )
=
J
X
[nj (x̄j − x̄ )2 ]
j =1
variation résiduelle = Somme des Carrés Résiduels (SCER )
=
nj
J
X
X
i=1 j =1
(xij − x¯j )2
Exemple
Introduction
Théorie
Les sources de variations
On a alors :
SCET = SCEF + SCER
On y associe des degrés de libertés :
N − 1 = (J − 1) + (N − J )
Exemple
Introduction
Théorie
Définition des carrés moyens
• Les sommes des carrés des écarts peuvent être divisées par leur
nombres de degré de liberté respectifs
• on obtient alors :
CMT = SCET /(N − 1)
CMF = SCEF /(J − 1)
CMR = SCER /(N − J )
Ces carrés moyens ont les propriétés de variances, notamment en
ce qui concernent leur distribution d’échantillonage.
Exemple
Introduction
Théorie
Exemple
Le tableau d’analyse de la variance : première partie
Les données d’une analyse de la variance sont généralement
présentées dans un tableau de la forme suivante :
Sources
de variation
Degrés
de liberté
Sommes des
carrés des écarts
Carrés
moyens
diff. entre groupes
diff. entre unités
(dans les groupes)
(= résiduelle)
J-1
N-J
SCEF
SCER
CMF
CMR
Total
N-1
SCET
Introduction
Théorie
Exemple
Les tests statistiques associés
Comment tester l’écart entre les moyennes à partir de ces
éléments ?
plusieurs moyennes et un test, H0 vs H1
des sommes de carrés d’écarts
et leur distributions d’échantillonnage
La solution :
les sommes de carrés d’écart sont assimilables à des variances.
sous H0 , les CMF et la CMR sont deux estimations
différentes d’une même (( variance ))
leur rapport est donc égal à 1 sous H0
leur comparaison se fait par leur rapport CMF /CMR
si le rapport est trop grand, on rejette l’hypothèse d’égalité
des moyennes
Introduction
Théorie
Exemple
Les tests statistiques associés
• le rapport CMF /CMR est un rapport de variance, i.e. variance
factorielle / variance résiduelle (rappel : le terme de variance est
abusif mais utilisé partout et donc aussi ici, à partir de maintenant)
• un rapport de variances suit une loi de Fisher F
• donc pour tester l’écart de plusieurs moyennes : test de Fisher
CMF
→ FJ −1;N −J
CMR
• ce qui permet donc de tester les écarts entre plusieurs moyennes
simultanément !
Introduction
Théorie
Exemple
Le tableau d’analyse de la variance : première partie
Le tableau complet d’une ANOVA :
Sources
de variation
Degrés de
liberté
Sommes
des carrés
des écarts
Carrés
moyens
Test F
p-valeur
diff. entre
groupes
J −1
SCEF
CMF
CMF
CMR
p
diff. entre N − J
unités
(résiduelle)
SCER
CMR
N −1
SCET
Total
Introduction
Théorie
Retour sur le concept de l’ANOVA
Plusieurs points :
si plus de deux moyennes : ne pas faire de comparaisons deux
à deux
car estimation commune des variances sur plusieurs groupes
sous H0
l’eqo . fondamentale de l’ANOVA : somme d’écart
inter-groupes et d’écarts intra-groupes
si pas de différence, la variabilité inter-groupes ≈ variabilité
intra-groupes
si l’un au moins des groupes s’éloigne des autres : l’écart des
moyennes (inter-groupes) est supérieur à l’écart intra groupes
Exemple
Introduction
Théorie
Les moyennes ne diffèrent pas : la variabilité inter-groupes est
proche de la variabilité intra-groupe
Exemple
Introduction
Théorie
Exemple
Les moyennes diffèrent : la variabilité inter-groupes est supérieure à
la variabilité intra-groupe
Introduction
Théorie
on compare donc plusieurs variables
en comparant des variances !
cette comparaison ⇒ test F de Fisher (ou Fisher-Snedecor)
(ne pas confondre avec test exact de Fisher)
test de rapport de variances, avec des ddl.
si le rapport CMF /CMR est supérieur à la valeur seuil de la
loi de F pour J − 1 et N − J ddl, on rejette H0 .
Exemple
Introduction
Théorie
Exemple
Les calculs de l’ANOVA
P
• Calculs des moyennes : x̄j = n1j i xij
P
• Soit Tj = i xij la somme des xij dans le groupe j
P
• Soit Tj2 = ( i xij )2 le carré de la somme des xij dans le groupe
j
• Calcul des carrés moyens :
Tj2
j nj
P
CMF =
P
( j Tj )2
N
J −1
P
CMR =
−
xij2 −
Tj2
j nj
P
N −J
Introduction
Théorie
Plan
1
Introduction
2
3
Exemple
Introduction
Théorie
Exemple
On veut étudier l’effet de deux médicaments sur le taux de
lymphocytes d’animaux de laboratoires. On construit un plan
factoriel dans lequel il y a trois groupes d’animaux d’effectifs 10
animaux par groupe. On garde un des groupes comme témoin et
l’on administre les médicaments A et B aux deux autres groupes.
Exemple
Introduction
Théorie
Exemple
Exemples
Valeurs observées (103 ) :
Groupe témoin
: 272 ; 193 ; 432 ; 259 ; 386 ; 349 ; 320 ; 247 ;
260 ; 478 ;
Groupe traité par A
: 468 ; 333 ; 375 ; 398 ; 534 ; 451 ; 474 ; 278 ;
255 ; 528 ;
Groupe traité par B
: 368 ; 290 ; 325 ; 298 ; 314 ; 350 ; 378 ; 321 ;
275 ; 401 ;
Les données correspondent au modèle d’ANOVA : une variable de
groupe, une variable continue dont on veut comparer les moyennes
Introduction
Théorie
Exemple
Exemple
Descriptif des données :
$Descriptif
leuco
Effectifs présents
30.000
Proportions de présents
100.000
Effectifs manquants
0.000
Proportions de manquants
0.000
Moyenne
353.667
Ecart-type
87.787
Variance
7706.644
Erreur standard (s.e.m)
16.302
Err. Std (basée sur l’ANOVA)
NA
groupes = 1
10.000
100.000
0.000
0.000
319.600
90.546
8198.489
28.633
25.541
groupes = 2
10.000
100.000
0.000
0.000
409.400
98.423
9687.156
31.124
25.541
groupes = 3
10.000
100.000
0.000
0.000
332.000
41.042
1684.444
12.979
25.541
Introduction
Théorie
Exemple
Les valeurs :
n1 = n2 = n3 = 10
x̄1 = 319.6, x̄2 = 409.4, x̄3 = 332.0
T1 = 3196, T2 = 4094, T3 = 3320
T12 = 31962 , T22 = 40942 , T32 = 33202
Exemple
Introduction
Théorie
Exemple
Exemple
Résultats de l’analyse de la variance (logiciel R) :
summary(aov(leuco~groupes))
Df Sum Sq Mean Sq F value Pr(>F)
groupes
2 47362 23680.9 3.6302 0.04015 *
Residuals
27 176131 6523.4
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Introduction
Théorie
SCE :
SCEt
=
SCEA
ddl :
(30-1)
=
(3-1)
Valeurs :
Carrés Moyens :
Exemple
+
SCEe
+ (30-3)
223492,7 = 47361,9 + 176130,8
CMA =
47361,9/2 = 23680,9
CM_R = 176130,8/27 = 6523,4
Rapport et test
(CMA / CMe ) = 23680,9 / 6523,4
= 3,63 --> F calculé
Valeur seuil F à 2 et 27 ddl = 3,354
Fobs < Fseuil d’où la conclusion : on rejette H0 et au moins un des
groupes a une moyenne différente des deux autres groupes.

Analyse de la variance Comparaison de plusieurs moyennes

Transcription

Documents pareils

PAI Franco-Tunisien 2025 - Institut de Mathématiques de Bordeaux

Les zones de revitalisation rurale en Haute

Entretien des Machines Machines réf GS.X BRUNSWICK

Théorie abélienne des tissus, Jean

Micro-économie approfondie Chapitre 1 : Introduction

FRANCK BENOIST, University of Leeds, Leeds LS2 9JT, UK

Mer de Chine Méridionale Mer Jaune Golfe du Bengale Shanghai

On a détecté les les ondes gravitationnelles !

Télécharger la fiche complète – PDF