Cours

Transcription

Cours
Chapitre 8
ANOVA
Analyse de la Variance
Chap 8.
1.  Objectif de la méthode
2.  Approche intuitive
3.  Décomposition de la variance
4.  ANOVA: le test et le modèle
statistique sous-jacent
1.  Objectif de la méthode
On s’intéresse ici encore aux différences de moyenne entre populations.
Par exemple, trois échantillons ont-elles la même moyenne?
ou autrement dit, les différences de moyenne entre les trois échantillons sont-elles significatives ?
On utilisera ici la mesure de variance afin de déterminer le caractère significatif, ou non, des
différences de moyenne mesurées sur les populations.
Exemple:
Calcul de la réponse d’organismes tests à 7 substances polluantes, en utilisant par exemple leur durée
de vie. On aura donc 7 groupes, avec un certain nombre d’observations par groupe.
On calculera une durée de vie moyenne pour chaque groupe et on cherchera à savoir si les
différences entre les moyennes obtenues sont significatives ou pas.
On pourrait le faire grâce à un test paramétrique, mais cela impliquerait de comparer 2 à 2 chacun des
groupes à tous les autres, soit réaliser C72=21 tests.
Ça reste faisable mais si on réalise le test avec un seuil α=5%, on aura 1 test sur 20 qui apparaîtra
significatif alors qu’il ne l’est pas.
On choisit donc de comparer globalement les 7 moyennes entre elles.
== c’est l’objectif de l’ANOVA.
2.
Approche Intuitive de
l’ANOVA
Chap 8.
1.  Objectif de la méthode
2.  Approche intuitive
3.  Décomposition de la variance
4.  ANOVA: le test et le modèle
statistique sous-jacent
On peut toujours dire:
Variabilité totale =
variabilité naturelle (ou intrinsèque) + variabilité due au facteur étudié
On va chercher à déterminer si la variabilité des moyennes est plus forte que la variabilité naturelle
(fluctuations d’échantillonnage).
K groupes ou niveaux de facteurs ou échantillons: Les populations d’où proviennent ces groupes ontelles la même moyenne?
Pour cela, on va chercher à quantifier la dispersion de ces moyennes et étudier ses variations.
Dispersion trop grande
ne peut être attribuée aux
fluctuations d’échantillonnage
échantillons sont de moyennes
significativement différentes
issus de populations ≠
Exemple:
3 groupes issus des populations A, B, C
On considère une var quantitative X qui suit
une loi normale N(µ,σ2).
H0: µA=µB=µC
H1: au moins une moyenne différente
On considère de plus la même variance:
σA2=σB2=σC2
Pour quantifier la dispersion, on calcul la variance intergroupe S2.
Variance résiduelle= variance intragroupe Se2= estimation de σj2.
On va donc comparer la variance intergroupe
à la variance résiduelle. On peut utiliser la statistique
S2
F= 2
Se
Faible dispersion des moyennes
S2≈Se2, F ≈ 1 ou F < Fseuilα et
on ne peut pas rejeter H0.
Forte dispersion
S2>>Se2, F >> 1 ou F > Fseuilα et
on pourra rejeter H0 au seuil α.
3.
Chap 8.
1.  Objectif de la méthode
2.  Approche intuitive
3.  Décomposition de la variance
4.  ANOVA: le test et le modèle
statistique sous-jacent
Décomposition de la
variance
ANOVA == analyse de la variabilité, grâce à une décomposition de la variabilité en deux facteurs:
Variabilité totale = var due au facteur étudié + var naturelle (ou intrinsèque)
ou ici
var. due au facteur étudié + var. restante ou résiduelle
Question: la variabilité entre observations pour des groupes différents est-elle plus importante (ou pas)
que celle entre observations à l’intérieur de chacun des groupes??
La variabilité est quantifiée par la variance (== somme des carrés de l’écart à la moyenne / ddl)
Cas de N obs réparties en K groupes, avec nj obs pour chaque niveau j; variance proportionnelle à:
K
nj
K
nj
K
2
2
2
(
(
xij − X g ) =
xij − X j ) +
n j (X j − X g )
∑∑
∑∑
∑
j =1 i =1
j =1 i =1
j =1
Intragroupe
i.e. dispersion des moy. dans
chacun des groupes
K
où
X g = Tg / N
avec
Tg =
Intergroupe
i.e. dispersion des moy. de
chaque groupe
nj
∑∑
nj
xij
et
X j = T j / n j avec T j =
j =1 i =1
Somme de ttes les obs.
somme des obs. groupe j
∑
i =1
xij
On peut montrer que:
⎛ K n j
K
2 ⎞⎟ ⎛ K
2
2 ⎞
⎜
T
T
T
⎜
⎟
2
j
j
g
xij − X g =
xij 2 −
= ⎜
xij 2 −
+
−
⎟ ⎜
⎟
N ⎜
n j ⎟ ⎜
nj
N ⎟
j =1 i =1
j =1 i =1
j =1
⎠
⎝ j =1 i =1
⎠ ⎝ j =1
K
nj
∑∑(
)
K
nj
∑∑
Tg2
∑∑
∑
Intragroupe
∑
Intergroupe
Si variabilité inter-groupe statistiquement > var intragroupe
è  moy. des groupes sont ≠
è groupes non issus d’une même population.
ANOVA va donc consister à comparer les deux composantes de la
variance en utilisant un test statistique.
4.
ANOVA: le test et le modèle
statistique sous-jacent
Chap 8.
1.  Objectif de la méthode
2.  Approche intuitive
3.  Décomposition de la variance
4.  ANOVA: le test et le modèle
statistique sous-jacent
On va organiser les observations
sous la forme d’un tableau:
L’ANOVA va consister à comparer les moyennes pour vérifier si elles sont statistiquement diff. ou non.
On peut poser le modèle de l’analyse suivant:
xij = µ + α i + eij
Déviation
associée au niveau
du facteur i
Erreur: petites var
associées à tous les
autres facteurs.
Note: on se limite ici au cas d’une expérience à un facteur, i.e. un seul agent susceptible d’influencer
la distribution des variables (e.g. variable=qté récoltée, facteur= fertilisant).
Les hypothèses posées pour le test sont:
•  H0: égalité des moyennes, groupes homogène ou αi=0 ∀ i
•  H1: au moins une des moyennes est différentes, les groupes ne
sont pas homogènes et au moins un αi ≠ 0.
Conditions d’application:
•  xij suivent des lois Normales de même variance σ2 (estimée par Se2)
•  eij « normaux », indépendants et de même variance σ2 (estimée par Se2).
Statistique du test:
S2
F= 2
Se
Suit une loi de Fisher-Snedecor
si H0 est vraie.
Var de F-S: Rapport de deux
variables suivant une loi de
Chi2. Voir démo chap. 2+4;
Comp. 2 variances.
H0 rejetée au seuil α si
F=
S2
Se 2
> FNK−−K1 ,1−α
Pour réaliser ce test, on va construire le
tableau d’analyse de variance:
(Note: variance=SDCE/ddl)
Si ni=n, les calculs se simplifient en:
F=
S2
Se 2
=n
SX 2
Se 2
Variance des
moyennes
(1)
On a vu que les conditions d’application de l’ANOVA sont:
•  xij suivent des lois Normales de même variance σ2 (estimée par Se2)
•  eij « normaux », indépendants et de même variance σ2 (estimée par Se2).
Il faut donc examiner l’hypothèse de variance constante: H0: σA2=σB2=σC2
Pour cela, il existe des tests statistiques adaptés comme le test de Bartlett.
En 1ere approche rapide, on peut comparer simplement la variance dont la valeur est la +
grande à celle dont la valeur est la plus petite avec un test classique de comparaison de 2
variances.
Si on rejette H0, on a 2 solutions de remplacement:
•  transformer les observations avec, par exemple, 1 log, sqrt, arcsin, …
•  utiliser un test non paramétrique comme le test de Kruskal-Wallis.
(2)
Si en réalisant l’ANOVA, l’hypothèse H0 est rejetée, il peut être intéressant de déterminer quel sont
les groupes ou les niveaux du facteur étudié dont les moyennes sont significativement différentes.
(3)
Pour le choix de α, l’idée est de réduire sa valeur en fonction du nombre de moyennes
comparées.
E.g.: Bonferroni propose d’utiliser: α’=α*J*(J-1)/2, avec J le nombre de moyennes à comparer.