Analyse de la variance avec Excel

Transcription

Analyse de la variance avec Excel
Benoı̂t Laine (ULB)
7 mars 2005
1
1.1
Quelques rappels sur l’ANOVA
Introduction
L’objet de l’analyse de variance est de définir et d’étudier par le biais d’un modèle
statistique l’influence d’une ou plusieurs variables qualitatives (facteurs explicatifs) sur
le niveau d’une variable quantitative (réponse). L’objectif essentiel est alors de comparer
les moyennes empiriques de la variable réponse pour les différents niveaux du ou des facteurs et leurs combinaisons.
1.2
Définitions
Il est important de bien distinguer les deux types de variables en jeu et leur rôle respectif
dans le problème. A savoir :
la réponse qui est le résultat observé de l’expérience, la quantité d’intérêt du problème
concret (p.ex. le rendement d’une parcelle de blé (1), la concentration d’une toxine
dans le sang (2), le montant des ventes d’un produit (3). . . ). C’est une variable
continue dont la moyenne dépend éventuellement des facteurs explicatifs (cf. cidessous) mais dont on suppose la variance homogène (pas de différence de variance
en fonction des facteurs)
les facteurs explicatifs de l’expérience dont on cherche à déterminer l’influence sur la
réponse (p.ex. le type d’engrais utilisé, le nombre d’arrosages quotidiens pour (1), le
type de régime alimentaire pour (2), la région de vente, le type de campagne publicitaire pour (3). . . ). Ce sont des variables qualitatives prenant différentes modalités
(entre lesquelles on peut définir des interactions, p.ex. croisement entre le type
d’engrais et le nombre d’arrosages). Il peut éventuellement s’agir d’une variable
qualitative découpée en classes (chaque classe est alors une modalité).
Dans notre cas, on ne considérera que des modèles à un ou deux facteurs.
1
1.3
Le jeu de données
Pour le travail demandé ici, il faut tout d’abord se procurer un jeu de données pour
lequel une analyse de variance est pertinente, i.e. dont les différentes variables répondent
aux définitions données ci-dessus et présentent les mêmes relations supposées (variable
expliquée quantitative continue, variables explicatives qualitatives).
Pour illustrer cette présentation, on traite ici l’exemple suivant:
Une étude a été menée pour répondre à la question suivante : “la qualité de l’acier
dépend-elle, de manière significative, du type de laminoir (3 machines différentes, numérotées de 1 à 3) et de la provenance du matériau brut (3 fournisseurs différents, numérotés de
1 à 3), en tenant compte de l’interaction des 2 facteurs?” Chez chacun des 3 fournisseurs,
9 échantillons de fer ont été prélevés et répartis ensuite au hasard entre les 3 machines (3
échantillons/machine). La réponse y est la ductilité (propriété d’un métal qui peut être
étiré, allongé sans se rompre), qui est une mesure de la qualité de l’acier. Dans le tableau
suivant, on lit les 27 valeurs observées, classées selon les 3 valeurs possibles des 2 facteurs
explicatifs (“fournisseur” et “machine”).
fournisseur 1
fournisseur 2
fournisseur 3
machine 1
8.03 (1)
7.55 (2)
8.50 (3)
7.26 (10)
6.05 (11)
7.97 (12)
8.65 (19)
8.29 (20)
8.55 (21)
machine 2
7.76 (4)
6.36 (5)
7.12 (6)
7.90 (13)
7.79 (14)
8.13 (15)
8.21 (22)
7.39 (23)
8.01 (24)
machine 3
8.17 (7)
8.52 (8)
7.91 (9)
7.26 (16)
7.18 (17)
8.58 (18)
9.64 (25)
8.78 (26)
9.04 (27)
Entre parenthèses: le numéro de l’observation.
Notons que chaque “cellule” contient le même nombre d’observations (3) : on parle de
plan équirépété. Les problèmes à plus d’un facteur avec plan déséquilibré (non-équirépété)
sont nettement plus délicats à traiter et doivent en pratique être confiés à un logiciel
spécialisé. Autre remarque du même ordre : on fait plus d’une observation par cellule. Au
cas où l’on n’aurait qu’une seule observation par cellule (plan équilibré mais non répété)
l’inférence sur l’interaction des facteurs n’est pas possible, et l’on ne considère en pratique
que les effets principaux sous l’hypothèse alors implicite de non-interaction.
2
Choisir ses données :
proposé, on veillera :
en conclusion, pour choisir un jeu de données adapté au travail
• d’une part à se trouver dans les conditions du problème d’analyse de variance à deux
facteurs (une réponse quantitative continue et deux facteurs qualitatifs)
• d’autre part à ce que le plan de l’expérience considérée soit équirépété (un même
nombre K ≥ 3 d’observations pour chaque combinaison de niveaux des deux facteurs)
1.4
Estimation
Notations : dans la suite, on note K le nombre d’observation par cellule (dans le jeu
de données de l’exemple K = 3), I le nombre de niveaux du premier facteur (ici il s’agit
de “fournisseur”, donc I = 3 pour notre exemple) et J celui du deuxième facteur (J = 3
également pour nous). La variable réponse est notée y, et l’on utilise les indices k à
l’intérieur d’une cellule, i et j pour les niveaux des facteurs. Ainsi :
yijk
est la k eme observation dans la cellule définie par le niveau i du premier facteur et le
niveau j du deuxième facteur. Par exemple :
y1,2,3 = 7.12
pour notre jeu de données.
Par ailleurs, on adopte les notations usuelles pour les moyennes partielles. La moyenne
des observations dans la cellule (i, j) est notée :
ȳij.
K
1 X
=
yijk
K
k=1
De même on définit les moyennes empiriques par niveau des facteurs :
ȳi..
J
1X
=
ȳij.
J
j=1
I
ȳ.j.
1X
=
ȳij.
I
i=1
3
Et la moyenne générale des observations :
ȳ... =
J
I
1X
1X
ȳ.j. =
ȳi..
J
I
i=1
j=1
Attention ! ces formules ne sont valables que dans le cas équirépété !
On définit les mêmes notations pour les paramètres µ : µ.. µi. µ.j µij représentant resp.
l’effet moyen général, l’effet moyen du niveau i du premier facteur, l’effet moyen du niveau
j du deuxième facteur, l’effet moyen dans la cellule (i, j) (cf. ci-dessous).
Modèles : Le modèle “par cellule” d’analyse de variance (ou première forme du modèle)
peut s’écrire :
yijk = µij + ijk
ainsi dans chaque cellule (i, j) la valeur de la réponse est donnée par un effet moyen
µij commun à toutes les observations de la cellule, et un écart ijk à l’effet moyen pour
chaque observation k de cette cellule qui est une quantité aléatoire, de moyenne nulle, et
de variance constante.
On peut aussi écrire un modèle différentiel (ou deuxième forme du modèle), où les effets
des différents facteurs s’ajoutent, ce qui permettra les tests et interprétations sur l’effet
de ces facteurs :
yijk = µ.. + αi + βj + γij + ijk
(1)
où µ.. est un effet moyen global (commun à toutes les cellules), αi (effet différentiel du
premier facteur) traduit l’influence sur cet effet moyen du niveau i du premier facteur, βj
(effet différentiel du deuxième facteur) celui du niveau j du deuxième facteur, et γij (effet
interaction) celui de l’interaction de ces deux niveaux pour les deux facteurs.
µ.. + αi + βj + γij donne ainsi un effet moyen pour la cellule (i, j). A nouveau, ijk
dénote l’écart, pour la k eme observation de la cellule, à cet effet moyen.
Le tableau suivant donne les relations entre les divers paramètres introduits :
Terme
Paramètre
moyenne générale
effet niveau i du 1er facteur
effet niveau j du 2ème facteur
effet de l’interaction en (i, j)
µ..
αi = µi. − µ..
βj = µ.j − µ..
γij = µij − µi. − µ.j + µ..
4
On a donc clairement les contraintes suivantes sur les paramètres du 2ème modèle par
définition de ceux-ci (cf. tableau) :
I
X
i=1
αi =
J
X
βj = 0
j=1
∀j,
I
X
γij = 0 ∀i,
i=1
J
X
γij = 0
(2)
j=1
Notons que ces contraintes assurent l’unicité de la solution.
Il est clair que les différents µ (moyennes théoriques) sont estimés sans biais par les ȳ
correspondants (p.ex., µ.j est estimé par ȳ.j. ). On a ainsi pour l’estimation des paramètres
du modèle différentiel le tableau suivant :
Paramètre
Estimation
µ..
αi = µi. − µ..
βj = µ.j − µ..
γij = µij − µi. − µ.j + µ..
ȳ...
ȳi.. − ȳ...
ȳ.j. − ȳ...
ȳij. − ȳi.. − ȳ.j. + ȳ...
L’estimation pour les données de l’exemple sera faite en section 2 lors de la présentation
des méthodes logicielles.
1.5
Tests
Les résultats de ce problème d’estimation très simple permettent d’effectuer une série de
tests qui font tout l’intérêt pratique de l’analyse de variance. En effet, l’interprétation des
paramètres du modèle sous forme différentielle est immédiate : les αi et βj qualifient l’effet
des deux facteurs sur le niveau de la moyenne d’une observation, et les γij qualifient l’effet
de l’interaction des deux facteurs. Si l’on se réfère à la formule (1) définissant ce modèle on
constate aisément que ces paramètres quantifient la façon dont la moyenne d’une cellule
s’écarte de la moyenne générale selon les niveaux pris par les facteurs. Si par exemple αi
est positif, alors toutes les cellules définies par le i-ème niveau du premier facteur auront
une valeur moyenne influencée positivement par ce facteur (pour reprendre notre exemple,
la positivité de αi indique qu’en s’approvisionnant chez le fournisseur i, on obtient une
ductilité moyenne µi. supérieure à la ductilité moyenne générale µ.. ).
On comprend alors que la disponibilité de test de significativité des paramètres du
modèle (sont-ils significativement différents de zéro ?) est cruciale pour l’exploitation
statistique de l’expérience. Si l’on peut rejeter l’hypothèse nulle “tous les paramètres αi
sont nuls”, alors c’est que le premier facteur a un effet avéré sur la réponse (p.ex. que la
provenance du fer influence sensiblement la qualité de l’acier).
5
Les tests effectués ici concernent la présence globale d’un effet pour chacun des deux
facteurs et pour leur interaction. On ne s’intéresse pas dans un premier temps à des tests
sur des paramètres individuels, mais à des tests sur soit l’ensemble des αi , soit l’ensemble
des βj , ou encore l’ensemble des γij .
Plus formellement on considère les tests :
(
H01 : α1 = · · · = αI = 0
(3)
H11 : ∃i, αi 6= 0
(
H02 : β1 = · · · = βJ = 0
(4)
H12 : ∃j, βj 6= 0
(
H03 : γ11 = · · · = γIJ = 0
(5)
H13 : ∃i, j : γij 6= 0
Au cas où, pour un niveau donné, on est amené à rejeter l’hyptohèse nulle correspondante, on conclura donc respectivement à la présence d’un effet de la part du premier
facteur, du deuxième facteur, ou de leur interaction.
Ces tests sont basés sur la décomposition suivante de la variance de l’échantillon :
SST
SST
SS1
SS2
SSI
SSE
=
=
=
=
=
=
SS1 + SS2 + SSI + SSE avec :
PI PJ PK
(yijk − ȳ... )2
i=1
PI j=1 k=1 2
JK i=1 (ȳi.. − ȳ... )
P
IK Jj=1 (ȳ.j. − ȳ... )2
P P
K Ii=1 Jj=1 (ȳij. − ȳi.. − ȳ.j. + ȳ... )2
PI PJ PK
2
j=1
k=1 (yijk − ȳij. )
i=1
SST est une mesure de la variance totale des observations, SS1 est une mesure de la
variance entre les groupes d’observations définis par les niveaux du premier facteur, de
même que SS2 pour le deuxième facteur et SSI pour les groupes d’observations définis
par le croisement des deux facteurs. SSE est une mesure de la variance des erreurs.
Comme toute bonne somme de carrés, ces quantités divisées par leur nombre de degrés
de liberté suivent asymptotiquement des lois de chi-carré avec nombres de degrés de liberté
correspondants. Ceux-ci sont obtenus avec les règles habituelles.
L’idée générale des tests est alors de comparer la variance expliquée par un facteur
ou par l’interaction de deux facteurs à la variance des erreurs. Si la variance expliquée
est “grande” devant la variance des erreurs, c’est alors que le facteur considéré définit des
groupes entre lesquels les différences sont plus grandes que celles auxquelles on s’attendrait
du seul fait de la variabilité intrinsèque des résultats d’une expérience aléatoire.
6
Pour quantifier cet écart et fixer une règle de décision, on se base sur le fait que, sous
l’hypothèse nulle d’absence d’effet, la loi du rapport des variance est connue. Ceci permet
de fixer les bornes de rejet de la façon habituelle. Le tableau suivant résume ces éléments :
Source
de variation
Degrés
de liberté
Somme
des carrés
1er facteur
I −1
SS1
2e facteur
J −1
SS2
interaction
(I − 1)(J − 1)
SSI
erreur
IJ(K − 1)
SSE
total
IJK − 1
SST
Carrés moyens
SS1
I −1
SS2
M S2 =
J −1
SSI
M SI =
(I − 1)(J − 1)
SSE
M SE =
IJ(K − 1)
M S1 =
F
M S1 /M SE
M S2 /M SE
M SI /M SE
où F suit une loi de Fisher avec les degrés de liberté du numérateur et du dénominateur
sous l’hypothèse nulle correspondante.
Ainsi les tests sont pratiqués de la façon suivante : on calcule les sommes de carrés sur
les observations, on obtient les variances en divisant par le bon nombre de d.d.l., puis on
calcule le rapport entre la variance se réferrant à l’hypothèse nulle considérée (variance du
premier facteur pour l’hypothèse H01 , du deuxième facteur pour l’hypothèse H02 , etc. . . )
et la variance des erreurs. On compare alors le résultat obtenu au quantile d’ordre 1 − α
de la loi F avec degrés de liberté du numérateur et du dénominateur du rapport des
variances, où α est le niveau du test. On conclut en conséquence (rejet si plus grand que
le quantile, car alors la fraction de variance expliquée est trop grande pour n’être due qu’à
la variabilité intrinsèque d’une expérience aléatoire).
Stratégie de test : en général, pour un modèle à plusieurs facteurs, on commence
par tester la présence d’un effet de l’interaction (test (5)). Si on rejete l’hypothèse
nulle d’absence d’effet, alors on gardera de toute façon les deux facteurs dans le modèle,
puisqu’ils ont un effet significatif ne serait-ce qu’à travers leur interaction.
1.6
Comparaisons multiples
Au cas où, pour l’un des facteurs, l’hypothèse de nullité de tous les coefficients dans le
modèle différentiel a été rejetée, on peut se demander lesquels parmis ces coefficients sont
significativement différents de zéro, et si éventuellement il n’est pas possible d’une façon
ou d’une autre, d’ordonner les différents niveaux du facteur en fonction des moyennes
correspondantes pour la réponse (si p.ex. on rejette l’hypothèse d’absence d’effet de la
provenance du fer sur la ductilité de l’acier produit, il est alors intéressant de savoir
quels fournisseurs se différencient deux à deux, ou mieux, d’ordonner les fournisseurs par
ductilité croissante si c’est possible).
7
L’idée est de comparer les moyennes µi. (ou µ.j ) deux à deux pour les différents niveaux
du facteur. Ceci pour détecter les différences significatives entre deux moyennes, et construire un ordre partiel sur l’ensemble des niveaux (cet ordre n’est que partiel du fait de
la notion de “significativité” : il est des cas où l’on ne peut dire clairement si µi. > µi0 .
ou l’inverse, du fait que la différence entre les estimateurs ȳi.. et ȳi0 .. est trop faible par
rapport au bruit aléatoire dans l’expérience. On ne peut pas donc complètement ordonner
les niveaux du facteur.)
Pour formaliser ce problème d’incertitude (ou de significativité) on utilise la méthode
des intervalles de confiance. La démarche consiste à obtenir un ensemble d’intervalles
de confiance simultanés pour toutes les différences de moyennes µi. − µi0 . définies par un
facteur au niveau de confiance global au moins 1 − α. (NB : si l’on travaillait avec une
série d’intervalles de confiance individuels au niveau 1 − α, le niveau de confiance global
ne serait pas supérieur ou égal à 1 − α, d’où la nécessité de travailler avec des intervalles
simultanés). On utilise donc le résultat suivant (méthode de Scheffé) :
"
"
r
P ∀i, i0 = 1, ..., I : µi. − µi0 . ∈ (Ȳi.. − Ȳi0 .. ) ±
2
(I − 1)F(1−α) CMres
JK
##
≥ 1 − α (6)
avec :
CMres =
SST − SS1 − SS2
(I − 1)(J − 1) + IJ(K − 1)
et
F(1−α) = FI−1,(I−1)(J−1)+IJ(K−1);1−α
De la même façon pour l’autre facteur :
"
P ∀j, j 0 = 1, ..., J :
"
r
µ.j − µ.j 0 ∈ (Ȳ.j. − Ȳ.j 0 . ) ±
2
(J − 1)F(1−α) CMres
IK
##
≥1−α
avec cette fois :
F(1−α) = FJ−1,(I−1)(J−1)+IJ(K−1);1−α
Remarquons qu’implicitement avec cette méthode, on suppose qu’une seule des deux
hypothèses nulles est rejetée : si l’on s’intéresse au premier facteur du fait du rejet de
l’hypothèse d’égalité de toutes ses moyennes, et que l’on “ordonne” ses niveaux en utilisant
la méthode de Scheffé, on suppose l’autre hypothèse nulle vraie, ce qui permet d’obtenir
le résultat de loi donnant les intervalles de confiance simultanés.
Les formules précédentes nous donnent un intervalle de confiance pour chaque couple
de moyennes (correspondant à un couple de niveaux d’un facteur). La méthode adoptée
pour ordonner les facteurs est la suivante :
8
• si l’intervalle de confiance pour µi. − µi0 . contient la valeur zéro, alors on ne peut
comparer les deux moyennes µi. et µi0 . (comme zéro est une valeur possible pour la
différence, on ne peut affirmer qu’il existe une différence significative ni dans un sens
ni dans l’autre)
• si cet intervalle ne contient que des valeurs positives, alors on peut affirmer (au
niveau de confiance simultané d’au moins 1 − α) que µi. est supérieure à µi0 .
• si cet intervalle ne contient que des valeurs négatives, alors on peut affirmer (idem)
que µi. est inférieure à µi0 .
Cette méthode permet donc d’ordonner partiellement les niveaux d’un facteur sous
l’hypothèse implicite d’absence d’effet de l’autre facteur. Il est à noter que cette méthode
est conservative : il est en pratique de nombreux cas où l’on ne se prononce pas (l’intervalle
contient la valeur zéro), et en fait, il peut même arriver que tous les intervalles contiennent
la valeur zéro – ce qui semblerait signifier qu’aucune différence significative n’est détectée
entre les moyennes de ce facteur ! – alors que l’hypothèse nulle d’absence d’effet à été
rejetée au même niveau α. Ce qui revient à dire que le niveau de confiance d’au moins
1 − α est souvent en réalité bien supérieur à 1 − α ce qui conduit à considérer des intervalles de confiance simultanés trop grands : leur chance de contenir la valeur zéro en est
significativement augmentée...
En conclusion, cette méthode de comparaisons multiples ne peut “contredire” le résultat
du test d’hypothèse pour le facteur correspondant à niveau égal : si l’on a rejeté l’hypothèse
d’égalité de toutes les moyennes, le fait de ne trouver aucune différence significative avec
les comparaisons multiples ne peut remettre en cause le résultat du premier test.
1.7
Graphiques
Il est toujours recommandé de compléter une étude statistique par un ensemble de graphiques bien choisis, qui permettent de détecter un problème dans les données (valeur aberrante, erreur d’encodage,... ), mais qui apportent aussi une information visuelle sur les
variables et leurs liaisons.
Dans le cas de l’ANOVA, on pense principalement aux boı̂tes à moustaches parallèles
pour visualiser l’effet d’un facteur donné sur la réponse, et aux graphes à deux entrées
pour détecter la présence d’interaction entre les facteurs. Notons qu’en l’absence de
tests dans cette présentation, on pourra estimer graphiquement la validité de l’hypothèse
d’homogénéité de la variance par le biais d’un scatter plot.
Il n’est malheureusement pas aisé d’obtenir des boı̂tes à moustaches avec Excel, que
l’on pourra remplacer par des scatter plots. Les autres graphiques sont par contre aisément
réalisables.
9
2
Implémentation dans l’environnement Excel
La première chose à faire est bien sûr de faire apparaı̂tre vos données sur une feuille de
calcul Excel. Soit en les entrant directement à la main si la taille du jeu de données le
permet, soit en les important depuis le fichier contenant le jeu de données
menu Fichier 1 , Ouvrir, sélectionner votre format dans type de fichier – en général
choisir fichiers lisibles. Puis ajuster les délimiteurs en fonction du formatage des
données. Conseil : enregistrez vos données dans un fichier texte .txt sous forme de
colonnes séparées par une tabulation, ou plusieurs espaces. N’oubliez pas qu’Excel ne
reconnaı̂t pas les points pour séparer les décimales : utilisez des virgules
La présence d’une colonne indiquant le numéro de chaque observation est souvent pratique.
Doivent en tout cas être présentes :
• une colonne contenant les valeurs observées de la réponse
• une colonne pour chaque facteur, indiquant le niveau du facteur pour chaque observation
Dans notre exemple, les données se trouvent dans les colonnes 1 à 3, la première ligne
contenant les titres et les 27 suivantes les données.
2.1
Calcul des estimateurs
Il s’agit de calculer une série de moyennes. Utilisez la fonction ‘moyenne’ d’Excel.
entrer =moyenne( dans une cellule vide, puis sélectionner les cellules voulues, par exemple
l’ensemble des cellules donnant les valeurs de la réponse pour lesquelles le premier facteur
est dans sa première modalité. Dans notre exemple, les cellules 2 à 17 de la colonne 3
‘rep’. Entrer ) puis Return ou Enter
Vous devez obtenir l’ensemble des ȳ à savoir :
• la moyenne générale (moyenne de toutes les observations)
• pour chaque facteur, la moyenne de la réponse pour chaque valeur possible du facteur
(dans notre exemple, la moyenne des valeurs 1 à 9 puis 10 à 18 puis 19 à 28 pour le
premier facteur, la moyenne des valeurs 1 à 3 et 10 à 12 et 19 à 21, puis 4 à 6 et 13
à 15 et 22 à 24 pour le deuxième facteur)
• pour l’interaction, la moyenne de la réponse pour chaque combinaison de niveaux
des facteurs (pour nous : valeurs 1 à 3 puis 4 à 6 puis 7 à 9 puis 10 à 12, etc...)
soit en tout I + J + IJ + 1 moyennes.
1
Dans la suite tous les mots français doivent être remplacés par leur traduction si vous utilisez la version
anglaise d’Excel.
10
Nous obtenons :
moyenne
valeur
moyenne
valeur
ȳ...
ȳ1..
ȳ2..
ȳ3..
ȳ.1.
ȳ.2.
ȳ.3.
ȳ11.
7.94
7.76
7.56
8.50
7.87
7.63
8.34
8.02
ȳ12.
ȳ13.
ȳ21.
ȳ22.
ȳ23.
ȳ31.
ȳ32.
ȳ33.
7.08
8.20
7.09
7.94
7.67
8.49
7.87
9.15
Pour calculer les α̂i , β̂j et γ̂ij , on utilise les formules données dans le tableau plus haut.
pour soustraire deux cellules : sélectionner une cellule vide, entrer = sélectionner la première
cellule, entrer ‘-’ sélectionner la deuxième cellule, et entrer Return ou Enter. De même
pour additionner, diviser, multiplier,. . . On peut bien entendu faire plusieurs opérations
dans une seule cellule, en n’entrant Return ou Enter qu’à la fin.
Conservez les cellules contenant les moyennes, qui serviront dans le calcul des sommes de
carrés.
Nous obtenons :
paramètre
valeur
paramètre
valeur
α̂1
α̂2
α̂3
β̂1
β̂2
β̂3
γ̂11
γ̂12
-0.179
-0.379
0.558
-0.075
-0.318
0.394
0.333
-0.370
γ̂13
γ̂21
γ̂22
γ̂23
γ̂31
γ̂32
γ̂33
0.037
-0.399
0.689
-0.289
0.065
-0.318
0.252
On vérifie aisément sur cet exemple les contraintes (2).
11
On peut représenter les “valeurs prédites” par le modèle à partir des paramètres estimés,
et ainsi calculer les erreurs. Sachant que pour une cellule, la somme des paramètres associés
donne la moyenne de la cellule, la valeur prédite est donc exactement cette moyenne, et
l’erreur est la différence entre les observations et les valeurs prédites.
dans une colonne adjacente à la colonne de la réponse, recopier la valeur moyenne associée
à chaque cellule – déterminée par le niveau de chacun des facteurs pour chaque observation.
Sélectionnez la cellule contenant la moyenne voulue, puis ctrl + c – ou pomme + c –
puis sélectionnez l’ensemble des cellules de la nouvelle colonne se situant en face des
observations se référant à cette moyenne, puis edition, collage spécial..., choisir
valeurs puis ok. Un simple ‘coller’ ne suffit pas, car vous colleriez alors une formule
dont les références seraient erronées.
Pour nous les valeurs son placées dans la colonne 4 où l’on trouve donc successivement 3
cellules avec 8.02, 3 cellules avec 7.08, 3 cellules avec 8.20, 3 cellules avec 7.093, 3 cellules
avec 7.94, 3 cellules avec 7.67, 3 cellules avec 8.49, 3 cellules avec 7.87 et enfin 3 cellules
avec 9.15.
Attention ! les moyennes utilisées doivent être celles se rapportant à l’interaction,
puisque la valeur des deux facteurs doit être précisée pour définir la valeur prédite ! Ensuite, créez dans une nouvelle colonne la différence entre la colonne ‘réponse’ et la colonne
des moyennes créée précédemment.
sélectionnez la première cellule de la nouvelle colonne, entrez = puis faites la différence de
la première cellule de la colonne réponse et la première cellule de la colonne des valeurs
prédites – cf. plus haut. Ensuite sélectionnez la cellule obtenue contenant la première
différence, copiez-la ctrl/pomme + c, sélectionnez le reste de la nouvelle colonne et collez
ctrl/pomme + v. Si vos colonnes sont bien correspondantes ligne à ligne, les bonnes
différences apparaissent automatiquement dans la nouvelle colonne.
Nous obtenons donc la colonne 5 en soustrayant la colonne 4 à la colonne 3 dans notre
exemple.
2.2
Tests
Comme on a pu le constater précédemment, le tout pour effectuer les test est d’obtenir
les sommes de carrés – plus précisement le tableau (page 7) donné plus haut.
SSE: la plus simple : nous avons déjà les erreurs, reste à les mettre au carré et à sommer.
dans une nouvelle colonne, parallèlement à la colonne des erreurs, sélectionnez la
première cellule, entrez =, sélectionnez la première cellule de la colonne des erreurs,
puis entrez ^ 2, Return. Ensuite copiez cette nouvelle cellule ctrl/pomme + c, et
collez la sur le reste de la nouvelle colonne – sélectionnez l’ensemble des cellules de la
colonne correspondant aux cellules contenant les erreurs dans la colonne atenante et
entrez ctrl/pomme + v. Vous obtenez l’ensemble des carrés. Sélectionnez une nouvelle cellule – ailleurs. . . – entrez =somme( puis sélectionnez l’entièreté de la colonne
12
nouvellement créée, et entrez ), Return. La somme des carrés des erreurs apparaı̂t
dans cette nouvelle cellule.
SS1: Il s’agit de soustraire la moyenne générale aux moyennes correspondant aux différents
niveaux du premier facteur, puis de mettre au carré et de sommer. Cela revient à
mettre les α̂i au carré et les sommer. Procédez comme pour les erreurs pour obtenir
la somme des carrés. Ensuite on multiplie par JK.
sélectionnez une cellule, entrez = puis sélectionnez la cellule contenant la somme des
carrés des α̂i . Entrez *J*K où vous remplacez J et K par leur valeur – pour notre
exemple 3 et 3.
SS2: idem avec les β̂j . On multiplie par IK.
SSI: idem avec les γ̂ij , on multiplie par K.
Pour obtenir les M S. à partir des SS. il suffit de diviser par le bon entier, donné par le
tableau plus haut. On peut alors calculer les trois statistiques de test, en divisant M S(i),
i = 1, 2, I par M SE. Placez ces quantités dans trois cellules.
Nous obtenons le tableau suivant :
Source
de variation
Degrés
de liberté
Somme
des carrés
Carrés moyens
F
1er facteur
2e facteur
interaction
erreur
total
2
2
4
18
26
4.391
2.360
3.415
5.626
15.793
2.196
1.180
0.854
0.313
7.016
3.770
2.728
Pour obtenir la borne au-delà de laquelle on est amené à rejeter l’hypothèse nulle, on
se fixe un niveau α, disons 5%, et l’on cherche le quantile d’ordre 1 − α de la loi F avec
les degrés de liberté donnés par le tableau. Excel donne ces quantiles à la demande.
sélectionnez une nouvelle cellule, entrez = puis insertion, fonction.... Choisissez
statistiques, inverse.loi.f et laissez-vous guider. Attention : Excel calcule les quantiles ‘à l’envers’, i.e. dans la case probabilité, entrez 0,05 et non 0,95 pour α = 5%. . .
Une fois les quantiles obtenus, reste à comparer avec les valeurs des statistiques précédemment calculées, et à conclure en commentant les résultats par rapport au problème concret
considéré.
13
Dans notre cas, nous donnons les valeurs critiques (bornes au-delà desquelles on rejette
l’hypothèse nulle) pour des niveaux 5% et 1%. Pour les tests sur les facteurs il s’agit du
quantile d’ordre 1 − α des lois de Fisher à 2 et 18 degrés de liberté et pour l’interaction,
de ce quantile pour une loi à 4 et 18 degrés de liberté soit :
F2,18,0.95 = 3.555
et
F2,18,0.99 = 6.013
F4,18,0.95 = 2.928
et
F4,18,0.99 = 4.579
Conclusions : au niveau 5%, les hypothèses de nullité de tous les paramètres sont
rejetées pour le premier facteur et pour le deuxième, car 7.025 et 3.776 sont supérieurs à
3.56. L’hypothèse nulle n’est pas rejetée pour l’interaction, dont on ne peut donc pas dire
au niveau 5% que les coefficients sont significativement différents de zéro pour le modèle
différentiel.
Pour le niveau 1%, on rejette à nouveau l’hypothèse nulle pour le premier facteur,
mais pas pour le second ni pour l’interaction. On devrait ici conclure à l’absence d’effet
du second facteur, puisque ni ses paramètres propres, ni ceux de l’interaction avec le
premier facteur, ne sont jugés significativement différents de zéro. En gardant en tête la
conclusion obtenue pour le niveau 5%, on préfèrera conclure à un net effet du premier
facteur, et un effet plus tangent du deuxième facteur. En d’autres termes, la provenance
du matérieau brut – le fer – à un effet significatif sur la qualité de l’acier obtenu après
transformation, alors que l’effet du type de machine – laminoir – utilisé est plus tangeant,
donc probablement présent mais faible. Il ne semble pas y avoir d’interaction entre ces
deux facteurs, ce qui signifie qu’un type de laminoir donne les mêmes résultats quel que
soit la provenance du fer, et réciproquement.
2.3
Méthode de Scheffé pour les comparaisons multiples
Dans notre exemple, le facteur 1 à apparemment un effet significatif sur la réponse, alors
que l’hypothèse d’absence d’effet pour le second facteur est raisonnable. On peut donc
s’intéresser au problème de l’ordre des niveaux de ce facteur. On utilise la méthode
présentée en (1.6).
La formule (6) nous indique que tous les intervalles de confiance pour les différences de
moyennes ont la même taille (ceci provient du fait que le plan d’expérience est équirépété
et qu’on fait l’hypothèse d’homogénéité de la variance des erreurs). Ce qu’il nous faut
pour appliquer la méthode est donc :
• la taille fixe des intervalles
• l’ensemble des ȳi.. − ȳi0 .. sachant qu’il est inutile de traiter deux fois le même couple
(inutile de traiter à la fois le problème µi. − µi0 . et le problème µi0 . − µi. ).
14
Taille des intervalles : Le calcul de CMres est une simple suite d’opérations sur des
valeurs obtenues précédemment (sommes de carrés et d.d.l.). Les autres termes sous la
racine sont des constantes et un quantile. Nous avons vu comment obtenir un quantile
d’une loi F . Traitons le cas du facteur 1 dans notre exemple pour α = 5% :
CMres =
15.79 − 4.39 − 2.36
= 0.41
(3 − 1)(3 − 1) + 3 ∗ 3 ∗ (3 − 1)
I − 1 = 2,
F(1−α)
2
2
=
= 2/9
JK
3∗3
= F2,22,0.95 = 3.44
D’où la demi-longueur d’un intervalle :
r
p
2
(I − 1)F(1−α) CMres
= 2 ∗ 3.44 ∗ 0.41 ∗ 2/9 = 0.79
JK
Différence des moyennes empiriques : Il s’agit simplement de faire un ensemble
de différences sur des moyennes déjà calculées (il était recommandé plus haut de bien
conserver ces moyennes...). Dans notre cas, le facteur “fournisseur” (étant le premier
facteur) a 3 niveaux, nous avons donc 3 couples possibles, et l’on obtient :
ȳ1.. − ȳ2.. = 7.76 − 7.56 = 0.20
ȳ1.. − ȳ3.. = 7.76 − 8.50 = −0.74
ȳ2.. − ȳ3.. = 7.56 − 8.50 = −0.94
Nous obtenons donc les intervalles suivants
pour µ1. − µ2. : [−0.59; 0.99]
pour µ1. − µ3. : [−1.53; 0.06]
pour µ2. − µ3. : [−1.73; −0.14]
Les 2 premiers intervalles contiennent la valeur zéro. Le troisième ne contient que des
valeurs négatives. Par conséquent, le fournisseur 3 diffère du fournisseur 2 de manière
significative – la ductilité de l’acier obtenu est supérieur en utilisant le fer du fournisseur 3
– mais pas du fournisseur 1. Les fournisseurs 1 et 2 ne sont pas significativement différents.
pour obtenir la racine carrée avec Excel, entrez =racine( puis sélectionnez la cellule
dont vous désirez obtenir la racine, et enfin entrez ) Return
15
2.4
Graphiques
Pour obtenir des graphiques avec Excel, utilisez l’assistant graphique (menu “insertion”,
item “graphique”, ou via l’icone représentant un histogramme). Les types de graphiques
que nous utilisons ici sont les nuages de points et les courbes superposées. Les nuages
de points remplacent les boı̂tes à moustaches utilisées habituellement. Les graphiques
apportent deux types d’information. Ils permettent d’une part de se faire une idée a
priori sur la présence d’effet des facteurs ou de leur intéraction. Ils donnent par ailleurs
une première estimation sur la validité de l’hypothèse d’homogénéité de la variance entre
les cellules.
Visualisation de l’effet des facteurs : en général, on utilise une série de boı̂tes à
moustaches en parallèle représentant chacune la variable réponse pour un niveau donné
d’un facteur (ici, on aurait représenté trois boı̂tes pour le facteur “fournisseur” puis trois
boı̂tes pour le facteur “machine”). En leur absence, nous utilisons les nuages de points
qui apportent une information similaire mais moins précise.
L’idée est donc de faire figurer un nuage de points, chaque point étant une observation,
dont les abscisses sont données par le niveau du facteur considéré et les ordonnées par la
valeur de la réponse. Nous avons intitulé ces graphiques “Effet Fournisseur” et “Effet
Machine” dans notre exemple.
pour obtenir un tel graphique, entrez dans l’assistant graphique, puis sélectionnez le type
nuage de points (“scatterplot” en anglais). Choisissez l’option nouvelle série. On
vous demande alors d’entrer une ‘série’ pour x et une autre pour y. Cliquez sur l’icône
en forme de feuille Excel à droite de la zone réservée à la série x, et sur votre feuille
de calcul, sélectionnez la colonne donnant les niveaux du facteur considéré – p.ex. la
colonne 2 pour le deuxième facteur, “Machine” pour nous. Cliquez à nouveau sur l’icône
en forme de feuille Excel dans la boı̂te de dialogue : votre série est automatiquement entrée
dans l’assistant graphique. Procédez de même pour y, en sélectionnant cette fois la colonne
réponse – la colonne 3 pour nous. Les deux séries étant présentes, votre graphique apparaı̂t
dans l’assistant graphique. Cliquez sur suivant et amusez vous avec les options...
Après avoir obtenu ces graphiques, il faut en donner une interprétation. Clairement,
si les ‘nuages’ de points sur un graphique sont nettement décalés (verticalement !) les uns
par rapport aux autres, c’est que le niveau du facteur considéré a une influence notable sur
la valeur de la réponse, et que l’on a donc de grande chances d’avoir un effet significatif
de ce facteur. Dans notre cas, pour les fournisseurs (premier facteur), il semble que le
troisième donne de meilleurs résultats de ductilité, les deux autres n’étant pas discernables
(deux premiers nuages équivalents, troisième nuage plus élevé), et donc une influence du
fournisseur sur la ductilité est probable. La situation est assez semblable pour le deuxième
facteur (“Effet Machine”), peut-être moins nette cette fois. Ceci est confirmé par les tests
effectués précédemment.
Présence de l’interaction : pour juger de la présence d’interaction entre deux facteurs
graphiquement, on représente pour chaque niveau du premier facteur une courbe (en fait
16
une ligne brisée...) donnant la valeur moyenne dans une cellule pour ce niveau du premier
facteur en fonction du niveau du deuxième facteur : pour chaque i, on représente ȳij. en
fonction de j. On obtient autant de courbes que de niveaux i pour le premier facteur (3
pour nous). Nous avons intitulé ce graphique “Interaction”.
pour obtenir un tel graphique, entrez dans l’assistant graphique, choisissez le type de
graphique courbes et le premier sous-type en haut à gauche. Cliquez sur l’onglet série
et ajouttez autant de série que votre premier facteur a de niveaux. Pour chacune d’entreelles, cliquez sur l’icône à droite de la zone valeur et sélectionnez une à une les moyennes
empiriques pour le niveau concerné du premier facteur croisé avec les niveaux successifs
du deuxième facteur : maintenez la touche ctrl/pomme enfoncée et cliquez sur les cellules
correspondantes dans l’ordre ! Vos séries s’affichent au fur et à mesure dans l’assistant
graphique, avec des couleurs différentes. Peaufinez la présentation...
L’interprétation d’un tel graphique est la suivante : en une abscisse donnée (donc pour
un niveau donné du deuxième facteur), l’ordre des courbes donne l’ordre des réponses
moyennes en fonction des niveaux du premier facteur. Si cet ordre ne change pas d’une
abscisse à l’autre, c’est que le second facteur n’influence pas la façon dont le premier
facteur ordonne la réponse. Dans ce cas, les courbes sont à peu près parallèles. Si au
contraire les courbes s’entrecroisent, et donc que l’ordre des courbes change d’un point
sur l’autre, c’est alors que le niveau du second facteur a une influence sur la façon dont le
premier facteur ordonne la réponse moyenne : il y a alors interaction (l’effet du premier
facteur dépend du niveau du deuxième facteur). Il faut toutefois être prudent dans ce
type d’interpretation. Si les courbes ne se croisent pas (bon parallélisme), on peut alors
conclure en toute sécurité à l’absence d’interaction significative. Cependant, lorsque des
croisements apparaissent entre les courbes (non-parallélisme), une bonne habitude de la
méthode est requise pour se risquer à dire quelle est la “dose” suffisante de croisements
pour que l’interaction soit significative.
Dans notre cas, on constate que les courbes des 1er et 3e niveaux du facteur “fournisseur” sont bien parallèles, mais que le rang du deuxième niveau change lorsque le facteur
“machine” est dans son deuxième niveau : la courbe rose croise les deux autres courbes.
Ainsi l’ordre des coubes est le même pour le premier et le troisième niveaux du facteur “machine” mais partiellement différent pour le deuxième niveau. Il est donc possible qu’une
interaction significative soit présente. Cela étant, cette ‘entorse’ au parallélisme ne sera
pas statistiquement significative, comme le confirme le test de présence de l’interaction
effectué précédemment.
Homogénéité de la variance : pour se faire une idée de la validité de l’hyptohèse
d’homogénéité de la variance (même variance dans chaque cellule), en l’absence de tests
dans ce travail, vous pouvez observer les graphiques obtenus pour l’effet des facteurs, et en
produire un nouveau, représentant un nuage de point pour chaque cellule. Si la variance
est bien homogène, la dispersion des sous-nuages doit être à peu près la même quels que
soient les niveaux des facteurs.
En utilisant la même méthode que pour le cas de l’effet des facteurs, représentez un
nuage de points, où chaque point est une observation ayant comme abscisse le numéro
17
de sa cellule (sans importance, du moment que chaque cellule ait un numéro différent :
nous les avons numérotées de 1 à 9 (cf. colonne 0) dans leur ordre d’apparition dans les
colonnes de notre jeu de données) et comme ordonnée la valeur de l’erreur calculée plus
haut (dans la colonne 5 pour nous). On obtient donc un nuage de K points pour chaque
cellule – graphique intitulé “erreur vs. cellule” pour nous.
Si l’on considère les deux graphiques relatifs aux deux facteurs (“Effet Fournisseur” et
“Effet Machine”), on peut juger de l’homogénéité de la variance entre les différents niveaux
d’un seul facteur. Si les sous-nuages de points relatifs aux différents niveaux sont de taille
(ou dispersion : ceci n’a bien sur rien à voir avec l’allignement des sous-nuages) comparable,
la variance de l’erreur est alors probablement comparable d’un niveau sur l’autre. Ce
qui paraı̂t être le cas pour les deux facteurs dans notre exemple. L’interprétation du
graphique par cellules obtenu en dernier lieu est similaire : si les IJ sous-nuages sont
de dispersion comparable, c’est que la variance est comparable d’une cellule sur l’autre,
et ainsi que l’hypothèse d’homogénéité est probablement respectée. Dans notre cas, le
graphique “erreur vs. cellule” semble poser quelques problèmes, p.ex. les cellules 4 et
5 correspondant à des sous-nuages de dispersion très différentes... Cependant, avec un
nombre d’observations par cellule assez faible (3 ici) il est difficile de tirer une conclusion
valable. Un tel graphique est surtout utile pour K > 5. Nous concluons donc qu’au vu
de nos graphiques, l’hypothèse d’homogénéité de la variance semble être raisonnablement
satisfaite.
3
Quelques recommandations
Pour terminer, quelques conseils pratiques :
• Choisissez vos données avec soin. Il faut bien entendu qu’elles entrent dans le cadre
de l’analyse de variance à deux facteurs comme spécifié plus haut. Mais veillez
également à ce que la taille du jeu de données soit raisonnable : pas trop grand
(< 100 observations) auquel cas le traitement avec Excel deviendrait pénible, mais
pas trop petit non plus. Il faut bien garder à l’esprit la nécessité du caractère
équirépété de l’expérience, et au moins un des deux facteurs devrait présenter plus
de deux niveaux pour que la méthode de Scheffé présente un réel intérêt. K = 3
semble être un minimum comme nombre de répétitions par cellule. Ainsi notre jeu
de données peut être considéré comme raisonnable, voire un peu petit pour que le
travail soit agréable.
• Vous n’êtes pas mathématiciens : profitez-en pour trouver des données propres à
votre orientation (il existe d’innombrables jeux de données autour de vous), qui se
prêtent en général très bien au travail demandé. Vous aurez de plus grandes facilités
à interpréter les résultats d’un point de vue pratique.
• Faites les graphiques en premier, les calculs après. En général, si les tests sont faits
avant les graphiques, on ne peut s’empêcher d’interpréter ceux-ci de façon concordante avec les résultats numériques. On s’ôte alors toute possibilité de remettre ces
18
résultats en question (données aberrantes, erreur de calcul, problème d’hypothèses
non satisfaites...). Beaucoup de résultats publiés en sciences expérimentales sont
erronés de ce simple fait.
• Rédigez de façon raisonnable : pas de roman, bien entendu, mais un minimum de
commentaires s’imposent après obtention d’un résultat ou d’un graphique. N’oubliez
pas de répondre à la question pratique ayant amené à faire l’analyse statistique...
Bon courage !
19

Analyse de la variance avec Excel

Transcription

Documents pareils

Sujet de partiel d`avril 2004

Estimation d`une courbe moyenne de consommation

Impossible à dire de Patricia Reilly Giff Un vrai coup de coeur! C`est

Introduction aux effets audio

Les stages étudiants Apports et questionnements d`une recherche

TP 1+2 : Formats d`images et pré

Bienvenue en classe préparatoire au lycée Paul Eluard de Saint

Université des Sciences et Technologies de Lille Deug MIAS 1`ere

Battle For Wesnoth

TD10