Analyse de la variance avec Excel

Transcription

Analyse de la variance avec Excel
Analyse de la variance avec Excel
Benoı̂t Laine (ULB)
7 mars 2005
1
1.1
Quelques rappels sur l’ANOVA
Introduction
L’objet de l’analyse de variance est de définir et d’étudier par le biais d’un modèle
statistique l’influence d’une ou plusieurs variables qualitatives (facteurs explicatifs) sur
le niveau d’une variable quantitative (réponse). L’objectif essentiel est alors de comparer
les moyennes empiriques de la variable réponse pour les différents niveaux du ou des facteurs et leurs combinaisons.
1.2
Définitions
Il est important de bien distinguer les deux types de variables en jeu et leur rôle respectif
dans le problème. A savoir :
la réponse qui est le résultat observé de l’expérience, la quantité d’intérêt du problème
concret (p.ex. le rendement d’une parcelle de blé (1), la concentration d’une toxine
dans le sang (2), le montant des ventes d’un produit (3). . . ). C’est une variable
continue dont la moyenne dépend éventuellement des facteurs explicatifs (cf. cidessous) mais dont on suppose la variance homogène (pas de différence de variance
en fonction des facteurs)
les facteurs explicatifs de l’expérience dont on cherche à déterminer l’influence sur la
réponse (p.ex. le type d’engrais utilisé, le nombre d’arrosages quotidiens pour (1), le
type de régime alimentaire pour (2), la région de vente, le type de campagne publicitaire pour (3). . . ). Ce sont des variables qualitatives prenant différentes modalités
(entre lesquelles on peut définir des interactions, p.ex. croisement entre le type
d’engrais et le nombre d’arrosages). Il peut éventuellement s’agir d’une variable
qualitative découpée en classes (chaque classe est alors une modalité).
Dans notre cas, on ne considérera que des modèles à un ou deux facteurs.
1
1.3
Le jeu de données
Pour le travail demandé ici, il faut tout d’abord se procurer un jeu de données pour
lequel une analyse de variance est pertinente, i.e. dont les différentes variables répondent
aux définitions données ci-dessus et présentent les mêmes relations supposées (variable
expliquée quantitative continue, variables explicatives qualitatives).
Pour illustrer cette présentation, on traite ici l’exemple suivant:
Une étude a été menée pour répondre à la question suivante : “la qualité de l’acier
dépend-elle, de manière significative, du type de laminoir (3 machines différentes, numérotées de 1 à 3) et de la provenance du matériau brut (3 fournisseurs différents, numérotés de
1 à 3), en tenant compte de l’interaction des 2 facteurs?” Chez chacun des 3 fournisseurs,
9 échantillons de fer ont été prélevés et répartis ensuite au hasard entre les 3 machines (3
échantillons/machine). La réponse y est la ductilité (propriété d’un métal qui peut être
étiré, allongé sans se rompre), qui est une mesure de la qualité de l’acier. Dans le tableau
suivant, on lit les 27 valeurs observées, classées selon les 3 valeurs possibles des 2 facteurs
explicatifs (“fournisseur” et “machine”).
fournisseur 1
fournisseur 2
fournisseur 3
machine 1
8.03 (1)
7.55 (2)
8.50 (3)
7.26 (10)
6.05 (11)
7.97 (12)
8.65 (19)
8.29 (20)
8.55 (21)
machine 2
7.76 (4)
6.36 (5)
7.12 (6)
7.90 (13)
7.79 (14)
8.13 (15)
8.21 (22)
7.39 (23)
8.01 (24)
machine 3
8.17 (7)
8.52 (8)
7.91 (9)
7.26 (16)
7.18 (17)
8.58 (18)
9.64 (25)
8.78 (26)
9.04 (27)
Entre parenthèses: le numéro de l’observation.
Notons que chaque “cellule” contient le même nombre d’observations (3) : on parle de
plan équirépété. Les problèmes à plus d’un facteur avec plan déséquilibré (non-équirépété)
sont nettement plus délicats à traiter et doivent en pratique être confiés à un logiciel
spécialisé. Autre remarque du même ordre : on fait plus d’une observation par cellule. Au
cas où l’on n’aurait qu’une seule observation par cellule (plan équilibré mais non répété)
l’inférence sur l’interaction des facteurs n’est pas possible, et l’on ne considère en pratique
que les effets principaux sous l’hypothèse alors implicite de non-interaction.
2
Choisir ses données :
proposé, on veillera :
en conclusion, pour choisir un jeu de données adapté au travail
• d’une part à se trouver dans les conditions du problème d’analyse de variance à deux
facteurs (une réponse quantitative continue et deux facteurs qualitatifs)
• d’autre part à ce que le plan de l’expérience considérée soit équirépété (un même
nombre K ≥ 3 d’observations pour chaque combinaison de niveaux des deux facteurs)
1.4
Estimation
Notations : dans la suite, on note K le nombre d’observation par cellule (dans le jeu
de données de l’exemple K = 3), I le nombre de niveaux du premier facteur (ici il s’agit
de “fournisseur”, donc I = 3 pour notre exemple) et J celui du deuxième facteur (J = 3
également pour nous). La variable réponse est notée y, et l’on utilise les indices k à
l’intérieur d’une cellule, i et j pour les niveaux des facteurs. Ainsi :
yijk
est la k eme observation dans la cellule définie par le niveau i du premier facteur et le
niveau j du deuxième facteur. Par exemple :
y1,2,3 = 7.12
pour notre jeu de données.
Par ailleurs, on adopte les notations usuelles pour les moyennes partielles. La moyenne
des observations dans la cellule (i, j) est notée :
ȳij.
K
1 X
=
yijk
K
k=1
De même on définit les moyennes empiriques par niveau des facteurs :
ȳi..
J
1X
=
ȳij.
J
j=1
I
ȳ.j.
1X
=
ȳij.
I
i=1
3
Et la moyenne générale des observations :
ȳ... =
J
I
1X
1X
ȳ.j. =
ȳi..
J
I
i=1
j=1
Attention ! ces formules ne sont valables que dans le cas équirépété !
On définit les mêmes notations pour les paramètres µ : µ.. µi. µ.j µij représentant resp.
l’effet moyen général, l’effet moyen du niveau i du premier facteur, l’effet moyen du niveau
j du deuxième facteur, l’effet moyen dans la cellule (i, j) (cf. ci-dessous).
Modèles : Le modèle “par cellule” d’analyse de variance (ou première forme du modèle)
peut s’écrire :
yijk = µij + ijk
ainsi dans chaque cellule (i, j) la valeur de la réponse est donnée par un effet moyen
µij commun à toutes les observations de la cellule, et un écart ijk à l’effet moyen pour
chaque observation k de cette cellule qui est une quantité aléatoire, de moyenne nulle, et
de variance constante.
On peut aussi écrire un modèle différentiel (ou deuxième forme du modèle), où les effets
des différents facteurs s’ajoutent, ce qui permettra les tests et interprétations sur l’effet
de ces facteurs :
yijk = µ.. + αi + βj + γij + ijk
(1)
où µ.. est un effet moyen global (commun à toutes les cellules), αi (effet différentiel du
premier facteur) traduit l’influence sur cet effet moyen du niveau i du premier facteur, βj
(effet différentiel du deuxième facteur) celui du niveau j du deuxième facteur, et γij (effet
interaction) celui de l’interaction de ces deux niveaux pour les deux facteurs.
µ.. + αi + βj + γij donne ainsi un effet moyen pour la cellule (i, j). A nouveau, ijk
dénote l’écart, pour la k eme observation de la cellule, à cet effet moyen.
Le tableau suivant donne les relations entre les divers paramètres introduits :
Terme
Paramètre
moyenne générale
effet niveau i du 1er facteur
effet niveau j du 2ème facteur
effet de l’interaction en (i, j)
µ..
αi = µi. − µ..
βj = µ.j − µ..
γij = µij − µi. − µ.j + µ..
4
On a donc clairement les contraintes suivantes sur les paramètres du 2ème modèle par
définition de ceux-ci (cf. tableau) :
I
X
i=1
αi =
J
X
βj = 0
j=1
∀j,
I
X
γij = 0 ∀i,
i=1
J
X
γij = 0
(2)
j=1
Notons que ces contraintes assurent l’unicité de la solution.
Il est clair que les différents µ (moyennes théoriques) sont estimés sans biais par les ȳ
correspondants (p.ex., µ.j est estimé par ȳ.j. ). On a ainsi pour l’estimation des paramètres
du modèle différentiel le tableau suivant :
Paramètre
Estimation
µ..
αi = µi. − µ..
βj = µ.j − µ..
γij = µij − µi. − µ.j + µ..
ȳ...
ȳi.. − ȳ...
ȳ.j. − ȳ...
ȳij. − ȳi.. − ȳ.j. + ȳ...
L’estimation pour les données de l’exemple sera faite en section 2 lors de la présentation
des méthodes logicielles.
1.5
Tests
Les résultats de ce problème d’estimation très simple permettent d’effectuer une série de
tests qui font tout l’intérêt pratique de l’analyse de variance. En effet, l’interprétation des
paramètres du modèle sous forme différentielle est immédiate : les αi et βj qualifient l’effet
des deux facteurs sur le niveau de la moyenne d’une observation, et les γij qualifient l’effet
de l’interaction des deux facteurs. Si l’on se réfère à la formule (1) définissant ce modèle on
constate aisément que ces paramètres quantifient la façon dont la moyenne d’une cellule
s’écarte de la moyenne générale selon les niveaux pris par les facteurs. Si par exemple αi
est positif, alors toutes les cellules définies par le i-ème niveau du premier facteur auront
une valeur moyenne influencée positivement par ce facteur (pour reprendre notre exemple,
la positivité de αi indique qu’en s’approvisionnant chez le fournisseur i, on obtient une
ductilité moyenne µi. supérieure à la ductilité moyenne générale µ.. ).
On comprend alors que la disponibilité de test de significativité des paramètres du
modèle (sont-ils significativement différents de zéro ?) est cruciale pour l’exploitation
statistique de l’expérience. Si l’on peut rejeter l’hypothèse nulle “tous les paramètres αi
sont nuls”, alors c’est que le premier facteur a un effet avéré sur la réponse (p.ex. que la
provenance du fer influence sensiblement la qualité de l’acier).
5
Les tests effectués ici concernent la présence globale d’un effet pour chacun des deux
facteurs et pour leur interaction. On ne s’intéresse pas dans un premier temps à des tests
sur des paramètres individuels, mais à des tests sur soit l’ensemble des αi , soit l’ensemble
des βj , ou encore l’ensemble des γij .
Plus formellement on considère les tests :
(
H01 : α1 = · · · = αI = 0
(3)
H11 : ∃i, αi 6= 0
(
H02 : β1 = · · · = βJ = 0
(4)
H12 : ∃j, βj 6= 0
(
H03 : γ11 = · · · = γIJ = 0
(5)
H13 : ∃i, j : γij 6= 0
Au cas où, pour un niveau donné, on est amené à rejeter l’hyptohèse nulle correspondante, on conclura donc respectivement à la présence d’un effet de la part du premier
facteur, du deuxième facteur, ou de leur interaction.
Ces tests sont basés sur la décomposition suivante de la variance de l’échantillon :
SST
SST
SS1
SS2
SSI
SSE
=
=
=
=
=
=
SS1 + SS2 + SSI + SSE avec :
PI PJ PK
(yijk − ȳ... )2
i=1
PI j=1 k=1 2
JK i=1 (ȳi.. − ȳ... )
P
IK Jj=1 (ȳ.j. − ȳ... )2
P P
K Ii=1 Jj=1 (ȳij. − ȳi.. − ȳ.j. + ȳ... )2
PI PJ PK
2
j=1
k=1 (yijk − ȳij. )
i=1
SST est une mesure de la variance totale des observations, SS1 est une mesure de la
variance entre les groupes d’observations définis par les niveaux du premier facteur, de
même que SS2 pour le deuxième facteur et SSI pour les groupes d’observations définis
par le croisement des deux facteurs. SSE est une mesure de la variance des erreurs.
Comme toute bonne somme de carrés, ces quantités divisées par leur nombre de degrés
de liberté suivent asymptotiquement des lois de chi-carré avec nombres de degrés de liberté
correspondants. Ceux-ci sont obtenus avec les règles habituelles.
L’idée générale des tests est alors de comparer la variance expliquée par un facteur
ou par l’interaction de deux facteurs à la variance des erreurs. Si la variance expliquée
est “grande” devant la variance des erreurs, c’est alors que le facteur considéré définit des
groupes entre lesquels les différences sont plus grandes que celles auxquelles on s’attendrait
du seul fait de la variabilité intrinsèque des résultats d’une expérience aléatoire.
6
Pour quantifier cet écart et fixer une règle de décision, on se base sur le fait que, sous
l’hypothèse nulle d’absence d’effet, la loi du rapport des variance est connue. Ceci permet
de fixer les bornes de rejet de la façon habituelle. Le tableau suivant résume ces éléments :
Source
de variation
Degrés
de liberté
Somme
des carrés
1er facteur
I −1
SS1
2e facteur
J −1
SS2
interaction
(I − 1)(J − 1)
SSI
erreur
IJ(K − 1)
SSE
total
IJK − 1
SST
Carrés moyens
SS1
I −1
SS2
M S2 =
J −1
SSI
M SI =
(I − 1)(J − 1)
SSE
M SE =
IJ(K − 1)
M S1 =
F
M S1 /M SE
M S2 /M SE
M SI /M SE
où F suit une loi de Fisher avec les degrés de liberté du numérateur et du dénominateur
sous l’hypothèse nulle correspondante.
Ainsi les tests sont pratiqués de la façon suivante : on calcule les sommes de carrés sur
les observations, on obtient les variances en divisant par le bon nombre de d.d.l., puis on
calcule le rapport entre la variance se réferrant à l’hypothèse nulle considérée (variance du
premier facteur pour l’hypothèse H01 , du deuxième facteur pour l’hypothèse H02 , etc. . . )
et la variance des erreurs. On compare alors le résultat obtenu au quantile d’ordre 1 − α
de la loi F avec degrés de liberté du numérateur et du dénominateur du rapport des
variances, où α est le niveau du test. On conclut en conséquence (rejet si plus grand que
le quantile, car alors la fraction de variance expliquée est trop grande pour n’être due qu’à
la variabilité intrinsèque d’une expérience aléatoire).
Stratégie de test : en général, pour un modèle à plusieurs facteurs, on commence
par tester la présence d’un effet de l’interaction (test (5)). Si on rejete l’hypothèse
nulle d’absence d’effet, alors on gardera de toute façon les deux facteurs dans le modèle,
puisqu’ils ont un effet significatif ne serait-ce qu’à travers leur interaction.
1.6
Comparaisons multiples
Au cas où, pour l’un des facteurs, l’hypothèse de nullité de tous les coefficients dans le
modèle différentiel a été rejetée, on peut se demander lesquels parmis ces coefficients sont
significativement différents de zéro, et si éventuellement il n’est pas possible d’une façon
ou d’une autre, d’ordonner les différents niveaux du facteur en fonction des moyennes
correspondantes pour la réponse (si p.ex. on rejette l’hypothèse d’absence d’effet de la
provenance du fer sur la ductilité de l’acier produit, il est alors intéressant de savoir
quels fournisseurs se différencient deux à deux, ou mieux, d’ordonner les fournisseurs par
ductilité croissante si c’est possible).
7
L’idée est de comparer les moyennes µi. (ou µ.j ) deux à deux pour les différents niveaux
du facteur. Ceci pour détecter les différences significatives entre deux moyennes, et construire un ordre partiel sur l’ensemble des niveaux (cet ordre n’est que partiel du fait de
la notion de “significativité” : il est des cas où l’on ne peut dire clairement si µi. > µi0 .
ou l’inverse, du fait que la différence entre les estimateurs ȳi.. et ȳi0 .. est trop faible par
rapport au bruit aléatoire dans l’expérience. On ne peut pas donc complètement ordonner
les niveaux du facteur.)
Pour formaliser ce problème d’incertitude (ou de significativité) on utilise la méthode
des intervalles de confiance. La démarche consiste à obtenir un ensemble d’intervalles
de confiance simultanés pour toutes les différences de moyennes µi. − µi0 . définies par un
facteur au niveau de confiance global au moins 1 − α. (NB : si l’on travaillait avec une
série d’intervalles de confiance individuels au niveau 1 − α, le niveau de confiance global
ne serait pas supérieur ou égal à 1 − α, d’où la nécessité de travailler avec des intervalles
simultanés). On utilise donc le résultat suivant (méthode de Scheffé) :
"
"
r
P ∀i, i0 = 1, ..., I : µi. − µi0 . ∈ (Ȳi.. − Ȳi0 .. ) ±
2
(I − 1)F(1−α) CMres
JK
##
≥ 1 − α (6)
avec :
CMres =
SST − SS1 − SS2
(I − 1)(J − 1) + IJ(K − 1)
et
F(1−α) = FI−1,(I−1)(J−1)+IJ(K−1);1−α
De la même façon pour l’autre facteur :
"
P ∀j, j 0 = 1, ..., J :
"
r
µ.j − µ.j 0 ∈ (Ȳ.j. − Ȳ.j 0 . ) ±
2
(J − 1)F(1−α) CMres
IK
##
≥1−α
avec cette fois :
F(1−α) = FJ−1,(I−1)(J−1)+IJ(K−1);1−α
Remarquons qu’implicitement avec cette méthode, on suppose qu’une seule des deux
hypothèses nulles est rejetée : si l’on s’intéresse au premier facteur du fait du rejet de
l’hypothèse d’égalité de toutes ses moyennes, et que l’on “ordonne” ses niveaux en utilisant
la méthode de Scheffé, on suppose l’autre hypothèse nulle vraie, ce qui permet d’obtenir
le résultat de loi donnant les intervalles de confiance simultanés.
Les formules précédentes nous donnent un intervalle de confiance pour chaque couple
de moyennes (correspondant à un couple de niveaux d’un facteur). La méthode adoptée
pour ordonner les facteurs est la suivante :
8
• si l’intervalle de confiance pour µi. − µi0 . contient la valeur zéro, alors on ne peut
comparer les deux moyennes µi. et µi0 . (comme zéro est une valeur possible pour la
différence, on ne peut affirmer qu’il existe une différence significative ni dans un sens
ni dans l’autre)
• si cet intervalle ne contient que des valeurs positives, alors on peut affirmer (au
niveau de confiance simultané d’au moins 1 − α) que µi. est supérieure à µi0 .
• si cet intervalle ne contient que des valeurs négatives, alors on peut affirmer (idem)
que µi. est inférieure à µi0 .
Cette méthode permet donc d’ordonner partiellement les niveaux d’un facteur sous
l’hypothèse implicite d’absence d’effet de l’autre facteur. Il est à noter que cette méthode
est conservative : il est en pratique de nombreux cas où l’on ne se prononce pas (l’intervalle
contient la valeur zéro), et en fait, il peut même arriver que tous les intervalles contiennent
la valeur zéro – ce qui semblerait signifier qu’aucune différence significative n’est détectée
entre les moyennes de ce facteur ! – alors que l’hypothèse nulle d’absence d’effet à été
rejetée au même niveau α. Ce qui revient à dire que le niveau de confiance d’au moins
1 − α est souvent en réalité bien supérieur à 1 − α ce qui conduit à considérer des intervalles de confiance simultanés trop grands : leur chance de contenir la valeur zéro en est
significativement augmentée...
En conclusion, cette méthode de comparaisons multiples ne peut “contredire” le résultat
du test d’hypothèse pour le facteur correspondant à niveau égal : si l’on a rejeté l’hypothèse
d’égalité de toutes les moyennes, le fait de ne trouver aucune différence significative avec
les comparaisons multiples ne peut remettre en cause le résultat du premier test.
1.7
Graphiques
Il est toujours recommandé de compléter une étude statistique par un ensemble de graphiques bien choisis, qui permettent de détecter un problème dans les données (valeur aberrante, erreur d’encodage,... ), mais qui apportent aussi une information visuelle sur les
variables et leurs liaisons.
Dans le cas de l’ANOVA, on pense principalement aux boı̂tes à moustaches parallèles
pour visualiser l’effet d’un facteur donné sur la réponse, et aux graphes à deux entrées
pour détecter la présence d’interaction entre les facteurs. Notons qu’en l’absence de
tests dans cette présentation, on pourra estimer graphiquement la validité de l’hypothèse
d’homogénéité de la variance par le biais d’un scatter plot.
Il n’est malheureusement pas aisé d’obtenir des boı̂tes à moustaches avec Excel, que
l’on pourra remplacer par des scatter plots. Les autres graphiques sont par contre aisément
réalisables.
9
2
Implémentation dans l’environnement Excel
La première chose à faire est bien sûr de faire apparaı̂tre vos données sur une feuille de
calcul Excel. Soit en les entrant directement à la main si la taille du jeu de données le
permet, soit en les important depuis le fichier contenant le jeu de données
menu Fichier 1 , Ouvrir, sélectionner votre format dans type de fichier – en général
choisir fichiers lisibles. Puis ajuster les délimiteurs en fonction du formatage des
données. Conseil : enregistrez vos données dans un fichier texte .txt sous forme de
colonnes séparées par une tabulation, ou plusieurs espaces. N’oubliez pas qu’Excel ne
reconnaı̂t pas les points pour séparer les décimales : utilisez des virgules
La présence d’une colonne indiquant le numéro de chaque observation est souvent pratique.
Doivent en tout cas être présentes :
• une colonne contenant les valeurs observées de la réponse
• une colonne pour chaque facteur, indiquant le niveau du facteur pour chaque observation
Dans notre exemple, les données se trouvent dans les colonnes 1 à 3, la première ligne
contenant les titres et les 27 suivantes les données.
2.1
Calcul des estimateurs
Il s’agit de calculer une série de moyennes. Utilisez la fonction ‘moyenne’ d’Excel.
entrer =moyenne( dans une cellule vide, puis sélectionner les cellules voulues, par exemple
l’ensemble des cellules donnant les valeurs de la réponse pour lesquelles le premier facteur
est dans sa première modalité. Dans notre exemple, les cellules 2 à 17 de la colonne 3
‘rep’. Entrer ) puis Return ou Enter
Vous devez obtenir l’ensemble des ȳ à savoir :
• la moyenne générale (moyenne de toutes les observations)
• pour chaque facteur, la moyenne de la réponse pour chaque valeur possible du facteur
(dans notre exemple, la moyenne des valeurs 1 à 9 puis 10 à 18 puis 19 à 28 pour le
premier facteur, la moyenne des valeurs 1 à 3 et 10 à 12 et 19 à 21, puis 4 à 6 et 13
à 15 et 22 à 24 pour le deuxième facteur)
• pour l’interaction, la moyenne de la réponse pour chaque combinaison de niveaux
des facteurs (pour nous : valeurs 1 à 3 puis 4 à 6 puis 7 à 9 puis 10 à 12, etc...)
soit en tout I + J + IJ + 1 moyennes.
1
Dans la suite tous les mots français doivent être remplacés par leur traduction si vous utilisez la version
anglaise d’Excel.
10
Nous obtenons :
moyenne
valeur
moyenne
valeur
ȳ...
ȳ1..
ȳ2..
ȳ3..
ȳ.1.
ȳ.2.
ȳ.3.
ȳ11.
7.94
7.76
7.56
8.50
7.87
7.63
8.34
8.02
ȳ12.
ȳ13.
ȳ21.
ȳ22.
ȳ23.
ȳ31.
ȳ32.
ȳ33.
7.08
8.20
7.09
7.94
7.67
8.49
7.87
9.15
Pour calculer les α̂i , β̂j et γ̂ij , on utilise les formules données dans le tableau plus haut.
pour soustraire deux cellules : sélectionner une cellule vide, entrer = sélectionner la première
cellule, entrer ‘-’ sélectionner la deuxième cellule, et entrer Return ou Enter. De même
pour additionner, diviser, multiplier,. . . On peut bien entendu faire plusieurs opérations
dans une seule cellule, en n’entrant Return ou Enter qu’à la fin.
Conservez les cellules contenant les moyennes, qui serviront dans le calcul des sommes de
carrés.
Nous obtenons :
paramètre
valeur
paramètre
valeur
α̂1
α̂2
α̂3
β̂1
β̂2
β̂3
γ̂11
γ̂12
-0.179
-0.379
0.558
-0.075
-0.318
0.394
0.333
-0.370
γ̂13
γ̂21
γ̂22
γ̂23
γ̂31
γ̂32
γ̂33
0.037
-0.399
0.689
-0.289
0.065
-0.318
0.252
On vérifie aisément sur cet exemple les contraintes (2).
11
On peut représenter les “valeurs prédites” par le modèle à partir des paramètres estimés,
et ainsi calculer les erreurs. Sachant que pour une cellule, la somme des paramètres associés
donne la moyenne de la cellule, la valeur prédite est donc exactement cette moyenne, et
l’erreur est la différence entre les observations et les valeurs prédites.
dans une colonne adjacente à la colonne de la réponse, recopier la valeur moyenne associée
à chaque cellule – déterminée par le niveau de chacun des facteurs pour chaque observation.
Sélectionnez la cellule contenant la moyenne voulue, puis ctrl + c – ou pomme + c –
puis sélectionnez l’ensemble des cellules de la nouvelle colonne se situant en face des
observations se référant à cette moyenne, puis edition, collage spécial..., choisir
valeurs puis ok. Un simple ‘coller’ ne suffit pas, car vous colleriez alors une formule
dont les références seraient erronées.
Pour nous les valeurs son placées dans la colonne 4 où l’on trouve donc successivement 3
cellules avec 8.02, 3 cellules avec 7.08, 3 cellules avec 8.20, 3 cellules avec 7.093, 3 cellules
avec 7.94, 3 cellules avec 7.67, 3 cellules avec 8.49, 3 cellules avec 7.87 et enfin 3 cellules
avec 9.15.
Attention ! les moyennes utilisées doivent être celles se rapportant à l’interaction,
puisque la valeur des deux facteurs doit être précisée pour définir la valeur prédite ! Ensuite, créez dans une nouvelle colonne la différence entre la colonne ‘réponse’ et la colonne
des moyennes créée précédemment.
sélectionnez la première cellule de la nouvelle colonne, entrez = puis faites la différence de
la première cellule de la colonne réponse et la première cellule de la colonne des valeurs
prédites – cf. plus haut. Ensuite sélectionnez la cellule obtenue contenant la première
différence, copiez-la ctrl/pomme + c, sélectionnez le reste de la nouvelle colonne et collez
ctrl/pomme + v. Si vos colonnes sont bien correspondantes ligne à ligne, les bonnes
différences apparaissent automatiquement dans la nouvelle colonne.
Nous obtenons donc la colonne 5 en soustrayant la colonne 4 à la colonne 3 dans notre
exemple.
2.2
Tests
Comme on a pu le constater précédemment, le tout pour effectuer les test est d’obtenir
les sommes de carrés – plus précisement le tableau (page 7) donné plus haut.
SSE: la plus simple : nous avons déjà les erreurs, reste à les mettre au carré et à sommer.
dans une nouvelle colonne, parallèlement à la colonne des erreurs, sélectionnez la
première cellule, entrez =, sélectionnez la première cellule de la colonne des erreurs,
puis entrez ^ 2, Return. Ensuite copiez cette nouvelle cellule ctrl/pomme + c, et
collez la sur le reste de la nouvelle colonne – sélectionnez l’ensemble des cellules de la
colonne correspondant aux cellules contenant les erreurs dans la colonne atenante et
entrez ctrl/pomme + v. Vous obtenez l’ensemble des carrés. Sélectionnez une nouvelle cellule – ailleurs. . . – entrez =somme( puis sélectionnez l’entièreté de la colonne
12
nouvellement créée, et entrez ), Return. La somme des carrés des erreurs apparaı̂t
dans cette nouvelle cellule.
SS1: Il s’agit de soustraire la moyenne générale aux moyennes correspondant aux différents
niveaux du premier facteur, puis de mettre au carré et de sommer. Cela revient à
mettre les α̂i au carré et les sommer. Procédez comme pour les erreurs pour obtenir
la somme des carrés. Ensuite on multiplie par JK.
sélectionnez une cellule, entrez = puis sélectionnez la cellule contenant la somme des
carrés des α̂i . Entrez *J*K où vous remplacez J et K par leur valeur – pour notre
exemple 3 et 3.
SS2: idem avec les β̂j . On multiplie par IK.
SSI: idem avec les γ̂ij , on multiplie par K.
Pour obtenir les M S. à partir des SS. il suffit de diviser par le bon entier, donné par le
tableau plus haut. On peut alors calculer les trois statistiques de test, en divisant M S(i),
i = 1, 2, I par M SE. Placez ces quantités dans trois cellules.
Nous obtenons le tableau suivant :
Source
de variation
Degrés
de liberté
Somme
des carrés
Carrés moyens
F
1er facteur
2e facteur
interaction
erreur
total
2
2
4
18
26
4.391
2.360
3.415
5.626
15.793
2.196
1.180
0.854
0.313
7.016
3.770
2.728
Pour obtenir la borne au-delà de laquelle on est amené à rejeter l’hypothèse nulle, on
se fixe un niveau α, disons 5%, et l’on cherche le quantile d’ordre 1 − α de la loi F avec
les degrés de liberté donnés par le tableau. Excel donne ces quantiles à la demande.
sélectionnez une nouvelle cellule, entrez = puis insertion, fonction.... Choisissez
statistiques, inverse.loi.f et laissez-vous guider. Attention : Excel calcule les quantiles ‘à l’envers’, i.e. dans la case probabilité, entrez 0,05 et non 0,95 pour α = 5%. . .
Une fois les quantiles obtenus, reste à comparer avec les valeurs des statistiques précédemment calculées, et à conclure en commentant les résultats par rapport au problème concret
considéré.
13
Dans notre cas, nous donnons les valeurs critiques (bornes au-delà desquelles on rejette
l’hypothèse nulle) pour des niveaux 5% et 1%. Pour les tests sur les facteurs il s’agit du
quantile d’ordre 1 − α des lois de Fisher à 2 et 18 degrés de liberté et pour l’interaction,
de ce quantile pour une loi à 4 et 18 degrés de liberté soit :
F2,18,0.95 = 3.555
et
F2,18,0.99 = 6.013
F4,18,0.95 = 2.928
et
F4,18,0.99 = 4.579
Conclusions : au niveau 5%, les hypothèses de nullité de tous les paramètres sont
rejetées pour le premier facteur et pour le deuxième, car 7.025 et 3.776 sont supérieurs à
3.56. L’hypothèse nulle n’est pas rejetée pour l’interaction, dont on ne peut donc pas dire
au niveau 5% que les coefficients sont significativement différents de zéro pour le modèle
différentiel.
Pour le niveau 1%, on rejette à nouveau l’hypothèse nulle pour le premier facteur,
mais pas pour le second ni pour l’interaction. On devrait ici conclure à l’absence d’effet
du second facteur, puisque ni ses paramètres propres, ni ceux de l’interaction avec le
premier facteur, ne sont jugés significativement différents de zéro. En gardant en tête la
conclusion obtenue pour le niveau 5%, on préfèrera conclure à un net effet du premier
facteur, et un effet plus tangent du deuxième facteur. En d’autres termes, la provenance
du matérieau brut – le fer – à un effet significatif sur la qualité de l’acier obtenu après
transformation, alors que l’effet du type de machine – laminoir – utilisé est plus tangeant,
donc probablement présent mais faible. Il ne semble pas y avoir d’interaction entre ces
deux facteurs, ce qui signifie qu’un type de laminoir donne les mêmes résultats quel que
soit la provenance du fer, et réciproquement.
2.3
Méthode de Scheffé pour les comparaisons multiples
Dans notre exemple, le facteur 1 à apparemment un effet significatif sur la réponse, alors
que l’hypothèse d’absence d’effet pour le second facteur est raisonnable. On peut donc
s’intéresser au problème de l’ordre des niveaux de ce facteur. On utilise la méthode
présentée en (1.6).
La formule (6) nous indique que tous les intervalles de confiance pour les différences de
moyennes ont la même taille (ceci provient du fait que le plan d’expérience est équirépété
et qu’on fait l’hypothèse d’homogénéité de la variance des erreurs). Ce qu’il nous faut
pour appliquer la méthode est donc :
• la taille fixe des intervalles
• l’ensemble des ȳi.. − ȳi0 .. sachant qu’il est inutile de traiter deux fois le même couple
(inutile de traiter à la fois le problème µi. − µi0 . et le problème µi0 . − µi. ).
14
Taille des intervalles : Le calcul de CMres est une simple suite d’opérations sur des
valeurs obtenues précédemment (sommes de carrés et d.d.l.). Les autres termes sous la
racine sont des constantes et un quantile. Nous avons vu comment obtenir un quantile
d’une loi F . Traitons le cas du facteur 1 dans notre exemple pour α = 5% :
CMres =
15.79 − 4.39 − 2.36
= 0.41
(3 − 1)(3 − 1) + 3 ∗ 3 ∗ (3 − 1)
I − 1 = 2,
F(1−α)
2
2
=
= 2/9
JK
3∗3
= F2,22,0.95 = 3.44
D’où la demi-longueur d’un intervalle :
r
p
2
(I − 1)F(1−α) CMres
= 2 ∗ 3.44 ∗ 0.41 ∗ 2/9 = 0.79
JK
Différence des moyennes empiriques : Il s’agit simplement de faire un ensemble
de différences sur des moyennes déjà calculées (il était recommandé plus haut de bien
conserver ces moyennes...). Dans notre cas, le facteur “fournisseur” (étant le premier
facteur) a 3 niveaux, nous avons donc 3 couples possibles, et l’on obtient :
ȳ1.. − ȳ2.. = 7.76 − 7.56 = 0.20
ȳ1.. − ȳ3.. = 7.76 − 8.50 = −0.74
ȳ2.. − ȳ3.. = 7.56 − 8.50 = −0.94
Nous obtenons donc les intervalles suivants
pour µ1. − µ2. : [−0.59; 0.99]
pour µ1. − µ3. : [−1.53; 0.06]
pour µ2. − µ3. : [−1.73; −0.14]
Les 2 premiers intervalles contiennent la valeur zéro. Le troisième ne contient que des
valeurs négatives. Par conséquent, le fournisseur 3 diffère du fournisseur 2 de manière
significative – la ductilité de l’acier obtenu est supérieur en utilisant le fer du fournisseur 3
– mais pas du fournisseur 1. Les fournisseurs 1 et 2 ne sont pas significativement différents.
pour obtenir la racine carrée avec Excel, entrez =racine( puis sélectionnez la cellule
dont vous désirez obtenir la racine, et enfin entrez ) Return
15
2.4
Graphiques
Pour obtenir des graphiques avec Excel, utilisez l’assistant graphique (menu “insertion”,
item “graphique”, ou via l’icone représentant un histogramme). Les types de graphiques
que nous utilisons ici sont les nuages de points et les courbes superposées. Les nuages
de points remplacent les boı̂tes à moustaches utilisées habituellement. Les graphiques
apportent deux types d’information. Ils permettent d’une part de se faire une idée a
priori sur la présence d’effet des facteurs ou de leur intéraction. Ils donnent par ailleurs
une première estimation sur la validité de l’hypothèse d’homogénéité de la variance entre
les cellules.
Visualisation de l’effet des facteurs : en général, on utilise une série de boı̂tes à
moustaches en parallèle représentant chacune la variable réponse pour un niveau donné
d’un facteur (ici, on aurait représenté trois boı̂tes pour le facteur “fournisseur” puis trois
boı̂tes pour le facteur “machine”). En leur absence, nous utilisons les nuages de points
qui apportent une information similaire mais moins précise.
L’idée est donc de faire figurer un nuage de points, chaque point étant une observation,
dont les abscisses sont données par le niveau du facteur considéré et les ordonnées par la
valeur de la réponse. Nous avons intitulé ces graphiques “Effet Fournisseur” et “Effet
Machine” dans notre exemple.
pour obtenir un tel graphique, entrez dans l’assistant graphique, puis sélectionnez le type
nuage de points (“scatterplot” en anglais). Choisissez l’option nouvelle série. On
vous demande alors d’entrer une ‘série’ pour x et une autre pour y. Cliquez sur l’icône
en forme de feuille Excel à droite de la zone réservée à la série x, et sur votre feuille
de calcul, sélectionnez la colonne donnant les niveaux du facteur considéré – p.ex. la
colonne 2 pour le deuxième facteur, “Machine” pour nous. Cliquez à nouveau sur l’icône
en forme de feuille Excel dans la boı̂te de dialogue : votre série est automatiquement entrée
dans l’assistant graphique. Procédez de même pour y, en sélectionnant cette fois la colonne
réponse – la colonne 3 pour nous. Les deux séries étant présentes, votre graphique apparaı̂t
dans l’assistant graphique. Cliquez sur suivant et amusez vous avec les options...
Après avoir obtenu ces graphiques, il faut en donner une interprétation. Clairement,
si les ‘nuages’ de points sur un graphique sont nettement décalés (verticalement !) les uns
par rapport aux autres, c’est que le niveau du facteur considéré a une influence notable sur
la valeur de la réponse, et que l’on a donc de grande chances d’avoir un effet significatif
de ce facteur. Dans notre cas, pour les fournisseurs (premier facteur), il semble que le
troisième donne de meilleurs résultats de ductilité, les deux autres n’étant pas discernables
(deux premiers nuages équivalents, troisième nuage plus élevé), et donc une influence du
fournisseur sur la ductilité est probable. La situation est assez semblable pour le deuxième
facteur (“Effet Machine”), peut-être moins nette cette fois. Ceci est confirmé par les tests
effectués précédemment.
Présence de l’interaction : pour juger de la présence d’interaction entre deux facteurs
graphiquement, on représente pour chaque niveau du premier facteur une courbe (en fait
16
une ligne brisée...) donnant la valeur moyenne dans une cellule pour ce niveau du premier
facteur en fonction du niveau du deuxième facteur : pour chaque i, on représente ȳij. en
fonction de j. On obtient autant de courbes que de niveaux i pour le premier facteur (3
pour nous). Nous avons intitulé ce graphique “Interaction”.
pour obtenir un tel graphique, entrez dans l’assistant graphique, choisissez le type de
graphique courbes et le premier sous-type en haut à gauche. Cliquez sur l’onglet série
et ajouttez autant de série que votre premier facteur a de niveaux. Pour chacune d’entreelles, cliquez sur l’icône à droite de la zone valeur et sélectionnez une à une les moyennes
empiriques pour le niveau concerné du premier facteur croisé avec les niveaux successifs
du deuxième facteur : maintenez la touche ctrl/pomme enfoncée et cliquez sur les cellules
correspondantes dans l’ordre ! Vos séries s’affichent au fur et à mesure dans l’assistant
graphique, avec des couleurs différentes. Peaufinez la présentation...
L’interprétation d’un tel graphique est la suivante : en une abscisse donnée (donc pour
un niveau donné du deuxième facteur), l’ordre des courbes donne l’ordre des réponses
moyennes en fonction des niveaux du premier facteur. Si cet ordre ne change pas d’une
abscisse à l’autre, c’est que le second facteur n’influence pas la façon dont le premier
facteur ordonne la réponse. Dans ce cas, les courbes sont à peu près parallèles. Si au
contraire les courbes s’entrecroisent, et donc que l’ordre des courbes change d’un point
sur l’autre, c’est alors que le niveau du second facteur a une influence sur la façon dont le
premier facteur ordonne la réponse moyenne : il y a alors interaction (l’effet du premier
facteur dépend du niveau du deuxième facteur). Il faut toutefois être prudent dans ce
type d’interpretation. Si les courbes ne se croisent pas (bon parallélisme), on peut alors
conclure en toute sécurité à l’absence d’interaction significative. Cependant, lorsque des
croisements apparaissent entre les courbes (non-parallélisme), une bonne habitude de la
méthode est requise pour se risquer à dire quelle est la “dose” suffisante de croisements
pour que l’interaction soit significative.
Dans notre cas, on constate que les courbes des 1er et 3e niveaux du facteur “fournisseur” sont bien parallèles, mais que le rang du deuxième niveau change lorsque le facteur
“machine” est dans son deuxième niveau : la courbe rose croise les deux autres courbes.
Ainsi l’ordre des coubes est le même pour le premier et le troisième niveaux du facteur “machine” mais partiellement différent pour le deuxième niveau. Il est donc possible qu’une
interaction significative soit présente. Cela étant, cette ‘entorse’ au parallélisme ne sera
pas statistiquement significative, comme le confirme le test de présence de l’interaction
effectué précédemment.
Homogénéité de la variance : pour se faire une idée de la validité de l’hyptohèse
d’homogénéité de la variance (même variance dans chaque cellule), en l’absence de tests
dans ce travail, vous pouvez observer les graphiques obtenus pour l’effet des facteurs, et en
produire un nouveau, représentant un nuage de point pour chaque cellule. Si la variance
est bien homogène, la dispersion des sous-nuages doit être à peu près la même quels que
soient les niveaux des facteurs.
En utilisant la même méthode que pour le cas de l’effet des facteurs, représentez un
nuage de points, où chaque point est une observation ayant comme abscisse le numéro
17
de sa cellule (sans importance, du moment que chaque cellule ait un numéro différent :
nous les avons numérotées de 1 à 9 (cf. colonne 0) dans leur ordre d’apparition dans les
colonnes de notre jeu de données) et comme ordonnée la valeur de l’erreur calculée plus
haut (dans la colonne 5 pour nous). On obtient donc un nuage de K points pour chaque
cellule – graphique intitulé “erreur vs. cellule” pour nous.
Si l’on considère les deux graphiques relatifs aux deux facteurs (“Effet Fournisseur” et
“Effet Machine”), on peut juger de l’homogénéité de la variance entre les différents niveaux
d’un seul facteur. Si les sous-nuages de points relatifs aux différents niveaux sont de taille
(ou dispersion : ceci n’a bien sur rien à voir avec l’allignement des sous-nuages) comparable,
la variance de l’erreur est alors probablement comparable d’un niveau sur l’autre. Ce
qui paraı̂t être le cas pour les deux facteurs dans notre exemple. L’interprétation du
graphique par cellules obtenu en dernier lieu est similaire : si les IJ sous-nuages sont
de dispersion comparable, c’est que la variance est comparable d’une cellule sur l’autre,
et ainsi que l’hypothèse d’homogénéité est probablement respectée. Dans notre cas, le
graphique “erreur vs. cellule” semble poser quelques problèmes, p.ex. les cellules 4 et
5 correspondant à des sous-nuages de dispersion très différentes... Cependant, avec un
nombre d’observations par cellule assez faible (3 ici) il est difficile de tirer une conclusion
valable. Un tel graphique est surtout utile pour K > 5. Nous concluons donc qu’au vu
de nos graphiques, l’hypothèse d’homogénéité de la variance semble être raisonnablement
satisfaite.
3
Quelques recommandations
Pour terminer, quelques conseils pratiques :
• Choisissez vos données avec soin. Il faut bien entendu qu’elles entrent dans le cadre
de l’analyse de variance à deux facteurs comme spécifié plus haut. Mais veillez
également à ce que la taille du jeu de données soit raisonnable : pas trop grand
(< 100 observations) auquel cas le traitement avec Excel deviendrait pénible, mais
pas trop petit non plus. Il faut bien garder à l’esprit la nécessité du caractère
équirépété de l’expérience, et au moins un des deux facteurs devrait présenter plus
de deux niveaux pour que la méthode de Scheffé présente un réel intérêt. K = 3
semble être un minimum comme nombre de répétitions par cellule. Ainsi notre jeu
de données peut être considéré comme raisonnable, voire un peu petit pour que le
travail soit agréable.
• Vous n’êtes pas mathématiciens : profitez-en pour trouver des données propres à
votre orientation (il existe d’innombrables jeux de données autour de vous), qui se
prêtent en général très bien au travail demandé. Vous aurez de plus grandes facilités
à interpréter les résultats d’un point de vue pratique.
• Faites les graphiques en premier, les calculs après. En général, si les tests sont faits
avant les graphiques, on ne peut s’empêcher d’interpréter ceux-ci de façon concordante avec les résultats numériques. On s’ôte alors toute possibilité de remettre ces
18
résultats en question (données aberrantes, erreur de calcul, problème d’hypothèses
non satisfaites...). Beaucoup de résultats publiés en sciences expérimentales sont
erronés de ce simple fait.
• Rédigez de façon raisonnable : pas de roman, bien entendu, mais un minimum de
commentaires s’imposent après obtention d’un résultat ou d’un graphique. N’oubliez
pas de répondre à la question pratique ayant amené à faire l’analyse statistique...
Bon courage !
19