Analyse de la variance avec Excel
Transcription
Analyse de la variance avec Excel
Analyse de la variance avec Excel Benoı̂t Laine (ULB) 7 mars 2005 1 1.1 Quelques rappels sur l’ANOVA Introduction L’objet de l’analyse de variance est de définir et d’étudier par le biais d’un modèle statistique l’influence d’une ou plusieurs variables qualitatives (facteurs explicatifs) sur le niveau d’une variable quantitative (réponse). L’objectif essentiel est alors de comparer les moyennes empiriques de la variable réponse pour les différents niveaux du ou des facteurs et leurs combinaisons. 1.2 Définitions Il est important de bien distinguer les deux types de variables en jeu et leur rôle respectif dans le problème. A savoir : la réponse qui est le résultat observé de l’expérience, la quantité d’intérêt du problème concret (p.ex. le rendement d’une parcelle de blé (1), la concentration d’une toxine dans le sang (2), le montant des ventes d’un produit (3). . . ). C’est une variable continue dont la moyenne dépend éventuellement des facteurs explicatifs (cf. cidessous) mais dont on suppose la variance homogène (pas de différence de variance en fonction des facteurs) les facteurs explicatifs de l’expérience dont on cherche à déterminer l’influence sur la réponse (p.ex. le type d’engrais utilisé, le nombre d’arrosages quotidiens pour (1), le type de régime alimentaire pour (2), la région de vente, le type de campagne publicitaire pour (3). . . ). Ce sont des variables qualitatives prenant différentes modalités (entre lesquelles on peut définir des interactions, p.ex. croisement entre le type d’engrais et le nombre d’arrosages). Il peut éventuellement s’agir d’une variable qualitative découpée en classes (chaque classe est alors une modalité). Dans notre cas, on ne considérera que des modèles à un ou deux facteurs. 1 1.3 Le jeu de données Pour le travail demandé ici, il faut tout d’abord se procurer un jeu de données pour lequel une analyse de variance est pertinente, i.e. dont les différentes variables répondent aux définitions données ci-dessus et présentent les mêmes relations supposées (variable expliquée quantitative continue, variables explicatives qualitatives). Pour illustrer cette présentation, on traite ici l’exemple suivant: Une étude a été menée pour répondre à la question suivante : “la qualité de l’acier dépend-elle, de manière significative, du type de laminoir (3 machines différentes, numérotées de 1 à 3) et de la provenance du matériau brut (3 fournisseurs différents, numérotés de 1 à 3), en tenant compte de l’interaction des 2 facteurs?” Chez chacun des 3 fournisseurs, 9 échantillons de fer ont été prélevés et répartis ensuite au hasard entre les 3 machines (3 échantillons/machine). La réponse y est la ductilité (propriété d’un métal qui peut être étiré, allongé sans se rompre), qui est une mesure de la qualité de l’acier. Dans le tableau suivant, on lit les 27 valeurs observées, classées selon les 3 valeurs possibles des 2 facteurs explicatifs (“fournisseur” et “machine”). fournisseur 1 fournisseur 2 fournisseur 3 machine 1 8.03 (1) 7.55 (2) 8.50 (3) 7.26 (10) 6.05 (11) 7.97 (12) 8.65 (19) 8.29 (20) 8.55 (21) machine 2 7.76 (4) 6.36 (5) 7.12 (6) 7.90 (13) 7.79 (14) 8.13 (15) 8.21 (22) 7.39 (23) 8.01 (24) machine 3 8.17 (7) 8.52 (8) 7.91 (9) 7.26 (16) 7.18 (17) 8.58 (18) 9.64 (25) 8.78 (26) 9.04 (27) Entre parenthèses: le numéro de l’observation. Notons que chaque “cellule” contient le même nombre d’observations (3) : on parle de plan équirépété. Les problèmes à plus d’un facteur avec plan déséquilibré (non-équirépété) sont nettement plus délicats à traiter et doivent en pratique être confiés à un logiciel spécialisé. Autre remarque du même ordre : on fait plus d’une observation par cellule. Au cas où l’on n’aurait qu’une seule observation par cellule (plan équilibré mais non répété) l’inférence sur l’interaction des facteurs n’est pas possible, et l’on ne considère en pratique que les effets principaux sous l’hypothèse alors implicite de non-interaction. 2 Choisir ses données : proposé, on veillera : en conclusion, pour choisir un jeu de données adapté au travail • d’une part à se trouver dans les conditions du problème d’analyse de variance à deux facteurs (une réponse quantitative continue et deux facteurs qualitatifs) • d’autre part à ce que le plan de l’expérience considérée soit équirépété (un même nombre K ≥ 3 d’observations pour chaque combinaison de niveaux des deux facteurs) 1.4 Estimation Notations : dans la suite, on note K le nombre d’observation par cellule (dans le jeu de données de l’exemple K = 3), I le nombre de niveaux du premier facteur (ici il s’agit de “fournisseur”, donc I = 3 pour notre exemple) et J celui du deuxième facteur (J = 3 également pour nous). La variable réponse est notée y, et l’on utilise les indices k à l’intérieur d’une cellule, i et j pour les niveaux des facteurs. Ainsi : yijk est la k eme observation dans la cellule définie par le niveau i du premier facteur et le niveau j du deuxième facteur. Par exemple : y1,2,3 = 7.12 pour notre jeu de données. Par ailleurs, on adopte les notations usuelles pour les moyennes partielles. La moyenne des observations dans la cellule (i, j) est notée : ȳij. K 1 X = yijk K k=1 De même on définit les moyennes empiriques par niveau des facteurs : ȳi.. J 1X = ȳij. J j=1 I ȳ.j. 1X = ȳij. I i=1 3 Et la moyenne générale des observations : ȳ... = J I 1X 1X ȳ.j. = ȳi.. J I i=1 j=1 Attention ! ces formules ne sont valables que dans le cas équirépété ! On définit les mêmes notations pour les paramètres µ : µ.. µi. µ.j µij représentant resp. l’effet moyen général, l’effet moyen du niveau i du premier facteur, l’effet moyen du niveau j du deuxième facteur, l’effet moyen dans la cellule (i, j) (cf. ci-dessous). Modèles : Le modèle “par cellule” d’analyse de variance (ou première forme du modèle) peut s’écrire : yijk = µij + ijk ainsi dans chaque cellule (i, j) la valeur de la réponse est donnée par un effet moyen µij commun à toutes les observations de la cellule, et un écart ijk à l’effet moyen pour chaque observation k de cette cellule qui est une quantité aléatoire, de moyenne nulle, et de variance constante. On peut aussi écrire un modèle différentiel (ou deuxième forme du modèle), où les effets des différents facteurs s’ajoutent, ce qui permettra les tests et interprétations sur l’effet de ces facteurs : yijk = µ.. + αi + βj + γij + ijk (1) où µ.. est un effet moyen global (commun à toutes les cellules), αi (effet différentiel du premier facteur) traduit l’influence sur cet effet moyen du niveau i du premier facteur, βj (effet différentiel du deuxième facteur) celui du niveau j du deuxième facteur, et γij (effet interaction) celui de l’interaction de ces deux niveaux pour les deux facteurs. µ.. + αi + βj + γij donne ainsi un effet moyen pour la cellule (i, j). A nouveau, ijk dénote l’écart, pour la k eme observation de la cellule, à cet effet moyen. Le tableau suivant donne les relations entre les divers paramètres introduits : Terme Paramètre moyenne générale effet niveau i du 1er facteur effet niveau j du 2ème facteur effet de l’interaction en (i, j) µ.. αi = µi. − µ.. βj = µ.j − µ.. γij = µij − µi. − µ.j + µ.. 4 On a donc clairement les contraintes suivantes sur les paramètres du 2ème modèle par définition de ceux-ci (cf. tableau) : I X i=1 αi = J X βj = 0 j=1 ∀j, I X γij = 0 ∀i, i=1 J X γij = 0 (2) j=1 Notons que ces contraintes assurent l’unicité de la solution. Il est clair que les différents µ (moyennes théoriques) sont estimés sans biais par les ȳ correspondants (p.ex., µ.j est estimé par ȳ.j. ). On a ainsi pour l’estimation des paramètres du modèle différentiel le tableau suivant : Paramètre Estimation µ.. αi = µi. − µ.. βj = µ.j − µ.. γij = µij − µi. − µ.j + µ.. ȳ... ȳi.. − ȳ... ȳ.j. − ȳ... ȳij. − ȳi.. − ȳ.j. + ȳ... L’estimation pour les données de l’exemple sera faite en section 2 lors de la présentation des méthodes logicielles. 1.5 Tests Les résultats de ce problème d’estimation très simple permettent d’effectuer une série de tests qui font tout l’intérêt pratique de l’analyse de variance. En effet, l’interprétation des paramètres du modèle sous forme différentielle est immédiate : les αi et βj qualifient l’effet des deux facteurs sur le niveau de la moyenne d’une observation, et les γij qualifient l’effet de l’interaction des deux facteurs. Si l’on se réfère à la formule (1) définissant ce modèle on constate aisément que ces paramètres quantifient la façon dont la moyenne d’une cellule s’écarte de la moyenne générale selon les niveaux pris par les facteurs. Si par exemple αi est positif, alors toutes les cellules définies par le i-ème niveau du premier facteur auront une valeur moyenne influencée positivement par ce facteur (pour reprendre notre exemple, la positivité de αi indique qu’en s’approvisionnant chez le fournisseur i, on obtient une ductilité moyenne µi. supérieure à la ductilité moyenne générale µ.. ). On comprend alors que la disponibilité de test de significativité des paramètres du modèle (sont-ils significativement différents de zéro ?) est cruciale pour l’exploitation statistique de l’expérience. Si l’on peut rejeter l’hypothèse nulle “tous les paramètres αi sont nuls”, alors c’est que le premier facteur a un effet avéré sur la réponse (p.ex. que la provenance du fer influence sensiblement la qualité de l’acier). 5 Les tests effectués ici concernent la présence globale d’un effet pour chacun des deux facteurs et pour leur interaction. On ne s’intéresse pas dans un premier temps à des tests sur des paramètres individuels, mais à des tests sur soit l’ensemble des αi , soit l’ensemble des βj , ou encore l’ensemble des γij . Plus formellement on considère les tests : ( H01 : α1 = · · · = αI = 0 (3) H11 : ∃i, αi 6= 0 ( H02 : β1 = · · · = βJ = 0 (4) H12 : ∃j, βj 6= 0 ( H03 : γ11 = · · · = γIJ = 0 (5) H13 : ∃i, j : γij 6= 0 Au cas où, pour un niveau donné, on est amené à rejeter l’hyptohèse nulle correspondante, on conclura donc respectivement à la présence d’un effet de la part du premier facteur, du deuxième facteur, ou de leur interaction. Ces tests sont basés sur la décomposition suivante de la variance de l’échantillon : SST SST SS1 SS2 SSI SSE = = = = = = SS1 + SS2 + SSI + SSE avec : PI PJ PK (yijk − ȳ... )2 i=1 PI j=1 k=1 2 JK i=1 (ȳi.. − ȳ... ) P IK Jj=1 (ȳ.j. − ȳ... )2 P P K Ii=1 Jj=1 (ȳij. − ȳi.. − ȳ.j. + ȳ... )2 PI PJ PK 2 j=1 k=1 (yijk − ȳij. ) i=1 SST est une mesure de la variance totale des observations, SS1 est une mesure de la variance entre les groupes d’observations définis par les niveaux du premier facteur, de même que SS2 pour le deuxième facteur et SSI pour les groupes d’observations définis par le croisement des deux facteurs. SSE est une mesure de la variance des erreurs. Comme toute bonne somme de carrés, ces quantités divisées par leur nombre de degrés de liberté suivent asymptotiquement des lois de chi-carré avec nombres de degrés de liberté correspondants. Ceux-ci sont obtenus avec les règles habituelles. L’idée générale des tests est alors de comparer la variance expliquée par un facteur ou par l’interaction de deux facteurs à la variance des erreurs. Si la variance expliquée est “grande” devant la variance des erreurs, c’est alors que le facteur considéré définit des groupes entre lesquels les différences sont plus grandes que celles auxquelles on s’attendrait du seul fait de la variabilité intrinsèque des résultats d’une expérience aléatoire. 6 Pour quantifier cet écart et fixer une règle de décision, on se base sur le fait que, sous l’hypothèse nulle d’absence d’effet, la loi du rapport des variance est connue. Ceci permet de fixer les bornes de rejet de la façon habituelle. Le tableau suivant résume ces éléments : Source de variation Degrés de liberté Somme des carrés 1er facteur I −1 SS1 2e facteur J −1 SS2 interaction (I − 1)(J − 1) SSI erreur IJ(K − 1) SSE total IJK − 1 SST Carrés moyens SS1 I −1 SS2 M S2 = J −1 SSI M SI = (I − 1)(J − 1) SSE M SE = IJ(K − 1) M S1 = F M S1 /M SE M S2 /M SE M SI /M SE où F suit une loi de Fisher avec les degrés de liberté du numérateur et du dénominateur sous l’hypothèse nulle correspondante. Ainsi les tests sont pratiqués de la façon suivante : on calcule les sommes de carrés sur les observations, on obtient les variances en divisant par le bon nombre de d.d.l., puis on calcule le rapport entre la variance se réferrant à l’hypothèse nulle considérée (variance du premier facteur pour l’hypothèse H01 , du deuxième facteur pour l’hypothèse H02 , etc. . . ) et la variance des erreurs. On compare alors le résultat obtenu au quantile d’ordre 1 − α de la loi F avec degrés de liberté du numérateur et du dénominateur du rapport des variances, où α est le niveau du test. On conclut en conséquence (rejet si plus grand que le quantile, car alors la fraction de variance expliquée est trop grande pour n’être due qu’à la variabilité intrinsèque d’une expérience aléatoire). Stratégie de test : en général, pour un modèle à plusieurs facteurs, on commence par tester la présence d’un effet de l’interaction (test (5)). Si on rejete l’hypothèse nulle d’absence d’effet, alors on gardera de toute façon les deux facteurs dans le modèle, puisqu’ils ont un effet significatif ne serait-ce qu’à travers leur interaction. 1.6 Comparaisons multiples Au cas où, pour l’un des facteurs, l’hypothèse de nullité de tous les coefficients dans le modèle différentiel a été rejetée, on peut se demander lesquels parmis ces coefficients sont significativement différents de zéro, et si éventuellement il n’est pas possible d’une façon ou d’une autre, d’ordonner les différents niveaux du facteur en fonction des moyennes correspondantes pour la réponse (si p.ex. on rejette l’hypothèse d’absence d’effet de la provenance du fer sur la ductilité de l’acier produit, il est alors intéressant de savoir quels fournisseurs se différencient deux à deux, ou mieux, d’ordonner les fournisseurs par ductilité croissante si c’est possible). 7 L’idée est de comparer les moyennes µi. (ou µ.j ) deux à deux pour les différents niveaux du facteur. Ceci pour détecter les différences significatives entre deux moyennes, et construire un ordre partiel sur l’ensemble des niveaux (cet ordre n’est que partiel du fait de la notion de “significativité” : il est des cas où l’on ne peut dire clairement si µi. > µi0 . ou l’inverse, du fait que la différence entre les estimateurs ȳi.. et ȳi0 .. est trop faible par rapport au bruit aléatoire dans l’expérience. On ne peut pas donc complètement ordonner les niveaux du facteur.) Pour formaliser ce problème d’incertitude (ou de significativité) on utilise la méthode des intervalles de confiance. La démarche consiste à obtenir un ensemble d’intervalles de confiance simultanés pour toutes les différences de moyennes µi. − µi0 . définies par un facteur au niveau de confiance global au moins 1 − α. (NB : si l’on travaillait avec une série d’intervalles de confiance individuels au niveau 1 − α, le niveau de confiance global ne serait pas supérieur ou égal à 1 − α, d’où la nécessité de travailler avec des intervalles simultanés). On utilise donc le résultat suivant (méthode de Scheffé) : " " r P ∀i, i0 = 1, ..., I : µi. − µi0 . ∈ (Ȳi.. − Ȳi0 .. ) ± 2 (I − 1)F(1−α) CMres JK ## ≥ 1 − α (6) avec : CMres = SST − SS1 − SS2 (I − 1)(J − 1) + IJ(K − 1) et F(1−α) = FI−1,(I−1)(J−1)+IJ(K−1);1−α De la même façon pour l’autre facteur : " P ∀j, j 0 = 1, ..., J : " r µ.j − µ.j 0 ∈ (Ȳ.j. − Ȳ.j 0 . ) ± 2 (J − 1)F(1−α) CMres IK ## ≥1−α avec cette fois : F(1−α) = FJ−1,(I−1)(J−1)+IJ(K−1);1−α Remarquons qu’implicitement avec cette méthode, on suppose qu’une seule des deux hypothèses nulles est rejetée : si l’on s’intéresse au premier facteur du fait du rejet de l’hypothèse d’égalité de toutes ses moyennes, et que l’on “ordonne” ses niveaux en utilisant la méthode de Scheffé, on suppose l’autre hypothèse nulle vraie, ce qui permet d’obtenir le résultat de loi donnant les intervalles de confiance simultanés. Les formules précédentes nous donnent un intervalle de confiance pour chaque couple de moyennes (correspondant à un couple de niveaux d’un facteur). La méthode adoptée pour ordonner les facteurs est la suivante : 8 • si l’intervalle de confiance pour µi. − µi0 . contient la valeur zéro, alors on ne peut comparer les deux moyennes µi. et µi0 . (comme zéro est une valeur possible pour la différence, on ne peut affirmer qu’il existe une différence significative ni dans un sens ni dans l’autre) • si cet intervalle ne contient que des valeurs positives, alors on peut affirmer (au niveau de confiance simultané d’au moins 1 − α) que µi. est supérieure à µi0 . • si cet intervalle ne contient que des valeurs négatives, alors on peut affirmer (idem) que µi. est inférieure à µi0 . Cette méthode permet donc d’ordonner partiellement les niveaux d’un facteur sous l’hypothèse implicite d’absence d’effet de l’autre facteur. Il est à noter que cette méthode est conservative : il est en pratique de nombreux cas où l’on ne se prononce pas (l’intervalle contient la valeur zéro), et en fait, il peut même arriver que tous les intervalles contiennent la valeur zéro – ce qui semblerait signifier qu’aucune différence significative n’est détectée entre les moyennes de ce facteur ! – alors que l’hypothèse nulle d’absence d’effet à été rejetée au même niveau α. Ce qui revient à dire que le niveau de confiance d’au moins 1 − α est souvent en réalité bien supérieur à 1 − α ce qui conduit à considérer des intervalles de confiance simultanés trop grands : leur chance de contenir la valeur zéro en est significativement augmentée... En conclusion, cette méthode de comparaisons multiples ne peut “contredire” le résultat du test d’hypothèse pour le facteur correspondant à niveau égal : si l’on a rejeté l’hypothèse d’égalité de toutes les moyennes, le fait de ne trouver aucune différence significative avec les comparaisons multiples ne peut remettre en cause le résultat du premier test. 1.7 Graphiques Il est toujours recommandé de compléter une étude statistique par un ensemble de graphiques bien choisis, qui permettent de détecter un problème dans les données (valeur aberrante, erreur d’encodage,... ), mais qui apportent aussi une information visuelle sur les variables et leurs liaisons. Dans le cas de l’ANOVA, on pense principalement aux boı̂tes à moustaches parallèles pour visualiser l’effet d’un facteur donné sur la réponse, et aux graphes à deux entrées pour détecter la présence d’interaction entre les facteurs. Notons qu’en l’absence de tests dans cette présentation, on pourra estimer graphiquement la validité de l’hypothèse d’homogénéité de la variance par le biais d’un scatter plot. Il n’est malheureusement pas aisé d’obtenir des boı̂tes à moustaches avec Excel, que l’on pourra remplacer par des scatter plots. Les autres graphiques sont par contre aisément réalisables. 9 2 Implémentation dans l’environnement Excel La première chose à faire est bien sûr de faire apparaı̂tre vos données sur une feuille de calcul Excel. Soit en les entrant directement à la main si la taille du jeu de données le permet, soit en les important depuis le fichier contenant le jeu de données menu Fichier 1 , Ouvrir, sélectionner votre format dans type de fichier – en général choisir fichiers lisibles. Puis ajuster les délimiteurs en fonction du formatage des données. Conseil : enregistrez vos données dans un fichier texte .txt sous forme de colonnes séparées par une tabulation, ou plusieurs espaces. N’oubliez pas qu’Excel ne reconnaı̂t pas les points pour séparer les décimales : utilisez des virgules La présence d’une colonne indiquant le numéro de chaque observation est souvent pratique. Doivent en tout cas être présentes : • une colonne contenant les valeurs observées de la réponse • une colonne pour chaque facteur, indiquant le niveau du facteur pour chaque observation Dans notre exemple, les données se trouvent dans les colonnes 1 à 3, la première ligne contenant les titres et les 27 suivantes les données. 2.1 Calcul des estimateurs Il s’agit de calculer une série de moyennes. Utilisez la fonction ‘moyenne’ d’Excel. entrer =moyenne( dans une cellule vide, puis sélectionner les cellules voulues, par exemple l’ensemble des cellules donnant les valeurs de la réponse pour lesquelles le premier facteur est dans sa première modalité. Dans notre exemple, les cellules 2 à 17 de la colonne 3 ‘rep’. Entrer ) puis Return ou Enter Vous devez obtenir l’ensemble des ȳ à savoir : • la moyenne générale (moyenne de toutes les observations) • pour chaque facteur, la moyenne de la réponse pour chaque valeur possible du facteur (dans notre exemple, la moyenne des valeurs 1 à 9 puis 10 à 18 puis 19 à 28 pour le premier facteur, la moyenne des valeurs 1 à 3 et 10 à 12 et 19 à 21, puis 4 à 6 et 13 à 15 et 22 à 24 pour le deuxième facteur) • pour l’interaction, la moyenne de la réponse pour chaque combinaison de niveaux des facteurs (pour nous : valeurs 1 à 3 puis 4 à 6 puis 7 à 9 puis 10 à 12, etc...) soit en tout I + J + IJ + 1 moyennes. 1 Dans la suite tous les mots français doivent être remplacés par leur traduction si vous utilisez la version anglaise d’Excel. 10 Nous obtenons : moyenne valeur moyenne valeur ȳ... ȳ1.. ȳ2.. ȳ3.. ȳ.1. ȳ.2. ȳ.3. ȳ11. 7.94 7.76 7.56 8.50 7.87 7.63 8.34 8.02 ȳ12. ȳ13. ȳ21. ȳ22. ȳ23. ȳ31. ȳ32. ȳ33. 7.08 8.20 7.09 7.94 7.67 8.49 7.87 9.15 Pour calculer les α̂i , β̂j et γ̂ij , on utilise les formules données dans le tableau plus haut. pour soustraire deux cellules : sélectionner une cellule vide, entrer = sélectionner la première cellule, entrer ‘-’ sélectionner la deuxième cellule, et entrer Return ou Enter. De même pour additionner, diviser, multiplier,. . . On peut bien entendu faire plusieurs opérations dans une seule cellule, en n’entrant Return ou Enter qu’à la fin. Conservez les cellules contenant les moyennes, qui serviront dans le calcul des sommes de carrés. Nous obtenons : paramètre valeur paramètre valeur α̂1 α̂2 α̂3 β̂1 β̂2 β̂3 γ̂11 γ̂12 -0.179 -0.379 0.558 -0.075 -0.318 0.394 0.333 -0.370 γ̂13 γ̂21 γ̂22 γ̂23 γ̂31 γ̂32 γ̂33 0.037 -0.399 0.689 -0.289 0.065 -0.318 0.252 On vérifie aisément sur cet exemple les contraintes (2). 11 On peut représenter les “valeurs prédites” par le modèle à partir des paramètres estimés, et ainsi calculer les erreurs. Sachant que pour une cellule, la somme des paramètres associés donne la moyenne de la cellule, la valeur prédite est donc exactement cette moyenne, et l’erreur est la différence entre les observations et les valeurs prédites. dans une colonne adjacente à la colonne de la réponse, recopier la valeur moyenne associée à chaque cellule – déterminée par le niveau de chacun des facteurs pour chaque observation. Sélectionnez la cellule contenant la moyenne voulue, puis ctrl + c – ou pomme + c – puis sélectionnez l’ensemble des cellules de la nouvelle colonne se situant en face des observations se référant à cette moyenne, puis edition, collage spécial..., choisir valeurs puis ok. Un simple ‘coller’ ne suffit pas, car vous colleriez alors une formule dont les références seraient erronées. Pour nous les valeurs son placées dans la colonne 4 où l’on trouve donc successivement 3 cellules avec 8.02, 3 cellules avec 7.08, 3 cellules avec 8.20, 3 cellules avec 7.093, 3 cellules avec 7.94, 3 cellules avec 7.67, 3 cellules avec 8.49, 3 cellules avec 7.87 et enfin 3 cellules avec 9.15. Attention ! les moyennes utilisées doivent être celles se rapportant à l’interaction, puisque la valeur des deux facteurs doit être précisée pour définir la valeur prédite ! Ensuite, créez dans une nouvelle colonne la différence entre la colonne ‘réponse’ et la colonne des moyennes créée précédemment. sélectionnez la première cellule de la nouvelle colonne, entrez = puis faites la différence de la première cellule de la colonne réponse et la première cellule de la colonne des valeurs prédites – cf. plus haut. Ensuite sélectionnez la cellule obtenue contenant la première différence, copiez-la ctrl/pomme + c, sélectionnez le reste de la nouvelle colonne et collez ctrl/pomme + v. Si vos colonnes sont bien correspondantes ligne à ligne, les bonnes différences apparaissent automatiquement dans la nouvelle colonne. Nous obtenons donc la colonne 5 en soustrayant la colonne 4 à la colonne 3 dans notre exemple. 2.2 Tests Comme on a pu le constater précédemment, le tout pour effectuer les test est d’obtenir les sommes de carrés – plus précisement le tableau (page 7) donné plus haut. SSE: la plus simple : nous avons déjà les erreurs, reste à les mettre au carré et à sommer. dans une nouvelle colonne, parallèlement à la colonne des erreurs, sélectionnez la première cellule, entrez =, sélectionnez la première cellule de la colonne des erreurs, puis entrez ^ 2, Return. Ensuite copiez cette nouvelle cellule ctrl/pomme + c, et collez la sur le reste de la nouvelle colonne – sélectionnez l’ensemble des cellules de la colonne correspondant aux cellules contenant les erreurs dans la colonne atenante et entrez ctrl/pomme + v. Vous obtenez l’ensemble des carrés. Sélectionnez une nouvelle cellule – ailleurs. . . – entrez =somme( puis sélectionnez l’entièreté de la colonne 12 nouvellement créée, et entrez ), Return. La somme des carrés des erreurs apparaı̂t dans cette nouvelle cellule. SS1: Il s’agit de soustraire la moyenne générale aux moyennes correspondant aux différents niveaux du premier facteur, puis de mettre au carré et de sommer. Cela revient à mettre les α̂i au carré et les sommer. Procédez comme pour les erreurs pour obtenir la somme des carrés. Ensuite on multiplie par JK. sélectionnez une cellule, entrez = puis sélectionnez la cellule contenant la somme des carrés des α̂i . Entrez *J*K où vous remplacez J et K par leur valeur – pour notre exemple 3 et 3. SS2: idem avec les β̂j . On multiplie par IK. SSI: idem avec les γ̂ij , on multiplie par K. Pour obtenir les M S. à partir des SS. il suffit de diviser par le bon entier, donné par le tableau plus haut. On peut alors calculer les trois statistiques de test, en divisant M S(i), i = 1, 2, I par M SE. Placez ces quantités dans trois cellules. Nous obtenons le tableau suivant : Source de variation Degrés de liberté Somme des carrés Carrés moyens F 1er facteur 2e facteur interaction erreur total 2 2 4 18 26 4.391 2.360 3.415 5.626 15.793 2.196 1.180 0.854 0.313 7.016 3.770 2.728 Pour obtenir la borne au-delà de laquelle on est amené à rejeter l’hypothèse nulle, on se fixe un niveau α, disons 5%, et l’on cherche le quantile d’ordre 1 − α de la loi F avec les degrés de liberté donnés par le tableau. Excel donne ces quantiles à la demande. sélectionnez une nouvelle cellule, entrez = puis insertion, fonction.... Choisissez statistiques, inverse.loi.f et laissez-vous guider. Attention : Excel calcule les quantiles ‘à l’envers’, i.e. dans la case probabilité, entrez 0,05 et non 0,95 pour α = 5%. . . Une fois les quantiles obtenus, reste à comparer avec les valeurs des statistiques précédemment calculées, et à conclure en commentant les résultats par rapport au problème concret considéré. 13 Dans notre cas, nous donnons les valeurs critiques (bornes au-delà desquelles on rejette l’hypothèse nulle) pour des niveaux 5% et 1%. Pour les tests sur les facteurs il s’agit du quantile d’ordre 1 − α des lois de Fisher à 2 et 18 degrés de liberté et pour l’interaction, de ce quantile pour une loi à 4 et 18 degrés de liberté soit : F2,18,0.95 = 3.555 et F2,18,0.99 = 6.013 F4,18,0.95 = 2.928 et F4,18,0.99 = 4.579 Conclusions : au niveau 5%, les hypothèses de nullité de tous les paramètres sont rejetées pour le premier facteur et pour le deuxième, car 7.025 et 3.776 sont supérieurs à 3.56. L’hypothèse nulle n’est pas rejetée pour l’interaction, dont on ne peut donc pas dire au niveau 5% que les coefficients sont significativement différents de zéro pour le modèle différentiel. Pour le niveau 1%, on rejette à nouveau l’hypothèse nulle pour le premier facteur, mais pas pour le second ni pour l’interaction. On devrait ici conclure à l’absence d’effet du second facteur, puisque ni ses paramètres propres, ni ceux de l’interaction avec le premier facteur, ne sont jugés significativement différents de zéro. En gardant en tête la conclusion obtenue pour le niveau 5%, on préfèrera conclure à un net effet du premier facteur, et un effet plus tangent du deuxième facteur. En d’autres termes, la provenance du matérieau brut – le fer – à un effet significatif sur la qualité de l’acier obtenu après transformation, alors que l’effet du type de machine – laminoir – utilisé est plus tangeant, donc probablement présent mais faible. Il ne semble pas y avoir d’interaction entre ces deux facteurs, ce qui signifie qu’un type de laminoir donne les mêmes résultats quel que soit la provenance du fer, et réciproquement. 2.3 Méthode de Scheffé pour les comparaisons multiples Dans notre exemple, le facteur 1 à apparemment un effet significatif sur la réponse, alors que l’hypothèse d’absence d’effet pour le second facteur est raisonnable. On peut donc s’intéresser au problème de l’ordre des niveaux de ce facteur. On utilise la méthode présentée en (1.6). La formule (6) nous indique que tous les intervalles de confiance pour les différences de moyennes ont la même taille (ceci provient du fait que le plan d’expérience est équirépété et qu’on fait l’hypothèse d’homogénéité de la variance des erreurs). Ce qu’il nous faut pour appliquer la méthode est donc : • la taille fixe des intervalles • l’ensemble des ȳi.. − ȳi0 .. sachant qu’il est inutile de traiter deux fois le même couple (inutile de traiter à la fois le problème µi. − µi0 . et le problème µi0 . − µi. ). 14 Taille des intervalles : Le calcul de CMres est une simple suite d’opérations sur des valeurs obtenues précédemment (sommes de carrés et d.d.l.). Les autres termes sous la racine sont des constantes et un quantile. Nous avons vu comment obtenir un quantile d’une loi F . Traitons le cas du facteur 1 dans notre exemple pour α = 5% : CMres = 15.79 − 4.39 − 2.36 = 0.41 (3 − 1)(3 − 1) + 3 ∗ 3 ∗ (3 − 1) I − 1 = 2, F(1−α) 2 2 = = 2/9 JK 3∗3 = F2,22,0.95 = 3.44 D’où la demi-longueur d’un intervalle : r p 2 (I − 1)F(1−α) CMres = 2 ∗ 3.44 ∗ 0.41 ∗ 2/9 = 0.79 JK Différence des moyennes empiriques : Il s’agit simplement de faire un ensemble de différences sur des moyennes déjà calculées (il était recommandé plus haut de bien conserver ces moyennes...). Dans notre cas, le facteur “fournisseur” (étant le premier facteur) a 3 niveaux, nous avons donc 3 couples possibles, et l’on obtient : ȳ1.. − ȳ2.. = 7.76 − 7.56 = 0.20 ȳ1.. − ȳ3.. = 7.76 − 8.50 = −0.74 ȳ2.. − ȳ3.. = 7.56 − 8.50 = −0.94 Nous obtenons donc les intervalles suivants pour µ1. − µ2. : [−0.59; 0.99] pour µ1. − µ3. : [−1.53; 0.06] pour µ2. − µ3. : [−1.73; −0.14] Les 2 premiers intervalles contiennent la valeur zéro. Le troisième ne contient que des valeurs négatives. Par conséquent, le fournisseur 3 diffère du fournisseur 2 de manière significative – la ductilité de l’acier obtenu est supérieur en utilisant le fer du fournisseur 3 – mais pas du fournisseur 1. Les fournisseurs 1 et 2 ne sont pas significativement différents. pour obtenir la racine carrée avec Excel, entrez =racine( puis sélectionnez la cellule dont vous désirez obtenir la racine, et enfin entrez ) Return 15 2.4 Graphiques Pour obtenir des graphiques avec Excel, utilisez l’assistant graphique (menu “insertion”, item “graphique”, ou via l’icone représentant un histogramme). Les types de graphiques que nous utilisons ici sont les nuages de points et les courbes superposées. Les nuages de points remplacent les boı̂tes à moustaches utilisées habituellement. Les graphiques apportent deux types d’information. Ils permettent d’une part de se faire une idée a priori sur la présence d’effet des facteurs ou de leur intéraction. Ils donnent par ailleurs une première estimation sur la validité de l’hypothèse d’homogénéité de la variance entre les cellules. Visualisation de l’effet des facteurs : en général, on utilise une série de boı̂tes à moustaches en parallèle représentant chacune la variable réponse pour un niveau donné d’un facteur (ici, on aurait représenté trois boı̂tes pour le facteur “fournisseur” puis trois boı̂tes pour le facteur “machine”). En leur absence, nous utilisons les nuages de points qui apportent une information similaire mais moins précise. L’idée est donc de faire figurer un nuage de points, chaque point étant une observation, dont les abscisses sont données par le niveau du facteur considéré et les ordonnées par la valeur de la réponse. Nous avons intitulé ces graphiques “Effet Fournisseur” et “Effet Machine” dans notre exemple. pour obtenir un tel graphique, entrez dans l’assistant graphique, puis sélectionnez le type nuage de points (“scatterplot” en anglais). Choisissez l’option nouvelle série. On vous demande alors d’entrer une ‘série’ pour x et une autre pour y. Cliquez sur l’icône en forme de feuille Excel à droite de la zone réservée à la série x, et sur votre feuille de calcul, sélectionnez la colonne donnant les niveaux du facteur considéré – p.ex. la colonne 2 pour le deuxième facteur, “Machine” pour nous. Cliquez à nouveau sur l’icône en forme de feuille Excel dans la boı̂te de dialogue : votre série est automatiquement entrée dans l’assistant graphique. Procédez de même pour y, en sélectionnant cette fois la colonne réponse – la colonne 3 pour nous. Les deux séries étant présentes, votre graphique apparaı̂t dans l’assistant graphique. Cliquez sur suivant et amusez vous avec les options... Après avoir obtenu ces graphiques, il faut en donner une interprétation. Clairement, si les ‘nuages’ de points sur un graphique sont nettement décalés (verticalement !) les uns par rapport aux autres, c’est que le niveau du facteur considéré a une influence notable sur la valeur de la réponse, et que l’on a donc de grande chances d’avoir un effet significatif de ce facteur. Dans notre cas, pour les fournisseurs (premier facteur), il semble que le troisième donne de meilleurs résultats de ductilité, les deux autres n’étant pas discernables (deux premiers nuages équivalents, troisième nuage plus élevé), et donc une influence du fournisseur sur la ductilité est probable. La situation est assez semblable pour le deuxième facteur (“Effet Machine”), peut-être moins nette cette fois. Ceci est confirmé par les tests effectués précédemment. Présence de l’interaction : pour juger de la présence d’interaction entre deux facteurs graphiquement, on représente pour chaque niveau du premier facteur une courbe (en fait 16 une ligne brisée...) donnant la valeur moyenne dans une cellule pour ce niveau du premier facteur en fonction du niveau du deuxième facteur : pour chaque i, on représente ȳij. en fonction de j. On obtient autant de courbes que de niveaux i pour le premier facteur (3 pour nous). Nous avons intitulé ce graphique “Interaction”. pour obtenir un tel graphique, entrez dans l’assistant graphique, choisissez le type de graphique courbes et le premier sous-type en haut à gauche. Cliquez sur l’onglet série et ajouttez autant de série que votre premier facteur a de niveaux. Pour chacune d’entreelles, cliquez sur l’icône à droite de la zone valeur et sélectionnez une à une les moyennes empiriques pour le niveau concerné du premier facteur croisé avec les niveaux successifs du deuxième facteur : maintenez la touche ctrl/pomme enfoncée et cliquez sur les cellules correspondantes dans l’ordre ! Vos séries s’affichent au fur et à mesure dans l’assistant graphique, avec des couleurs différentes. Peaufinez la présentation... L’interprétation d’un tel graphique est la suivante : en une abscisse donnée (donc pour un niveau donné du deuxième facteur), l’ordre des courbes donne l’ordre des réponses moyennes en fonction des niveaux du premier facteur. Si cet ordre ne change pas d’une abscisse à l’autre, c’est que le second facteur n’influence pas la façon dont le premier facteur ordonne la réponse. Dans ce cas, les courbes sont à peu près parallèles. Si au contraire les courbes s’entrecroisent, et donc que l’ordre des courbes change d’un point sur l’autre, c’est alors que le niveau du second facteur a une influence sur la façon dont le premier facteur ordonne la réponse moyenne : il y a alors interaction (l’effet du premier facteur dépend du niveau du deuxième facteur). Il faut toutefois être prudent dans ce type d’interpretation. Si les courbes ne se croisent pas (bon parallélisme), on peut alors conclure en toute sécurité à l’absence d’interaction significative. Cependant, lorsque des croisements apparaissent entre les courbes (non-parallélisme), une bonne habitude de la méthode est requise pour se risquer à dire quelle est la “dose” suffisante de croisements pour que l’interaction soit significative. Dans notre cas, on constate que les courbes des 1er et 3e niveaux du facteur “fournisseur” sont bien parallèles, mais que le rang du deuxième niveau change lorsque le facteur “machine” est dans son deuxième niveau : la courbe rose croise les deux autres courbes. Ainsi l’ordre des coubes est le même pour le premier et le troisième niveaux du facteur “machine” mais partiellement différent pour le deuxième niveau. Il est donc possible qu’une interaction significative soit présente. Cela étant, cette ‘entorse’ au parallélisme ne sera pas statistiquement significative, comme le confirme le test de présence de l’interaction effectué précédemment. Homogénéité de la variance : pour se faire une idée de la validité de l’hyptohèse d’homogénéité de la variance (même variance dans chaque cellule), en l’absence de tests dans ce travail, vous pouvez observer les graphiques obtenus pour l’effet des facteurs, et en produire un nouveau, représentant un nuage de point pour chaque cellule. Si la variance est bien homogène, la dispersion des sous-nuages doit être à peu près la même quels que soient les niveaux des facteurs. En utilisant la même méthode que pour le cas de l’effet des facteurs, représentez un nuage de points, où chaque point est une observation ayant comme abscisse le numéro 17 de sa cellule (sans importance, du moment que chaque cellule ait un numéro différent : nous les avons numérotées de 1 à 9 (cf. colonne 0) dans leur ordre d’apparition dans les colonnes de notre jeu de données) et comme ordonnée la valeur de l’erreur calculée plus haut (dans la colonne 5 pour nous). On obtient donc un nuage de K points pour chaque cellule – graphique intitulé “erreur vs. cellule” pour nous. Si l’on considère les deux graphiques relatifs aux deux facteurs (“Effet Fournisseur” et “Effet Machine”), on peut juger de l’homogénéité de la variance entre les différents niveaux d’un seul facteur. Si les sous-nuages de points relatifs aux différents niveaux sont de taille (ou dispersion : ceci n’a bien sur rien à voir avec l’allignement des sous-nuages) comparable, la variance de l’erreur est alors probablement comparable d’un niveau sur l’autre. Ce qui paraı̂t être le cas pour les deux facteurs dans notre exemple. L’interprétation du graphique par cellules obtenu en dernier lieu est similaire : si les IJ sous-nuages sont de dispersion comparable, c’est que la variance est comparable d’une cellule sur l’autre, et ainsi que l’hypothèse d’homogénéité est probablement respectée. Dans notre cas, le graphique “erreur vs. cellule” semble poser quelques problèmes, p.ex. les cellules 4 et 5 correspondant à des sous-nuages de dispersion très différentes... Cependant, avec un nombre d’observations par cellule assez faible (3 ici) il est difficile de tirer une conclusion valable. Un tel graphique est surtout utile pour K > 5. Nous concluons donc qu’au vu de nos graphiques, l’hypothèse d’homogénéité de la variance semble être raisonnablement satisfaite. 3 Quelques recommandations Pour terminer, quelques conseils pratiques : • Choisissez vos données avec soin. Il faut bien entendu qu’elles entrent dans le cadre de l’analyse de variance à deux facteurs comme spécifié plus haut. Mais veillez également à ce que la taille du jeu de données soit raisonnable : pas trop grand (< 100 observations) auquel cas le traitement avec Excel deviendrait pénible, mais pas trop petit non plus. Il faut bien garder à l’esprit la nécessité du caractère équirépété de l’expérience, et au moins un des deux facteurs devrait présenter plus de deux niveaux pour que la méthode de Scheffé présente un réel intérêt. K = 3 semble être un minimum comme nombre de répétitions par cellule. Ainsi notre jeu de données peut être considéré comme raisonnable, voire un peu petit pour que le travail soit agréable. • Vous n’êtes pas mathématiciens : profitez-en pour trouver des données propres à votre orientation (il existe d’innombrables jeux de données autour de vous), qui se prêtent en général très bien au travail demandé. Vous aurez de plus grandes facilités à interpréter les résultats d’un point de vue pratique. • Faites les graphiques en premier, les calculs après. En général, si les tests sont faits avant les graphiques, on ne peut s’empêcher d’interpréter ceux-ci de façon concordante avec les résultats numériques. On s’ôte alors toute possibilité de remettre ces 18 résultats en question (données aberrantes, erreur de calcul, problème d’hypothèses non satisfaites...). Beaucoup de résultats publiés en sciences expérimentales sont erronés de ce simple fait. • Rédigez de façon raisonnable : pas de roman, bien entendu, mais un minimum de commentaires s’imposent après obtention d’un résultat ou d’un graphique. N’oubliez pas de répondre à la question pratique ayant amené à faire l’analyse statistique... Bon courage ! 19