Cours Chapitre 5
Transcription
Cours Chapitre 5
64 CINQUIEME PARTIE ANALYSE DE VARIANCE A UN FACTEUR CONTROLE 1. Application à la comparaison de plusieurs moyennes. L’analyse de variance est souvent utilisée comme un test d’égalité de moyennes. Mais elle a beaucoup d’autres applications, c’est pourquoi on l’étudie à part. a) But du test Lorsqu'on veut montrer l'égalité des moyennes de plusieurs séries de mesures, il n'est pas possible d'effectuer un test de Student sur les moyennes prises deux à deux parce que les tests statistiques peuvent démontrer une non-différence, mais pas une égalité au sens mathématique du terme. Le problème de l'égalité des moyennes revient, dans ce cas à montrer si elles peuvent être différenciées ou non en fonction d'un certain facteur, appelé facteur différenciant. b) Notion de facteur différenciant Il s'agit d'une grandeur qualitative ou quantitative suivant laquelle on peut discerner les résultats d'une même étude. Exemple : Numéro de lot ou date dans une fabrication Laboratoire, appareil ou opérateur dans une série de mesures physico-chimiques Lieu géographique Grandeur physique (température, pression) si l'on veut démontrer une corrélation avec cette grandeur c) Principe du test On partage l'échantillon en "groupes" suivant le facteur discriminant que l'on veut prendre en compte. Dans le domaine de la validation de méthodes de mesure, ce partage est naturel puisqu'on s'intéresse à des séries de mesures d'une même grandeur, effectuées à des moments différents, sur des appareils différents ou par des laboratoires différents. La variabilité existe toujours d'un groupe à l'autre, mais celle-ci peut être due au hasard. L'analyse de variance permet de montrer si la variabilité d'un groupe à l'autre peut s'expliquer uniquement par le hasard ou si le facteur discriminant intervient dans cette variabilité. Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens 65 Pour ceci, on compare à l'aide d'un test de Fisher-Snédécor la variance à l'intérieur des groupes ou "variance intra-goupes" à la variance entre les groupes appelée "variance inter-groupes". Si la variance inter-groupes n'est pas significativement supérieure à la variance intra-groupes, les différentes moyennes sont déclarées globalement égales (il n'y a pas de facteur différenciant). Il faut évidemment que le facteur choisi soit pertinent, c'est à dire qu'il existe des raisons physiques ou expérimentales permettant de préconiser l'influence de ce facteur sur les mesures. Lorsqu'on veut tester plusieurs facteurs il faut les considérer globalement par une analyse de variance multifactorielle car l'influence de deux ou de plusieurs facteurs n'équivaut pas à la somme des influences des facteurs pris séparément (il peut y avoir synergie ou au contraire inhibition de l'effet de deux facteurs). d) Calcul de la variance intra-groupes On calcule les variances à l'intérieur de chaque groupe. s 2j = ( ∑ x ij − m j ) 2 i variant de 1 à nj nj −1 xij : ième valeur dans le jème groupe (38) nj : effectif du jème groupe mj : moyenne du jème groupe Ensuite on fait la somme sur les k groupes : ( ) S INTRA = ∑ n j − 1 s 2 j variant de 1 à k j (39) SIntra peut également être calculé directement à l'aide d'une double somme : S INTRA = 2 k nj ∑ ∑ (x ij − m j ) j=1i =1 A partir de SIntra on calcule la variance intra-groupes S VINTRA = INTRA = N−k Pierre Jost S INTRA υ INTRA avec N = Σnj et υINTRA = N - k Statistiques à l’usage des ingénieurs et des techniciens (40) 66 e) Calcul de la variance inter-groupes On calcule la moyenne générale M et la variance des moyennes de chaque groupe par rapport à cette moyenne générale. En d'autres termes chaque groupe de moyenne mj est considéré par rapport à la moyenne générale comme une mesure de poids nj. ( ) VINTER = Sinter k −1 S INTER = ∑ n j m j − M 2 j variant de 1 à k (41) et (42) f) Test proprement dit En principe VINTER > VINTRA. Si ce n'est pas le cas on peut conclure que les moyennes sont égales ou encore que le facteur discriminant est mal choisi puisqu'il a tendance à regrouper les moyennes. (une forte inhomogénéité des variances peut également conduire à ce résultat) On termine par un test de Fisher. F= et VINTRER VINTRA F ≥ F(k-1, N-k,1-α) (43) Si la condition (43) est vraie, alors le facteur considéré est un facteur discriminant et les moyennes varient significativement avec ce facteur. Dans le cas contraire les moyennes sont égales lorsqu'on fait varier le facteur en question. Le choix du facteur différenciant est par conséquent très important. Dans les problèmes de maintenance on pourra effectuer le test en fonction de l'âge d'un composant électronique ou d'une colonne chromatographique par exemple. En validation de méthodes de mesures, le facteur étudié est simplement le numéro de la série de mesures, l'échantillon étant évidemment identique. g) Variance Totale On définit la variance totale comme la variance de toutes les mesures par rapport à la moyenne générale : k nj ( S T = ∑ ∑ xij − M j =1i =1 VTOTAL = Pierre Jost ) 2 ST N −1 Statistiques à l’usage des ingénieurs et des techniciens (44) (45) 67 h) Tableau d’analyse de variance Les trois variances ne sont pas indépendantes. Origine SCE Degrés de liberté Variances Intra-groupes SINTRA N-k VINTRA Inter-groupes SINTER k-1 VINTER Totale ST N-1 VTOTAL On peut démonter que les sommes des carrés des écarts (notés SCE) ainsi que les degrés de libertés sont additifs. Cette équation est appelée équation de l'analyse de variance. ST = S Intra + S Inter et N-1=(N-k)+(k-1) On en déduit : VTOTAL = 1 ( ( N − k )VINTRA + ( k − 1)VINTER ) N −1 (46) L'équation 46 est intéressante puisqu'elle permet de calculer la variance totale à partir de résultats partiels (mj, sj et nj) sans avoir à remonter aux résultats bruts. i) Variance liée au facteur discriminant, variance inter-laboratoire La variance inter-groupes ne dépend pas uniquement de l'effet du facteur discriminant sur les mesures, mais également des erreurs aléatoires "naturelles", donc de la variance intra-groupes. On peut décomposer VINTER en ses deux composantes, la variance intra-groupe et la variance due uniquement au facteur discriminant. On peut montrer que : VINTER = VINTRA + n VA (47) VA est la contribution du facteur discriminant (appelé A par convention) à la variance intra-groupes. VA est appelé "variance liée au facteur A". Lorsque l'effet de A est nul VINTER = VINTRA. n représente le nombre moyen de mesures par série. n n'est pas une moyenne arithmétique, il est défini par l'équation : ∑ n 2j 1 N − somme étendue de j = 1 à k n= k − 1 N VA = VINTER − VINTRA n (48) (49) Dans les essais inter-laboratoires on effectue des séries de mesures dans des laboratoires différents sur le même échantillon. On fait ensuite une analyse de variance en considérant comme facteur contrôlé, le nom du laboratoire. L'influence du facteur "laboratoire" est une variable aléatoire de variance VA appelée dans ce cas "Variance inter-laboratoire" et notée VL. Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens 68 j) Interprétation graphique de l'analyse de variance Traçons sur un même graphique toutes les valeurs de xij en faisant apparaître clairement les séries de mesures. On place en abscisse la valeur de i + 10 (j-1) par exemple si les effectifs de chaque série sont inférieurs à 10. xi,j Série 1 Série 2 3 Série 3 Série 4 m m 2 m m 1 i+8(j-1) Fig. 29 a Distribution des mesures brutes xij dans une analyse de variance L'analyse de variance permet de scinder ce graphique en deux graphiques mettant en évidence la variance intra-groupes et la variance inter-groupes. Traçons les différences rij = xij -mj c'est à dire les mesures rapportées aux moyennes de chaque groupe. xi,j - mj Série 1 Série 2 Série 3 Série 4 1 0 i+8(j-1) -1 Fig. 29 b Distribution des différences xij - mj dans une analyse de variance On obtient une distribution de moyenne nulle qui admet comme variance globale lorsqu'on mélange toutes les valeurs de rij, la variance intra-groupe VINTRA. Dans le cas d'une analyse inter-laboratoire, cette variance reflète les incertitudes liées à une méthode de mesure, les différentes variances sj doivent donc en principe être homogènes. (une faible variation de sj d'un groupe à l'autre est acceptable puisque les mesures sont effectuées par des personnes différentes avec des appareils différents). Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens 69 Lorsqu'on a retranché les fluctuations rij sur la figure 29 a, il reste une distribution statistique de moyennes autour de la moyenne générale M. mj Série 1 Série 2 3 2 Série 3 Série 4 m m m m 1 M i+8(j-1) Fig. 29 c Distribution des moyennes mj dans une analyse de variance La variance de cette distribution est la variance inter-groupes VINTER. L'objet de l'analyse de variance est de montrer que cette dernière peut être expliquée uniquement par les fluctuations aléatoires c'est à dire qu'elle est du même ordre de grandeur que VINTRA ou au contraire qu'il faut invoquer l'effet du facteur différenciant. 2. Conditions pour une bonne mise en application de l’analyse de variance. a) Distribution gaussienne des données L’analyse de variance peut conduire à des résultats inexacts si les données de chaque groupe ne sont pas distibuées suivant une loi Normale. Il faudrait donc faire un test de Shapiro-Wilk pour les données de chaque groupe, ce qu’on fait rarement. Lorsque le nombre de mesures de chaque groupe est > 20 la condition de normalité est supposée vérifiée. b) Homogénéité des variances à l’intérieur des groupes. Normalement, la variance inter-groupes doit être supérieure à la variance intra-groupes, faute de quoi la variance due au facteur différenciant devient négative ce qui est anormal. Si les variances des groupes sont inhomogènes c'est-à-dire s’il en existe une qui est nettement supérieure aux autres, la variance intra-groupes devient anormalement élevée et parfois supérieure à la variance inter-groupes. Il est donc recommandé de vérifier préalablement l’homogénéité des variances à l’aide d’un test de Cochran ou de Bartlett. Si l’homogénéité des variances est en défaut on recherchera l’existence de points aberrants. Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens 70 3. Application de l’analyse de variance à l’évaluation de la qualité d’une mesure physique. La qualité d’une mesure physique s’exprime par sa fidélité et son exactitude. a) Définitions concernant la fidélité La fidélité est l'étroitesse de l'accord entre des résultats d'essais indépendants obtenus dans des conditions de variabilité expérimentales stipulées. On considère trois définitions de la fidélité suivant la variabilité des conditions expérimentales : • La répétabilité représente la qualité de l'accord entre des mesures d'un même échantillon effectuées dans des conditions expérimentales très faiblement variables. Elle s'obtient en répétant un protocole de mesure sur un même échantillon, l'appareillage et l'opérateur étant identiques et les mesures étant effectuées dans un faible intervalle de temps. Evidemment la répétabilité n'intègre pas les erreurs systématiques ou les défauts d'appareillage. Elle donne simplement une mesure de la dispersion du signal pour un protocole de mesure effectué sur un appareil donné et par un opérateur donné. • La reproductibilité correspond à la même définition, mais dans le cas de mesures effectuées dans des conditions fortement variables (opérateurs, appareillages, époques et souvent laboratoires différents). Plus la variabilité des conditions expérimentales est grande, plus le nombre de causes d'erreurs prises en compte dans la dispersion des résultats est grande. En principe, une étude de reproductibilité implique une campagne d'essais inter-laboratoires impliquant des entreprises différentes et parfois des pays différents. • Un niveau intermédiaire de variabilité des conditions expérimentales a été préconisé lorsque de véritables essais inter-laboratoires sont impossibles (le plus souvent pour des raisons de confidentialité lorsqu'on étudie un produit ou un matériau nouveau). On limite les facteurs de variabilité à l'équipement, au personnel et au temps. Parfois, seul le facteur temps peut être pris en considération. On parle alors de Fidélité intermédiaire ou reproductibilité intralaboratoire b) Calculs concernant la fidélité On effectue une analyse de variance en prenant comme facteur différenciant, le labo ou l’appareillage ou le jour de la mesure. On exprime toujours une non-fidélité, c'est à dire qu'on donne un nombre d'autant plus grand que la fidélité est plus mauvaise. Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens 71 Variance de répétabilité et de reproductibilité. La variance de répétabilité appelée Vr n'est autre que la variance intra-groupes VINTRA. La variance de reproductibilité VR s'exprime par deux relations différentes suivant l'influence du facteur différenciant : ♦ si l'influence du facteur différenciant est négligeable VR = VT et voisin de VINTRA ♦ dans le cas contraire VR = VLABO + VINTRA Ecarts-types de répétabilité et de reproductibilité Ce sont les racines carrés des variances correspondantes. Leur intérêt est qu'ils s'expriment dans les mêmes unités que les moyennes s r = Vr et s R = VR Coefficients de variation de répétabilité et de reproductibilité Ce sont les écarts-types divisés par la moyenne générale s s CVr = r et CVR = R M M b) Définition de l’exactitude L'exactitude d'une méthode de mesure exprime l'étroitesse de l'accord entre la valeur mesurée et la valeur admise comme exacte La valeur exacte peut être un poids étalon, une résistance étalon etc.., mais aussi un produit naturel ou un matériau de composition certifiée ou ayant les propriétés physiques certifiées. b) Evaluation de l’exactitude d’une mesure physique L'exactitude d'une méthode d'analyse n'est pas à proprement parler une grandeur mesurable. On évalue l'exactitude en comparant la valeur expérimentale à la valeur théorique par un test de Student au seuil de 95 %, ou en montrant que la valeur théorique se trouve dans l'intervalle de confiance de 95 % de la valeur expérimentale. On répond à ce test par "oui" ou "non". Pour moduler la réponse, on peut agir sur le risque α du test de Student mais la valeur α = 5 % est communément admise. Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens 72 On peut également exprimer quantitativement l’exactitude au moyen d’un biais qui exprime la différence entre la moyenne mesurée et la valeur exacte. Ce biais peut être exprimé comme une différence algébrique ou une différence relative ou encore un taux de recouvrement. • Si VR représente la variance de reproductibilité et si la valeur exacte M0 est connue, on admet qu'une méthode est exacte si la moyenne générale M n'est pas significativement différente de M0 au risque bilatéral de 5 %. M − M 0 t ( N −1, 0.975) VR N (50) N : nombre total de mesures ; M : moyenne générale Dans ce cas l’exactitude s’exprime par VRAI ou FAUX sans considération quantitative. • On peut également un biais algébrique ou relatif. D = M-M0 ou encore D = (M-M0)/M0 (biais relatif parfois exprimé en %) • Si l’intervalle de confiance sur le biais est faible (l’intervalle de confiance sur le biais D est égal à l’intervalle de confiance sur M) on peut l’utiliser comme facteur correctif de la méthode de mesure, mais seulement dans un domaine expérimental voisin de M . Si on veut corriger la méthode de mesure dans un large domaine, il faut faire l’étude d’exactitude à plusieurs points de ce domaine et modéliser le biais par une fonction adéquate. Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens 73 ANALYSE DE VARIANCE CE QU’IL FAUT ABSOLUMENT RETENIR Principe de l’analyse de variance. Calcul des variances intra et inter-groupes. ( ) S INTRA = ∑ n j − 1 s 2 j variant de 1 à k j ( Sinter = ∑ n j m j − M ) 2 j variant de 1 à k VINTRA = S INTRA avec N = Σnj N −k VINTER = Sinter k −1 Test de Fisher pour l’analyse de variance. F= VINTRER VINTRA et F ≥ F(k-1, N-k,1-α) (conclusion : moyennes dépendantes du facteur différenciant) Variance totale et variance inter-laboratoire k nj ( S T = ∑ ∑ xij − M j =1i =1 VLabo = ) 2 VTOTAL = VINTER − VINTRA avec n ST N −1 ∑ n 2j 1 N − pour j = 1 à k n= k − 1 N Définition de la répétabilité et de la reproductibilité d’une mesure Calcul de l’écart-type de répétabilité et de reproductibilité. Définition et évaluation de l’exactitude d’une mesure Pierre Jost Statistiques à l’usage des ingénieurs et des techniciens