Cours Chapitre 5

Transcription

Cours Chapitre 5
64
CINQUIEME PARTIE
ANALYSE DE VARIANCE
A UN FACTEUR CONTROLE
1. Application à la comparaison de plusieurs moyennes.
L’analyse de variance est souvent utilisée comme un test d’égalité de moyennes. Mais elle a
beaucoup d’autres applications, c’est pourquoi on l’étudie à part.
a) But du test
Lorsqu'on veut montrer l'égalité des moyennes de plusieurs séries de mesures, il n'est pas possible
d'effectuer un test de Student sur les moyennes prises deux à deux parce que les tests statistiques
peuvent démontrer une non-différence, mais pas une égalité au sens mathématique du terme.
Le problème de l'égalité des moyennes revient, dans ce cas à montrer si elles peuvent être
différenciées ou non en fonction d'un certain facteur, appelé facteur différenciant.
b) Notion de facteur différenciant
Il s'agit d'une grandeur qualitative ou quantitative suivant laquelle on peut discerner les résultats d'une
même étude.
Exemple :
Numéro de lot ou date dans une fabrication
Laboratoire, appareil ou opérateur dans une série de mesures physico-chimiques
Lieu géographique
Grandeur physique (température, pression) si l'on veut démontrer une corrélation avec cette grandeur
c) Principe du test
On partage l'échantillon en "groupes" suivant le facteur discriminant que l'on veut prendre en
compte. Dans le domaine de la validation de méthodes de mesure, ce partage est naturel puisqu'on
s'intéresse à des séries de mesures d'une même grandeur, effectuées à des moments différents, sur
des appareils différents ou par des laboratoires différents.
La variabilité existe toujours d'un groupe à l'autre, mais celle-ci peut être due au hasard.
L'analyse de variance permet de montrer si la variabilité d'un groupe à l'autre peut s'expliquer
uniquement par le hasard ou si le facteur discriminant intervient dans cette variabilité.
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens
65
Pour ceci, on compare à l'aide d'un test de Fisher-Snédécor la variance à l'intérieur des groupes
ou "variance intra-goupes" à la variance entre les groupes appelée "variance inter-groupes". Si la
variance inter-groupes n'est pas significativement supérieure à la variance intra-groupes, les
différentes moyennes sont déclarées globalement égales (il n'y a pas de facteur différenciant).
Il faut évidemment que le facteur choisi soit pertinent, c'est à dire qu'il existe des raisons physiques ou
expérimentales permettant de préconiser l'influence de ce facteur sur les mesures.
Lorsqu'on veut tester plusieurs facteurs il faut les considérer globalement par une analyse de variance
multifactorielle car l'influence de deux ou de plusieurs facteurs n'équivaut pas à la somme des
influences des facteurs pris séparément (il peut y avoir synergie ou au contraire inhibition de l'effet de
deux facteurs).
d) Calcul de la variance intra-groupes
On calcule les variances à l'intérieur de chaque groupe.
s 2j =
(
∑ x ij − m j
)
2
i variant de 1 à nj
nj −1
xij : ième valeur dans le jème groupe
(38)
nj : effectif du jème groupe
mj : moyenne du jème groupe
Ensuite on fait la somme sur les k groupes :
(
)
S INTRA = ∑ n j − 1 s 2 j variant de 1 à k
j
(39)
SIntra peut également être calculé directement à l'aide d'une double somme :
S INTRA =
2
k nj
∑ ∑ (x ij − m j )
j=1i =1
A partir de SIntra on calcule la variance intra-groupes
S
VINTRA = INTRA =
N−k
Pierre Jost
S INTRA
υ INTRA
avec N = Σnj et υINTRA = N - k
Statistiques à l’usage des ingénieurs et des techniciens
(40)
66
e) Calcul de la variance inter-groupes
On calcule la moyenne générale M et la variance des moyennes de chaque groupe par rapport à cette
moyenne générale. En d'autres termes chaque groupe de moyenne mj est considéré par rapport à la
moyenne générale comme une mesure de poids nj.
(
)
VINTER =
Sinter
k −1
S INTER = ∑ n j m j − M
2
j variant de 1 à k
(41)
et
(42)
f) Test proprement dit
En principe VINTER > VINTRA. Si ce n'est pas le cas on peut conclure que les moyennes sont égales ou
encore que le facteur discriminant est mal choisi puisqu'il a tendance à regrouper les moyennes.
(une forte inhomogénéité des variances peut également conduire à ce résultat)
On termine par un test de Fisher.
F=
et
VINTRER
VINTRA
F ≥ F(k-1, N-k,1-α)
(43)
Si la condition (43) est vraie, alors le facteur considéré est un facteur discriminant et les
moyennes varient significativement avec ce facteur. Dans le cas contraire les moyennes sont
égales lorsqu'on fait varier le facteur en question. Le choix du facteur différenciant est par
conséquent très important. Dans les problèmes de maintenance on pourra effectuer le test en fonction
de l'âge d'un composant électronique ou d'une colonne chromatographique par exemple. En
validation de méthodes de mesures, le facteur étudié est simplement le numéro de la série de
mesures, l'échantillon étant évidemment identique.
g) Variance Totale
On définit la variance totale comme la variance de toutes les mesures par rapport à la moyenne
générale :
k nj
(
S T = ∑ ∑ xij − M
j =1i =1
VTOTAL =
Pierre Jost
)
2
ST
N −1
Statistiques à l’usage des ingénieurs et des techniciens
(44)
(45)
67
h) Tableau d’analyse de variance
Les trois variances ne sont pas indépendantes.
Origine
SCE
Degrés de liberté
Variances
Intra-groupes
SINTRA
N-k
VINTRA
Inter-groupes
SINTER
k-1
VINTER
Totale
ST
N-1
VTOTAL
On peut démonter que les sommes des carrés des écarts (notés SCE) ainsi que les degrés de
libertés sont additifs. Cette équation est appelée équation de l'analyse de variance.
ST = S Intra + S Inter
et
N-1=(N-k)+(k-1)
On en déduit :
VTOTAL =
1
( ( N − k )VINTRA + ( k − 1)VINTER )
N −1
(46)
L'équation 46 est intéressante puisqu'elle permet de calculer la variance totale à partir de résultats
partiels (mj, sj et nj) sans avoir à remonter aux résultats bruts.
i) Variance liée au facteur discriminant, variance inter-laboratoire
La variance inter-groupes ne dépend pas uniquement de l'effet du facteur discriminant sur les
mesures, mais également des erreurs aléatoires "naturelles", donc de la variance intra-groupes. On
peut décomposer VINTER en ses deux composantes, la variance intra-groupe et la variance due
uniquement au facteur discriminant. On peut montrer que :
VINTER = VINTRA + n VA
(47)
VA est la contribution du facteur discriminant (appelé A par convention) à la variance intra-groupes. VA
est appelé "variance liée au facteur A". Lorsque l'effet de A est nul VINTER = VINTRA.
n représente le nombre moyen de mesures par série. n n'est pas une moyenne arithmétique, il est
défini par l'équation :
∑ n 2j 
1 
N −
 somme étendue de j = 1 à k
n=
k − 1 
N 
VA =
VINTER − VINTRA
n
(48)
(49)
Dans les essais inter-laboratoires on effectue des séries de mesures dans des laboratoires
différents sur le même échantillon. On fait ensuite une analyse de variance en considérant comme
facteur contrôlé, le nom du laboratoire. L'influence du facteur "laboratoire" est une variable aléatoire
de variance VA appelée dans ce cas "Variance inter-laboratoire" et notée VL.
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens
68
j) Interprétation graphique de l'analyse de variance
Traçons sur un même graphique toutes les valeurs de xij en faisant apparaître clairement les séries de
mesures. On place en abscisse la valeur de i + 10 (j-1) par exemple si les effectifs de chaque série
sont inférieurs à 10.
xi,j
Série 1
Série 2
3
Série 3
Série 4
m
m
2
m
m
1
i+8(j-1)
Fig. 29 a
Distribution des mesures brutes xij dans une analyse de variance
L'analyse de variance permet de scinder ce graphique en deux graphiques mettant en évidence la
variance intra-groupes et la variance inter-groupes. Traçons les différences rij = xij -mj c'est à dire les
mesures rapportées aux moyennes de chaque groupe.
xi,j - mj
Série 1
Série 2
Série 3
Série 4
1
0
i+8(j-1)
-1
Fig. 29 b
Distribution des différences xij - mj dans une analyse de variance
On obtient une distribution de moyenne nulle qui admet comme variance globale lorsqu'on mélange
toutes les valeurs de rij, la variance intra-groupe VINTRA. Dans le cas d'une analyse inter-laboratoire,
cette variance reflète les incertitudes liées à une méthode de mesure, les différentes variances sj
doivent donc en principe être homogènes. (une faible variation de sj d'un groupe à l'autre est
acceptable puisque les mesures sont effectuées par des personnes différentes avec des appareils
différents).
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens
69
Lorsqu'on a retranché les fluctuations rij sur la figure 29 a, il reste une distribution statistique de
moyennes autour de la moyenne générale M.
mj
Série 1
Série 2
3
2
Série 3
Série 4
m
m
m
m
1
M
i+8(j-1)
Fig. 29 c
Distribution des moyennes mj dans une analyse de variance
La variance de cette distribution est la variance inter-groupes VINTER.
L'objet de l'analyse de variance est de montrer que cette dernière peut être expliquée
uniquement par les fluctuations aléatoires c'est à dire qu'elle est du même ordre de grandeur
que VINTRA ou au contraire qu'il faut invoquer l'effet du facteur différenciant.
2. Conditions pour une bonne mise en application de l’analyse de variance.
a) Distribution gaussienne des données
L’analyse de variance peut conduire à des résultats inexacts si les données de chaque groupe ne
sont pas distibuées suivant une loi Normale. Il faudrait donc faire un test de Shapiro-Wilk pour les
données de chaque groupe, ce qu’on fait rarement. Lorsque le nombre de mesures de chaque groupe
est > 20 la condition de normalité est supposée vérifiée.
b) Homogénéité des variances à l’intérieur des groupes.
Normalement, la variance inter-groupes doit être supérieure à la variance intra-groupes, faute de quoi
la variance due au facteur différenciant devient négative ce qui est anormal.
Si les variances des groupes sont inhomogènes c'est-à-dire s’il en existe une qui est nettement
supérieure aux autres, la variance intra-groupes devient anormalement élevée et parfois supérieure à
la variance inter-groupes. Il est donc recommandé de vérifier préalablement l’homogénéité des
variances à l’aide d’un test de Cochran ou de Bartlett.
Si l’homogénéité des variances est en défaut on recherchera l’existence de points aberrants.
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens
70
3. Application de l’analyse de variance à l’évaluation de la qualité d’une mesure
physique.
La qualité d’une mesure physique s’exprime par sa fidélité et son exactitude.
a) Définitions concernant la fidélité
La fidélité est l'étroitesse de l'accord entre des résultats d'essais indépendants obtenus
dans des conditions de variabilité expérimentales stipulées.
On considère trois définitions de la fidélité suivant la variabilité des conditions expérimentales :
•
La répétabilité représente la qualité de l'accord entre des mesures d'un même échantillon
effectuées dans des conditions expérimentales très faiblement variables. Elle s'obtient en
répétant un protocole de mesure sur un même échantillon, l'appareillage et l'opérateur étant
identiques et les mesures étant effectuées dans un faible intervalle de temps. Evidemment la
répétabilité n'intègre pas les erreurs systématiques ou les défauts d'appareillage. Elle donne
simplement une mesure de la dispersion du signal pour un protocole de mesure effectué sur
un appareil donné et par un opérateur donné.
•
La reproductibilité correspond à la même définition, mais dans le cas de mesures effectuées
dans des conditions fortement variables (opérateurs, appareillages, époques et souvent
laboratoires différents). Plus la variabilité des conditions expérimentales est grande, plus le
nombre de causes d'erreurs prises en compte dans la dispersion des résultats est grande. En
principe, une étude de reproductibilité implique une campagne d'essais inter-laboratoires
impliquant des entreprises différentes et parfois des pays différents.
•
Un niveau intermédiaire de variabilité des conditions expérimentales a été préconisé lorsque
de véritables essais inter-laboratoires sont impossibles (le plus souvent pour des raisons de
confidentialité lorsqu'on étudie un produit ou un matériau nouveau). On limite les facteurs de
variabilité à l'équipement, au personnel et au temps. Parfois, seul le facteur temps peut être
pris en considération. On parle alors de Fidélité intermédiaire ou reproductibilité intralaboratoire
b) Calculs concernant la fidélité
On effectue une analyse de variance en prenant comme facteur différenciant, le labo ou l’appareillage
ou le jour de la mesure.
On exprime toujours une non-fidélité, c'est à dire qu'on donne un nombre d'autant plus grand que
la fidélité est plus mauvaise.
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens
71
Variance de répétabilité et de reproductibilité.
La variance de répétabilité appelée Vr n'est autre que la variance intra-groupes VINTRA.
La variance de reproductibilité VR s'exprime par deux relations différentes suivant l'influence du
facteur différenciant :
♦ si l'influence du facteur différenciant est négligeable VR = VT et voisin de VINTRA
♦ dans le cas contraire VR = VLABO + VINTRA
Ecarts-types de répétabilité et de reproductibilité
Ce sont les racines carrés des variances correspondantes. Leur intérêt est qu'ils s'expriment dans les
mêmes unités que les moyennes
s r = Vr et s R = VR
Coefficients de variation de répétabilité et de reproductibilité
Ce sont les écarts-types divisés par la moyenne générale
s
s
CVr = r et CVR = R
M
M
b) Définition de l’exactitude
L'exactitude d'une méthode de mesure exprime l'étroitesse de l'accord
entre la valeur mesurée et la valeur admise comme exacte
La valeur exacte peut être un poids étalon, une résistance étalon etc.., mais aussi un produit naturel
ou un matériau de composition certifiée ou ayant les propriétés physiques certifiées.
b) Evaluation de l’exactitude d’une mesure physique
L'exactitude d'une méthode d'analyse n'est pas à proprement parler une grandeur mesurable.
On évalue l'exactitude en comparant la valeur expérimentale à la valeur théorique par un test
de Student au seuil de 95 %, ou en montrant que la valeur théorique se trouve dans l'intervalle
de confiance de 95 % de la valeur expérimentale. On répond à ce test par "oui" ou "non". Pour
moduler la réponse, on peut agir sur le risque α du test de Student mais la valeur α = 5 % est
communément admise.
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens
72
On peut également exprimer quantitativement l’exactitude au moyen d’un biais qui exprime
la différence entre la moyenne mesurée et la valeur exacte. Ce biais peut être exprimé
comme une différence algébrique ou une différence relative ou encore un taux de
recouvrement.
•
Si VR représente la variance de reproductibilité et si la valeur exacte M0 est connue, on
admet qu'une méthode est exacte si la moyenne générale M n'est pas significativement
différente de M0 au risque bilatéral de 5 %.
M − M 0 t ( N −1, 0.975)
VR
N
(50)
N : nombre total de mesures ; M : moyenne générale
Dans ce cas l’exactitude s’exprime par VRAI ou FAUX sans considération quantitative.
•
On peut également un biais algébrique ou relatif.
D = M-M0 ou encore D = (M-M0)/M0 (biais relatif parfois exprimé en %)
•
Si l’intervalle de confiance sur le biais est faible (l’intervalle de confiance sur le biais
D est égal à l’intervalle de confiance sur M) on peut l’utiliser comme facteur correctif
de la méthode de mesure, mais seulement dans un domaine expérimental voisin de M .
Si on veut corriger la méthode de mesure dans un large domaine, il faut faire l’étude
d’exactitude à plusieurs points de ce domaine et modéliser le biais par une fonction
adéquate.
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens
73
ANALYSE DE VARIANCE
CE QU’IL FAUT ABSOLUMENT RETENIR
Principe de l’analyse de variance.
Calcul des variances intra et inter-groupes.
(
)
S INTRA = ∑ n j − 1 s 2 j variant de 1 à k
j
(
Sinter = ∑ n j m j − M
)
2
j variant de 1 à k
VINTRA =
S INTRA
avec N = Σnj
N −k
VINTER =
Sinter
k −1
Test de Fisher pour l’analyse de variance.
F=
VINTRER
VINTRA
et
F ≥ F(k-1, N-k,1-α)
(conclusion : moyennes dépendantes du facteur différenciant)
Variance totale et variance inter-laboratoire
k nj
(
S T = ∑ ∑ xij − M
j =1i =1
VLabo =
)
2
VTOTAL =
VINTER − VINTRA
avec
n
ST
N −1
∑ n 2j 
1 
N −
 pour j = 1 à k
n=
k − 1 
N 
Définition de la répétabilité et de la reproductibilité d’une mesure
Calcul de l’écart-type de répétabilité et de reproductibilité.
Définition et évaluation de l’exactitude d’une mesure
Pierre Jost
Statistiques à l’usage des ingénieurs et des techniciens