Les coefficients Il existe plusieurs coefficients qui permettent de

Transcription

Les coefficients Il existe plusieurs coefficients qui permettent de
Les coefficients
Il existe plusieurs coefficients qui permettent de mieux évaluer une distribution. Nous en
examinons les principaux dans les lignes qui suivent.
Le coefficient de variation (CV)
Le coefficient de variation a été introduit en 1896 par Karl Pearson et visait, à l’origine,
la comparaison de la variabilité de différentes distributions. On s’aperçut par la suite que
le CV était sensible aux erreurs dans une moyenne.
À quoi sert le CV
Essentiellement le CV sert à évaluer la dispersion d’une distribution. Le CV permet
également de valider la représentativité d’un estimé (ou de la moyenne). Plus grand sera
le CV moins grande sera la représentativité de la moyenne. Comme ce dernier s’exprime
en pourcentage (%) son utilisation est plus simple que celui de l’écart type. Il existe une
règle générale dans l’utilisation du CV.
Ainsi si le CV se situe :
Entre 0 et 15% (14,99%) : on dira que la moyenne est représentative de la distribution;
Entre 15% et 30% (29,99%) : on dira qu’il faut utiliser avec prudence la moyenne de la
distribution;
À 30% et plus : On dira que la moyenne n’est pas représentative de la distribution. C’est
à dire qu’il y a des observations qui se situent très loin de la moyenne.
La formule
La formule du CV est
s
*100 alors que s = écart type et x = la moyenne on multiplie le
x
tout par 100 pour le mettre en %. On retrouve également la formule
σ
*100 lorsqu’il
µ
s’agit d’une population. Nous avons ainsi :
σ = l’écart type
µ = la moyenne de la population
Exemple :
Supposons que nous désirons comparer deux moyennes qui proviennent de deux
distributions différentes. Dans un premier cas nous avons six travailleurs dont le salaire
horaire est de $20, $22, $25, $25, $25, $27. La moyenne des salaires est donc de
$24/heure et l’écart type (s) est de $2,52982213. (Note : même si les salaires sont
arrondis à la deuxième décimale il est important, pour l’utilisation de l’écart type de
conserver l’ensemble des décimales puisque ceci peut avoir une incidence sur les autres
calculs par la suite). Dans une autre entreprise les salaires sont de $20, $20, $23, $25,
$25, $25, la moyenne des salaires est de $23 et l’écart type est $2,44948974.
Toutefois si nous calculons le CV Nous obtenons :
Pour le premier groupe :
2,52982213
* 100 = 10,54%
24
Pour le deuxième groupe :
2,44948974
* 100 = 10,65%
23
Ici l’utilisation de l’écart type comme simple mesure de dispersion indiquerait que le
premier groupe est plus dispersée que le second puisque l’écart type est plus grand pour
le premier. Cependant le CV est légèrement plus important pour le deuxième groupe ce
qui indique que la dispersion relative est en fait plus importante dans le second groupe.
Puisque les deux résultats sont à l’intérieur de 15% nous pouvons également conclure que
la moyenne des deux groupes est représentative des deux distributions.
Autre exemple :
Supposons que lors d’une négociation un employeur indique au syndicat que la moyenne
des salaires de son entreprise se situe bien au-delà de la moyenne générale du secteur
dans lequel œuvre cette même entreprise. L’employeur utilisera donc la moyenne comme
argument dans la négociation. Comment le syndicat peut-il rejeter la moyenne comme
argument? En utilisant le CV. Ainsi, supposons que la moyenne de l’entreprise est de
$24,837 et que l’écart type est de $7897. (on prend pour acquis que le syndicat aura accès
à l’écart type ou à l’ensemble des salaires pour effectuer le calcul de l’écart type).
Le CV sera
7897
*100 = 31,795% (31,8%)
24837
Comme le CV est plus grand que 30% le syndicat pourrait affirmer que la moyenne est
non représentative de l’ensemble des employés et qu’il est mal avisé de l’utiliser dans la
négociation.
Le coefficient de dissymétrie (CD)
Le coefficient de dissymétrie1 (CD) sert à mesurer l’asymétrie d’une distribution. Comme
le CD mesure la différence entre la moyenne et la médiane un CD de 0 indique que la
distribution est symétrique2. En effet dans une distribution normale la moyenne est égale
1
Le terme anglais est skewness
Une mise en garde est toutefois nécessaire puisque le CD est de 0 lorsqu’il y a présence d’une double
distribution. C’ets ce qui se produit lorsqu’il y a présence de deux sous populations qui se présente avec
chacune une distribution normale. Toutefois cette situation est assez rare.
2
à la médiane. Cependant dans une distribution qui n’est pas symétrique on sait que la
moyenne se déplace plus rapidement que la médiane. Ceci est dû à la sensibilité de la
moyenne aux données contrairement à la médiane. Le CD offre donc une mesure de cette
dispersion.
La formule du CD est
3( x − md )
tel que
s
x = la moyenne
md = la médiane
s = l’écart type
Il s’agit donc de 3 fois la différence entre la moyenne et la médiane divisée par l’écart
type.
Comme nous l’avons mentionné si le CD est de 0 nous avons probablement affaire à une
distribution normale. Si la réponse est négative alors les données se retrouve
majoritairement à la droite de la distribution et si le résultat est positif alors les données
sont majoritairement à gauche. Plus le résultat s’éloigne de 0 plus l’écart est grand. On
l’utilise surtout lorsque l’on compare différentes distributions.
Exemple
Dans notre exemple précédent, la moyenne des salaires de l’entreprise est de $24,837.
Supposons que la médiane des salaires est $19,650. L’écart type est de $7897. Donc le
CD est
3( x − md ) 3(24837 − 19650) 3(5187 ) 15561
=
= 1,97
=
=
s
7897
7897
7897
On note donc qu’il existe une dispersion, assez grande, entre la moyenne et la médiane.
Comme le CD est positif nous pouvons conclure que la plupart des observations se
retrouvent à la gauche de la courbe c'est-à-dire dans les plus petites valeurs.
Coefficient d’asymétrie (CA)
Nous utiliserons le coefficient d’asymétrie pour identifier la présence d’une ou de
plusieurs données « aberrantes ». On identifie une donnée aberrante par une donnée qui
s’écarte de façon significative de la moyenne. La formule du CA est la suivante :
n
 xi − x 


∑
(n − 1)(n − 2)  s 
3
Exemple
Supposons les salaires dans deux compagnies :
Compagnie
A
15000
18000
9000
22000
65000
32000
8000
7500
19000
9500
8500
Compagnie
B
12000
29000
45000
62000
14500
14000
6500
28000
27500
13500
7000
Moyenne
Médiane
19409,0909
15000
23545,4545
14500
Ecart type
(s)
16920,1332
17250,2964
CA
CD
2,27368424
0,78174755
1,27165584
1,5730955
On remarquera que dans les deux compagnies il y a des salaires qui s’écartent de
l’ensemble des observations. On observe en effet un salaire de $65000 pour la compagnie
A et un salaire de $62000 pour la compagnie B. On sait que les valeurs extrêmes auront
une influence sur la moyenne. Dans le cas de la compagnie A la moyenne est de
$19409,09 alors que cette moyenne est de $23545,45 pour la compagnie B. Les médianes
sont respectivement de $15000 et $14500 alors que les écarts types sont de $16920,13 et
de $17250,30. On remarquera une similitude au niveau des résultats.Toutefois, le CD est
de 0,78 et de 1,57. Ce résultat n’est pas surprenant puisque même si les deux médianes
sont relativement proches l’une de l’autre, les deux moyennes, pour leur part, sont assez
différentes. Comme la moyenne de la compagnie A est plus près de sa médiane que ce
qu’il est possible d’observer avec la compagnie B, il est tout à fait logique de constater
que le CD est plus faible pour la compagnie A. Cependant le CA indique autre chose. Le
CA pour la compagnie A, 2,27, est plus grand que pour la compagnie B, 1,27, puisque la
valeur extrême, ici $65000, a un impact plus important par rapport aux deux valeurs
extrêmes de la compagnie B, ici $62000 et $45000. Dans les deux cas le résultat indique
qu’il y a des données qui s’écartent grandement de la moyenne. Le CA peut être positif
ou négatif. Le signe indique l’endroit où se trouve la ou les données aberrantes. La
lecture du CD ici nous informe que même si la moyenne de la compagnie A est plus
faible que celle de la compagnie B, il y a une donnée qui « tire » vers le haut la moyenne
de la compagnie A et que cette donnée a une influence importante. Il y aurait intérêt à
examiner avec soins la distribution afin d’identifier la (ou les) valeurs qui sont
atypique(s).
Cote Z et valeur de Z (Z)
Il y a deux utilisations au calcul du Z. La première sert à « normaliser » les observations
alors que la seconde sert à calculer la superficie sous la courbe normale. Dans les deux
cas la formule est la même :
Z=
xi − x
s
Tel que :
xi représente la valeur
x représente la moyenne (note en utilisant la lettre grecque µ il s’agirait alors de la
moyenne de la population)
s représente l’écart type (note en utilisant σ il s’agirait alors de l’écart type de la
population)
Exemple de la cote Z
Il s’agit en fait de rendre comparable des résultats qui proviennent d’observations
différentes.
Supposons que vous devez analyser la performance dans un cours de statistiques de
quatre étudiants qui étudient dans quatre universités différentes. Vous pourriez utiliser les
résultats de ces quatre étudiants (la note finale par exemple)3. Cependant, comme ces
quatre étudiants ne viennent pas de la même université il faut « normaliser » les notes ou
les rendre comparables entre elles. En effet est-ce qu’un étudiant qui a obtenu une note de
93 est, par rapport à ses confrères de classe, plus performant qu’un étudiant qui a obtenu
85 dans une autre classe? C’est ce que le Z permet de mesurer. Plus le résultat est loin de
0 plus la « performance » est supérieure quand le Z est positif ou inférieur quand le Z est
négatif. Afin d’illustrer ceci supposons les quatre étudiants suivants :
3
Étudiant
Note
Moyenne du groupe
A
B
C
D
93
85
82
75
88
80
87
80
Écart type
σ ou S
18.9
13.7
12
13.2
Cet exemple est tiré du livre d’Alain Gilles Éléments de méthodologie et d’analyse statistique pour les
sciences sociales, McGraw Hill, 1994 pp.188-189
Quel étudiant a le mieux performé par rapport à son groupe? On utilise la formule
x −x
du Z : i
tel que :
s
ZA =
(93 − 88)
= + 0,26
18,9
(85 − 80) = + 0,36
ZB =
13,7
(82 − 87 ) = - 0,42
ZC =
12
(
75 − 85)
= - 0,38
ZD =
13,2
On remarquera que tous les étudiants ont une différence de + ou - 5 points par rapport à la
moyenne de leur groupe respectif. On ne peut donc utiliser cette différence pour identifier
le plus « performant ». Cependant lorsqu’on examine les résultats des différents Z on
remarque que c’est l’étudiant B qui obtient le Z le plus élevé. C’est donc lui qui a le
mieux réussi par rapport à ses collègues. Ainsi, l’étudiant qui a obtenu 93 a été moins
performant (avec un Z de + 0,26 comparativement à +0,36 pour l’étudiant B) Également,
l’étudiant C même s’il a obtenu une note de 82 a une moins bonne cote Z (-0,42) que
l’étudiant D (-0,38). Rappelons que plus le Z s’éloigne de 0 plus il y a écart dans la
« performance ». Voici le tableau comparatif des résultats bruts et du Z.
Étudiant
Note
A
B
C
D
93
85
82
75
Rang selon
la note
1
2
3
4
Z
+0,26
+0,36
-0,42
-0,38
Rang selon
Le Z
2
1
4
3
La valeur du Z
On utilise également le Z afin de mesurer la superficie en pourcentage sous une courbe
normale. Remarquez qu’il est nécessaire d’avoir une courbe normale pour utiliser le Z
x −x
x −x
dans ce cas4. On utilise la même formule soit Z = i
ou Z = i
s
σ
Exemple :
Supposons que les ampoules produites par un manufacturier ont une durée de vie
moyenne de 2000 heures. Supposons également que l’écart-type est de 250 heures (S).
4
Dans le cas contraire, avec une courbe asymétrique, nous devrions utiliser le théorème de Chebyshev.
Combien d’ampoules auront une durée de vie d’au moins 1750 heures? On sait que la
production suit une courbe normale. Dans une courbe normale 50% des observations se
retrouvent entre la moyenne et la limite inférieure et 50% des observations se retrouvent
entre la moyenne et la limite supérieure (puisque pour une courbe normale la moyenne
est égale à la médiane). Pour notre exemple 1750 heures se retrouve avant la moyenne de
2000 heures. Il s’agit donc à l’aide du Z de calculer la superficie entre 1750 heures et
2000 heures. Si nous appliquons la formule du Z nous avons :
xi − x 1750 − 2000
− 250
=
= -1 Le Z = -1. Pour interpréter ce résultat nous
=
s
250
250
devons utiliser la table du Z (ce qui n’était pas le cas avec la cote Z). Avec un Z de +1,00
ou de -1,00, la table nous donne une superficie de 34,13%. Il y aurait donc 34,13% des
ampoules dont la durée de vie se situe entre 1750 et 2000 heures. On peut illustrer cette
situation par le graphique suivant :
Z =
50%
50%
34,13%
1750
2000
Si la question est de savoir quelle est la probabilité que l’ampoule dure 1750 heures ou
plus alors nous avons 34,13% entre 1750 et la moyenne et 50% entre la moyenne et la
limite supérieure donc 34,13% + 50% = 84,13%.
Si, au contraire, nous désirons savoir combien d’ampoules, en pourcentage, brûlerons
1750 heures et moins nous aurions comme résultat, toujours avec la même moyenne et le
même écart-type: 50% – 34,13% = 15,87%
Autre exemple :
Avec les mêmes données que pour l’exemple précédent, une moyenne de 2000 heures et
un écart-type de 250 heures, nous désirons savoir combien d’ampoules brûleront entre
1750 heures et 2250 heures. Nous avons donc :
1750 − 2000
= -1
250
2250 − 2000
Z2250 =
= +1
250
Z1750 =
Nous aurions donc 68,26% des ampoules entre ces mesures.
34,13% 34,13%
1750
2000 2250
Enfin si nous désirons mesurer le pourcentage entre 1750 heures et 1785 heures nous
devrions faire le calcul suivant :
1750 − 2000
= -1
250
1785 − 2000
= - 0.86
Z1785 =
250
Z1750 =
Nous savons déjà que Z=1 représente 34,13% entre 1750 heures et la moyenne de 2000
heures. La table nous indique que pour un Z de -0,86 la superficie est de 30,51%. Il y
aurait donc entre 1785 heures et 2000 heures 30,51% des ampoules. Nous désirons
connaître combien, toujours en pourcentage, il y a d’ampoules entre 1750 et 1785 heures
tel qu’illustré dans le graphique ci bas. Il s’agit donc de calculer la différence entre les
deux Z tel que : 34,13% - 30,51% = 3,62%. Il y a donc 3,62% des ampoules entre 1750 et
1785 heures.
30,51%
3,62%
34,13
1750
2000
1785
Nous aurons l’occasion de revenir sur l’utilité du Z ultérieurement. Mentionnons
seulement que + ou – 1 Z = 68,26% de la superficie et que +ou- 2 Z = 95,44%. Ces deux
chiffres sont d’importants points de références à la fois pour les tests statistiques et pour
les sondages.

Documents pareils