Les tests de rangs (Rho et coefficient de concordance) Le Rho (ρ

Transcription

Les tests de rangs (Rho et coefficient de concordance) Le Rho (ρ
Les tests de rangs (Rho et coefficient de concordance)
Le Rho (ρ) de Spearman mesure l’indépendance de deux variables dont les résultats ont
été mis en rang. Ainsi, plutôt que d’utiliser les résultats bruts on classe ces mêmes
résultats selon leur rang. C’est donc un calcul qui vise à déterminer s’il existe une
corrélation entre les rangs de ces deux variables. Par exemple, supposons que nous
examinions 10 pays. On désire savoir s’il existe une corrélation entre l’espérance de vie
et le produit intérieur brut de ces pays. On pose ainsi la question : Est-ce que l’espérance
de vie est plus importante en fonction du PIB? D’une manière simpliste vie-t-on plus
vieux dans un pays plus riche?1 En nous référant au CIA World Factbook2 nous obtenons
la liste des 10 pays dont l’espérance de vie est la plus élevée. Ces pays sont :
Pays
Espérance de vie
(en année)
Macau
84,36
Andorre
82,51
Japon
82,12
Singapour 81,98
San Marino 81,97
Hong Kong 81,86
Australie
81,63
Canada
81,23
France
80,98
Suède
80,86
Rang
mondial
1
2
3
4
5
6
7
8
9
10
On remarquera qu’on ne tient pas compte de la valeur réelle mais bien du rang. Ainsi
dans notre exemple la différence entre Singapour et San Marino est infime (0,01 an) mais
suffisante pour classer Singapour avant San Marino. Nous verrons un peu plus loin ce
qu’il faut faire lorsqu’il y a égalité au niveau des rangs.
Nous devons maintenant utiliser les rangs concernant le PIB. Nous obtenons le tableau
suivant pour ces mêmes 10 pays.
1
Nous introduisons volontairement des carences méthodologiques à la fois dans la formulation de la
question et dans le choix des pays afin d’illustrer les dangers d’une utilisation simpliste d’un calcul. Nous
examinerons en détails ces carences un peu plus loin.
2
https://www.cia.gov/library/publications/the-world-factbook/. (Données en date du 14 mai 2009).
Pays
PIB
($ US)
Macau
30,000
Andorre
42,500
Japon
34,200
Singapour 52,000
San Marino 41,900
Hong Kong 43,800
Australie
38,100
Canada
39,300
France
32,700
Suède
38,500
Rang
mondial
44
15
36
9
16
14
26
21
38
23
On remarquera que dans le premier tableau le rang mondial des 10 pays commençait par
1 et se terminait par 10 alors que dans le deuxième tableau les rangs sont plus dispersés.
Il est important de noter que pour effectuer le calcul du Rho de Spearman il est important
que les rangs soient remis en fonction des observations. Ainsi, pour le tableau portant sur
le PIB, nous devons remettre les rangs sur une base de 1 à 10 pour nos 10 pays. Nous
obtenons donc le tableau suivant :
Pays
PIB
($ US)
Macau
30,000
Andorre
42,500
Japon
34,200
Singapour 52,000
San Marino 41,900
Hong Kong 43,800
Australie
38,100
Canada
39,300
France
32,700
Suède
38,500
Rang
mondial
44
15
36
9
16
14
26
21
38
23
Rang
corrigé
10
3
8
1
4
2
7
5
9
6
Il est alors possible de compléter le tableau. Ce dernier devient alors :
Pays
Rang
Mondial
(Espérance de vie)
Macau
1
Andorre
2
Japon
3
Singapour 4
San Marino 5
Hong Kong 6
Australie
7
Canada
8
France
9
Suède
10
Rang
Corrigé
(PIB)
10
3
8
1
4
2
7
5
9
6
On observe ainsi que Macau qui se situe au premier rang mondial pour l’espérance de vie
se retrouve au 10e rang des 10 pays qui ont la plus grande espérance de vie dans le monde.
Nous voulons ainsi observer le « comportement » des dix pays qui possèdent l’espérance
de vie la plus élevé dans le monde.
La formule du Rho est : ρ = 1 −
6∑ D 2
(
) tel que
n n2 −1
D2 = La différence au carré de chacun des rangs
n = le nombre d’observations
Si nous poursuivons avec notre exemple nous obtenons donc le tableau suivant :
Pays
Macau
Andorre
Japon
Singapour
San
Marino
Hong
Kong
Australie
Canada
France
Suède
Total
Rang
Mondial
(Espérance
de vie)
1
2
3
4
5
Rang
D
Corrigé (Différence
(PIB)
entre les deux
rangs)
10
-9
3
-1
8
-5
1
+3
4
+1
D2
(Différence au carré
entre les deux
rangs)
81
1
25
9
1
6
2
+4
16
7
8
9
10
7
5
9
6
0
+3
0
+4
0
0
9
0
16
158
On remarquera que la somme des différences donne un total de 0 puis que
(-9) + (-1) + (-5) + (+3) + (+1) + (+4) + (0) + (+3) + (0) + (+4) = 0 parce que
(-9) + (-1) + (-5) = -15 et
(+3) + (+1) + (+4) (+3) + (+4) = +15
(-15) + (+15) = 0
Si vous faites le calcul de façon manuelle ceci devient une base de vérification afin de
s’assurer qu’il n’y a pas d’erreur. Ceci explique également pourquoi nous mettons cette
différence au carré.
Il est maintenant possible d’appliquer la formule. Rappelons qu’il y a 10 observations (ou
dans ce cas-ci 10 pays) donc n = 10 et que la somme de la différence entre les rangs au
carré D2 = 158. Donc :
1−
6∑ D 2
(
)
n n −1
= 0,0424
2
= 1−
948
948
948
6 *158
= 1 – 0,957575758
= 1−
=1 −
= 1−
2
10(100 − 1)
10(99)
990
10 10 − 1
(
)
Le résultat du Rho est donc de 0,0424. Ce chiffre doit être interprété à l’aide d’une table.
Toutefois, il est important dans un premier temps, de signaler que le résultat du Rho va se
situer entre +1 et -1. Une valeur de +1 signale une corrélation de rang positive parfaite
(c’est-à-dire que les rangs sont identiques) alors qu’un résultat de -1 indique une
corrélation de rang négative parfaite (c’est-à-dire que les rangs sont inversés)3. Pour notre
exemple le résultat est très près de 0 ce qui signifierait une absence de corrélation. Nous
aurons la confirmation en examinant la table. Pour utiliser la table il est nécessaire de
considérer deux choses. Premièrement, comme pour les autres tables, nous devons
identifier le degré de liberté. Dans le cas du Rho de Spearman le degré de liberté est
déterminé par le nombre d’observations. Pour notre exemple, il y a dix pays donc le d.l.
est de 10. En deuxième lieu il faut décider si nous effectuerons un test unilatéral ou
bilatéral. (explication en classe) Habituellement, on effectue un test bilatéral. Il faut
comprendre que la zone
3
Nous verrons ces situations dans le cadre du deuxième exemple.
Deuxième exemple
Supposons que l’on désire savoir si la quantité de fluor aide à réduire les caries. On
examine la quantité de fluor dans 6 écoles et on examine le nombre de caries chez les
enfants de ces six écoles après un an. Le protocole de recherche contrôle évidemment
l’ensemble des variables. On met en ordre les écoles en fonction de la quantité de fluor et
dans la deuxième colonne on indique le rang de ces mêmes écoles en fonction du nombre
de caries. Il est important de noter que seul les rangs et non la quantité de fluor ou le
nombre de caries font l’objet du tableau.
École
Rang Fluor
Rang Caries
Différence D
A
B
C
D
E
F
Total
1
2
3
4
5
6
5
6
3
2
4
1
-4
-4
0
2
1
5
Différence au
carré D2
16
16
0
4
1
25
62
Le Rho est donc de :
Rho = 1 −
6∑ D 2
(
)
n n −1
Rho = -.7714
2
= 1−
372
372
372
6 * 62
= 1- 1.7714
= 1−
=1 −
=1 −
2
6(36 − 1)
6(35)
210
6 6 −1
(
)
Nous avons donc un Rho négatif. Ceci signifie que plus le rang dans la quantité de fluor
est élevé moins le rang dans les caries est élevé. Plus il y a de fluor moins il y a de caries.
Il faut toutefois utiliser une table afin d’accepter ou de rejeter l’hypothèse nulle. Cette
table utilise le nombre d’observations comme référence pour la table. Le dl est donc égal
au nombre d’observations. Comme le Rho peut prendre une valeur positive ou négative il
est possible d’examiner le résultat avec un test unilatéral ou bilatéral. Habituellement on
effectue un test bilatéral. Par exemple, un test bilatéral à 10% indique que la zone de rejet
de l’hypothèse nulle (Ho)4 se partage également des deux côtés de la courbe. La zone de
rejet est donc de 5% du côté positif et de 5% du côté négatif pour un total global de 10%.
On aura donc compris que la valeur critique pour un test bilatéral à 10% est identique à
celui d’un test unilatéral à 5% puisqu’il s’agit de la même zone de rejet.
La valeur critique à 10% bilatéral (ou 5% unilatéral) pour un échantillon (n) de 6 est de
±.8286. Notre résultat est de -.7714. Il est important de souligner que le rho peut avoir
une valeur qui se situe entre +1 et -1. Plus (+) 1 indiquant une corrélation positive
parfaite (tous les rangs sont identiques) et moins (-) 1 indiquant une corrélation inverse
parfaite (les rangs sont inversés). Un Rho qui se rapproche de 0 indique qu’il n’y a pas de
corrélation entre les variables. Pour notre exemple, il n’y a donc pas de corrélation de
4
On aura compris que Ho veut dire « Il n’y a pas de corrélation »
rang puisque le résultat du Rho (-.7714) est plus petit que la valeur critique de -.8286.
Nous écririons le résultat : ρ (6) - .7714 n.s. (n.s. = non significatif = on accepte
l’hypothèse nulle). Nous ne pouvons donc affirmer qu’il y a corrélation de rangs entre la
quantité de fluor et la nombre de caries puisque le résultat du Rho (-.7714) ne dépasse pas
la valeur critique dans la table (±.8286)
Si nous avions eu le tableau suivant :
École
Rang Fluor
Rang Caries
Différence D
A
B
C
D
E
F
Total
1
2
3
4
5
6
6
5
4
3
2
1
-5
-3
-1
1
3
5
Différence au
carré D2
25
9
1
1
9
25
70
Alors :
Rho = 1 −
6∑ D 2
(
)
n n −1
2
= 1−
420
420
420
6 * 70
= 1 – 2 = -1
= 1−
=1 −
=1 −
2
6(36 − 1)
6(35)
210
6 6 −1
(
)
Nous avons ici une corrélation négative parfaite. Quand le rang dans la quantité de fluor
est élevé alors le nombre de caries est faible. Pour une corrélation positive parfaite nous
aurions le tableau suivant :
École
Rang Fluor
Rang Caries
Différence D
A
B
C
D
E
F
Total
1
2
3
4
5
6
1
2
3
4
5
6
0
0
0
0
0
0
Différence au
carré D2
0
0
0
0
0
0
0
0
6*0
=1
= 1−
2
210
6 6 −1
Ceci voudrait dire que lorsque le rang en quantité du fluor est grand, le nombre de caries
est grand.
Rho = 1 −
(
)
RÉSUMÉ Interprétation du Rho
Le Rho est un de test de corrélation. Le résultat s'interprète à l'aide de la table que j'ai
distribué en classe. Si le résultat du Rho est plus petit que la valeur critique dans la table
on dira alors qu'il n'y a pas de corrélation. Si le résultat du Rho est égal ou plus grand que
la table on dira alors qu'il y a corrélation. Le Rho peut être soit positif soit négatif (avec
une valeur maximale de +1 ou de -1. C'est pourquoi la table comporte deux seuils un pour
un test bilatéral et un pour un test unilatéral. Par exemple pour un test bilatéral à 10% on
retrouvera une zone de rejet de 5% d'u côté positif de la courbe et une autre zone de rejet
de 5% du côté négatif de la courbe pour un total de 10%. Si il y a rejet de l'hypothèse
nulle (il n'y a pas de corrélation) on dira qu'il y a corrélation.
Un dernier exemple
Voici des données concernant le nombre de signalement à la DPJ5. Il s’agit donc du
nombre de signalement et du rang que les arrondissements occupent.
Arrondissement
Hochelaga
Centre Sud
Montréal
P. St-Charles
St- Michel
Petite Patrie
St- Henri
Villeray
Rosemont
Verdun
Total
Nombre de Rang selon le
signalement
nombre de
(/1000)
signalement
35,57
1
20,97
2
19,21
3
19,07
4
17,84
5
17,08
6
16,95
7
15,38
8
13,64
9
13,62
10
-
Supposons que l’on désire établir une corrélation de rangs entre le signalement et le
nombre de prestataire du bien être social. Si il nous est possible d’établir une corrélation
entre les deux variables, ceci pourrait permettre une meilleure intervention de la part des
autorités puisque nous aurions un prédicteur.
5
Ces données datent de 1998.
Nous obtenons alors le tableau suivant :
Arrondissement
Hochelaga
Centre Sud
Montréal
P. St-Charles
St- Michel
Petite Patrie
St- Henri
Villeray
Rosemont
Verdun
Total
Nbre de
Rang selon le Rang selon
signalement
nbre de
l’aide
(/1000)
signalement
sociale
35,57
1
2
20,97
2
4
19,21
3
6
19,07
4
1
17,84
5
5
17,08
6
8
16,95
7
3
15,38
8
10
13,64
9
9
13,62
10
7
-
Finalement nous complétons le tableau pour effectuer le calcul du Rho et on obtient :
Arrondissement
Hochelaga
Centre Sud
Montréal
P. St-Charles
St- Michel
Petite Patrie
St- Henri
Villeray
Rosemont
Verdun
Total
Nombre de Rang selon le Rang selon
signalement
nombre de
l’aide
(/1000)
signalement
sociale
35,57
1
2
20,97
2
4
19,21
3
6
19,07
4
1
17,84
5
5
17,08
6
8
16,95
7
3
15,38
8
10
13,64
9
9
13,62
10
7
-
Le Rho est donc : 1 −
6∑ D 2
(
)
n n −1
2
= 1−
Di
Di 2
-1
-2
-3
3
0
-2
4
-2
0
3
0
1
4
9
9
0
4
16
4
0
9
56
336
6 * 56
= 1- 0,3393 = 0,6607
= 1−
2
990
10 10 − 1
(
)
Nous avons un Rho de 0,6607. Il y a 10 degré de liberté
Coefficient de concordance6
Le coefficient de concordance est une mesure statistique qui mesure un accord de rang
entre, par exemple, des évaluateurs et une variable. Supposons que 4 juges évaluent 5
6
On retrouvera cet exemple dans « Dictionary of Statistics », Penguin.
étudiants7. Les juges vont donner un rang à ces cinq étudiants. Nous obtenons le tableau
suivant :
Juge A
4
1
2
3
5
Candidat A
Candidat B
Candidat C
Candidat D
Candidat E
Juge B
4
1
3
2
5
Juge C
5
2
1
4
3
Juge D
5
1
2
3
4
Σ (Somme)
18
5
8
12
17
La formule est la suivante :
12S
W= 2 2
m n(n − 1)
tel que
S=
1


∑ si − 2 m(n + 1)
2
Alors pour notre exemple :
1


S = ∑  si − m(n + 1)
2


2
m = le nombre de juge (4)
n = le nombre de candidat (5)
si = la somme des rangs du candidat
2
1


∑ si − 2 m(n + 1) =
=
∑ [s
− 12]
2
1


∑ si − 2 4(5 + 1) =
2
1


∑ si − 2 4(6) =
1 

∑ si − 2 24
2
2
i
Donc :
2
2
2
2
2
S = (18 − 12) + (5 − 12 ) + (8 − 12) + (12 − 12 ) + (17 − 12)
S = (6) + (− 7 ) + (− 4) + (0 ) + (5)
S = 36 + 49 + 16 + 0 + 25
S = 126
2
W=
7
2
2
2
2
12 *126 1512
12S
12 *126
12 *126
12 *126
=
=
=
=
= 0.7875
= 2 2
2
16 * 5(25 − 1) 16 * 5(24) 16 *120 1920
m n n −1
4 5 5 −1
2
(
)
(
)
Le Kappa mesure l’accord entre deux juges seulement.
On interprète la valeur de W à l’aide d’une table statistique. Ce résultat se rapproche de
un (1) alors nous pouvons affirmer que les juges sont généralement en accord. Le résultat
maximum de W est 1 et cela arrive lorsque tous les juges donnent le même rang à tous les
candidats. Pour notre exemple, les juges n’ont pas accordées leurs rangs de façon
aléatoire puisque la table nous indique que la probabilité que W soit supérieure à 0.66 est
de 0.01 ou une chance équivalente à 1%. Comme le résultat de 0.7875 est plus grand que
0.66 nous pouvons rejeter l’hypothèse qu’il n’y a pas d’accord entre les juges.