Coefficient de corrélation du produit des moments

Transcription

Coefficient de corrélation du produit des moments
Méthodologie
de la
recherche
Laurent Bosquet
Université Lille 2
Plan du cours
1. La loi normale et l’erreur d’échantillonnage
2. Comparaison de deux échantillons
3. Comparaison de trois échantillons ou plus
4. Corrélation et régression
Plan du cours
Corrélation et Régression
1. Coefficient de corrélation du produit des moments de
Pearson
2. Coefficient de corrélation des rangs de Spearman
3. Résumé
4. Régression bivariée
Coefficient de corrélation
Indique le degré d ’association entre deux variables
Coefficient numérique compris entre +1 et -1
Corrélation positive (0 < r < 1) : relation proportionnelle
Corrélation négative (-1 < r < 0) : relation inversement proportionnelle
N’implique en aucun cas une relation de CAUSE A
EFFET
1ère étape :
Peut-on utiliser le coefficient de corrélation ?
• La relation est-elle linéaire ?
Vérifier le nuage de points
• Les valeurs sont elles indépendantes ?
Test Durbin Watson
ou … la logique !
fHome
Variable 1
Variable 2
1
2
3
4
5
6
7
8
9
10
12
3
1
24
22
59
6
15
3
17
Var 1 x Var 2
12
6
3
96
110
354
42
120
27
170
Variable 1
Variable 2
1
2
3
4
5
6
7
8
9
10
12
3
1
24
22
59
6
15
3
17
r = 0.11
Var 1 x Var 2
12
6
3
96
110
354
42
120
27
170
Variable 1
Variable 2
1
2
3
4
5
6
7
8
9
10
12
3
1
24
22
59
6
15
3
17
Var 1 x Var 2
12
6
3
96
110
354
42
120
27
170
Variable 1
Variable 2
1
2
3
4
5
6
7
8
9
10
12
3
1
24
22
59
6
15
3
17
Var 1 x Var 2
12
6
3
96
110
354
42
120
27
170
r = 0.94
1ère étape :
Peut-on utiliser le coefficient de corrélation ?
• La relation est-elle linéaire ?
Vérifier le nuage de points
• Les valeurs sont elles indépendantes ?
Test Durbin Watson
ou … la logique !
2ème étape :
Formuler les hypothèses statistiques
Hypothèse nulle (H0)
Il n ’existe pas de relation entre les deux variables
Hypothèse alternative (H1)
Il existe une relation entre les deux variables
3ème étape :
Choisir le coefficient approprié
Méthode paramétrique
Le coefficient de corrélation du produit des moments de
Pearson
Méthode non paramétrique
Le coefficient de corrélation des rangs de Spearman
3ème étape :
Vérifier la normalité de la distribution
Test Shapiro Wilk
H0 : la distribution de l’échantillon suit une loi normale
Coefficient de corrélation de Pearson
H1 : la distribution de l’échantillon ne suit pas une loi normale
Coefficient de corrélation de Spearman
Plan du cours
Corrélation et Régression
1. Coefficient de corrélation du produit des moments de
Pearson
2. Coefficient de corrélation des rangs de Spearman
3. Résumé
4. Régression bivariée
Coefficient de corrélation du produit des
moments de Pearson
Formule « moyenne - écart type »
r=
σ
X
∑ XY − X.Y
n
σX σY
=
∑
X2
n
 ∑X
−

 n 
2
Coefficient de corrélation du produit des
moments de Pearson
Formule « moyenne - écart type »
X
Y
X2
Y2
XY
3
5
9
25
15
2
7
4
49
14
..
..
..
..
..
∑X
∑Y
∑ X2
∑ Y2
∑XY
Coefficient de corrélation du produit des
moments de Pearson
Formule « moyenne - écart type »
r=
σ
X
∑ XY − X.Y
n
σX σY
=
∑
2
X
n
 ∑X 
−

 n 
2
Table du r de Pearson (Pearson et Hartley, 1966)
ddl = n-2
Quelle signification clinique ?
Il n’existe pas de
relation entre les
deux variables
Il existe une
relation entre les
deux variables
Quelle signification clinique ?
Il n’existe pas de
relation entre les
deux variables
Variance
commune
(r2)
Il existe une
relation entre les
deux variables
Quelle signification clinique ?
Variance
commune
(r2)
Si 00 < r2 < 25% (0.0 < r < 0.5) : Très faible
Si 25 < r2 < 50% (0.5 < r < 0.7) : Faible
Si 50 < r2 < 65% (0.7 < r < 0.8) : Modéré
Si 65 < r2 < 80% (0.8 < r < 0.9) : Élevé
Si 80 < r2 < 100% (0.9 < r < 1.0) : Très élevé
Plan du cours
Corrélation et Régression
1. Coefficient de corrélation du produit des moments de
Pearson
2. Coefficient de corrélation des rangs de Spearman
3. Résumé
4. Régression bivariée
Coefficient de corrélation des rangs de
Spearman
Classer les sujets selon leur rang pour chacune des deux variables
Sujets
Rang
Var 1
Rang
Var 2
Diff.
(Diff.)2
1
5
9
-4
16
2
7
4
+3
9
..
..
..
..
..
n
12
12
0
0
∑(Diff.)2 :
XX
Coefficient de corrélation des rangs de
Spearman
ρ = 1−
6∑ D
(
2
)
n n −1
2
n = taille de l’échantillon
∑ D2 = somme des différences au carré
Table du ρ de Spearman (Pearson et Hartley, 1966)
Quelle signification clinique ?
Si 0.0 < ρ < 0.5 :
Très faible
Si 0.5 < ρ < 0.7 :
Faible
Si 0.7 < ρ < 0.8 :
Modéré
Si 0.8 < ρ < 0.9 :
Élevé
Si 0.9 < ρ < 1.0 :
Très élevé
Plan du cours
Corrélation et Régression
1. Coefficient de corrélation du produit des moments de
Pearson
2. Coefficient de corrélation des rangs de Spearman
3. Résumé
4. Régression bivariée
Degré d’association entre deux variables :
le coefficient de corrélation
La relation est- el e linéaire ?
OUI
Les variables sont- elles
indépendantes ?
NON
STOP
OUI
PEARSON
La distribution suit- elle une
loi normale ?
Signification clinique
NON
SPEARMAN
Plan du cours
Corrélation et Régression
1. Coefficient de corrélation du produit des moments de
Pearson
2. Coefficient de corrélation des rangs de Spearman
3. Résumé
4. Régression bivariée
Relation entre la distance (m) et le temps (s)
10000 m
26:22
Dis tan ce (m )
12000
10000
8000
6000
1500 m
3:26
4000
2000
3000 m
7:20
5000 m
12:39
r = 0.99
0
0
250
500
750
1000
1250
1500
1750
Temps (s)
Y = a(X) + b
Y = distance (m)
X = temps (s)
a = pente
b = ordonnée à l ’origine
2000
Conditions d ’utilisation de la
régression bivariée
• La relation est elle linéaire ?
• Les valeurs sont elles indépendantes ?
• La distribution de chaque variable suit
elle une loi normale ?
Régression bivariée
Valeur 1
Valeur 2
X (temps)
206
759
Y (distance)
1500
5000
1. Calculer la pente
Y2 − Y1
Pente =
X 2 − X1
5000 − 1500
6.33 =
759 − 206
Régression bivariée
Valeur 1
Valeur 2
X (temps)
206
759
Y (distance)
1500
5000
2. Calculer l’ordonnée à l ’origine
Y = 6.33(X ) + b
5000 = 6.33(759 ) + b
Régression bivariée
Valeur 1
Valeur 2
X (temps)
206
759
Y (distance)
1500
5000
2. Calculer l’ordonnée à l ’origine
Y = 6.33(X ) + b
5000 = 6.33(759 ) + b
b = 196
Régression bivariée
Valeur 1
Valeur 2
X (temps)
206
759
Y (distance)
1500
5000
3. Établir l’équation de régression linéaire
Y = 6.33(X ) + 196
Régression bivariée
Valeur 1
Valeur 2
X (temps)
206
759
Y (distance)
1500
5000
Y = 6.33(X ) + 196
Préciser systématiquement :
• les caractéristiques de la population
• le coefficient de corrélation
• l’erreur de prédiction (erreur type de l’estimé)
Régression bivariée
L’erreur type de l’estimé (ETE)
ETE = σ Y 1 − r
2