Coefficient de corrélation du produit des moments
Transcription
Coefficient de corrélation du produit des moments
Méthodologie de la recherche Laurent Bosquet Université Lille 2 Plan du cours 1. La loi normale et l’erreur d’échantillonnage 2. Comparaison de deux échantillons 3. Comparaison de trois échantillons ou plus 4. Corrélation et régression Plan du cours Corrélation et Régression 1. Coefficient de corrélation du produit des moments de Pearson 2. Coefficient de corrélation des rangs de Spearman 3. Résumé 4. Régression bivariée Coefficient de corrélation Indique le degré d ’association entre deux variables Coefficient numérique compris entre +1 et -1 Corrélation positive (0 < r < 1) : relation proportionnelle Corrélation négative (-1 < r < 0) : relation inversement proportionnelle N’implique en aucun cas une relation de CAUSE A EFFET 1ère étape : Peut-on utiliser le coefficient de corrélation ? • La relation est-elle linéaire ? Vérifier le nuage de points • Les valeurs sont elles indépendantes ? Test Durbin Watson ou … la logique ! fHome Variable 1 Variable 2 1 2 3 4 5 6 7 8 9 10 12 3 1 24 22 59 6 15 3 17 Var 1 x Var 2 12 6 3 96 110 354 42 120 27 170 Variable 1 Variable 2 1 2 3 4 5 6 7 8 9 10 12 3 1 24 22 59 6 15 3 17 r = 0.11 Var 1 x Var 2 12 6 3 96 110 354 42 120 27 170 Variable 1 Variable 2 1 2 3 4 5 6 7 8 9 10 12 3 1 24 22 59 6 15 3 17 Var 1 x Var 2 12 6 3 96 110 354 42 120 27 170 Variable 1 Variable 2 1 2 3 4 5 6 7 8 9 10 12 3 1 24 22 59 6 15 3 17 Var 1 x Var 2 12 6 3 96 110 354 42 120 27 170 r = 0.94 1ère étape : Peut-on utiliser le coefficient de corrélation ? • La relation est-elle linéaire ? Vérifier le nuage de points • Les valeurs sont elles indépendantes ? Test Durbin Watson ou … la logique ! 2ème étape : Formuler les hypothèses statistiques Hypothèse nulle (H0) Il n ’existe pas de relation entre les deux variables Hypothèse alternative (H1) Il existe une relation entre les deux variables 3ème étape : Choisir le coefficient approprié Méthode paramétrique Le coefficient de corrélation du produit des moments de Pearson Méthode non paramétrique Le coefficient de corrélation des rangs de Spearman 3ème étape : Vérifier la normalité de la distribution Test Shapiro Wilk H0 : la distribution de l’échantillon suit une loi normale Coefficient de corrélation de Pearson H1 : la distribution de l’échantillon ne suit pas une loi normale Coefficient de corrélation de Spearman Plan du cours Corrélation et Régression 1. Coefficient de corrélation du produit des moments de Pearson 2. Coefficient de corrélation des rangs de Spearman 3. Résumé 4. Régression bivariée Coefficient de corrélation du produit des moments de Pearson Formule « moyenne - écart type » r= σ X ∑ XY − X.Y n σX σY = ∑ X2 n ∑X − n 2 Coefficient de corrélation du produit des moments de Pearson Formule « moyenne - écart type » X Y X2 Y2 XY 3 5 9 25 15 2 7 4 49 14 .. .. .. .. .. ∑X ∑Y ∑ X2 ∑ Y2 ∑XY Coefficient de corrélation du produit des moments de Pearson Formule « moyenne - écart type » r= σ X ∑ XY − X.Y n σX σY = ∑ 2 X n ∑X − n 2 Table du r de Pearson (Pearson et Hartley, 1966) ddl = n-2 Quelle signification clinique ? Il n’existe pas de relation entre les deux variables Il existe une relation entre les deux variables Quelle signification clinique ? Il n’existe pas de relation entre les deux variables Variance commune (r2) Il existe une relation entre les deux variables Quelle signification clinique ? Variance commune (r2) Si 00 < r2 < 25% (0.0 < r < 0.5) : Très faible Si 25 < r2 < 50% (0.5 < r < 0.7) : Faible Si 50 < r2 < 65% (0.7 < r < 0.8) : Modéré Si 65 < r2 < 80% (0.8 < r < 0.9) : Élevé Si 80 < r2 < 100% (0.9 < r < 1.0) : Très élevé Plan du cours Corrélation et Régression 1. Coefficient de corrélation du produit des moments de Pearson 2. Coefficient de corrélation des rangs de Spearman 3. Résumé 4. Régression bivariée Coefficient de corrélation des rangs de Spearman Classer les sujets selon leur rang pour chacune des deux variables Sujets Rang Var 1 Rang Var 2 Diff. (Diff.)2 1 5 9 -4 16 2 7 4 +3 9 .. .. .. .. .. n 12 12 0 0 ∑(Diff.)2 : XX Coefficient de corrélation des rangs de Spearman ρ = 1− 6∑ D ( 2 ) n n −1 2 n = taille de l’échantillon ∑ D2 = somme des différences au carré Table du ρ de Spearman (Pearson et Hartley, 1966) Quelle signification clinique ? Si 0.0 < ρ < 0.5 : Très faible Si 0.5 < ρ < 0.7 : Faible Si 0.7 < ρ < 0.8 : Modéré Si 0.8 < ρ < 0.9 : Élevé Si 0.9 < ρ < 1.0 : Très élevé Plan du cours Corrélation et Régression 1. Coefficient de corrélation du produit des moments de Pearson 2. Coefficient de corrélation des rangs de Spearman 3. Résumé 4. Régression bivariée Degré d’association entre deux variables : le coefficient de corrélation La relation est- el e linéaire ? OUI Les variables sont- elles indépendantes ? NON STOP OUI PEARSON La distribution suit- elle une loi normale ? Signification clinique NON SPEARMAN Plan du cours Corrélation et Régression 1. Coefficient de corrélation du produit des moments de Pearson 2. Coefficient de corrélation des rangs de Spearman 3. Résumé 4. Régression bivariée Relation entre la distance (m) et le temps (s) 10000 m 26:22 Dis tan ce (m ) 12000 10000 8000 6000 1500 m 3:26 4000 2000 3000 m 7:20 5000 m 12:39 r = 0.99 0 0 250 500 750 1000 1250 1500 1750 Temps (s) Y = a(X) + b Y = distance (m) X = temps (s) a = pente b = ordonnée à l ’origine 2000 Conditions d ’utilisation de la régression bivariée • La relation est elle linéaire ? • Les valeurs sont elles indépendantes ? • La distribution de chaque variable suit elle une loi normale ? Régression bivariée Valeur 1 Valeur 2 X (temps) 206 759 Y (distance) 1500 5000 1. Calculer la pente Y2 − Y1 Pente = X 2 − X1 5000 − 1500 6.33 = 759 − 206 Régression bivariée Valeur 1 Valeur 2 X (temps) 206 759 Y (distance) 1500 5000 2. Calculer l’ordonnée à l ’origine Y = 6.33(X ) + b 5000 = 6.33(759 ) + b Régression bivariée Valeur 1 Valeur 2 X (temps) 206 759 Y (distance) 1500 5000 2. Calculer l’ordonnée à l ’origine Y = 6.33(X ) + b 5000 = 6.33(759 ) + b b = 196 Régression bivariée Valeur 1 Valeur 2 X (temps) 206 759 Y (distance) 1500 5000 3. Établir l’équation de régression linéaire Y = 6.33(X ) + 196 Régression bivariée Valeur 1 Valeur 2 X (temps) 206 759 Y (distance) 1500 5000 Y = 6.33(X ) + 196 Préciser systématiquement : • les caractéristiques de la population • le coefficient de corrélation • l’erreur de prédiction (erreur type de l’estimé) Régression bivariée L’erreur type de l’estimé (ETE) ETE = σ Y 1 − r 2