Régression linéaire et corrélation
Transcription
Régression linéaire et corrélation
CHAPITRE 10 Régression linéaire et corrélation 1. Introduction Dans ce chapitre, nous regarderons comment vérifier si une variable à un influence sur une autre variable afin de prédire une des variables si l’on connaît l’autre. Plus précisément, nous étudierons s’il existe une relation linéaire entre deux variables. Afin de bien comprendre les différentes étapes de cette étude, nous utiliserons l’exemple suivant : Exemple 10.1. Un chercheur veut déterminer s’il existe une relation entre l’âge (en mois) du premier mot d’un enfant et son nombre de points à test d’habiletés mentales, le test Gesell. Il effectue une expérimentation sur 21 jeunes de 5 ans. Voici les résultats : Tab. 1. Âge (en mois) du premier mot et le résultat au test Gesell. Enfant Âge Résultat Enfant Âge Résultat 1 15 95 11 7 113 2 26 71 12 9 96 3 10 83 13 10 83 4 9 91 14 11 84 5 15 102 15 11 102 6 20 87 16 10 100 7 18 93 17 12 105 8 11 100 18 42 57 9 8 104 19 17 121 10 20 94 20 11 86 21 10 100 Source : Moore, D. et McCabe, G. Introduction to the practice of statistics, FREEMAN, 3e édition, page 160 Maintenant que le chercheur possède ses résultats, il faut être en mesure de vérifier s’il existe un lien entre l’âge du premier mot et le résultat au test de Gesell. 43 44 10. RÉGRESSION LINÉAIRE ET CORRÉLATION 2. Nuage de points La première étape afin de vérifier s’il existe un lien entre deux variables est de dessiner un graphique que l’on nomme nuage de points. Supposons que les deux variables étudiées sont x et y et que nous possédons n résultats (couple (xi , yi )). Le nuage de points consiste à mettre un point sur un plan cartésien à chaque coordonnée (xi , yi). Exemple 10.2. Dessinons le nuage de points de l’exemple 10.1. Ici, Résultats du test de Gesell selon l’âge du premier mot 130 1 donnée 2 données 120 Résultats au test de Gesell 110 100 90 80 70 60 50 0 0 5 10 15 20 25 30 Âge du premier mot (mois) 35 40 45 Fig. 1. Exemple de nuage de points. les étoiles ? correspondent à des points qui reviennent deux fois. C’est le cas pour les enfants 3 et 13 et pour les enfants 16 et 21. Ce qui est important de constater sur ce graphique est que les résultats au test de Gesell semblent diminuer lorsque l’âge du premier mot augmente. On remarque également qu’il semble y avoir une relation linéaire entre les deux variables, c’est-à-dire que les données se trouvent autour d’une droite. 3. Droite de régression Dans la section précédente, nous avons expliqué comment tracer un nuage de points et aussi comment l’analyser un peu afin d’en ressortir une certaine tendance. Nous avons vu que les variables peuvent avoir une relation linéaire entre elles, c’est-à-dire que les points semblent suivre une droite. Il serait donc intéressant de déterminer l’équation de 3. DROITE DE RÉGRESSION 45 cette droite afin de pouvoir en tirer certaines informations et peut-être même prédire une variable selon la valeur de l’autre. On veut donc trouver l’équation de la meilleure droite qui décrit l’ensemble des données. Mais qu’entend on par meilleure droite ? La meilleure droite est celle des moindres carrés. Nous nommerons cette droite, droite de régression. Son équation est de la forme y = bx + a. Ici, m est la pente de la droite et b est son ordonnée à l’origine. On les détermine à l’aide des formules suivantes : P x y − (P x ) (P y ) b= P P n x −( x) Py − bPx n i i i i 2 i i i a= i n 2 , où n est le nombre de couple (xi , yi). Ces formules semblent un peu complexes, mais avec certaines astuces, elles sont plus simples à utiliser. Regardons comment avec l’exemple 10.1. Exemple 10.3. Dans cet exemple, x est l’âge du premier mot et y le résultat au test de Gesell. Afin d’accélérer le processus de calculs, reprenons le tableau de l’exemple en ajoutant deux colonnes. Une qui correspond à x2i et l’autre au produit de xi et de yi . On ajoute également une ligne qui correspond à la somme de chaque colonne. Le tout est fait dans le tableau 2. Une fois que tout ces calculs sont faits, il ne reste plus qu’à rentrer les résultats pour trouver b et a. Ainsi, b= n P x y − ( P x ) (P y ) P P n x −( x) i i i 2 i i i 2 21 × 26864 − 302 × 1967 = 21 × 5606 − 3022 ≈ −1.1270 et a= Py − bPx i i n 1967 − (−1.1270) × 302 = 21 ≈ 109.8738 46 10. RÉGRESSION LINÉAIRE ET CORRÉLATION Tab. 2. Âge (en mois) du premier mot et le résultat au test Gesell. Enfant 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Somme P Âge xi Résultat yi x2i xi yi 15 95 225 1425 26 71 676 1846 10 83 100 830 9 91 81 819 15 102 225 1530 20 87 400 1740 18 93 324 1674 11 100 121 1100 8 104 64 832 20 94 400 1880 7 113 49 791 9 96 81 864 10 83 100 830 11 84 121 924 11 102 121 1122 10 100 100 1000 12 105 144 1260 42 57 1764 2394 17 121 289 2057 11 86 121 946 10 100 100 1000 302 1967 5606 26864 D’où, y = −1.1270x + 109.8738. Traçons cette droite sur le nuage de points (voir la figure 2). Nous reviendrons à l’analyse de cette situation dans la prochaine section. Nous pouvons également calculer b et a à l’aide de la calculatrice. Voyons comment faire avec la calculatrice de marque emphSharp EL-545W. Il faut d’abord choisir le mode statistique pour deux variables : MODE → 1 → 1 . Par la suite, il faut entrer les différents couples de points. Débutons par (x1 , y1 ). Voici les commandes : Valeur x1 → STO → Valeur y1 → M+ . 4. CORRÉLATION 47 Résultats du test de Gesell selon l’âge du premier mot 130 1 donnée 2 données 120 Résultats au test de Gesell 110 100 90 80 70 60 50 0 0 5 10 15 20 25 30 Âge du premier mot (mois) 35 40 45 Fig. 2. Exemple de nuage de points et de droite de régression. Si le couple (x1 , y1) apparraît n1 fois, on peut écrire Valeur x1 → STO → Valeur y1 → STO → Valeur n1 → M+ . Après avoir entré tous les (xi , yi), on peut trouver a et b à l’aide des touches suivantes : a = ALPHA → ( b = ALPHA → ) 4. Corrélation Il reste maintenant à vérifier si la droite de régression décrit bien le lien entre les variables et sinon existe-t-il un lien d’une autre forme pour les variables. Lorsque la droite de régression représente bien la relation entre les deux variables, on dit qu’il existe une corrélation linéaire. Puisque nous étudierons seulement des modèles linéaires, on dira seulement corrélation. La figure 3 montre deux nuages de points avec leur droite de régression. Dans le premier cas, les points sont près de la droite. On dit alors qu’il y a une bonne corrélation entre les variables. En d’autres mots, la droite de régression décrit bien la relation entre les variables. Dans le deuxième cas, les points ne sont pas très près de la droite. On ne peut 48 10. RÉGRESSION LINÉAIRE ET CORRÉLATION (a) Bonne corrélation (b) Mauvaise corrélation Fig. 3. Nuage de points avec la droite de régression. pas affirmer qu’il y a une relation linéaire entre les deux variables. Revenons à l’exemple 10.1. Analysons la corrélation entre l’âge du premier mot et le résultat au test de Gesell. Sur la figure 2, on remarque que les points suivent assez bien la droite. Il y a cependant un point éloigné, le point (17, 121). C’est ce que l’on appelle une donnée aberrante. On peut donne dire qu’il y a une corrélation entre les deux variables. Cette analyse est qualitative. Il existe un outil quantitatif qui permet de bien trancher si le modèle est acceptable ou non, c’est-à-dire si la relation linéaire décrit bien le phénomène. Cet outil est le coefficient de corrélation que l’on note r. Il varie entre −1 et 1. Plus | r | est près de 1, plus la corrélation est grande donc le modèle linéaire décrit bien la réalité. Par contre, si | r | est près de 0 le modèle est loin d’être linéaire. Il est à noter que le signe de r est le même que celui de b, c’est-à-dire que si la pente de la droite de régression est négative, r sera négatif et vice-versa. On peut calculer r avec n xi yi − ( xi ) ( yi ) . r= n x2i − ( xi )2 n yi2 − ( yi )2 Dans le cas de l’exemple le coefficient r = −0.6403, ce qui signifie que la corrélation n’est pas très bonne. Habituellement, si | r |> 0.7, on dit qu’il existe une corrélation entre les variables, sinon, on dit qu’il n’y a pas de corrélation. È P P P P P È P P Par contre, si on omet la donnée aberrante, car elle sort du lot, on obtient que r = −0.7561. Cela nous dit qu’il existe une corrélation 6. APPLICATIONS ET LIMITATIONS DE LA DROITE DE RÉGRESSION 49 entre l’âge du premier mot et du résultat au test de Gesell. Le coefficient de corrélation peut être calculé à l’aide de la calculatrice. Il suffit d’entrer les données et de le calculer à l’aide des touches ALPHA → ÷ . 5. Calcul de a et de b à l’aide de x̄, ȳ, sx , sy et r Afin d’accélérer les calculs de la droite de régression, il existe des relations entre a, b et x̄, ȳ, sx , sy et r. Les voici : sy b=r· sx a = ȳ − bx̄, où x̄, ȳ, sx , sy et r sont respectivement, la moyenne des xi , la moyenne des yi , l’écart-type des xi , l’écart-type des yi et le coefficient de corrélation. 6. Applications et limitations de la droite de régression Lorsque la corrélation est bonne, on peut se servir de la droite de régression afin de prédire une variable en connaissance l’autre. Par exemple, si un enfant dit son premier mot à 13 mois, on peut prédire le résultat qu’il obtiendrait au test Gesell : y = −1.1270 × 13 + 109.8738 ≈ 95. Il faut cependant faire attention avec les prédictions pour ne pas faire de l’extrapolation. Cela signifie que le résultat de la prédiction à l’aide de la droite de régression peut ne pas être valide si la valeur de x est éloingnée des xi . Par exemple, si l’on prend x = 100 mois, on obtient que y vaut −2.8 ce qui est irréaliste, car les résultats du test sont positifs. C’est un exemple extrême, mais il montre bien les erreurs que l’on peut commettre. Un autre aspect important est de s’assurer qu’il y a vraiment un lien de causes à effets entre les variables. Par exemple, même s’il y a une corrélation entre le prix de l’essence et le nombre de chiens au Québec, il n’y a pas de liens causaux entre les deux. Il faut donc faire attention avec les conclusions tirées de la corrélation.