Régression linéaire et corrélation

Transcription

Régression linéaire et corrélation
CHAPITRE 10
Régression linéaire et corrélation
1. Introduction
Dans ce chapitre, nous regarderons comment vérifier si une variable
à un influence sur une autre variable afin de prédire une des variables
si l’on connaît l’autre. Plus précisément, nous étudierons s’il existe
une relation linéaire entre deux variables. Afin de bien comprendre les
différentes étapes de cette étude, nous utiliserons l’exemple suivant :
Exemple 10.1. Un chercheur veut déterminer s’il existe une relation entre l’âge (en mois) du premier mot d’un enfant et son nombre
de points à test d’habiletés mentales, le test Gesell. Il effectue une expérimentation sur 21 jeunes de 5 ans. Voici les résultats :
Tab. 1. Âge (en mois) du premier mot et le résultat au
test Gesell.
Enfant Âge Résultat Enfant Âge Résultat
1
15
95
11
7
113
2
26
71
12
9
96
3
10
83
13
10
83
4
9
91
14
11
84
5
15
102
15
11
102
6
20
87
16
10
100
7
18
93
17
12
105
8
11
100
18
42
57
9
8
104
19
17
121
10
20
94
20
11
86
21
10
100
Source : Moore, D. et McCabe, G. Introduction to the practice of statistics, FREEMAN,
3e édition, page 160
Maintenant que le chercheur possède ses résultats, il faut être en
mesure de vérifier s’il existe un lien entre l’âge du premier mot et le
résultat au test de Gesell.
43
44
10. RÉGRESSION LINÉAIRE ET CORRÉLATION
2. Nuage de points
La première étape afin de vérifier s’il existe un lien entre deux variables est de dessiner un graphique que l’on nomme nuage de points.
Supposons que les deux variables étudiées sont x et y et que nous possédons n résultats (couple (xi , yi )). Le nuage de points consiste à mettre
un point sur un plan cartésien à chaque coordonnée (xi , yi).
Exemple 10.2. Dessinons le nuage de points de l’exemple 10.1. Ici,
Résultats du test de Gesell selon l’âge du premier mot
130
1 donnée
2 données
120
Résultats au test de Gesell
110
100
90
80
70
60
50
0
0
5
10
15
20
25
30
Âge du premier mot (mois)
35
40
45
Fig. 1. Exemple de nuage de points.
les étoiles ? correspondent à des points qui reviennent deux fois. C’est
le cas pour les enfants 3 et 13 et pour les enfants 16 et 21.
Ce qui est important de constater sur ce graphique est que les résultats au test de Gesell semblent diminuer lorsque l’âge du premier mot
augmente. On remarque également qu’il semble y avoir une relation linéaire entre les deux variables, c’est-à-dire que les données se trouvent
autour d’une droite.
3. Droite de régression
Dans la section précédente, nous avons expliqué comment tracer un
nuage de points et aussi comment l’analyser un peu afin d’en ressortir
une certaine tendance. Nous avons vu que les variables peuvent avoir
une relation linéaire entre elles, c’est-à-dire que les points semblent
suivre une droite. Il serait donc intéressant de déterminer l’équation de
3. DROITE DE RÉGRESSION
45
cette droite afin de pouvoir en tirer certaines informations et peut-être
même prédire une variable selon la valeur de l’autre.
On veut donc trouver l’équation de la meilleure droite qui décrit
l’ensemble des données. Mais qu’entend on par meilleure droite ?
La meilleure droite est celle des moindres carrés. Nous nommerons
cette droite, droite de régression. Son équation est de la forme
y = bx + a.
Ici, m est la pente de la droite et b est son ordonnée à l’origine. On les
détermine à l’aide des formules suivantes :
P x y − (P x ) (P y )
b=
P
P
n x −( x)
Py − bPx
n
i i
i
i
2
i
i
i
a=
i
n
2
,
où n est le nombre de couple (xi , yi). Ces formules semblent un peu
complexes, mais avec certaines astuces, elles sont plus simples à utiliser.
Regardons comment avec l’exemple 10.1.
Exemple 10.3. Dans cet exemple, x est l’âge du premier mot et
y le résultat au test de Gesell. Afin d’accélérer le processus de calculs,
reprenons le tableau de l’exemple en ajoutant deux colonnes. Une qui
correspond à x2i et l’autre au produit de xi et de yi . On ajoute également
une ligne qui correspond à la somme de chaque colonne. Le tout est fait
dans le tableau 2. Une fois que tout ces calculs sont faits, il ne reste
plus qu’à rentrer les résultats pour trouver b et a. Ainsi,
b=
n
P x y − ( P x ) (P y )
P
P
n x −( x)
i i
i
2
i
i
i
2
21 × 26864 − 302 × 1967
=
21 × 5606 − 3022
≈ −1.1270
et
a=
Py − bPx
i
i
n
1967 − (−1.1270) × 302
=
21
≈ 109.8738
46
10. RÉGRESSION LINÉAIRE ET CORRÉLATION
Tab. 2. Âge (en mois) du premier mot et le résultat au
test Gesell.
Enfant
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
Somme
P
Âge xi Résultat yi x2i
xi yi
15
95
225 1425
26
71
676 1846
10
83
100
830
9
91
81
819
15
102
225 1530
20
87
400 1740
18
93
324 1674
11
100
121 1100
8
104
64
832
20
94
400 1880
7
113
49
791
9
96
81
864
10
83
100
830
11
84
121
924
11
102
121 1122
10
100
100 1000
12
105
144 1260
42
57
1764 2394
17
121
289 2057
11
86
121
946
10
100
100 1000
302
1967
5606 26864
D’où,
y = −1.1270x + 109.8738.
Traçons cette droite sur le nuage de points (voir la figure 2). Nous
reviendrons à l’analyse de cette situation dans la prochaine section.
Nous pouvons également calculer b et a à l’aide de la calculatrice.
Voyons comment faire avec la calculatrice de marque
emphSharp EL-545W. Il faut d’abord choisir le mode statistique pour
deux variables :
MODE → 1 → 1 .
Par la suite, il faut entrer les différents couples de points. Débutons par
(x1 , y1 ). Voici les commandes :
Valeur x1 → STO → Valeur y1 → M+ .
4. CORRÉLATION
47
Résultats du test de Gesell selon l’âge du premier mot
130
1 donnée
2 données
120
Résultats au test de Gesell
110
100
90
80
70
60
50
0
0
5
10
15
20
25
30
Âge du premier mot (mois)
35
40
45
Fig. 2. Exemple de nuage de points et de droite de régression.
Si le couple (x1 , y1) apparraît n1 fois, on peut écrire
Valeur x1 → STO → Valeur y1 → STO → Valeur n1 → M+ .
Après avoir entré tous les (xi , yi), on peut trouver a et b à l’aide des
touches suivantes :
a = ALPHA → (
b = ALPHA → )
4. Corrélation
Il reste maintenant à vérifier si la droite de régression décrit bien
le lien entre les variables et sinon existe-t-il un lien d’une autre forme
pour les variables. Lorsque la droite de régression représente bien la
relation entre les deux variables, on dit qu’il existe une corrélation
linéaire. Puisque nous étudierons seulement des modèles linéaires, on
dira seulement corrélation.
La figure 3 montre deux nuages de points avec leur droite de régression. Dans le premier cas, les points sont près de la droite. On dit alors
qu’il y a une bonne corrélation entre les variables. En d’autres mots, la
droite de régression décrit bien la relation entre les variables. Dans le
deuxième cas, les points ne sont pas très près de la droite. On ne peut
48
10. RÉGRESSION LINÉAIRE ET CORRÉLATION
(a) Bonne corrélation
(b) Mauvaise corrélation
Fig. 3. Nuage de points avec la droite de régression.
pas affirmer qu’il y a une relation linéaire entre les deux variables.
Revenons à l’exemple 10.1. Analysons la corrélation entre l’âge du
premier mot et le résultat au test de Gesell. Sur la figure 2, on remarque que les points suivent assez bien la droite. Il y a cependant un
point éloigné, le point (17, 121). C’est ce que l’on appelle une donnée
aberrante. On peut donne dire qu’il y a une corrélation entre les deux
variables.
Cette analyse est qualitative. Il existe un outil quantitatif qui permet de bien trancher si le modèle est acceptable ou non, c’est-à-dire
si la relation linéaire décrit bien le phénomène. Cet outil est le coefficient de corrélation que l’on note r. Il varie entre −1 et 1. Plus
| r | est près de 1, plus la corrélation est grande donc le modèle linéaire
décrit bien la réalité. Par contre, si | r | est près de 0 le modèle est loin
d’être linéaire. Il est à noter que le signe de r est le même que celui de
b, c’est-à-dire que si la pente de la droite de régression est négative, r
sera négatif et vice-versa. On peut calculer r avec
n xi yi − ( xi ) ( yi )
.
r=
n x2i − ( xi )2 n yi2 − ( yi )2
Dans le cas de l’exemple le coefficient r = −0.6403, ce qui signifie que
la corrélation n’est pas très bonne. Habituellement, si | r |> 0.7, on dit
qu’il existe une corrélation entre les variables, sinon, on dit qu’il n’y a
pas de corrélation.
È P
P
P P
P È P
P
Par contre, si on omet la donnée aberrante, car elle sort du lot,
on obtient que r = −0.7561. Cela nous dit qu’il existe une corrélation
6. APPLICATIONS ET LIMITATIONS DE LA DROITE DE RÉGRESSION
49
entre l’âge du premier mot et du résultat au test de Gesell.
Le coefficient de corrélation peut être calculé à l’aide de la calculatrice. Il suffit d’entrer les données et de le calculer à l’aide des touches
ALPHA → ÷ .
5. Calcul de a et de b à l’aide de x̄, ȳ, sx , sy et r
Afin d’accélérer les calculs de la droite de régression, il existe des
relations entre a, b et x̄, ȳ, sx , sy et r. Les voici :
sy
b=r·
sx
a = ȳ − bx̄,
où x̄, ȳ, sx , sy et r sont respectivement, la moyenne des xi , la moyenne
des yi , l’écart-type des xi , l’écart-type des yi et le coefficient de corrélation.
6. Applications et limitations de la droite de régression
Lorsque la corrélation est bonne, on peut se servir de la droite
de régression afin de prédire une variable en connaissance l’autre. Par
exemple, si un enfant dit son premier mot à 13 mois, on peut prédire
le résultat qu’il obtiendrait au test Gesell :
y = −1.1270 × 13 + 109.8738 ≈ 95.
Il faut cependant faire attention avec les prédictions pour ne pas faire
de l’extrapolation. Cela signifie que le résultat de la prédiction à l’aide
de la droite de régression peut ne pas être valide si la valeur de x est
éloingnée des xi . Par exemple, si l’on prend x = 100 mois, on obtient
que y vaut −2.8 ce qui est irréaliste, car les résultats du test sont positifs. C’est un exemple extrême, mais il montre bien les erreurs que l’on
peut commettre.
Un autre aspect important est de s’assurer qu’il y a vraiment un
lien de causes à effets entre les variables. Par exemple, même s’il y a une
corrélation entre le prix de l’essence et le nombre de chiens au Québec,
il n’y a pas de liens causaux entre les deux. Il faut donc faire attention
avec les conclusions tirées de la corrélation.