La régression et le trend

Transcription

La régression et le trend
La régression et le trend
(Note : Ces notes sont un complément aux informations du cours)
On utilise le trend, ou le calcul de tendance, lorsqu’il s’agit d’une série chronologique.
L’écriture de la formule de base est la même que pour la régression simple sauf pour les
calculs de l’origine et de la pente. Il est important de noter qu’on utilise la régression
pour prédire la valeur de Y mais seulement à l’intérieur des valeurs de X et Y qui ont déjà
été observées alors que le calcul du trend permet de faire une prédiction qui va au delà
des observations.
La formule pour la régression simple est :
Yc = a + b(X)
tel que :
Yc = La valeur calculée (c) de Y
a = L’ordonnée à l’origine
b = La pente
Formule pour la droite de tendance:
Yt = a + b(X)
tel que :
Yt = La valeur calculée de la tendance (t) de Y
a = L’ordonnée à l’origine
b = La pente
Voici la différence dans les calculs:
Pour la régression simple le calcul de la pente (b) et de l’ordonnée à l’origine (a) sont :
b=
∑ (xy )
∑ (x )
2
a = Y − bX
Remarquez que dans la première formule on utilise les petits x et y alors que pour le
calcul de l’ordonnée à l’origine on utilise les moyennes (Y ) et ( X ) (Y et X majuscules)
Exemple :
Supposons que l’on détermine qu’il existe un lien logique et étroit entre la valeur d’une
voiture et son kilométrage. Nous supposons que la valeur de la voiture dépend du
kilométrage. Supposons les observations suivantes:
Voiture1
Valeur (Y)
Kilométrage (X)
A
B
C
D
E
F
G
H
30000
35000
20000
40000
25000
50000
32000
15000
57000
45000
77500
32000
60000
20000
50000
90000
Nous aurons le tableau suivant:
Voiture
Valeur
(Y)
30000
35000
20000
40000
25000
50000
32000
15000
A
B
C
D
E
F
G
H
Y =
Kilométrage
(X)
57000
45000
77500
32000
60000
20000
50000
90000
y
(Yi − Y )
-875
+4125
-10875
+9125
-5875
+19125
+1125
-15875
x
(X i − X )
+3062,5
-8937,5
+23562,5
-21937,5
+6062,5
-33937,5
-3937,5
+36062,5
∑Y
i
N
30000 + 35000 + 20000 + 40000 + 25000 + 50000 + 32000 + 15000 247000
=
= 30875
8
8
La valeur moyenne des automobiles est de $30,875
Y =
X =
X =
1
∑X
i
N
57000 + 45000 + 77500 + 32000 + 60000 + 20000 + 50000 + 90000 431500
=
= 53937,5
8
8
En effet la valeur de la voiture dépend du kilométrage. La variable dépendante (Y) (la valeur de la
voiture) est fonction de la variable indépendante (X) (le kilométrage)
Les voitures ont une moyenne de 53,937.5 kilomètres. Nous obtenons donc les résultats
suivants:
Voiture
A
B
C
D
E
F
H
I
Somme
moyenne
Y
30000
35000
20000
40000
25000
50000
32000
15000
247000
30875
X
57000
45000
77500
32000
60000
20000
50000
90000
431500
53937,5
Y-moyY
(y)
-875
4125
-10875
9125
-5875
19125
1125
-15875
0
X-moyX
(x)
3062,5
-8937,5
23562,5
-21937,5
6062,5
-33937,5
-3937,5
36062,5
0
xy
-2679687,5
36867187,5
-256242188
-200179688
35617187,5
-649054688
-4429687,5
-572492188
1757562500
x2
9378906,25
79878906,3
555191406
481253906
36753906,3
1151753906
15503906,3
1300503906
3630218750
Ainsi la pente est de :
b=
∑ (xy )
∑ (x )
b=
− 1757562500
3630218750
2
b = - 0,48414782
La pente signifie que pour chaque kilomètre la valeur de la voiture perd 0,48414782 sous.
L’origine est de:
a = Y − bX
a = 30875 − ( − 0, 48414782 )( 53937 ,5)
a = 56988,72
L’origine nous informe que selon la droite la voiture, lorsqu’elle n’a aucun kilomètre au
compteur, vaut $56,988.72
Nous avons donc l’équation de régression suivante pour notre exemple:
Yc = a + b(X)
y2
765625
17015625
118265625
83265625
34515625
365765625
1265625
252015625
872875000
Yc = 56988,72 + (-0,4841782) (X)
Donc comme pour chaque kilomètre (X) la valeur de la voiture décroît de 0,48… cents et
que la voiture à l’origine possède une valeur de $56988,72, il est possible d’estimer la
valeur d’une voiture de 60,000 kilomètres à :
Yc = 56988,72 + (-0,4841782) (60000)
Yc = 56988,72 + (-0,4841782) (X)
Yc = 56988,72 + (-29050,69)
Yc = 27,938.03
La voiture vaudrait, selon l’équation, $27,938.03
Il existe une autre équation qui évite de faire le calcul des petits x et y. Ainsi nous
aurions:
Pour la pente b =
n∑ xy − (∑ x )(∑ y )
n∑ x 2 − (∑ x )
2
Et pour l’origine a = Y − bX
On utilise les résultats des X et Y (et non x et y) pour ces calculs.
Nous aurions donc le tableau suivant: (Afin de faciliter les calculs nous avons utilisé la
fraction 30 pour représenter 30000 etc)
Voiture
A
B
C
D
E
F
H
I
Somme
Moyenne
Y
30
35
20
40
25
50
32
15
247
30,875
X
57
45
77,5
32
60
20
50
90
431,5
53,9375
XY
1710
1575
1550
1280
1500
1000
1600
1350
11565
Y2
900
1225
400
1600
625
2500
1024
225
8499
X2
3249
2025
6006,25
1024
3600
400
2500
8100
26904,25
Nous obtiendrons les mêmes résultats que précédemment.
La pente est de :
b=
b=
b=
n∑ XY − (∑ X )(∑ Y )
n∑ X 2 − (∑ X )
2
8(11565) − (431,5)(247 )
8(26904,25) − (431,5)
2
8(11565) − (431,5)(247)
8(26904,25) − 186192,25
b=
92520 − 106580,5
215234 − 186192,25
b=
− 14060,25
29041,75
b = -0,4841
et l’origine est a = 30875 − ( − 0, 48414782 )( 53937 ,5) = 56 988,72
Le graphique
Il est important de reporter sur un graphique les données. Ceci permet, entre autre, de
bien visualiser la situation et de déterminer (ou confirmer) que la pente est positive ou
négative. Ici, comme la pente est négative la droite tend vers le bas. Voici le graphique
pour notre exemple :
Prix d'une voiture en fonction du kilom étrage
60000
y = -0,4841x + 56989
R2 = 0,9748
Prix de la voiture
50000
40000
30000
20000
10000
0
0
10000
20000
30000
40000
50000
60000
70000
80000
Kilom étrage
On remarque que les points sur le graphique sont relativement près de la droite. Ceci
indique que la prédiction semble près de la réalité. Ceci sera confirmé par le calcul du
coefficient de détermination (r2 ) et le coefficient de corrélation (r). Il est également
possible d’inscrire le résultat de l’équation de la droite ainsi que le calcul du coefficient
de détermination sur le graphique.
Le coefficient de détermination
La formule du coefficient de détermination est la suivante :
r2 =
b(∑ xy )
∑ (y )
2
L’erreur type est donc la pente multiplié par la somme du produit des petits x et des petits
y divisé par la somme des petits y au carré.
Pour notre exemple nous avons donc :
90000
1
r2 =
− 0,4841(- 1757562500)
872875000
r2 =
850836006,3
= 0,9748
872875000
Le résultat signifie que 97,48% de la variation du prix (variable dépendante y) est
attribuable à la variation de la variable indépendante (variable x) soit le kilométrage.
Le coefficient de corrélation
Le coefficient de corrélation est représenté par la lettre r. Le coefficient de corrélation est
simplement la racine carrée du coefficient de détermination. Donc pour notre exemple le
0,9748 = 0,9873
coefficient de corrélation est
L’interprétation du coefficient de corrélation est quand même délicate. Premièrement, le
nombre d’observations a une influence sur le résultat et son interprétation. Plus le nombre
d’observations est petit plus le r devra être grand afin d’établir une corrélation
significative. On dira cependant qu’une corrélation est forte lorsqu’elle est supérieure à
0,75. UN r de o,50 est moyennement forte. Donc ici un résultat de 0,9873, malgré le
faible nombre d’observations, est très important. Toutefois, un r élevé ne signifie pas
qu’il y ait une cause à effet entre les deux variables. L’interprétation doit donc tenir
compte de la nature des deux variables et leur lien logique.
L’erreur type de l’estimation
Nous avons estimé grâce à l’équation de régression qu’une voiture de 60,000 kilomètres
aurait une valeur de $27,938.03 Bien entendu ce ne sont pas toutes les voitures de 60,000
kilomètres qui valent ce montant. Comme les points du graphique ne tombent pas tous
sur la droite, il est possible que le prix d’une voiture avec ce kilométrage se retrouve à
l’intérieure d’une certaine fenêtre. C’est le même principe que l’intervalle de confiance
qu’il faut appliquer ici. Pour y arriver nous devons calculer l’erreur type de l’estimation.
Le symbole pour représenter l’erreur type de l’estimation est S y.x .
Il existe plusieurs formules pour son calcul. En voici deux :
Sy.x =
∑ (Y − Y )
c
n−2
2
∑ (y ) − b∑ (xy )
2
ou Sy.x =
n−2
Il est a noter que ce calcul se fait plutôt à l’aide de logiciel notamment lorsqu’il y a
beaucoup d’observations.
En fait, il s’agit de mesurer la différence au carré entre la valeur observé (Y) et la valeur
calculée (Yc).
Pour notre exemple utilisons la deuxième formule :
∑ (y ) − b∑ (xy ) =
2
Sy.x =
n−2
872875000 − (−0,4841) * (1757562500
=
8−2
872875000 − (−850836006.3)
=
6
22038993,7
=
6
3673165,617 =1916,552
L’erreur type est donc de $1916,55.
Comme l’erreur type suit le même principe que l’écart type et que nous postulons que la
distribution autour de la droite de régression suit une courbe normale nous pouvons donc
dire que 68% des voitures de 60,000 kilomètres auront une valeur qui se situe à plus ou
mois une erreur type.
On exprime ceci par la notation suivante : Yc ±Z(Sy.x)
Ainsi la valeur estimée (Yc ) se retrouve à l’intérieur de plus ou moins le Z recherché fois
l’erreur type. Dans la table du Z on retrouve 68% des observations à l’intérieur de plus ou
moins 1 Z. Donc une fois l’erreur type représente 68% des observations. Si on désire
connaître la valeur pour 95% des voitures nous utiliserions un Z égal à 1,96. En effet en
consultant la table du Z on note que la superficie pour Z=1,96 est égal à + ou moins –
47,5% donc, au total à 95%. Donc si on multiplie l’erreur type par 1,96 nous obtiendrons
un intervalle à 95%.
On a estimé la valeur de la voiture de 60,000 kilomètres à $27,938.03 Comme l’erreur
type est de $1916,55 nous pouvons affirmer que 68% des voitures de 60,000 kilomètres
ont une valeur qui se situe entre :
Yc ±Z(Sy.x)
$27 938,03 ± 1 ($1916,55)
$27 938,03 ± $1916,55
Donc 68% de ces voitures se situent entre $26 021,48 et $29 854,58
De la même façon la valeur de 95% des voitures se situe entre
Yc ±Z(Sy.x)
$27 938,03 ± 1,96 ($1916,55)
$27 938,03 ± $3 756,44
Donc 95% de ces voitures se situent entre $24 181,59 et $31 694,47
En utilisant la table du Z il est possible de calculer tous les intervalles. La prochaine fois
que vous voudrez acheter une voiture usagée vous pourrez ainsi connaître la fenêtre de
prix…
2
Ici encore comme nous n’avons pas utilisé toutes les décimales nous arrivons à un résultat un peu
différent de celui d’EXCEL qui est de 1912,89241
Le trend (tendance)
Comme nous l’avons mentionné précédemment la formule de la tendance est la même
que pour la droite de régression. Toutefois les calculs de la pente et de l’origine sont
différents. Il est important de noter qu’il faut utiliser la droite de régression à l’intérieur
de l’univers des observations. Il serait en effet dangereux de présumer ce qui se passe à
l’extérieur du champ d’observation. Le trend permet toutefois de faire cette projection.
On utilise essentiellement le trend pour faire des projections dans le temps.
Supposons que nous désirons connaître le nombre de personnes atteintes d’une maladie
grave dans une ville. Supposons que nous avons le nombre de personnes, en millier, pour
une période de 7 ans tel que :
Année
Y
1997
1998
1999
2000 (milieu)
2001
2002
2003
Total
10
8
10
12
16
12
16
84
X (année
représentant)
-3
-2
-1
0
1
2
3
0
XY (X * Y)
X2
-30
-16
-10
0
16
24
48
32
9
4
1
0
1
4
9
28
Y représente le nombre de personnes, en millier, atteintes de la maladie et X représente
l’année. Remarquez que les années sont représentées en fonction de l’année du point
milieu de toutes les observations. Pour notre exemple on observe que c’est l’année 2000.
L’année 1999 prend la valeur -1 puisqu’il s’agit d’une année avant le point de référence
alors que l’année 2001 prend la valeur + 1 puisqu’il s’agit d’une année après l’année de
référence.
L’origine a est simplement la moyenne des Y (pour notre exemple la moyenne des
personnes atteintes de la maladie pour la période). Nous avons donc :
a=
a=
∑Y
i
n
84
= 12
7
Pour notre exemple le résultat est identique à celui observée en 2000 mais ceci ne sera
pas toujours nécessairement le cas.
La pente nous est donnée par l’équation suivante:
b=
∑ ( XY )
∑ (X )
b=
32
= 1,14
28
2
Nous avons donc :
Yt = a + b(X)
ce qui pour notre exemple donne:
Yt = 12 + 1,14 (X)
Il nous est alors possible d’estimer le nombre de personnes atteintes de la maladie en l’an
2010 en substituant X par la valeur 10. (En effet l’année 2010 se situe 10 ans après
l’année de référence). Nous avons donc:
Yt = 12 + 1,14 (10)
Yt = 12 + 11,4
Yt = 23,4
Il y aurait, toutes choses demeurant égale par ailleurs3, 23,400 personnes atteintes de la
maladie en 2010. Il est également possible de faire une projection antérieur à l’année de
référence. Par exemple en 1995 il y avait, selon l’équation:
Yt = 12 + 1,14 (-5)
Yt = 12 -5,7
Yt = 6,3 (6,300 personnes atteintes de la maladie).
ATTENTION : IL EST IMPORTANT DE CALCULER LE X EN FONCTION DE,
ICI L’ANNÉE, QUI SE SITUE AU MILIEU DES OBSERVATIONS.
3
On utilise habituellement la locution latine Ceteris Paribus
Lorsque nous avons un chiffre pair d’observations on procède comme suit:
Année
1998
1999
Æ 2000
Æ 2001
2002
2003
Y
8
10
12
16
12
16
X
- 2,5
- 1,5
- 0,5
0,5
1,5
2,5
On utilise donc une fraction pour identifier les X. Le calcul pour l’année 2010 serait
donc :
Année
1998
1999
2000
2001
2002
2003
La pente est =
Y
8
10
12
16
12
16
X
-2,5
-1,5
-0,5
0,5
1,5
2,5
XY
-20
-15
-6
8
18
40
X2
6,25
2,25
0,25
0,25
2,25
6,25
∑ ( XY ) = 25 = 1,42857
∑ (X ) 17,5
2
La somme de XY est égale à 25 puisque nous avons -20 + -15 + -6 = -41 et 8+18+40 =
66. Ainsi -41 + 66 = +25
L’ordonnée à l’origine, pour le trend, nous est donnée par la moyenne des Y. Nous avons
donc : 8+10+12+16+12+16 = 74
a = 74/6 = 12,3333
Ici la projection pour 2010 devient :
Yt = a + b( X ) = 12,333 + 1,42857(9,5) = 25,90
Nous X = 9,5 parce que 2010 se situe à 9,5 ans de la référence (ou du point milieu).

Documents pareils