La régression et le trend
Transcription
La régression et le trend
La régression et le trend (Note : Ces notes sont un complément aux informations du cours) On utilise le trend, ou le calcul de tendance, lorsqu’il s’agit d’une série chronologique. L’écriture de la formule de base est la même que pour la régression simple sauf pour les calculs de l’origine et de la pente. Il est important de noter qu’on utilise la régression pour prédire la valeur de Y mais seulement à l’intérieur des valeurs de X et Y qui ont déjà été observées alors que le calcul du trend permet de faire une prédiction qui va au delà des observations. La formule pour la régression simple est : Yc = a + b(X) tel que : Yc = La valeur calculée (c) de Y a = L’ordonnée à l’origine b = La pente Formule pour la droite de tendance: Yt = a + b(X) tel que : Yt = La valeur calculée de la tendance (t) de Y a = L’ordonnée à l’origine b = La pente Voici la différence dans les calculs: Pour la régression simple le calcul de la pente (b) et de l’ordonnée à l’origine (a) sont : b= ∑ (xy ) ∑ (x ) 2 a = Y − bX Remarquez que dans la première formule on utilise les petits x et y alors que pour le calcul de l’ordonnée à l’origine on utilise les moyennes (Y ) et ( X ) (Y et X majuscules) Exemple : Supposons que l’on détermine qu’il existe un lien logique et étroit entre la valeur d’une voiture et son kilométrage. Nous supposons que la valeur de la voiture dépend du kilométrage. Supposons les observations suivantes: Voiture1 Valeur (Y) Kilométrage (X) A B C D E F G H 30000 35000 20000 40000 25000 50000 32000 15000 57000 45000 77500 32000 60000 20000 50000 90000 Nous aurons le tableau suivant: Voiture Valeur (Y) 30000 35000 20000 40000 25000 50000 32000 15000 A B C D E F G H Y = Kilométrage (X) 57000 45000 77500 32000 60000 20000 50000 90000 y (Yi − Y ) -875 +4125 -10875 +9125 -5875 +19125 +1125 -15875 x (X i − X ) +3062,5 -8937,5 +23562,5 -21937,5 +6062,5 -33937,5 -3937,5 +36062,5 ∑Y i N 30000 + 35000 + 20000 + 40000 + 25000 + 50000 + 32000 + 15000 247000 = = 30875 8 8 La valeur moyenne des automobiles est de $30,875 Y = X = X = 1 ∑X i N 57000 + 45000 + 77500 + 32000 + 60000 + 20000 + 50000 + 90000 431500 = = 53937,5 8 8 En effet la valeur de la voiture dépend du kilométrage. La variable dépendante (Y) (la valeur de la voiture) est fonction de la variable indépendante (X) (le kilométrage) Les voitures ont une moyenne de 53,937.5 kilomètres. Nous obtenons donc les résultats suivants: Voiture A B C D E F H I Somme moyenne Y 30000 35000 20000 40000 25000 50000 32000 15000 247000 30875 X 57000 45000 77500 32000 60000 20000 50000 90000 431500 53937,5 Y-moyY (y) -875 4125 -10875 9125 -5875 19125 1125 -15875 0 X-moyX (x) 3062,5 -8937,5 23562,5 -21937,5 6062,5 -33937,5 -3937,5 36062,5 0 xy -2679687,5 36867187,5 -256242188 -200179688 35617187,5 -649054688 -4429687,5 -572492188 1757562500 x2 9378906,25 79878906,3 555191406 481253906 36753906,3 1151753906 15503906,3 1300503906 3630218750 Ainsi la pente est de : b= ∑ (xy ) ∑ (x ) b= − 1757562500 3630218750 2 b = - 0,48414782 La pente signifie que pour chaque kilomètre la valeur de la voiture perd 0,48414782 sous. L’origine est de: a = Y − bX a = 30875 − ( − 0, 48414782 )( 53937 ,5) a = 56988,72 L’origine nous informe que selon la droite la voiture, lorsqu’elle n’a aucun kilomètre au compteur, vaut $56,988.72 Nous avons donc l’équation de régression suivante pour notre exemple: Yc = a + b(X) y2 765625 17015625 118265625 83265625 34515625 365765625 1265625 252015625 872875000 Yc = 56988,72 + (-0,4841782) (X) Donc comme pour chaque kilomètre (X) la valeur de la voiture décroît de 0,48… cents et que la voiture à l’origine possède une valeur de $56988,72, il est possible d’estimer la valeur d’une voiture de 60,000 kilomètres à : Yc = 56988,72 + (-0,4841782) (60000) Yc = 56988,72 + (-0,4841782) (X) Yc = 56988,72 + (-29050,69) Yc = 27,938.03 La voiture vaudrait, selon l’équation, $27,938.03 Il existe une autre équation qui évite de faire le calcul des petits x et y. Ainsi nous aurions: Pour la pente b = n∑ xy − (∑ x )(∑ y ) n∑ x 2 − (∑ x ) 2 Et pour l’origine a = Y − bX On utilise les résultats des X et Y (et non x et y) pour ces calculs. Nous aurions donc le tableau suivant: (Afin de faciliter les calculs nous avons utilisé la fraction 30 pour représenter 30000 etc) Voiture A B C D E F H I Somme Moyenne Y 30 35 20 40 25 50 32 15 247 30,875 X 57 45 77,5 32 60 20 50 90 431,5 53,9375 XY 1710 1575 1550 1280 1500 1000 1600 1350 11565 Y2 900 1225 400 1600 625 2500 1024 225 8499 X2 3249 2025 6006,25 1024 3600 400 2500 8100 26904,25 Nous obtiendrons les mêmes résultats que précédemment. La pente est de : b= b= b= n∑ XY − (∑ X )(∑ Y ) n∑ X 2 − (∑ X ) 2 8(11565) − (431,5)(247 ) 8(26904,25) − (431,5) 2 8(11565) − (431,5)(247) 8(26904,25) − 186192,25 b= 92520 − 106580,5 215234 − 186192,25 b= − 14060,25 29041,75 b = -0,4841 et l’origine est a = 30875 − ( − 0, 48414782 )( 53937 ,5) = 56 988,72 Le graphique Il est important de reporter sur un graphique les données. Ceci permet, entre autre, de bien visualiser la situation et de déterminer (ou confirmer) que la pente est positive ou négative. Ici, comme la pente est négative la droite tend vers le bas. Voici le graphique pour notre exemple : Prix d'une voiture en fonction du kilom étrage 60000 y = -0,4841x + 56989 R2 = 0,9748 Prix de la voiture 50000 40000 30000 20000 10000 0 0 10000 20000 30000 40000 50000 60000 70000 80000 Kilom étrage On remarque que les points sur le graphique sont relativement près de la droite. Ceci indique que la prédiction semble près de la réalité. Ceci sera confirmé par le calcul du coefficient de détermination (r2 ) et le coefficient de corrélation (r). Il est également possible d’inscrire le résultat de l’équation de la droite ainsi que le calcul du coefficient de détermination sur le graphique. Le coefficient de détermination La formule du coefficient de détermination est la suivante : r2 = b(∑ xy ) ∑ (y ) 2 L’erreur type est donc la pente multiplié par la somme du produit des petits x et des petits y divisé par la somme des petits y au carré. Pour notre exemple nous avons donc : 90000 1 r2 = − 0,4841(- 1757562500) 872875000 r2 = 850836006,3 = 0,9748 872875000 Le résultat signifie que 97,48% de la variation du prix (variable dépendante y) est attribuable à la variation de la variable indépendante (variable x) soit le kilométrage. Le coefficient de corrélation Le coefficient de corrélation est représenté par la lettre r. Le coefficient de corrélation est simplement la racine carrée du coefficient de détermination. Donc pour notre exemple le 0,9748 = 0,9873 coefficient de corrélation est L’interprétation du coefficient de corrélation est quand même délicate. Premièrement, le nombre d’observations a une influence sur le résultat et son interprétation. Plus le nombre d’observations est petit plus le r devra être grand afin d’établir une corrélation significative. On dira cependant qu’une corrélation est forte lorsqu’elle est supérieure à 0,75. UN r de o,50 est moyennement forte. Donc ici un résultat de 0,9873, malgré le faible nombre d’observations, est très important. Toutefois, un r élevé ne signifie pas qu’il y ait une cause à effet entre les deux variables. L’interprétation doit donc tenir compte de la nature des deux variables et leur lien logique. L’erreur type de l’estimation Nous avons estimé grâce à l’équation de régression qu’une voiture de 60,000 kilomètres aurait une valeur de $27,938.03 Bien entendu ce ne sont pas toutes les voitures de 60,000 kilomètres qui valent ce montant. Comme les points du graphique ne tombent pas tous sur la droite, il est possible que le prix d’une voiture avec ce kilométrage se retrouve à l’intérieure d’une certaine fenêtre. C’est le même principe que l’intervalle de confiance qu’il faut appliquer ici. Pour y arriver nous devons calculer l’erreur type de l’estimation. Le symbole pour représenter l’erreur type de l’estimation est S y.x . Il existe plusieurs formules pour son calcul. En voici deux : Sy.x = ∑ (Y − Y ) c n−2 2 ∑ (y ) − b∑ (xy ) 2 ou Sy.x = n−2 Il est a noter que ce calcul se fait plutôt à l’aide de logiciel notamment lorsqu’il y a beaucoup d’observations. En fait, il s’agit de mesurer la différence au carré entre la valeur observé (Y) et la valeur calculée (Yc). Pour notre exemple utilisons la deuxième formule : ∑ (y ) − b∑ (xy ) = 2 Sy.x = n−2 872875000 − (−0,4841) * (1757562500 = 8−2 872875000 − (−850836006.3) = 6 22038993,7 = 6 3673165,617 =1916,552 L’erreur type est donc de $1916,55. Comme l’erreur type suit le même principe que l’écart type et que nous postulons que la distribution autour de la droite de régression suit une courbe normale nous pouvons donc dire que 68% des voitures de 60,000 kilomètres auront une valeur qui se situe à plus ou mois une erreur type. On exprime ceci par la notation suivante : Yc ±Z(Sy.x) Ainsi la valeur estimée (Yc ) se retrouve à l’intérieur de plus ou moins le Z recherché fois l’erreur type. Dans la table du Z on retrouve 68% des observations à l’intérieur de plus ou moins 1 Z. Donc une fois l’erreur type représente 68% des observations. Si on désire connaître la valeur pour 95% des voitures nous utiliserions un Z égal à 1,96. En effet en consultant la table du Z on note que la superficie pour Z=1,96 est égal à + ou moins – 47,5% donc, au total à 95%. Donc si on multiplie l’erreur type par 1,96 nous obtiendrons un intervalle à 95%. On a estimé la valeur de la voiture de 60,000 kilomètres à $27,938.03 Comme l’erreur type est de $1916,55 nous pouvons affirmer que 68% des voitures de 60,000 kilomètres ont une valeur qui se situe entre : Yc ±Z(Sy.x) $27 938,03 ± 1 ($1916,55) $27 938,03 ± $1916,55 Donc 68% de ces voitures se situent entre $26 021,48 et $29 854,58 De la même façon la valeur de 95% des voitures se situe entre Yc ±Z(Sy.x) $27 938,03 ± 1,96 ($1916,55) $27 938,03 ± $3 756,44 Donc 95% de ces voitures se situent entre $24 181,59 et $31 694,47 En utilisant la table du Z il est possible de calculer tous les intervalles. La prochaine fois que vous voudrez acheter une voiture usagée vous pourrez ainsi connaître la fenêtre de prix… 2 Ici encore comme nous n’avons pas utilisé toutes les décimales nous arrivons à un résultat un peu différent de celui d’EXCEL qui est de 1912,89241 Le trend (tendance) Comme nous l’avons mentionné précédemment la formule de la tendance est la même que pour la droite de régression. Toutefois les calculs de la pente et de l’origine sont différents. Il est important de noter qu’il faut utiliser la droite de régression à l’intérieur de l’univers des observations. Il serait en effet dangereux de présumer ce qui se passe à l’extérieur du champ d’observation. Le trend permet toutefois de faire cette projection. On utilise essentiellement le trend pour faire des projections dans le temps. Supposons que nous désirons connaître le nombre de personnes atteintes d’une maladie grave dans une ville. Supposons que nous avons le nombre de personnes, en millier, pour une période de 7 ans tel que : Année Y 1997 1998 1999 2000 (milieu) 2001 2002 2003 Total 10 8 10 12 16 12 16 84 X (année représentant) -3 -2 -1 0 1 2 3 0 XY (X * Y) X2 -30 -16 -10 0 16 24 48 32 9 4 1 0 1 4 9 28 Y représente le nombre de personnes, en millier, atteintes de la maladie et X représente l’année. Remarquez que les années sont représentées en fonction de l’année du point milieu de toutes les observations. Pour notre exemple on observe que c’est l’année 2000. L’année 1999 prend la valeur -1 puisqu’il s’agit d’une année avant le point de référence alors que l’année 2001 prend la valeur + 1 puisqu’il s’agit d’une année après l’année de référence. L’origine a est simplement la moyenne des Y (pour notre exemple la moyenne des personnes atteintes de la maladie pour la période). Nous avons donc : a= a= ∑Y i n 84 = 12 7 Pour notre exemple le résultat est identique à celui observée en 2000 mais ceci ne sera pas toujours nécessairement le cas. La pente nous est donnée par l’équation suivante: b= ∑ ( XY ) ∑ (X ) b= 32 = 1,14 28 2 Nous avons donc : Yt = a + b(X) ce qui pour notre exemple donne: Yt = 12 + 1,14 (X) Il nous est alors possible d’estimer le nombre de personnes atteintes de la maladie en l’an 2010 en substituant X par la valeur 10. (En effet l’année 2010 se situe 10 ans après l’année de référence). Nous avons donc: Yt = 12 + 1,14 (10) Yt = 12 + 11,4 Yt = 23,4 Il y aurait, toutes choses demeurant égale par ailleurs3, 23,400 personnes atteintes de la maladie en 2010. Il est également possible de faire une projection antérieur à l’année de référence. Par exemple en 1995 il y avait, selon l’équation: Yt = 12 + 1,14 (-5) Yt = 12 -5,7 Yt = 6,3 (6,300 personnes atteintes de la maladie). ATTENTION : IL EST IMPORTANT DE CALCULER LE X EN FONCTION DE, ICI L’ANNÉE, QUI SE SITUE AU MILIEU DES OBSERVATIONS. 3 On utilise habituellement la locution latine Ceteris Paribus Lorsque nous avons un chiffre pair d’observations on procède comme suit: Année 1998 1999 Æ 2000 Æ 2001 2002 2003 Y 8 10 12 16 12 16 X - 2,5 - 1,5 - 0,5 0,5 1,5 2,5 On utilise donc une fraction pour identifier les X. Le calcul pour l’année 2010 serait donc : Année 1998 1999 2000 2001 2002 2003 La pente est = Y 8 10 12 16 12 16 X -2,5 -1,5 -0,5 0,5 1,5 2,5 XY -20 -15 -6 8 18 40 X2 6,25 2,25 0,25 0,25 2,25 6,25 ∑ ( XY ) = 25 = 1,42857 ∑ (X ) 17,5 2 La somme de XY est égale à 25 puisque nous avons -20 + -15 + -6 = -41 et 8+18+40 = 66. Ainsi -41 + 66 = +25 L’ordonnée à l’origine, pour le trend, nous est donnée par la moyenne des Y. Nous avons donc : 8+10+12+16+12+16 = 74 a = 74/6 = 12,3333 Ici la projection pour 2010 devient : Yt = a + b( X ) = 12,333 + 1,42857(9,5) = 25,90 Nous X = 9,5 parce que 2010 se situe à 9,5 ans de la référence (ou du point milieu).