La regression lineaire et l`utilitaire d`analyse d`Excel
Transcription
La regression lineaire et l`utilitaire d`analyse d`Excel
La regression lineaire et l'utilitaire d'analyse d'Excel Master 1 I Avril 2009 TEXTE 1. Reprenons l'exercice suivant tiré du manuel d'économétrie de R.Bourbonnais (Dunod). A nn ée R e v e nu 1992 8000 1993 9000 1994 9500 1995 9500 1996 9800 1997 11000 1998 12000 1999 13000 2000 15000 2001 16000 Sachant que la propension marginale à consommer est de 0:8 et que la consommation incompressible est de 1000, on demande : a. De calculer les consommations théoriques. b. Considérant que l'erreur d'observation suit une loi normale de moyenne 0 et de variance 20000; de générer cette variable aléatoire et de calculer la consommation observée en tenant compte de cette erreur 2. Solution On génére (avec la fonction "Génération de nombres p aléatoires" de l'utilitaire d'analyse, ) un échantillon de taille 10 issu d'une population normale d'espérance nulle et d'écart-type 20000 = 141: 42): On notera que on peut soit ne pas renseigner la plage "Entier générateur" et on obtiendra on obtient des résultats différents à chaque tirage, soit choisir un entier aléatoire quelconque, ici par exemple 10 et si on recommence avec le même entier on aura le même échantillon. On obtient nalement le tableau suivant, ci = 0:8Ri + 1000; les Ci ayant été calculés avec la formule Ci = C ci + ei : avec pour la consommation estimée C II Utilitaire d'Analyse et régression 1. Texte On va reprendre l'analyse à l'envers et supposer que l'on dispose des données observées ci-dessous, la série des Ri et des Ci ; puis utiliser l'utilitaire d'analyse pour procéder à une analyse de la régression linéaire (si l'utilitaire d'analyse n'est pas installé, vous devez allez le chercher dans les macros complémentaires). page 1 UFR14 La regression lineaire et l'utilitaire d'analyse d'Excel 2 2. Renseigner les différentes plages de l'outil régression linéaire A partir de l'échantillon de 24 femmes on utilise l'utilitaire d'analyse (outils, macros complémentaires) pour estimer la fonction de b = ab0 + ab1 R . On a renseigné les différentes plages : régression de la population sous la forme C Variable Y ( C variable expliquée ou endogène), variable X ( R variable explicative ou exogène) ; on a coché un niveau de con ance de 90% (le niveau 95% est calculé systématiquement), une nouvelle feuille pour option de sortie des résultats, en n nous cochons les quatre options de l'analyse des résidus : Résidus, Résidus normalisés, Courbes en résidus et courbes de régression. 3. Les résultats: 2 UFR14 La regression lineaire et l'utilitaire d'analyse d'Excel Master 1 a. B4 : coef cient de détermination multiple : dans le cas d'une variable explicative unique, il s'agit du coef cient de corrélation linéaire r = 0:9981: b. B5 : coef cient de détermination R2 = r2 = 0:9962 ; ce coef cient représente la part de variation expliquée par le modèle dans la variation totale : R2 = SCE SCT : c. B6 : coef cient de détermination R2 ajusté : ce coef cient dépend du nombre de variables explicatives. d. B7 : erreur type, c'est l'estimation b (par la M CO) de l'écart-type supposé constant des résidus ; une des hypothèses du modèle de régression à deux variables est la constance de la variance s X des résidus ei ou l'homoscédasticité (dans le cas contraire q q e2i on parle d'hétéroscédasticité, ou de dispersion inégale). b = = SCR = 155809:12 ' 139: 56; c'est la racine carré n 2 8 n 2 de l'estimateur de la variance du terme d'erreur ( ddl n 2): Notons que dans cet exercice, on connait qui vaut 141:14: b est fondamental car il permet de déterminer les estimateurs des écart-type de ab0 et de ab1 : e. La plage ( A10 : D14) donne le tableau d'analyse de la variance. f. B12; B13 et B14 : on trouve les ddl ( respectivement 1; n 2 et n 1): g. C12; C13 et C14 : respectivement SCE; SCR et SCT: h. D12 : SCE=1 = 41179798:96 et D13 : SCR=n 2 = des carrées, en tenant compte de leur ddl): 155809:11 = 19476: 14 soit SCR=8 (ce sont les moyennes des sommes 8 i. B17 : b a0 = 867:32 et B18 : b a1 = 0:8012 j. C17 : bba0 = 201:43 et C18 : bba1 = 4:31; ce sont des estimations des écart-type des estimateurs de b a0 et b a1 ; appelés écart-type empiriques de b a0 et b a1 ou erreurs type de b a0 et b a1 : Il servent à établir les intervalles de con ance de b a0 et b a1 : k. E12 : F = 1 et n SCE=1 41179798:96 = = 2114: 37 (La variable aléatoire F suit la loi de Fisher avec pour degrés de liberté SCR= (n 2) 19476: 14 2: 4. Les résidus O b se rv a t io n P ré v is io n s p o u r Y R és id u s R é si d u s n o rm a l is é s 1 7 2 7 6 ,6 6 0 1 -2 8 0 ,0 5 0 3 -2 ,12 8 4 2 8 0 7 7 ,8 2 7 8 1 2 7 ,7 4 9 6 0 ,9 7 0 9 3 8 4 7 8 ,4 1 1 7 -5 9 ,7 3 8 8 -0 ,45 4 0 4 8 4 7 8 ,4 1 1 7 9 2,2 8 7 8 0 ,7 0 1 4 5 8 7 1 8 ,7 6 2 1 9 1,9 7 0 7 0 ,6 9 9 0 6 9 6 8 0 ,1 6 3 4 1 4 0 ,5 9 8 2 1 ,0 6 8 6 7 1 0 4 8 1 ,3 3 1 2 2 ,2 4 2 7 0 ,0 1 7 0 8 1 1 2 8 2 ,4 9 8 9 -7 0 ,4 2 1 3 -0 ,53 5 2 9 1 2 8 8 4 ,8 3 4 5 6 3,6 6 9 8 0 ,4 8 3 9 10 1 3 6 8 6 ,0 0 2 3 -1 0 8 ,3 0 8 5 -0 ,82 3 2 ci = b a. Les "prévisions pour Y " donnent les valeurs estimés de la variable expliquée, donc ici les termes : C a0 +b a1 Ri : b. Les résidus sont obtenus par : ei = Ci ci ; C c. Espérance nulle et Normalité : Une des hypothèses du modèle est que l'espérance du terme d'erreur ( ) est nul, donc l'espérance des résidus est supposée r SCR SCR 2 nulle ; S = est un estimateur sans biais de la variance des ei , on estime alors leur écart-type par S = n 1 n 1 r 155809:11 = = 131: 58. Une hypothèse importante de la MCO est la normalité des résidus, donc les résidus standardisés 9 ei ei = sont supposés issus d'une loi normale ; on peut tester la normalité des résidus sur la première plage de normalité S S : dans une loi normale, 95% des observations sont situées à moins de 1:96 écart-type de la moyenne, ce qui signi e que l'on 9 devrait trouver 95% des ei dans l'intervalle [ 1:96 ; 1:96] ; ici leur proportion dans cet intervalle est de soit 90%; ce qui 10 n'est pas un bon signe de normalité. 5. Les graphiques On obtient le nuage de points des résidus autour de leur moyenne nulle et le nuage de points de la série double, avec la droite de page 3 UFR14 4 La regression lineaire et l'utilitaire d'analyse d'Excel régression DC=R (si le type de graphique n'est pas le bon, modi er le). 6. A suivre Intervalles de con ance, etc.... 4 UFR14