La regression lineaire et l`utilitaire d`analyse d`Excel

Transcription

La regression lineaire et l`utilitaire d`analyse d`Excel
La regression lineaire et l'utilitaire d'analyse d'Excel
Master 1
I
Avril 2009
TEXTE
1. Reprenons l'exercice suivant tiré du manuel d'économétrie de R.Bourbonnais (Dunod).
A nn ée
R e v e nu
1992
8000
1993
9000
1994
9500
1995
9500
1996
9800
1997
11000
1998
12000
1999
13000
2000
15000
2001
16000
Sachant que la propension marginale à consommer est de 0:8 et que la consommation incompressible est de 1000, on demande :
a. De calculer les consommations théoriques.
b. Considérant que l'erreur d'observation suit une loi normale de moyenne 0 et de variance 20000; de générer cette variable aléatoire
et de calculer la consommation observée en tenant compte de cette erreur
2. Solution
On génére (avec la fonction "Génération de nombres p
aléatoires" de l'utilitaire d'analyse, ) un échantillon de taille 10 issu d'une
population normale d'espérance nulle et d'écart-type 20000 = 141: 42): On notera que on peut soit ne pas renseigner la plage
"Entier générateur" et on obtiendra on obtient des résultats différents à chaque tirage, soit choisir un entier aléatoire quelconque, ici
par exemple 10 et si on recommence avec le même entier on aura le même échantillon. On obtient nalement le tableau suivant,
ci = 0:8Ri + 1000; les Ci ayant été calculés avec la formule Ci = C
ci + ei :
avec pour la consommation estimée C
II Utilitaire d'Analyse et régression
1. Texte
On va reprendre l'analyse à l'envers et supposer que l'on dispose des données observées ci-dessous, la série des Ri et des Ci ; puis
utiliser l'utilitaire d'analyse pour procéder à une analyse de la régression linéaire (si l'utilitaire d'analyse n'est pas installé, vous
devez allez le chercher dans les macros complémentaires).
page 1
UFR14
La regression lineaire et l'utilitaire d'analyse d'Excel
2
2. Renseigner les différentes plages de l'outil régression linéaire
A partir de l'échantillon de 24 femmes on utilise l'utilitaire d'analyse (outils, macros complémentaires) pour estimer la fonction de
b = ab0 + ab1 R . On a renseigné les différentes plages :
régression de la population sous la forme C
Variable Y ( C variable expliquée ou endogène), variable X ( R variable explicative ou exogène) ; on a coché un niveau de con ance
de 90% (le niveau 95% est calculé systématiquement), une nouvelle feuille pour option de sortie des résultats, en n nous cochons
les quatre options de l'analyse des résidus : Résidus, Résidus normalisés, Courbes en résidus et courbes de régression.
3. Les résultats:
2
UFR14
La regression lineaire et l'utilitaire d'analyse d'Excel
Master 1
a. B4 : coef cient de détermination multiple : dans le cas d'une variable explicative unique, il s'agit du coef cient de corrélation
linéaire r = 0:9981:
b. B5 : coef cient de détermination R2 = r2 = 0:9962 ; ce coef cient représente la part de variation expliquée par le modèle dans
la variation totale : R2 = SCE
SCT :
c. B6 : coef cient de détermination R2 ajusté : ce coef cient dépend du nombre de variables explicatives.
d. B7 : erreur type, c'est l'estimation b (par la M CO) de l'écart-type supposé constant des résidus ; une des hypothèses du
modèle de régression à deux variables est la constance de la variance
s X des résidus ei ou l'homoscédasticité (dans le cas contraire
q
q
e2i
on parle d'hétéroscédasticité, ou de dispersion inégale). b =
= SCR
= 155809:12
' 139: 56; c'est la racine carré
n
2
8
n 2
de l'estimateur de la variance du terme d'erreur ( ddl n 2): Notons que dans cet exercice, on connait qui vaut 141:14: b est
fondamental car il permet de déterminer les estimateurs des écart-type de ab0 et de ab1 :
e. La plage ( A10 : D14) donne le tableau d'analyse de la variance.
f. B12; B13 et B14 : on trouve les ddl ( respectivement 1; n
2 et n
1):
g. C12; C13 et C14 : respectivement SCE; SCR et SCT:
h. D12 : SCE=1 = 41179798:96 et D13 : SCR=n 2 =
des carrées, en tenant compte de leur ddl):
155809:11
= 19476: 14 soit SCR=8 (ce sont les moyennes des sommes
8
i. B17 : b
a0 = 867:32 et B18 : b
a1 = 0:8012
j. C17 : bba0 = 201:43 et C18 : bba1 = 4:31; ce sont des estimations des écart-type des estimateurs de b
a0 et b
a1 ; appelés écart-type
empiriques de b
a0 et b
a1 ou erreurs type de b
a0 et b
a1 : Il servent à établir les intervalles de con ance de b
a0 et b
a1 :
k. E12 : F =
1 et n
SCE=1
41179798:96
=
= 2114: 37 (La variable aléatoire F suit la loi de Fisher avec pour degrés de liberté
SCR= (n 2)
19476: 14
2:
4. Les résidus
O b se rv a t io n
P ré v is io n s p o u r Y
R és id u s
R é si d u s n o rm a l is é s
1
7 2 7 6 ,6 6 0 1
-2 8 0 ,0 5 0 3
-2 ,12 8 4
2
8 0 7 7 ,8 2 7 8
1 2 7 ,7 4 9 6
0 ,9 7 0 9
3
8 4 7 8 ,4 1 1 7
-5 9 ,7 3 8 8
-0 ,45 4 0
4
8 4 7 8 ,4 1 1 7
9 2,2 8 7 8
0 ,7 0 1 4
5
8 7 1 8 ,7 6 2 1
9 1,9 7 0 7
0 ,6 9 9 0
6
9 6 8 0 ,1 6 3 4
1 4 0 ,5 9 8 2
1 ,0 6 8 6
7
1 0 4 8 1 ,3 3 1 2
2 ,2 4 2 7
0 ,0 1 7 0
8
1 1 2 8 2 ,4 9 8 9
-7 0 ,4 2 1 3
-0 ,53 5 2
9
1 2 8 8 4 ,8 3 4 5
6 3,6 6 9 8
0 ,4 8 3 9
10
1 3 6 8 6 ,0 0 2 3
-1 0 8 ,3 0 8 5
-0 ,82 3 2
ci = b
a. Les "prévisions pour Y " donnent les valeurs estimés de la variable expliquée, donc ici les termes : C
a0 +b
a1 Ri :
b. Les résidus sont obtenus par : ei = Ci
ci ;
C
c. Espérance nulle et Normalité :
Une des hypothèses du modèle est que l'espérance du terme d'erreur ( ) est nul, donc l'espérance des résidus est supposée
r
SCR
SCR
2
nulle ; S =
est un estimateur sans biais de la variance des ei , on estime alors leur écart-type par S =
n
1
n
1
r
155809:11
=
= 131: 58. Une hypothèse importante de la MCO est la normalité des résidus, donc les résidus standardisés
9
ei
ei
=
sont supposés issus d'une loi normale ; on peut tester la normalité des résidus sur la première plage de normalité
S
S
: dans une loi normale, 95% des observations sont situées à moins de 1:96 écart-type de la moyenne, ce qui signi e que l'on
9
devrait trouver 95% des ei dans l'intervalle [ 1:96 ; 1:96] ; ici leur proportion dans cet intervalle est de
soit 90%; ce qui
10
n'est pas un bon signe de normalité.
5. Les graphiques
On obtient le nuage de points des résidus autour de leur moyenne nulle et le nuage de points de la série double, avec la droite de
page 3
UFR14
4
La regression lineaire et l'utilitaire d'analyse d'Excel
régression DC=R (si le type de graphique n'est pas le bon, modi er le).
6. A suivre Intervalles de con ance, etc....
4
UFR14