Analyse de régression

Transcription

Introduction à la régression
La régression est utilisée pour estimer une fonction f( )
décrivant une relation entre une variable expliquée
continue, Y, et une ou plusieurs variables explicatives,
Xi.
Y = f(X1, X2, X3,…, Xn) + ε
Analyse de régression
Remarque :
• f( ) décrit la variation systématique de la relation.
• ε représente la variation non systématique (aléatoire) de la
relation.
1
2
Le nuage de points des données
Un Exemple
Considérons la relation entre le budget de
publicité (X1) et les ventes (Y).
Il y a probablement une relation de type : quand la
publicité augmente, les ventes devraient aussi
augmenter.
En pratique, comment peut-on quantifier cette
relation?
Voir le fichier Fig9-1.xls
Ventes ( x 1 000 $)
600.0
500.0
400.0
300.0
200.0
100.0
0.0
20
30
40
50
60
70
80
90
100
Publicité (x 1 000 $)
3
4
Un modèle de régression linéaire simple
La nature de la relation statistique
Le nuage de points illustre une relation (environ)
linéaire entre la publicité et les ventes.
Y
Les données suggèrent donc le modèle de régression
suivant :
Courbe de
régression
Yi = β 0 + β 1 X 1i + ε i
Cela se veut la vraie relation entre la population
entière des données de publicité et de ventes.
La fonction de régression estimée (calculée avec
notre échantillon) sera représentées ainsi :
= b +b X
Y
i
0
1 1i
Distributions de probabilités
pour Y à différents niveaux de X
Ŷi est l'estimation (ou l'ajustement) de Y à un certain niveau de X
X
5
6
1
Déterminer le meilleur ajustement
Utilisation du Solver
Des valeurs numériques doivent être déterminées
pour b0 and b1
La méthode des moindres carrés trouve les valeurs
qui minimisent n:
n
ESS =
∑ (Y − Y ) = ∑ (Y − (b
2
i =1
i
i
i =1
0
i
+ b1 X1 )) 2
i
Si ESS = 0, la fonction estimée s’ajuste
parfaitement aux données.
Nous pouvons résoudre ce problème à l’aide du
Solver d’Excel.
7
8
Utilisation de l’utilitaire d’analyse
La fonction de régression estimée
Excel possède aussi un outil intégré (utilitaire
d’analyse) pour réaliser une étude de régression :
– Plus simple à utiliser
– Génère beaucoup plus d’information à propos du
problème
Selon les données, la fonction de
régression estimée est la suivante :
= 36.342 + 5.550 X
Y
i
1
i
9
La fonction TREND()
10
Évaluer la qualité de l’ajustement
TREND(Plage en Y, Plage en X, Valeur X pour la
prédiction)
600.0
Sales (in
n $000s)
Où :
Plage en Y est l’ensemble des cellules contenant les
valeurs de la variable expliquée Y
Plage en X est l’ensemble des cellules contenant les
valeurs de(s) variable(s) explicatives X
Valeur X pour la prédiction est la(les) cellule(s) contenant
la(les) valeur(s) de(des) variable(s) explicative(s) pour
laquelle(lesquelles) on désire une prédiction de la
500.0
400.0
300.0
100.0
0.0
20
Remarque : La fonction TREND( ) est dynamiquement remise à
jour dès qu’une valeur d’entrée est modifiée. Toutefois, elle ne
fournit pas toute l’information statistique de l’outil de régression.
11
2
R = 0.9691
200.0
30
40
50
60
70
80
90
100
Advertising (in $000s)
12
2
La statistique R2
Décomposition de l’erreur
La statistique R2 indique en partie le niveau
d’ajustement du modèle aux données
0 < R2 < 1
Elle mesure la proportion de la variation
totale de Y autour de la moyenne qui est
comprise dans l’équation de régression
Le graphique suivant illustre bien ce concept
Yi (valeur réelle)
Y
*
Yi - Y
^
Yi - Y
i
^ (Valeur estimée)
Y
i
^ -Y
Y
i
Y
^
Y
= b0 + b1X
X
13
Partitionnement de la
somme des carrés totaux (TSS)
n
n
2
2
i =1
i
i
i =1
TSS
=
R2 =
Faire des prédictions
Supposons que l’on désire estimer le niveau
moyen des ventes espérées en dépensant
65 000$ de publicité
n
∑ (Y − Y) = ∑ (Y − Y ) + ∑ (Y − Y )
i
i =1
ESS +
14
2
i
= 36.342 + 5.550X
Y
i
1
RSS
i
Ventes estimées = 36.342 + 5.550 * 65
= 397.092
RSS
ESS
= 1−
TSS
TSS
Donc, quand 65 000$ sont dépensés en
publicité, nous pouvons espérer avoir un
niveau moyen des ventes de 397 092$
15
Un intervalle de prédiction approximatif
L’erreur type
Un intervalle de confiance à 95%,
approximatif, pour une nouvelle valeur de Y
quand X1=X1h est donné par :
L’erreur type (erreur standard) mesure la
dispersion des données autour de la droite de
régression
n
∑ (Y − Y )
Se =
i =1
i
16
± 2S
Y
h
e
2
i
n − k −1
Où :
= b +b X
Y
h
0
1 1
h
Exemple : Si 65 000$ sont dépensés en publicité :
Intervalle de prédiction inférieur à 95% = 397.092 - 2*20.421 = 356.250
Intervalle de prédiction supérieur à 95% = 397.092 + 2*20.421 = 437.934
où k = le nombre de variables explicatives
Dans notre dernier exemple, Se = 20.421
Donc, en dépensant 65 000$ en publicité, nous
sommes approximativement confiants à 95% que les
ventes seront entre 356 250$ et 437 934$
Ceci est utile pour les intervalles de prédiction
17
18
3
Un intervalle de prédiction exact
Exemple
Un intervalle de confiance à (1-α)% pour une
nouvelle valeur de Y quand X1=X1h est donné
par :
Si 65 000$ était dépensé en publicité :
Intervalle de confiance inférieur à 95% = 397.092 - 2.306*21.489 =
347.556
Intervalle de confiance supérieur à 95% = 397.092 + 2.306*21.489 =
446.666
±t
Y
h
(1−α / 2 ,n − 2 ) S p
Où :
Donc, on dépensant 65 000$ en publicité, nous sommes
confiants à 95% que les ventes seront entre 347 556$ et
446 666$
Ici, cet intervalle est environ seulement 20 000$ plus large
que celui approximatif, qui était beaucoup plus simple à
obtenir
Le gain de précision ne vaut pas nécessairement toujours
le trouble supplémentaire, bien que dans Excel …
= b +b X
Y
h
0
1 1
h
S p = Se 1 +
( X1 − X ) 2
1
h
+ n
n
( X1 − X ) 2
∑
i =1
i
19
Comparaison des deux
intervalles de confiance calculés
Intervalles de confiance pour la moyenne
Un intervalle de confiance à (1-α)% pour la
vraie valeur moyenne de Y quand X1=X1h est
donné par :
Sales
575
525
475
Intervalles de confiance
calculés avec l’erreur
type Se
±t
Y
h
(1− α / 2 ,n − 2 ) S a
425
Où :
375
325
Intervalles de confiance
calculés avec l’erreur de
prédiction Sp
225
175
35
45
55
65
75
Advertising Expenditures
85
= b +b X
Y
h
0
1 1
h
Droite de régression
275
125
25
20
Sa = Se
( X1 − X) 2
1
h
+ n
n
( X1 − X) 2
∑
i =1
95
i
21
Une remarque à propos des extrapolations
22
Analyse de régression multiple
La majorité des problèmes de régression impliquent
plus qu’une variable explicative
Des prédictions faites avec un modèle de
régression (même avec un grand R2),
peuvent être peu ou pas fiables du tout
pour des valeurs des variables
p
explicatives choisies en dehors de celles
de l’échantillon ayant servi à élaborer le
modèle
Interpolation = OK
Extrapolation = ???!!!
Si chaque variable (ou une transformation de celle-ci)
contribue linéairement avec Y, la fonction de régression
est alors :
= b + b X + b X +"+b X
Y
i
0
1 1
2 2
k k
i
i
i
Les valeurs optimales des bi peuvent encore être
déterminées en minimisant ESS
Il s’agit maintenant d’ajuster un hyperplan aux
données
23
24
4
Exemple d’une surface de régression
pour deux variables explicatives
Exemple de régression multiple :
Évaluation immobilière
Y
Un évaluateur immobilier désire développer un
modèle pour l’aider à prédire le prix du marché
de certaines propriétés
Trois variables explicatives seront retenues pour
prix de vente d’une maison :
estimer le p
*
*
**
*
* *
*
*
*
*
* * *
*
*
*
*
*
*
*
*
– Surface totale en pi.ca.
– Nombre de chambres à coucher
– Dimension du garage
*
X2
X1
25
26
Modèles avec une variable explicative
Sélectionner le modèle
Nous voulons identifier le modèle le plus simple
qui exprime bien la variation systématique de la
variable Y
Utiliser arbitrairement toutes les variables
explicatives pourrait induire un « surajustement »
Un échantillon contient plusieurs caractéristiques :
– Certaines représentant la population
– D’autres étant spécifiques à l’échantillon
Nous ne voulons pas ajuster les modèles aux
caractéristiques spécifiques des échantillons,
c’est-à-dire faire du surajustement
De façon simpliste, supposons qu’on ajuste
trois modèles de régression simple :
= b +b X
Y
i
0
1 1i
Yi = b0 + b2 X 2
i
= b +b X
Y
i
0
3 3i
Faits saillants des résultats :
Variables
incluses
X1
X2
X3
R2
0.870
0.759
0.793
R2
ajusté
0.855
0.731
0.770
Estimations
Se
des paramètres
10.299 b0=9.503, b1=56.394
14.030 b0=78.290, b2=28.382
12.982 b0=16.250, b3=27.607
Juste le modèle avec X1 contient déjà 87% de
la variation de Y, laissant 13% pour le reste
27
Remarque informatique importante
28
Modèles avec deux variables explicatives
Supposons maintenant que nous ajustions
les deux modèles suivants :
En considérant plus d’une variable
explicative, il est important de les
maintenir en blocs adjacents afin de
pouvoir les sélectionner simultanément
= b +b X +b X
Y
i
0
1 1i
2 2i
= b +b X +b X
Y
i
0
1 1
3 3
i
i
Variables
incluses
X1
X1 & X2
X1 & X3
La sélection de blocs non contigües est
interdite avec l’outil de régression
R2
0.870
0.939
0.877
R2
ajusté
0.855
0.924
0.847
Se
10.299
7.471
10.609
Estimations
des paramètres
b0=9.503, b1=56.394
b0=27.684, b1=38.576 b2=12.875
b0=8.311, b1=44.313 b3=6.743
Le modèle comprenant X1 et X2 explique 93.9%
de la variation de Y
29
30
5
Le R2 ajusté
Attention à la multicollinéarité
À mesure que des variables explicatives sont
incluses dans le modèle :
Il n’est pas surprenant qu’ajouter X3 (chambres à
coucher) au modèle comprenant déjà X1 (surface
totale) n’ait pas enrichi significativement le modèle
R2
– Le
peut seulement croître
– Le R2 ajusté peut croître ou décroître
⎛ ESS ⎞ ⎛ n − 1 ⎞
R 2a = 1 − ⎜
⎟⎜
⎟
⎝ TSS ⎠ ⎝ n − k − 1⎠
Le R2 peut être amplifié artificiellement par
l’addition de n’importe quelle variable explicative
Il est préférable de comparer les valeurs des R2
ajustés pour déterminer si l’introduction d’une
variable supplémentaire est utile
Ces deux variables représentent
(
(approximativement)
i ti
t) la
l même
ê
chose,
h
la
l grandeur
d
de la maison
Ces deux variables sont fortement corrélées
(ou colinéaires)
La multicollinéarité doit être évitée
31
32
Modèle avec trois variables explicatives
Supposons maintenant que nous voulions
inclure les trois variables explicatives :
= b +b X +b X +b X
Y
i
0
1 1
2 2
3 3
i
i
Estimons la valeur moyenne d’une maison de
2 100 pi.ca. et ayant un garage double :
= b +b X +b X
Y
i
0
1 1i
2 2i
Y i = 27 .684 + 38.576 * 2 .1 + 12 .875 * 2 = 134 .444
i
Variables
incluses
X1
X1 & X2
X1, X2 & X3
R2
0.870
0.939
0.943
R2
Estimations
ajusté Se
des paramètres
0.855 10.299 b0=9.503, b1=56.394
0.924 7.471 b0=27.684, b1=38.576, b2=12.875
0.918 7.762 b0=26.440, b1=30.803,
b2=12.567, b3=4.576
La valeur moyenne
y
estimée du p
prix de vente est
donc de 134 444$
Un intervalle de confiance approximatif de 95%
pour le prix de vente est :
± 2S
Y
h
e
Le modèle comprenant X1 et X2 semble être le
meilleur :
– Plus grand R2 ajusté
– Plus faible Se (intervalles de prédiction les plus petits)
Faire des prédictions
= 134.444 - 2*7.471 Î 119 502 $
Intervalle supérieure à 95% = 134.444 + 2*7.471 Î 149 386$
Intervalle inférieur à 95%
33
34
Régression polynomiale
Variables explicatives binaires
Parfois, la relation entre les variables n’est pas
linéaire
Il est possible d’introduire des variables explicatives non
quantitatives par l’entremise de variables binaires
$175
Exemple : La présence (ou l’absence) d’une piscine
Selling Price
X pi
$150
⎧1, si la maison i a une piscine
=⎨
⎩0, autrement
Exemple : Selon que la toiture est en bonne, moyenne ou
mauvaise condition
⎧1, si le toit de la maison i est en bonne condition
X ri = ⎨
⎩0, autrement
$125
$100
$75
$50
0.900
1.200
1.500
1.800
Square Footage
2.100
2.400
Ce graphique suggère une relation quadratique entre
la surface (X) et le prix de vente (Y)
⎧1, si le toit de la maison i est en moyenne condition
X r +1i = ⎨
⎩ 0, autrement
35
36
6
Le modèle de régression
Implantation du modèle
Un modèle de régression approximatif pour ce
cas pourrait être :
= b + b X + b X2
Y
i
0
1 1
2 1
i
i
Ou encore
= b +b X +b X
Y
i
0
1 1
2 2
i
i
avec
X 2 = X 12
i
i
37
38
Ajuster un modèle polynomial
du troisième ordre
Graphique de la fonction
quadratique de régression
Nous pourrions aussi ajuster un modèle
polynomial du troisième ordre,
$175
$150
= b + b X + b X2 + b X3
Y
i
0
1 1
2 1
3 1
Selling P
Price
i
Y i = b0 + b1 X 1 + b2 X 2 + b3 X 3
$100
i
avec
$75
i
i
i
X 2 = X 12
i
$50
0.900
i
Ou encore
$125
1.200
1.500
1.800
Square Footage
2.100
X3 =
2.400
i
i
X 13
i
39
Attention au surajustement
Graphique de la fonction polynomiale
de régression du troisième ordre
Particulièrement avec les modèles
polynomiaux, il faut être prudents pour
ne pas surajuster le modèle à
l’échantillon
Comment faire pour décider du nombre
de termes? Peut être avec le R2 ajusté!
$175
$150
Selling P
Price
40
$125
$100
$75
$50
0.900
1.200
1.500
1.800
Square Footage
2.100
2.400
41
42
7

Analyse de régression

Transcription

Documents pareils

Sté MIRKENTA sarl BP.29 ZI 1 chemin de la Sablière 91430 Igny Tél.

Intitulé du cours ECONOMETRIE Code du cours QANT1324 Type

Le syndrome de Rett Toutes des filles XxX Chromosome Xx, gène

Utilisation du logiciel géogébra • Représenter un nuage de points : 1

Pratique de la régression linéaire

Développement psychomoteur

À l`aide sociale à 50 ans - CARITAS - Suisse

« Madame, couvrez ce sein que je ne saurais voir !» La négociation

R RÉGRE ESSION AVEC R R

TP n°2 - F. Bouguet