Le modèle de la régression simple

Transcription

Le modèle de la régression simple
La régression simple
La régression simple
Étude de la liaison linéaire entre deux
variables numériques :
- une variable explicative X
- une variable à expliquer Y
2
Étude du lien entre deux
variables X et Y
Variable X explicative
Quantitatif
Variable Y
à expliquer
Qualitatif
Quantitatif
Qualitatif
- Régression simple
Analyse de la variance
- Corrélation simple
à un facteur
Régression logistique
Test du khi-deux
d'indépendance
3
Cas Prix d’un appartement
1.
CENSIER, bas de R. Mouffetard, pied-à-terre,
28m2, tt confort. Visite vendredi, samedi, dim.
130.000 € à discuter. Facilités
3. R. St-Simon, en pleine verdure, calme, plein soleil,
Superbe appt 4p., 106m2, cuis. aménagée, s. de
bains moderne, chff. cent. Parfait état.
Px 650.000 à discuter. Agence s’abstenir. Direct.
Propriétaire.
5. R. St André-des-Arts, beau liv + chbre, imm. XVIIIe
siècle, 55m2, 268.000 €.
7. GOBELINS, Beau 5p., 110m2, gd cft, soleil,
500.000 €
9. CENSIER, très grand studio + entrée 48m2, tt cft,
ensoleillé, calme, bel imm., 250.000 €
11. RUE MADAME, 3P. + Serv., 86m2, 350.000 €.
2.
13. PANTHEON, bel imm., verdure, magnifique studio
32m2, caractère, 155.000 €.
15. MONTPARNASSE, Part. vend atelier d’artiste
40m2, duplex, vue imprenable, tout confort,
Prix 200.000 €.
17. BD St-GERMAIN, 4P., 70m2, à amén., 4e ét.,
325.000 €.
14.
19. JUSSIEU, Charme, gd 3 pces, 90m2, 378.000 €.
20.
21. MONTPARNASSE, Imm. p.d.t., 4-5 P., 105m2,
bon état, 375.000 €.
23. CENSIER, Bel imm., 4P. 80m2, tt cft, petits travaux,
270.000 €.
25. SUR JARDINS OBSERVATOIRE, 140m2, grand
charme, 990.000 €.
27. PRES LUXEMBOURG, Bel imm., pierre de taille,
Appartement 100m2, salon, sal. à manger,
2 chbres, office, cuis., bains, chf. cent., asc.,
prix : 495.000 €.
22.
4.
6.
8.
10.
12.
16.
18.
24.
26.
28.
CONTRESCARPE, imm. Ancien, pierre de taille,
beau duplex caractère, 50m2, poutres, refait neuf,
280.000 €
RAPP 7P., 196m2 standing, 9 fenêtres plein soleil,
800.000 €.
5e PRES QUAIS, 7 pces, 190m2 caractère,
standing, 790.000 €
GOBELINS, et. élevé, calme, asc., 2 pièces, 60m2,
320.000 €
PANTHEON, 7e étage, ascenseur, grand studio
35m2 + terrasse. Vue. 250.000 €.
RUE DE SEINE, 3P., tt cft, 65m2, calme, soleil,
300.000 €.
SEVRES BAB, 1er ét., 2P., gde cuis., bns, 52m2,
état neuf, 245.000 €.
RUE D’ASSAS, imm. gd standing, bel appart
260m2, triple récept. + 5 ch., tt cft (travaux) 2 park.,
2 ch. Serv., Prix 1.500.000 € à déb.
ILE St-LOUIS, Lux. appt., 117m2, en duplex,
gde récept., gde chambre, 2 sdb, Terras., parf. et.,
décor tr. bon goût, 950.000 €.
QUARTIER LATIN, 30m2 à aménager,
prix 78.000 €.
RUE MAZARINE, 4e ét., sans ascens., 52m2 à
rénover. Prix total 200.000 €.
ASSAS LUXEMBOURG, 3P. 60m2 s/arbres, imm.
caractère, 295.000 €.
RUE DE SAVOIE, 4e ét., Studio 20m2, dche,
85.000 €. crédit possible.
Mo GOBELINS, studio, cuis., s. de bains, 28m2,
calme. Prix 85.000 €.
Cas Prix d’un appartement
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
censier
contrescarpe
rue saint-simon
rapp
saint-andré des arts
5-ième, près quais
gobelins
gobelins
censier
panthéon
rue madame
rue de seine
panthéon
sèvres-babylone
montparnasse
rue d'assas
saint-germain
ile saint-louis
jussieu
quartier-latin
montparnasse
rue mazarine
censier
assas luxembourg
jardins de l'observatoire
rue de savoie
près luxembourg
gobelins
Surface
28
50
106
196
55
190
110
60
48
35
86
65
32
52
40
260
70
117
90
30
105
52
80
60
140
20
100
28
1600
16
1400
1200
18
1000
Prix (en milliers d'euros)
Localisation
Prix (en
milliers
d'euros)
130
280
650
800
268
790
500
320
250
250
350
300
155
245
200
1500
325
950
378
78
375
200
270
295
990
85
495
85
25
64
800
3
600
27 7
19 21
11
17
8
2 2412 23
10 9145
15 22
113
2628
20
400
200
0
0
100
200
300
Surface
5
Identification des outliers
au niveau du Prix au mètre carré
9000
Ile saint-louis
8000
Panthéon (10)
7000
Jardins de l'observatoire
6000
5000
4000
3000
2000
N=
28
Prix du mètre carré
6
La droite des moindres carrés
1600
16
1400
1200
Prix (en milliers d'euros)
1000
18
25
64
800
3
600
27 7
19 21
17 11
8
2 2412 23
10 9145
15 22
13
1
2628
20
400
200
0
0
Surface
100
200
300
7
Les données
Y = Variable à expliquer
numérique
(ou dépendante)
X = Variable explicative
numérique ou binaire
(ou indépendante)
1
M
i
M
n
X
x1
M
xi
M
xn
Y
y1
M
yi
M
yn
Le tableau des données
8
La droite des moindres carrés
1600
On cherche
yˆ = aˆx + bˆ
1400
â et b̂
1200
valeur
prédite
minimisant
yi1000
ŷi
erreur ei
800
n
2
e
∑i
*
600
i =1
400
200
Prix
valeur
observée
0
0
Surface
100
xi
200
300
9
Résultats SPSS
Coefficientsa
Model
1
(Constant)
Surface
Unstandardized
Coefficients
B
Std. Error
-29.466
41.246
5.353
.414
Standardized
Coefficients
Beta
.930
t
-.714
12.931
Sig.
.481
.000
F
167.210
Sig.
.000a
a. Dependent Variable: Prix (en milliers d'euros)
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
2527208
392963.2
2920171
df
1
26
27
Mean Square
2527207.505
15113.970
a. Predictors: (Constant), Surface
b. Dependent Variable: Prix (en milliers d'euros)
10
Résultats SPSS
Numéro
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
Résidu
Prix
standardisé (en milliers €)
0.078
130
0.340
280
0.911
650
-1.788
800
0.025
268
-1.608
790
-0.483
500
0.230
320
0.183
250
0.749
250
-0.658
350
-0.150
300
0.107
155
-0.032
245
0.125
200
1.120
1500
-0.165
325
2.873
950
-0.605
378
-0.432
78
-1.282
375
-0.398
200
-1.048
270
0.027
295
2.196
990
0.060
85
-0.088
495
-0.288
85
Valeur
prédite
120.42
238.19
537.97
1019.75
264.96
987.64
559.38
291.72
227.49
157.89
430.91
318.49
141.84
248.90
184.66
1362.36
345.26
596.85
452.32
131.13
532.62
248.90
398.79
291.72
719.98
77.60
505.85
120.42
Résidu
9.58
41.81
112.03
-219.75
3.04
-197.64
-59.38
28.28
22.51
92.11
-80.91
-18.49
13.16
-3.90
15.34
137.64
-20.26
353.15
-74.32
-53.13
-157.62
-48.90
-128.79
3.28
270.02
7.40
-10.85
-35.42
Modèle :
Prix calculé
= -29.466 + 5.353 Surface
n
2
e
∑ i = 392963.2
i =1
Pour le modèle avec constante
on a aussi :
n
∑ ei = 0
i =1
Coefficient de détermination R2,
Coefficient de corrélation R
A) Formule de décomposition
∑ ( yi − y) = ∑ ( ŷi − y) + ∑ ei
2
2
2
Somme des
carrés totale
Somme des
carrés expliquée
Somme des
carrés résiduelle
(Total Sum of
Squares)
(Regression Sum of
Squares)
(Residual Sum of
Squares)
∑ ( ŷi − y)
=
2
∑ ( yi − y)
2
B)
R2
C) R = signe(â ) R
2
12
Résultats SPSS
Model Summary
Model
1
R
R Square
.930a
.865
Adjusted
R Square
.860
Std. Error of
the Estimate
122.939
a. Predictors: (Constant), Surface
|R|
Correlations
SURFACE
Pearson Correlation
Sig. (2-tailed)
N
PRIX
.930**
.000
28
R
**. Correlation is significant at the 0.01 level
(2-tailed).
13
Le R2 mesure la force de la
liaison linéaire entre X et Y
1)
0 ≤ R2 ≤ 1
2)
R2 = 1
3)
Y
Y
*
*
*
*
*
y
X
R2 = 0
* *
* * *
*
*
*
*
**
*
X
14
Le R2 mesure la force de la
liaison linéaire entre X et Y
120
Modèle non linéaire:
Y = aX2 + bX
100
80
60
40
Y
20
Rsq = 0.0000
0
-20
-10
0
10
20
X
15
La corrélation R mesure la force et
le sens de la liaison linéaire entre X et Y
Y
Y
* *
* **
*
*
* *
* *
aˆ > 0
R>0
*
X
*
*
X
aˆ < 0
R<0
16
Karl Pearson
Calcul direct de R
R=
∑ ( x i − x )( yi − y)
2
2
∑ ( x i − x ) ∑ ( y i − y)
Résultat SPSS :
Correlations
SURFACE
Pearson Correlation
Sig. (2-tailed)
N
PRIX
.930**
.000
28
**. Correlation is significant at the 0.01 level
(2-tailed).
17
La corrélation R est-elle
significative au risque α = 0.05 ?
Notations
Règle de décision
- ρ = Corrélation au niveau
On rejette H0 au risque α = 0.05
de la population
de se tromper si
- R = Corrélation au niveau
de l’échantillon
Test :
H0 : ρ = 0
2
R ≥
n
(Bonne approximation pour n > 20)
H1 : ρ ≠ 0
18
La corrélation R est-elle
significative au risque α ?
Notations
Règle de décision
- ρ = Corrélation au niveau
On rejette H0 au risque α de se tromper
si
de la population
- R = Corrélation au niveau
de l’échantillon
Test :
H0 : ρ = 0
H1 : ρ ≠ 0
R ≥
t1−α / 2 (n − 2)
2
1−α / 2
t
( n − 2) + n − 2
Niveau de signification
Plus petit α conduisant au rejet de H0.
19
Seuil critique r (ν = n − 2, α ) pour un coefficient de corrélation simple
Table 6
Exemple de corrélation
non significative
9000
Correlations
18
8000
10
PRIXM2
25
7000
3
6000
8
9
15 524
13
1 14 12
17
5000
26
22
4000
Prix au m2
16
2
27
On a 30,9 chances sur 100 de
se tromper en affirmant qu’il
existe une liaison linéaire entre
le prix au m2 et la surface.
7
19
11
23
64
21
28
3000
20
2000
Rsq = 0.0397
0
100
200
Pearson Correlation
Sig. (2-tailed)
N
SURFACE
.199
.309
28
300
Surface
En rouge la droite des moindres carrés,
en bleu la droite y = prix au m2 moyen
On considère donc que la
corrélation (.199) entre le prix
au m2 et la surface n’est pas
significative.
21
Le modèle statistique de la régression simple
Chaque valeur observée yi est considérée comme une
réalisation d’une variable aléatoire Yi définie par :
Yi = axi + b + εi
où εi est un terme aléatoire suivant une loi normale
N(0, σ).
On suppose que les les aléas εi sont indépendants les
uns des autres.
22
Le modèle de la régression simple
Modèle : Y = aX + b + ε , avec ε ∼ N(0, σ)
Y
µx + 1.96σ
Loi de Y
*
y = ax + b
µx= ax+b
95% des
µx - 1.96σ
valeurs de Y
*
x
X
L’écart-type σ représente à peu près le quart de l’épaisseur du nuage
23
Estimation de a, b et σ
Estimation de a et b :
aˆ = estimation de a
bˆ = estimation de b
Estimation de σ :
n
1
2
2
σˆ 2 =
σ
e
=
estimation
de
∑i
n − 2 i =1
σˆ = σˆ 2 = estimation de σ
24
Prévision de Y
Modèle : Y = aX + b + ε , avec ε ∼ N(0, σ)
µx= E(Y | X = x) = ax + b
Problème 1 : Calculer une estimation et un intervalle de
confiance au niveau de confiance 95 % de la moyenne
µx de Y lorsque X est fixé à x.
Soit y une future valeur de Y pour X fixé à x.
Problème 2 : Calculer une prévision et un intervalle
contenant 95 % des futures valeurs de Y lorsque X est
fixé à x.
25
Résultat pour µx
Estimation de µx = E(Y | X=x) :
ˆ + bˆ
µˆ x = ax
Intervalle de confiance de µx au niveau 95 % :
1
(x − x) 2
yˆ ± t 0.975 (n − 2) × σˆ ×
+ n
n ∑ (x i − x) 2
i =1
Formule approchée :
σˆ
ŷ ± 2
n
26
Résultats SPSS
Numéro
Surface
moyenne
= 82.32
Variance de
la surface
= 3266.3
Localisation
Surface
Prix
(en milliers €)
Prédiction
INF95%
Moyenne
SUP95%
Moyenne
INF95%
Individu
SUP95%
Individu
1
censier
28
130
120.42
53.96
186.89
-140.88
381.72
2
3
4
5
contrescarpe
rue saint-simon
rapp
saint-andré des arts
50
106
196
55
280
650
800
268
238.19
537.97
1019.75
264.96
183.08
486.14
911.87
211.84
293.30
589.80
1127.64
318.07
-20.45
280.00
744.99
6.73
496.84
795.94
1294.52
523.18
6
7
8
5-ième, près quais
gobelins
gobelins
190
110
60
790
500
320
987.64
559.38
291.72
884.31
506.13
240.33
1090.96
612.63
343.12
714.62
301.13
33.85
1260.65
817.64
549.60
9
10
11
12
censier
panthéon
rue madame
rue de seine
48
35
86
65
250
250
350
300
227.49
157.89
430.91
318.49
171.51
95.43
383.05
268.51
283.47
220.36
478.77
368.47
-31.34
-102.42
173.71
60.89
486.32
418.21
688.10
576.09
13
14
15
16
panthéon
sèvres-babylone
montparnasse
rue d'assas
32
52
40
260
155
245
200
1500
141.84
248.90
184.66
1362.36
77.69
194.62
124.85
1203.80
205.98
303.18
244.47
1520.91
-118.88
-9.57
-75.03
1064.03
402.55
507.37
444.35
1660.69
17
18
19
saint-germain
ile saint-louis
jussieu
70
117
90
325
950
378
345.26
596.85
452.32
296.36
540.72
404.12
394.15
652.99
500.52
87.86
337.99
195.06
602.65
855.72
709.58
20
21
22
23
quartier-latin
montparnasse
rue mazarine
censier
30
105
52
80
78
375
200
270
131.13
532.62
248.90
398.79
65.84
481.11
194.62
350.99
196.42
584.12
303.18
446.58
-129.87
274.72
-9.57
141.60
392.13
790.52
507.37
655.97
24
25
26
27
assas luxembourg
jardins de l'observatoire
rue de savoie
près luxembourg
60
140
20
100
295
990
85
495
291.72
719.98
77.60
505.85
240.33
651.50
6.23
455.78
343.12
788.46
148.96
555.92
33.85
458.16
-184.99
248.23
549.60
981.80
340.19
763.47
28
gobelins
28
85
120.42
53.96
186.89
-140.88
381.72
27
Résultat graphique pour
les intervalles de confiance
Prix vs Surface (28 obs.) : Intervalle de confiance à 95%
1600
1400
1200
1000
800
600
400
Prix
200
0
0
Surface
100
200
300
28
Intervalle de confiance de la moyenne
µx = ax + b pour une liaison non significative
9000
8000
7000
6000
y
5000
Prix au m2
4000
3000
2000
0
100
200
300
Surface
La droite y = y appartient à la zone de confiance des Y moyens.
Donc la liaison entre Y et X n’est pas significative.
29
Résultat pour y
Prévision de y pour x fixé :
yˆ = aˆx + bˆ
Intervalle de prévision de y à 95 % pour x fixé :
1
( x − x )2
yˆ ± t0.975 (n − 2) × σˆ × 1 + + n
n ∑ ( xi − x ) 2
i =1
Formule approchée :
ŷ ± 2σˆ
30
Résultat graphique pour
les intervalles de prévision
Intervalle de prévision individuelle à 95%
1600
Observations
atypiques
1400
1200
Jardins de l‘Observatoire
Ile Saint-louis
Prix (en milliers d‘Euros)
1000
800
600
400
200
0
0
Surface
100
200
300
31
Observation atypique
Une observation est atypique (outlier) si elle n’appartient
pas à son propre intervalle de prévision :
1
(x − x)2
y ∉ [ ŷ ± t 0.975 (n − 2) × σˆ × 1 + + n
]
2
n ∑i =1 ( x i − x )
En utilisant la formule approchée :
y ∉ [ ŷ ± 2σˆ ] soit e = y − ŷ > 2σˆ
Conclusion : Une observation i est un outlier si son résidu
ei
standardisé
est supérieur à 2 en valeur absolue.
σ̂
32
Résultats SPSS
NUMERO
Surface
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
28
50
106
196
55
190
110
60
48
35
86
65
32
52
40
260
70
117
90
30
105
52
80
60
140
20
100
28
Prix
(en milliers d’€)
130
280
650
800
268
790
500
320
250
250
350
300
155
245
200
1500
325
950
378
78
375
200
270
295
990
85
495
85
Prédiction
Résidu
120.42
238.19
537.97
1019.75
264.96
987.64
559.38
291.72
227.49
157.89
430.91
318.49
141.84
248.90
184.66
1362.36
345.26
596.85
452.32
131.13
532.62
248.90
398.79
291.72
719.98
77.60
505.85
120.42
9.58
41.81
112.03
-219.75
3.04
-197.64
-59.38
28.28
22.51
92.11
-80.91
-18.49
13.16
-3.90
15.34
137.64
-20.26
353.15
-74.32
-53.13
-157.62
-48.90
-128.79
3.28
270.02
7.40
-10.85
-35.42
Résidu
standardisé
0.08
0.34
0.91
-1.79
0.02
-1.61
-0.48
0.23
0.18
0.75
-0.66
-0.15
0.11
-0.03
0.12
1.12
-0.16
2.87
-0.60
-0.43
-1.28
-0.40
-1.05
0.03
2.20
0.06
-0.09
-0.29
INF 95%
Individuel
-140.88
-20.45
280.00
744.99
6.73
714.62
301.13
33.85
-31.34
-102.42
173.71
60.89
-118.88
-9.57
-75.03
1064.03
87.86
337.99
195.06
-129.87
274.72
-9.57
141.60
33.85
458.16
-184.99
248.23
-140.88
SUP 95%
Individuel
381.72
496.84
795.94
1294.52
523.18
1260.65
817.64
549.60
486.32
418.21
688.10
576.09
402.55
507.37
444.35
1660.69
602.65
855.72
709.58
392.13
790.52
507.37
655.97
549.60
981.80
340.19
763.47
381.72
Élimination des observations
atypiques
Pour rendre la prévision plus opérationnelle, on peut
restreindre le champ d’application du modèle en
éliminant des observations atypiques, mais en le
justifiant par des considérations extra-statistiques.
Compléter le tableau suivant jusqu’à élimination de
toutes les données atypiques
Nombre
Corrélation Écart-type Observations Intervalle de prévision à
R
d’observations
du résidu
atypiques
95 % du prix d’un 100 m2
28
26
M
34

Documents pareils