Régression linéaire multiple

Transcription

Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
[email protected]
DU Biostatistiques appliquées à la recherche clinique et à l’épidémiologie
Plan
1
Introduction à l’étude de deux variables quantitatives
2
Coefficient de corrélation (Rappels)
3
Régression linéaire simple (Rappels)
4
5
Références
Michaël Genin (Université de Lille 2)
Version - 17 mars 2016
1 / 100
Introduction
Croisement de deux variables quantitatives
âge et fréquence cardiaque
Consommation et poids d’un véhicule
Capacité d’épargne et revenus
Etude du lien entre ces deux variables
Représentation graphique
Indicateur statistique (Coefficient de corrélation)
Modèle de prédiction (Régression linéaire)
Notations
On considère n individus sur lesquels on mesure X et Y deux variables
quantitatives.
Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )
qui représente les valeurs prises par X et Y pour l’individu i.
Remarque : les slides suivantes sont uniquement des rappels sur les principes de
corrélation et de régression linéaire simple et ne constituent en aucun cas un
cours !
→ Lien cours complet ←
3 / 100
1ère étape
Représentation graphique
Graphique pour représenter deux variables quantitatives ⇒ nuage de points
1ère étape de toute analyse de liaison : apprécier la forme de la relation entre les
deux variables
−500
●
●
●
● ●
−2000
●
●
●
● ●● ● ●
●
● ●
●
●
●
●
●
0
20
40
X
liaison linéaire
60
●
●
●
●
0
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ● ●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
−2
●
●
●
●
●
●
● ●●
●●
●
−3000
−20
●
●
●
●
●
−50
−40
●●
●
●
●
●
●
●●
●
−60
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
● ●
●● ●
●
●
●
●
●
●
● ● ● ●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
● ●
●
●
●
●
●●
●
Y
●
●
●
●
●
●
●
●
●
●
●
●
●
−1
●
●●
●
●● ●
−1500
Y
−1000
●
●
●
●
1
● ●
●
●
●
●
●● ●●
●
●
●
●
● ●
●
●● ● ●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
−2500
0
Y
50
● ●
●●
●●
●
●● ● ● ●
●
● ● ● ●
●
●
● ●●
● ●
●● ●
● ●
● ● ●● ●●
● ●
●
●
●
● ● ●●●
●
●● ●●
● ●● ●
●●
● ●●● ●
●
●
●
● ●● ●● ●●
●
●
●● ●●
●● ●
●
●
●●
●
● ●● ●
●● ●
●●●
● ●●
●● ● ●
● ● ● ● ● ●●
● ●
●
●
● ● ●●
●● ●
●● ●
● ●
●
● ●
● ●
●
●
● ●● ●
●●
● ●●
●
●
●
●
●
●●
● ●
● ● ●
● ●
●
● ●
● ●●
● ●
●● ● ●●
●
●●●
●●●● ●●●●●●
●●●● ● ● ● ● ●
● ●● ●●
●● ●
● ●● ●
● ●● ●
● ●●
●
●
●●
● ● ● ●●
●
●
●●
●●●
●
● ● ●
● ●
●
●
●● ●
●● ●
●●
●●
2
0
●
● ●●
● ●●●
● ●
●
●●●
● ●●
●●●●
●●●●
● ●
●
●
−3
●
−60
−40
−20
0
20
40
60
X
liaison polynomiale
−40
−20
0
20
40
X
pas de liaison
4 / 100
Définition
Coefficient de corrélation linéaire
Coefficient de corrélation théorique
ρXY =
σXY
∈ [−1; 1]
σX σY
Coefficient de corrélation de Bravais-Pearson
ρ est estimé par
r=
∑n
(xi − x̄ )(yi − ȳ )
sxy
= √∑ i=1
∑n
n
sx sy
2
2
i=1 (xi − x̄ )
i=1 (yi − ȳ )
7 / 100
Test du coefficient de corrélation
Test de la significativité de ρ
Principe du test : Test de la nullité du coefficient de corrélation.
Si ρ = 0 alors il n’y a pas de liaison linéaire entre X et Y
Si ρ ̸= 0 alors il existe une relation linéaire entre X et Y
Condition d’application : X ∼ N (µ1 , σ1 ) et Y ∼ N (µ2 , σ2 )
En pratique : Vérification de X et Y "a peu près normales" (symétrique) car test
robuste (n grand)
Hypothèses du test
{
H0 : ρ = 0
H1 : ρ ̸= 0
Statistique de test
Sous H0 ,
√
R n−2
T = √
∼ Tn−2
1 − R2
ddl
9 / 100
Conclusions
Conclusions
Le coefficient de corrélation permet de mesurer le lien linéaire entre deux
variables quantitatives X et Y .
On peut également cherche à modéliser le lien entre X et Y afin de réaliser
des prédictions :
Exprimer Y en fonction de X
Ex : Prédire la FCM d’un patient en ne connaissant que son âge
Le coefficient de corrélation n’est pas suffisant
Recours à la régression linéaire :
Y = β1 X + β0 + ϵ
Où Y est la variable à expliquer et X la variable explicative
11 / 100
Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X est un caractère contrôlé (caractère explicatif)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xi est la valeur fixée pour l’individu i
Objectif : Exprimer le lien entre Y et X .
Y = f (X ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire
Régression linéaire simple
1
Modèle de régression
2
Droite de régression au sens des moindres carrés
13 / 100
Modèle de régression linéaire simple
Modèle de régression linéaire
∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que
Yi = β1 xi + β0 + ϵi
Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 : coefficients du modèle, constantes (valeurs fixes dans la population).
Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendante de X → Cov(xi , ϵi ) = 0
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle
15 / 100
Méthode des moindres carrés ordinaires
Objectif : estimer β0 et β1 grâce à leur estimateurs B0 et B1 et leur réalisations b0
et b1 sur un échantillon d’observations i.i.d. de taille n.
Trouver b0 et b1 qui minimisent un critère d’ajustement.
⇒ Méthode des moindres carrés ordinaires
S(β0 , β1 ) =
n
n
∑
∑
2
(ei )2 =
(yi − (β1 xi + β0 ))
i=1
i=1
→ min S(β0 , β1 )
Dérivées partielles → Systèmes aux équations normales
Solutions :
b1 =
sxy
et b0 = ȳ − b1 x̄
sx2
Détails
17 / 100
La droite de régression au sens des moindres carrés a pour expression :
ybi = b1 xi + b0
C’est une estimation du modèle de régression par la méthode des moindres carrés.
Les erreurs observées sur l’échantillon sont appelés résidus.
ei = (yi − ybi ) = yi − b1 xi − b0
18 / 100
Qualité de l’ajustement
Equation d’analyse de la variance
yi − ȳ = (b
yi − ȳ ) + (yi − ybi )
(yi − ȳ )2 = (b
yi − ȳ )2 + (yi − ybi )2
n
n
n
∑
∑
∑
(yi − ȳ )2 =
(b
yi − ȳ )2 +
(yi − ybi )2
i=1
n
∑
(yi − ȳ )2
i=1
|
{z
}
Somme des carrés
totale
SCT
i=1
=
n
∑
(b
yi − ȳ )2
i=1
|
{z
}
Somme des carrés
expliquée
SCE
i=1
+
n
∑
(yi − ybi )2
i=1
|
{z
}
Somme des carrés
résiduelle
SCR
20 / 100
Evaluation de la qualité d’ajustement du modèle
⇒ Coefficient de détermination
R2 =
SCE
∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire.
Remarque importante : le carré du coefficient de corrélation linéaire est égal au
coefficient de détermination :
r 2 = R2
Conséquence : deux tests statistiques équivalents pour évaluer la liaison linéaire
entre X et Y .
21 / 100
Validité du modèle
Etude de la validité du modèle
Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs
Vérifier la normalité des résidus observés (Droite de Henry)
Vérifier que les résidus ne contiennent pas d’information structurée
(V[ϵ] = σ 2 )
Les résidus ne dépendent pas de X (Graphiques)
Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont
mutuellement indépendantes) (Test de Durbin Watson)
→ Ces hypothèses vont permettre par la suite de réaliser des tests dans le
modèle linéaire.
Observations aberrantes / influentes
Valeur aberrante de x (Descriptif univarié)
Observation i mal reconstituée par la régression → (ei élevé) (résidus
studentisés)
Observation i présentant un poids exagéré dans la régression (prédiction /
coefficients) (distance de Cook)
23 / 100
Conclusion sur l’étude de la validité du modèle
Etape très importante !!
1
2
3
4
Descriptif univarié
Estimation des coefficients du modèle
Vérification des hypothèses sur les erreurs
Détection d’observations influentes
Si OUI : Correction ou suppression
Nouvelle estimation des coefficients
Après ces étapes : Inférence statistique
24 / 100
Inférence statistique
Evaluation globale de la régression
Tableau d’analyse de variance - Test de significativité globale
R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la
régression de Y par X traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA
Source de variation
Somme des carrés
DDL
(yi − ŷi )
1
n−2
(yi − ȳ )2
n−1
∑
SCE = ∑ i (ŷi − ȳ )2
2
Expliquée
Résiduelle
SCR =
Totale
SCT =
i
∑
i
Carrés moyens
CME =
CMR =
SCE
1
SCR
n−2
-
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
26 / 100
Le test F permet d’évaluer la significativité globale de la régression.
{
H0 : La variabilité expliquée est identique à la variabilité résiduelle
H1 : La variabilité expliquée est supérieure à la variabilité résiduelle
Sous H0
F =
Interprétation :
CME
∼ F1,n−2 ddl
CMR
{
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"
27 / 100
Evaluation des coefficients - β1
Test de significativité de β1
Idée : tester la nullité de β1 .
{
H0 : β1 = 0 "X n’a aucun pouvoir explicatif sur Y"
H1 : β1 ̸= 0 "X a un pouvoir explicatif sur Y"
Nous savons que
B1 −β1
b
σB1
∼ Tn−2 , par conséquent sous H0
B1
∼ Tn−2
σ
bB1
Intervalle de confiance de β1

IC
1−α
β1

= b1 ± t(1−α/2;n−2) √∑
sn−2
n
i=1 (xi

− x̄ )2
28 / 100
Dans le cas d’une régression linéaire simple de type :
Y = β1 X + β0 + ϵ
Tester la significativité globale du modèle
≡
Tester la significativité de β1
≡
Tester la significativité de ρ
29 / 100
Lien entre test et intervalle de confiance
1−α
ICθ
= {θ0 /H0 = {θ = θ0 } est accepté au niveau de confiance 1 − α}
Conséquences : pour tester H0 : β1 = 0 au risque α, on peut simplement vérifier
si 0 appartient ou non à l’intervalle de confiance :
Si 0 ∈ IC alors on conserve H0
Si 0 ∈
/ IC alors on rejette H0
30 / 100
Test de significativité de β0
Idée : tester la nullité de β0 .
{
H0 : β0 = 0 "L’ordonnée à l’origine n’est pas significative"
H1 : β0 ̸= 0 "L’ordonnée à l’origine est significative"
Nous savons que
B0 −β0
b
σB0
∼ Tn−2 , par conséquent sous H0
B0
∼ Tn−2
σ
bB0
Intervalle de confiance de β0
√
[
1−α
β0
IC
= b0 ± t(1−α/2;n−2) sn−2
x̄ 2
1
+ ∑n
2
n
i=1 (xi − x̄ )
]
31 / 100
Prédiction
Intervalle de prédiction d’une observation
Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la
valeur de yn+1 pour une observation xn+1 n’appartenant pas à l’échantillon :
ybn+1 = b1 xn+1 + b0
Or ybn+1 n’est qu’une estimation de la "vraie droite de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
1−α
IC
yn+1
√
[
= ybn+1 ± t(1−α/2;n−2) sn−2
1
(xn+1 − x̄ )2
1 + + ∑n
2
n
i=1 (xi − x̄ )
]
33 / 100
Prédiction
1−α
IC
yn+1
√
[
= ybn+1 ± t(1−α/2;n−2) sn−2
1
(xn+1 − x̄ )2
1 + + ∑n
2
n
i=1 (xi − x̄ )
]
Quelques remarques
La taille du rayon de l’intervalle de confiance sera d’autant plus faible que
2
sn−2
est faible → la régression est de bonne qualité
n est élevé
2
x∑
n+1 est proche de x̄ ↔ (xn+1 − x̄ ) est faible
n
2
(x
−
x̄
)
est
élevé
→
les
x
sont
bien dispersés
i
i
i=1
Attention : utiliser des valeurs de x qui sont dans le cadre d’étude
(relativement proches de x̄ pour obtenir de bonnes prédictions.
34 / 100
Mise en évidence d’un problème
Vente de CD et cas de grippe H1N1 en 2009
Région
Nb cas de grippe H1N1
Nb ventes CD M.J.
Région 1
Région 2
.
.
Région n
.
.
.
.
.
.
.
.
.
.
Il existe une liaison linéaire significative . . .
Test de ρ : p < 1.10−4 , Test de β1 : p < 1.10−4
. . . mais pas de relation de cause à effet !
36 / 100
Existence de Facteurs de confusion (ici : la période de temps)
Exemple : vente de CD de MJ les plus fortes en automne alors
{
↗ ventes
Pour la même période :
↗ cas de grippes
Temps
Grippe
Ventes
Figure : Diagramme de corrélation
37 / 100
Nécessité de pouvoir ajuster sur des facteurs de confusion
Dans de nombreuses situations, plusieurs facteurs peuvent expliquer un
caractère
Y = f (X1 , X2 , . . . , Xp )
38 / 100
Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X1 , X2 , . . . Xp sont des caractères contrôlés (caractères explicatifs)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xij est la valeur fixée pour l’individu i et la variable j, j ∈ {1, 2, . . . , p}
Objectif : Exprimer le lien entre Y et les Xj .
Y = f (X1 , X2 , . . . , Xp ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire
1
Modèle de régression
2
Hyperplan de régression au sens des moindres carrés
40 / 100
Exemple : Données véhicules
n = 31 véhicules pour lesquels on dispose de
Consommation (L/100Km)
Prix (Fr.)
Cylindrée (cm3)
Puissance (KW)
Poids (Kg)
Objectif : prédire la consommation (Y ) en fonction des différents paramètres.
Modèle de régression à estimer
Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ϵ
Modèle estimé sur un échantillon (hyperplan de régression)
\ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids
Conso
41 / 100
Modèle de régression linéaire multiple
∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que
Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip + ϵi = β0 +
p
∑
βj xij + ϵi
j=1
Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 , . . . , βp : coefficients du modèle, constantes (valeurs fixes dans la
population).
Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendantes des Xj → COV(xij , ϵi ) = 0
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
43 / 100
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Y1
Y2
= β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1
= β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn
= β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn
Ecriture matricielle



Y1



Y =  ... β = 
Yn

β0
.. 
. 
βp
Y=
n×1

1
 ..
X= .
1
X.
n × (p + 1)
x11
..
.
x12
..
.
xn1
xn2
β
(p + 1) × 1
···
..
.
···


x1p
.. ϵ = 

. 
xnp

ϵ1
.. 
. 
ϵn
+ϵ
n×1
44 / 100
Objectif : estimer β0 , β1 , . . . , βp grâce à leur estimateurs B0 , B1 , B2 , . . . , Bp et
leur réalisations b0 , b1 , b2 , . . . , bp sur un échantillon d’observations i.i.d. de taille
n.






β0
B0
b0






β =  ...  B =  ...  b =  ... 
βp
Bp
bp
Trouver b qui minimisent l’erreur :
(
)2
p
n
n
∑
∑
∑
S(β0 , . . . , βp ) =
(ϵi )2 =
yi − β0 −
βj xij
= ||ϵ||2
i=1
i=1
j=1
(
)−1 T
Solution : b = XT X
X Y
Remarque : B est appelé estimateur des moindres carrés de β.
Détails
46 / 100
L’ hyperplan de régression au sens des moindres carrés a pour expression :
ybi = b0 +
p
∑
bj xij
j=1
C’est une estimation du modèle de régression multiple par la méthode des
moindres carrés.
Les erreurs observées sur l’échantillon sont appelés résidus.
ei = (yi − ybi ) = yi − b0 −
p
∑
bj xij
j=1
47 / 100
Modèle de régression à estimer
Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + β0 + ϵ
Modèle estimé sur un échantillon (hyperplan de régression)
\ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids + b0
Conso
Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix
2.042e-05 8.731e-06
Cylindree
-5.006e-04 5.748e-04
Puissance
2.499e-02 9.992e-03
Poids
4.161e-03 8.788e-04
Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
48 / 100
Propriétés des estimateurs - Moments (1)
E[B] = β estimateur sans biais
(
)−1
V[B] = σ 2 XT X
Détails
V[B](p+1)×(p+1) est appelée matrice de variances - covariances des coefficients :

 2
σ
bB0 COV (B0 , B1 ) . . . COV (B0 , Bp )
 ·
σ
bB2 1
. . . COV (B1 , Bp ) 



 ..

 .
·
...
·
·
·
...
σ
bB2 p
49 / 100
Propriétés des estimateurs - Moments (2)
La matrice de variances - covariances V[B] fait intervenir la variance de l’erreur
σ2 .
Cette variance est inconnue
2
Elle est estimée par Sn−p−1
au moyen du tableau d’ANOVA.
On montre que
2
Sn−p−1
∑n
2
(Ei )
SCR
=
= i=1
n−p−1
n−p−1
est un estimateur non biaisé de σ 2 .
50 / 100
Propriétés des estimateurs - Distributions d’échantillonnage
De par les hypothèses du modèle et l’estimation de σ 2 , on montre que
∀j ∈ {0, 1, . . . , p}
Bj − βj
∼ Tn−p−1 d.d.l.
σ
bBj
avec σ
bBj tiré de la matrice de variances-covariances.
Ces distributions vont nous permettre de réaliser une inférence statistique sur les
coefficients (tests de nullité et intervalles de confiance).
51 / 100
Equation d’analyse de la variance
yi − ȳ = (b
yi − ȳ ) + (yi − ybi )
(yi − ȳ )2 = (b
yi − ȳ )2 + (yi − ybi )2
n
n
n
∑
∑
∑
(yi − ȳ )2 =
(b
yi − ȳ )2 +
(yi − ybi )2
i=1
n
∑
(yi − ȳ )2
i=1
|
{z
}
Somme des carrés
totale
SCT
i=1
=
n
∑
(b
yi − ȳ )2
i=1
|
{z
}
Somme des carrés
expliquée
SCE
i=1
+
n
∑
(yi − ybi )2
i=1
|
{z
}
Somme des carrés
résiduelle
SCR
53 / 100
Evaluation de la qualité d’ajustement du modèle
⇒ Coefficient de détermination
R2 =
SCE
∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire multiple.
Remarque importante : R 2 est fonction du nombre variables explicatives dans le
modèle (même non pertinentes)
p ↗ → R2 ↗
Aussi : tests de significativité des coefficients, sélection de variables (modèle
parcimonieux)
54 / 100
Modèle estimé
Conso
Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix
2.042e-05 8.731e-06
Cylindree
-5.006e-04 5.748e-04
Puissance
2.499e-02 9.992e-03
Poids
4.161e-03 8.788e-04
Multiple R-squared:
0.9546
55 / 100
Etude de la validité du modèle
Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs
Vérifier la normalité des résidus observés
Vérifier que les résidus ne contiennent pas d’information structurée
(V[ϵ] = σ 2 )
Les résidus ne dépendent pas des Xj
Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont
mutuellement indépendantes)
→ Ces hypothèses vont permettre par la suite de réaliser des tests dans le
modèle linéaire.
Valeur aberrante d’une observation (diagnostic univarié, multivarié)
Observation i mal reconstituée par la régression → (ei élevé)
Observation i présentant un poids exagéré dans la régression (prédiction /
coefficients)
57 / 100
Etude des résidus
Vérification de la normalité des résidus
histogramme ⇒ la distribution doit être unimodale et symétrique autour de 0.
Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peu
puissants (peu aptes à rejeter H0 )
Droite de Henry ⇒ confronte les quantiles théoriques de la loi normale et la
distribution cumulée estimée sur les données
58 / 100
Etude des
des résidus
résidus
Etude
Vérification de l’homoscédasticité des résidus
Vérification de l’homoscédasticité des résidus
Les résidus sont homoscédastiques si leur répartition est homogène
Les résidus
sont ditspas
homoscédastiques
dispersion
est homogène
et ne
et ne dépend
des valeurs desilaleur
variable
explicative
(et donc
pas
dépend pas des valeurs de la variable explicative xj (et donc pas non plus des
non plus des valeurs prédites).
valeurs prédites).
On vérifie que les résidus n’ont pas de structure particulière en
On vérifie que les résidus n’ont pas de structure particulière en traçant un graphe
traçant: un graphe des résidus :
des résidus
Residus correles
4
Residus non correles
●
●
●
2
●
0
Residus
●●
● ●
●
● ●
−2
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
● ● ●
●
●
●
●
● ●
●● ●
●
●
●
●● ●
●
● ●
●● ●
●
●
● ●
●
●
●
●
●
● ●●
●
●
●●
● ●
●
●● ● ●
●●
●
●●
●
●
● ●●
●●
●● ●
●
●●
●
●
● ●
●
● ●
●
● ●●●
●
●
●
● ●●● ●
●
●●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
1
●
●●
●●●
●●
●
● ●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●●
●
0
●
●
●
●
●
●
●
●
●
● ●
● ●
●●
● ●
●
●
● ●●
●
●●
●
●
●
●
●
●●
●
●●●
●● ●● ● ●
●● ● ● ●
●● ● ●
● ●● ●
●
●
●●
●
● ●
●
●
●
●
●
●● ● ●
●
●
●
●
● ●
●
●
●
●●
●
●
●
● ● ●●
●● ●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●● ●
● ●●
●
●●● ●
●
●
● ●
● ●
● ●
●
●
●
●
●
●
●● ● ●
●
●
●
● ●
● ●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
Residus
2
●●
●
●
●
−1
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
−2
−4
●
−40
−20
0
20
●
40
X
●
−40
−20
0
20
40
X
59 / 100
Etude des résidus
On peut localiser des points du nuage mal expliqués par la relation linéaire en
traçant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1
on peut considérer ces points, si ils ne sont pas trop nombreux, comme des
points exceptionnels, les éliminer et recalculer b1 et b0 .
on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindres
2
carrés pondérés (fonction de l’écart |y − ŷ |/2sn−p−1
). Méthode plus robuste
si il y a beaucoup de points mal expliqués (en dehors de la bande), c’est que
le modèle est mal choisi.
60 / 100
Etude des résidus
6
graphe des residus
4
●
●
2
●
●
0
●
●
−2
residus
●
●
●
●
−4
●
●
−6
●
25
30
35
40
45
50
55
age
61 / 100
Etude des résidus
Vérification de l’indépendance entre les résidus
Test de Durbin Watson
{
H0 : il n’y a pas de corrélation entre ϵi et ϵi−1
H1 : il y a une corrélation entre ϵi et ϵi−1
∑n
(ei − ei−1 )2
i=2∑
n
2
i=1 ei
d=
La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pas
d’autocorrélation.
La loi de d est tabulée : DL et DU bornes au risque α.
0
DL
AC
Positive
Rejet H0
DU
?
2
4-DU
Pas d’AC
Non Rejet de
H0
4-DL
?
4
AC
Négative
Rejet H0
62 / 100
Valeur aberrante de xj (Univarié) → Boxplot
Effet important sur l’estimation de l’hyperplan de régression
10
20
30
40
50
Mauvais ajustement aux données
Solution : descriptif univarié → boxplot
●
Problème : Ne prend pas en compte les interactions possibles entre les Xj .
63 / 100
Valeur aberrante (Multivarié) → Levier
Principe : Pour une observation i, mesure la distance avec le centre de gravité du
nuage défini par les Xj , j ∈ {1, , . . . , p}
Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) :
(
)−1 T
H = X XT X
X
En pratique
(
)−1 T
hii = hi = xi XT X
xi
avec xi la ième ligne de la matrice X.
64 / 100
Valeur aberrante (Multivarié) → Levier
Règle de décision
R.C . : hi > 2 ×
p+1
n
Permet de détecter des observations aberrantes / influentes d’un point de vue
multivarié
Effet néfaste sur l’estimation des βj par les MCO
65 / 100
1. Levier Seuil : 2(p + 1)/n = 2(4 + 1)/31 = 0.32.
Maserati.Ghibli.GT
Mercedes.S.600
0.4
Levier
0.6
0.8
Ferrari.456.GT
Toyota.Previa.salon
0.2
Hyundai.Sonata.3000
Seat.Alhambra.2.0
Lancia.K.3.0.LS Peugeot.806.2.0
Subaru.Vivio.4WD
Daihatsu.Cuore
Opel.Omega.2.5i.V6
Mazda.Hachtback.V
Mitsubishi.Galant
Fiat.Panda.Mambo.L
Seat.Ibiza.2.0.GTI
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Volvo.960.Kombi.aut
VW.Polo.1.4.60
Renault.Safrane.2.2..V
Citroen.ZX.Volcane
Ford.Fiesta.1.2.Zetec
Honda.Civic.Joker.1.4
Fort.Escort.1.4i.PT
Volvo.850.2.5
Toyota.Corolla Opel.Astra.1.6i.16V
Nissan.Primera.2.0
Peugeot.306.XS.108
VW.Golt.2.0.GTI
Fiat.Tempra.1.6.Liberty
0
5
10
15
20
25
30
Index
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500
2789
209 1485
14.5
66 / 100
1. Levier Interprétation : 3 véhicules se démarquent. Raisons potentielles :
Grosses cylindrées luxueuses
Limousine (Mercedes)
Sportives (Ferrari et Maserati)
ID
Modele
Ferrari.456.GT
8
5474
325 1690
21.3
Mercedes.S.600
9
5987
300 2250
18.7
Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500
2789
209 1485
14.5
67 / 100
Résidus studentisés internes
Idée : Mettre en évidence les observations dont le résidu ei est important Pour une
observation i, le résidu studentisé interne est défini par :
ti =
ei
√
sn−p−1 1 − hi
avec hi levier de l’observation i. On montre que
Ti ∼ T(n−p−1) .
D’où :
1−α/2
RC : |ti | > tn−p−1
Problème : L’observation évaluée a participé à la construction de la droite (Juge
et partie).
68 / 100
Résidus studentisés externes
Idée : Estimer le modèle sans l’observation i (−i) et comparer la valeur observée
de yi à celle prédite par le modèle (ŷi (−i) : prédiction pour une nouvelle
observation).
Pour une observation i, le résidu studentisé externe est défini par :
ti∗ =
yi − ŷi (−i)
√
sn−p−1 (−i) 1 − hi (−i)
On montre que
D’où :
Ti∗ ∼ T(n−p−1) .
RC : |ti∗ | > tn−p−1
1−α/2
√
Remarque :
ti∗
=
n−p−2
n − p − 1 − ti2
69 / 100
Distance de Cook
Idée : Evaluer l’influence d’une observation i sur l’estimation des coefficients.
Comparaison des prédictions du modèle complet et du modèle sans l’observation i.
La distance de Cook pour une observation i est définie par
∑n
Di =
j=1 (yˆj
− yˆj (−i))2
2
(p + 1)sn−p−1
Règle de décision
RC : Di > 1
RC : Di >
4
n−p−1
(Ajustement sur le nombre de variables)
Si la différence entre les prédictions est élevée, l’observations i joue un rôle sur
l’estimation des coefficients.
70 / 100
Exemple : données véhicules
2. Distance de Cook
Seuil : 4/(n − p − 1) = 4/(31 − 4 − 1) = 0.154
4
3
2
1
cooks.distance(fit)
5
Ferrari.456.GT
Mercedes.S.600
0
Hyundai.Sonata.3000
Mitsubishi.Galant
Toyota.Previa.salon
Opel.Omega.2.5i.V6
Seat.Ibiza.2.0.GTI
Opel.Astra.1.6i.16V
Maserati.Ghibli.GT
Seat.Alhambra.2.0
Toyota.Corolla
Volvo.960.Kombi.aut
Peugeot.306.XS.108
Peugeot.806.2.0
Opel.Corsa.1.2i.Eco
Subaru.Vivio.4WD
VW.Polo.1.4.60
Lancia.K.3.0.LS
Fort.Escort.1.4i.PT
Volvo.850.2.5
Mazda.Hachtback.V
VW.Golt.2.0.GTI
Nissan.Primera.2.0
Fiat.Panda.Mambo.L
Citroen.ZX.Volcane
Daihatsu.Cuore
0
5
10
15
20
25
30
Index
ID
Modele
Ferrari.456.GT
8
5474
325 1690
21.3
Mercedes.S.600
9
5987
300 2250
18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990
2972
107 1400
11.7
71 / 100
DFBETAS
Idée : Si la distance de COOK a identifié une observation ayant une influence sur
l’estimation des coefficients, on peut aller plus loin pour déterminer quel
coefficient est affecté.
Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, le
DFBETAS est défini par :
DFBETASi,j =
bj − bj (−i)
√
−1
sn−p−1 (−i) (XT X)j
Règle de décision
2
RC : |DFBETASi,j | > √
n
72 / 100
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
2
1
0
dfbeta$Prix
3
Ferrari.456.GT
Mercedes.S.600
Toyota.Previa.salon
Seat.Alhambra.2.0
Lancia.K.3.0.LS
Subaru.Vivio.4WD Opel.Astra.1.6i.16V Citroen.ZX.Volcane
Fort.Escort.1.4i.PT
Nissan.Primera.2.0
Opel.Omega.2.5i.V6
Opel.Corsa.1.2i.Eco
Fiat.Panda.Mambo.L
Daihatsu.Cuore
Peugeot.806.2.0Volvo.960.Kombi.aut
Toyota.Corolla
VW.Golt.2.0.GTI
Peugeot.306.XS.108
Volvo.850.2.5
VW.Polo.1.4.60
Mazda.Hachtback.V
Maserati.Ghibli.GT
Seat.Ibiza.2.0.GTI
Mitsubishi.Galant
Hyundai.Sonata.3000
0
5
10
15
20
25
30
Index
ID
Modele
Ferrari.456.GT
8
5474
325 1690
21.3
Mercedes.S.600
9
5987
300 2250
18.7
2972
107 1400
11.7
73 / 100
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
0.5
0.0
Opel.Omega.2.5i.V6
Seat.Ibiza.2.0.GTI
Volvo.850.2.5
Peugeot.306.XS.108
VW.Golt.2.0.GTI
Peugeot.806.2.0
Toyota.Corolla Opel.Astra.1.6i.16V
Mazda.Hachtback.V
Opel.Corsa.1.2i.Eco
Fiat.Panda.Mambo.L
Daihatsu.Cuore
Nissan.Primera.2.0
Lancia.K.3.0.LS
Citroen.ZX.Volcane
Fort.Escort.1.4i.PT
Toyota.Previa.salon
VW.Polo.1.4.60
Subaru.Vivio.4WD
Volvo.960.Kombi.aut
Seat.Alhambra.2.0
Maserati.Ghibli.GT
−0.5
Mitsubishi.Galant
Ferrari.456.GT
−1.0
dfbeta$Cylindree
1.0
Hyundai.Sonata.3000
Mercedes.S.600
0
5
10
15
20
25
30
Index
ID
Modele
Ferrari.456.GT
8
5474
325 1690
21.3
Mercedes.S.600
9
5987
300 2250
18.7
2972
107 1400
11.7
74 / 100
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
0.5
Mitsubishi.Galant
0.0
VW.Polo.1.4.60
Subaru.Vivio.4WD
Toyota.Corolla
Daihatsu.Cuore
Fiat.Panda.Mambo.L
Opel.Corsa.1.2i.Eco
Volvo.960.Kombi.aut
Seat.Ibiza.2.0.GTI
Mazda.Hachtback.V
Peugeot.806.2.0
Peugeot.306.XS.108
VW.Golt.2.0.GTI
Volvo.850.2.5
Citroen.ZX.Volcane
Nissan.Primera.2.0
Fort.Escort.1.4i.PT
Seat.Alhambra.2.0
Lancia.K.3.0.LS
Opel.Omega.2.5i.V6
Opel.Astra.1.6i.16V
Toyota.Previa.salon
−0.5
dfbeta$Puissance
Maserati.Ghibli.GT
Mercedes.S.600
Hyundai.Sonata.3000
Ferrari.456.GT
0
5
10
15
20
25
30
Index
ID
Modele
Ferrari.456.GT
8
5474
325 1690
21.3
Mercedes.S.600
9
5987
300 2250
18.7
2972
107 1400
11.7
75 / 100
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
Toyota.Previa.salon
0.4
Mercedes.S.600
0.2
0.0
VW.Polo.1.4.60
Opel.Astra.1.6i.16V
Daihatsu.Cuore
Toyota.Corolla
Maserati.Ghibli.GT
Opel.Corsa.1.2i.Eco
Subaru.Vivio.4WD
Fiat.Panda.Mambo.L
Volvo.960.Kombi.aut
Fort.Escort.1.4i.PT
Citroen.ZX.Volcane
Lancia.K.3.0.LS
Nissan.Primera.2.0
Volvo.850.2.5
Peugeot.806.2.0
Mazda.Hachtback.V
VW.Golt.2.0.GTI
Peugeot.306.XS.108
−0.6 −0.4 −0.2
dfbeta$Poids
Seat.Alhambra.2.0
Mitsubishi.Galant
Seat.Ibiza.2.0.GTI
Ferrari.456.GT
Opel.Omega.2.5i.V6
Hyundai.Sonata.3000
0
5
10
15
20
25
30
Index
ID
Modele
Ferrari.456.GT
8
5474
325 1690
21.3
Mercedes.S.600
9
5987
300 2250
18.7
2972
107 1400
11.7
76 / 100
R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la
régression de Y par les Xj traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA
Source de variation
Somme des carrés
DDL
Carrés moyens
(yi − ŷi )
p
n−p−1
CME = CME
p
CMR
CMR = n−p−1
(yi − ȳ )2
n−1
-
∑
SCE = i (ŷi − ȳ )2
∑
2
Expliquée
Résiduelle
SCR =
Totale
SCT =
i
∑
i
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
78 / 100
Le test F permet d’évaluer la significativité globale de la régression.
{
H0 : β1 = β2 = . . . = βp = 0
H1 : ∃j/βj ̸= 0
Sous H0
F =
Interprétation :
CME
∼ Fp,n−p−1 ddl
CMR
{
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"
79 / 100
Evaluation des coefficients - βj
Test de significativité de βj
Idée : tester la nullité de βj .
{
H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y"
H1 : βj ̸= 0 ”Xj a un pouvoir explicatif sur Y"
Nous savons que
Sous H0
Bj −βj
b
σ Bj
∼ Tn−p−1 , par conséquent :
Bj
∼ Tn−p−2
σ
bBj
Intervalle de confiance de βj
1−α
ICβ
j
[
]
= bj ± t(1−α/2;n−p−1) σ
bBj
80 / 100
Exemple : données véhicule
Modèle estimé
Conso
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.456e+00 6.268e-01
3.919 0.000578
Prix
2.042e-05 8.731e-06
2.339 0.027297
Cylindree
-5.006e-04 5.748e-04 -0.871 0.391797
Puissance
2.499e-02 9.992e-03
2.501 0.018993
Poids
4.161e-03 8.788e-04
4.734 6.77e-05
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05
***
*
*
***
’.’0.1 ’ ’ 1
Residual standard error: 0.8172 on 26 degrees of freedom
Multiple R-squared: 0.9546, Adjusted R-squared: 0.9476
F-statistic: 136.5 on 4 and 26 DF, p-value: < 2.2e-16
81 / 100
Prédiction
Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la
valeur de yn+1 pour une observation Xn+1 n’appartenant pas à l’échantillon :
Xn+1 = (xn+1,1 , xn+1,2 , . . . , xn+1,p )
ybn+1 = b0 +
p
∑
bj xn+1,j
j=1
ybn+1 = Xn+1 .b
Or ybn+1 n’est qu’une estimation du "vrai hyperplan de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
IC
1−α
yn+1
[
]
√
−1
= ybn+1 ± t(1−αr ;n−p−1) sn−p−1 1 + Xn+1 (XT X) XT
n+1
83 / 100
Détection et traitement de la colinéarité
Définition et conséquences de la colinéarité
Définition
Une variable explicative Xj est colinéaire à une autre variable Xk lorsque
rXj ,Xk > 0.8.
Une variable explicative Xj est multicolinéaire aux autres variables lorsque
′
′
′
′
′
Xj = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp ,
elle peut s’écrire comme une combinaison linéaire des autres variables explicatives.
Conséquences
Valeurs/Signes des coefficients contraires à l’intuition
Variances estimées des coefficients trop importantes
Coefficients non significatifs (inférence statistique)
Instabilité du modèle
Risque de passer à côté d’une variable importante (redondance)
85 / 100
Détection de la colinéarité
Variance Inflation Factor - VIF
Principe : Pour chaque Xj , réalisation de la régression de Xj avec les autres
variables explicatives. On note Rj2 le coefficient de détermination associé à cette
régression.
Pour une variable Xj , le VIF est défini par
VIFj =
1
1 − Rj2
La valeur du VIF sera d’autant plus forte que Xj est une combinaison linéaire des
autres variables.
Règle de décision
VIFj ≥ 4
Rq : Détermination des variables incriminées dans la combinaison linéaire →
Cercle des corrélations (ACP)
86 / 100
Détection de la colinéarité
Variance Inflation Factor - VIF
Remarque :
σB2 j =
σ2
VIFj
n
Donc :
Plus la valeur de VIFj est importante plus σB2 j sera importante
Estimation instable
Problème de significativité du coefficient
87 / 100
Traitement de la colinéarité
Approche "métier"
Mise en évidence de plusieurs variables explicatives colinéaires (VIF + ACP)
Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pour
l’analyse
Approche statistique
Méthode de sélection de variables (Forward, Backward, Stepwise)
Mais si toutes les variables sont pertinentes ?
Régression sur les composantes principales de l’ACP
Régression ridge
Régression PLS
88 / 100
Sélection de variables
Motivations - Critère de sélection de variables
Motivations
Sélection d’un sous-ensemble de Xj pertinentes et non redondantes qui
expliquent au mieux Y
Principe du rasoir d’Occam → Modèles parcimonieux
Modèle plus simple, lisible, robuste, stable
Nombre restreint de variables explicatives (collecte des données)
Traitement de la multicolinéarité
Critère de sélection de variables
Retrait ou ajout d’une variable Xj dans le modèle en fonction de sa valeur du Fj
partiel de Fisher :
(
Fj =
Bj
σ
bBJ
)2
∼ F1,n−p−1
Détails
90 / 100
Motivations - Critère de sélection de variables
Autres critères de sélection de variables
R 2 ajusté
R̄ 2 = 1 −
AIC (à minimiser)
SCR/(n − p − 1)
SCT /(n − 1)
(
AIC = n ln
SCR
n
)
+ 2(p + 1)
BIC de Schwartz (à maximiser)
(
BIC = n ln
SCR
n
)
+ ln(n)(p + 1)
etc. . .
91 / 100
Méthodes de sélection de variables
Méthode ascendante (Forward)
Principe : On part du modèle sans Xj . On ajoute successivement les Xj qui sont
significatifs au sens du F partiel de Fisher et on s’arrête lorsqu’on ne peut plus
ajouter de Xj (NS dans le modèle)
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp }
(
)
SI P Fj∗ > fj∗ < αsle ALORS
Ajout de Xj au modèle
SINON Arrêt
Fin TANT QUE
Remarques :
Plus αsle est élevé plus le nombre de variables dans le modèle sera important
En pratique : αsle = 0.2
92 / 100
Méthode ascendante (Forward) - Exemple
Soient Y et X1 , X2 , X3 sur un échantillon de n = 50 observations
Etape
Modèle
ddl
F (p-value)
1
Y = β0
1 ;50-1-1
X1 → 43 (3, 51.10−8 )
X2 → 150 (2, 22.10−16 )
X3 → 12 (1, 11.10−3 )
2
Y = β0 + β2 X2
1 ;50-2-1
X1 → 9 (4, 31.10−3 )
X3 → 2 (0.1639)
3
Y = β0 + β2 X2 + β1 X1
1 ;50-3-1
X3 → 0.7 (0.4071)
X3 n’est plus significative dans le modèle. Modèle final :
Y = β0 + β2 X2 + β1 X1
93 / 100
Méthode descendante (Backward)
Principe : On part du modèle saturé (toutes les Xj ). On retire successivement les
Xj qui sont non significatifves au sens du F partiel de Fisher et on s’arrête
lorsqu’on toutes les Xj sont significatives.
Choix de Fj∗ tel que Fj∗ = min{F1 , . . . , Fp }
(
)
SI P Fj∗ > fj∗ > αsls ALORS
Retrait de Xj du modèle
SINON Arrêt
Fin TANT QUE
Remarques :
Plus αsls est faible plus le nombre de variables dans le modèle sera faible
En pratique : αsls = 0.2
94 / 100
Méthode Stepwise
Principe : "Mix" entre les méthodes ascendante et descendante. On début par le
modèle sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher
(αsle ). Dans les étapes suivantes, on vérifie que l’ajout d’une variable de conduit
pas à la non significativité (αsls ) des autres déjà présentes dans le modèle (phase
descendante).
Le processus se termine quand aucune Xj n’est significative lors de la phase
ascendante.
Avantage : Contrairement la méthode ascendante, une Xj introduite dans le
modèle peut être remise en cause lors des étapes suivantes.
En pratique :
αsle = αsls = 0.2
95 / 100
Méthode Stepwise
On part du modèle : Y = β0
Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp }
(
)
SI P Fj∗ > fj∗ < αsle ALORS
Ajout de Xj du modèle
POUR Chaque Xj inclue dans le modèle FAIRE
Calcul de Fj pour chaque Xj
∗
Choix( de Fj∗ tel
) que Fj = min{F1 , . . . , Fp }
∗
∗
SI P Fj > fj > αsls ALORS
Retrait de Xj du modèle
FIN POUR
SINON Arrêt
Fin TANT QUE
96 / 100
Conclusions
Processus de modélisation
1
Estimation des coefficients (MCO)
2
3
Mesure de la qualité d’ajustement (R 2 )
Etude la validité du modèle
Si hypothèses sur les erreurs non vérifiées → STOP
Si observations aberrantes/influentes →
Correction/Suppression
Retour à l’Etape 1
4
Test de significativité globale
Tests de significativité des coefficients
5
6
Evaluation de la multicolinéarité
Sélection de variables (Modèle parcimonieux)
Modèle restreint
Réitération des Etapes 1, 2, 3, 4
98 / 100
Références
Références
Livres
Probabilités Analyses des données et Statistique, G. Saporta, TECHNIP
Dodge, Y, Rousson, V., Analyse de régression appliquée, Dunod, 2ème édition,
2004.
Supports en ligne
Econométrie - Régression linéaire simple et multiple, R. Rakotomalala
http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf
Pratique de la régression linéaire multiple - Diagnostic et Sélection de
variables, R. Rakotomalala
http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf
Régression linéaire, A. Guyader
http:
//www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf
100 / 100
Annexe 1 - Système aux équations normales
min S(β0 , β1 ) = min
n
∑
2
(yi − (β1 xi + β0 ))
i=1
n
∑
[ 2
]
= min
yi − 2xi yi β1 − 2yi β0 + β12 xi2 + 2β0 β1 xi + β02
i=1
S(β0 , β1 ) est strictement convexe donc elle admet un minimum au point unique
(b0 , b1 ) déterminé en annulant les dérivées partielles de S :
∑
∂S(β0 , β1 )
=0⇒
−2yi + 2b1 xi + 2b0 = 0
∂β0
i=1
(1)
∑
∂S(β0 , β1 )
=0⇒
−2xi yi + 2b1 xi2 + 2b0 xi = 0
∂β1
i=1
(2)
n
n
1 / 11
De (1) on déduit que
∑n
b0 =
i=1 yi
− b1
n
∑n
i=1 xi
= ȳ − b1 x̄
(3)
De (2) on déduit que
b1
n
∑
xi2 + b0
i=1
n
∑
xi =
i=1
n
∑
xi yi
(4)
i=1
En utilisant (3) nous obtenons
b1
n
∑
i=1
xi2 + (ȳ − b1 x̄ )
n
∑
xi =
i=1
n
∑
(5)
xi yi
i=1
2 / 11
En divisant par n les deux termes :
b1
n
n
1∑ 2
1∑
xi + (ȳ − b1 x̄ )x̄ =
xi yi
n i=1
n i=1
[
b1
(6)
]
n
n
1∑ 2
1∑
2
xi − x̄ =
xi yi − x̄ ȳ
n i=1
n i=1
(7)
sxy
sx2
(8)
b1 =
Retour
3 / 11
Annexe 2 - RLM : MCO
Observons que ||ϵ||2 = ||Y − Xβ||2 . Aussi
T
||ϵ||2 = (Y − Xβ) (Y − Xβ) = YT Y − YT Xβ − β T XT Y + β T XT Xβ.
Or comme la transposée d’un scalaire est égale à lui-même :
( T
)T
Y Xβ = β T XT Y,
nous avons donc
S(β0 , . . . , βp ) = ||ϵ||2 = YT Y − 2β T XT Y + β T XT Xβ
Minimiser la fonction S revient à annuler les dérivées différentielles par rapport à
β. L’annulation de la dérivation matricielle nous donne
(
)
(
)
∂S
= −2 XT Y + 2 XT X b = 0
∂β
4 / 11
Annexe 2 - RLM : MCO
Aussi
(
)
(
)
XT X b = XT Y .
(
)
Or rg(X) = p et p ≤ n donc XT X est inversible. Aussi
(
)−1 ( T )
X Y
b = XT X
Retour
5 / 11
Annexe 3 - RLM : moments des estimateurs
Espérance
[(
)−1 T ] ( T )−1 T
E[B] = E XT X
X Y = X X
X E[Y]
(
)−1 T
E[B] = XT X
X E[X.β + ϵ] = β
Variance
[(
)−1 T ]
(
)−1
(
)−1 T
XT X
X Y = X XT X
V[Y] XT X
X
( T )−1
( T )−1 T
(
)
−1
V[B] = X X X
V[ϵ] X X
X = σ 2 XT X
V[B] = V
Retour
6 / 11
Annexe 4 - F partiel de Fisher
L’égalité
(
F =
Bj
σ
bBJ
)2
∼ F1,n−p−1
se base sur un cas particulier du test de nullité d’un bloc de q coefficients.
{
H0 : Y = β0 + β1 X1 + . . . + βj Xj + βj+q+1 Xj+q+1 + . . . + βp Xp + ϵ
H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ
{
H0 : Modèle sans les q variables (modèle restreint)
H1 : Modèle complet
Posons
2
: Coefficient de détermination du modèle restreint (H0 )
R(0)
2
: Coefficient de détermination du modèle complet (H1 )
R(1)
7 / 11
Notons F la statistique de test associée. On montre que sous H0 ,
(
)
2
2
R(1)
− R(0)
/q
)
∼ Fq,n−p−1
F =(
2
1 − R(1)
/(n − p − 1)
Autre interprétation : si l’accroissement
(
)
2
2
R(1)
− R(0)
>
q
fq,n−p−1
n−p−1
alors la place des q variables dans le modèle est justifiée.
8 / 11
Cas particulier quand q = 1
On veut tester la nullité d’un coefficient βj
{
H0 : Y = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp + ϵ
H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ
{
H0 : Modèle sans Xj (modèle restreint)
H1 : Modèle complet
Posons
2
: Coefficient de détermination du modèle restreint (H0 )
R(0)
2
: Coefficient de détermination du modèle complet (H1 )
R(1)
9 / 11
Notons F la statistique de test associée. On montre que sous H0 ,
(
)
2
2
R(1)
− R(0)
/1
)
F =(
∼ F1,n−p−1
2
1 − R(1)
/(n − p − 1)
Or
T =
Bj
∼ Tn−p−1
σ
bBJ
Donc
(
F = T2 =
Bj
σ
bBJ
)2
Remarque : test de la significativité du coefficient et son apport au R 2 .
10 / 11
Autre interprétation : si l’accroissement
(
)
2
2
R(1)
− R(0)
>
1
f1,n−p−1
n−p−1
alors la place de Xj dans le modèle est justifiée.
Note : Tests de type III sous SAS.
Retour
11 / 11

Régression linéaire multiple

Transcription

Documents pareils

Sté MIRKENTA sarl BP.29 ZI 1 chemin de la Sablière 91430 Igny Tél.

Intitulé du cours ECONOMETRIE Code du cours QANT1324 Type

Développement psychomoteur

« Madame, couvrez ce sein que je ne saurais voir !» La négociation

VANDA LOURENÇO, Faculdade de Ciências e Tecnologia da

Calcul des paramètres statistiques, régression

Données Société Documents à joindre au dossier

PlugIn Activation Transfer (Multiple) - D-Mute

Cours - UPMC