Régression linéaire multiple

Transcription

Régression linéaire multiple
Régression linéaire multiple
Michaël Genin
Université de Lille 2
EA 2694 - Santé Publique : Epidémiologie et Qualité des soins
[email protected]
DU Biostatistiques appliquées à la recherche clinique et à l’épidémiologie
Plan
1
Introduction à l’étude de deux variables quantitatives
2
Coefficient de corrélation (Rappels)
3
Régression linéaire simple (Rappels)
4
Régression linéaire multiple
5
Références
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
1 / 100
Introduction à l’étude de deux variables quantitatives
Introduction
Croisement de deux variables quantitatives
âge et fréquence cardiaque
Consommation et poids d’un véhicule
Capacité d’épargne et revenus
Etude du lien entre ces deux variables
Représentation graphique
Indicateur statistique (Coefficient de corrélation)
Modèle de prédiction (Régression linéaire)
Notations
On considère n individus sur lesquels on mesure X et Y deux variables
quantitatives.
Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi )
qui représente les valeurs prises par X et Y pour l’individu i.
Remarque : les slides suivantes sont uniquement des rappels sur les principes de
corrélation et de régression linéaire simple et ne constituent en aucun cas un
cours !
→ Lien cours complet ←
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
3 / 100
Introduction à l’étude de deux variables quantitatives
1ère étape
Représentation graphique
Graphique pour représenter deux variables quantitatives ⇒ nuage de points
1ère étape de toute analyse de liaison : apprécier la forme de la relation entre les
deux variables
−500
●
●
●
● ●
−2000
●
●
●
● ●● ● ●
●
● ●
●
●
●
●
●
0
20
40
X
liaison linéaire
Michaël Genin (Université de Lille 2)
60
●
●
●
●
0
●
●
●
●
●
●●
●
●
●●
●
●
●
●●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●
●
●●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●
●
●
● ● ●
● ●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
−2
●
●
●
●
●
●
● ●●
●●
●
−3000
−20
●
●
●
●
●
−50
−40
●●
●
●
●
●
●
●●
●
−60
●
●
●
●
●
●
●
●
●
● ●●
●
●
●
●
●
●
●
● ●
●● ●
●
●
●
●
●
●
● ● ● ●
●●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●●
●
● ●
●
●
●
●
●●
●
Y
●
●
●
●
●
●
●
●
●
●
●
●
●
−1
●
●●
●
●● ●
−1500
Y
−1000
●
●
●
●
1
● ●
●
●
●
●
●● ●●
●
●
●
●
● ●
●
●● ● ●
●
●
●
●
●
●●
●
●●
●
●
●●
●
●
●
●
●
−2500
0
Y
50
● ●
●●
●●
●
●● ● ● ●
●
● ● ● ●
●
●
● ●●
● ●
●● ●
● ●
● ● ●● ●●
● ●
●
●
●
● ● ●●●
●
●● ●●
● ●● ●
●●
● ●●● ●
●
●
●
● ●● ●● ●●
●
●
●● ●●
●● ●
●
●
●●
●
● ●● ●
●● ●
●●●
● ●●
●● ● ●
● ● ● ● ● ●●
● ●
●
●
● ● ●●
●● ●
●● ●
● ●
●
● ●
● ●
●
●
● ●● ●
●●
● ●●
●
●
●
●
●
●●
● ●
● ● ●
● ●
●
● ●
● ●●
● ●
●● ● ●●
●
●●●
●●●● ●●●●●●
●●●● ● ● ● ● ●
● ●● ●●
●● ●
● ●● ●
● ●● ●
● ●●
●
●
●●
● ● ● ●●
●
●
●●
●●●
●
● ● ●
● ●
●
●
●● ●
●● ●
●●
●●
2
0
●
● ●●
● ●●●
● ●
●
●●●
● ●●
●●●●
●●●●
● ●
●
●
−3
●
−60
−40
−20
0
20
40
60
X
liaison polynomiale
Régression linéaire multiple
−40
−20
0
20
40
X
pas de liaison
Version - 17 mars 2016
4 / 100
Coefficient de corrélation (Rappels)
Définition
Coefficient de corrélation linéaire
Coefficient de corrélation théorique
ρXY =
σXY
∈ [−1; 1]
σX σY
Coefficient de corrélation de Bravais-Pearson
ρ est estimé par
r=
Michaël Genin (Université de Lille 2)
∑n
(xi − x̄ )(yi − ȳ )
sxy
= √∑ i=1
∑n
n
sx sy
2
2
i=1 (xi − x̄ )
i=1 (yi − ȳ )
Régression linéaire multiple
Version - 17 mars 2016
7 / 100
Coefficient de corrélation (Rappels)
Test du coefficient de corrélation
Test de la significativité de ρ
Principe du test : Test de la nullité du coefficient de corrélation.
Si ρ = 0 alors il n’y a pas de liaison linéaire entre X et Y
Si ρ ̸= 0 alors il existe une relation linéaire entre X et Y
Condition d’application : X ∼ N (µ1 , σ1 ) et Y ∼ N (µ2 , σ2 )
En pratique : Vérification de X et Y "a peu près normales" (symétrique) car test
robuste (n grand)
Hypothèses du test
{
H0 : ρ = 0
H1 : ρ ̸= 0
Statistique de test
Sous H0 ,
√
R n−2
T = √
∼ Tn−2
1 − R2
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
ddl
Version - 17 mars 2016
9 / 100
Coefficient de corrélation (Rappels)
Conclusions
Conclusions
Le coefficient de corrélation permet de mesurer le lien linéaire entre deux
variables quantitatives X et Y .
On peut également cherche à modéliser le lien entre X et Y afin de réaliser
des prédictions :
Exprimer Y en fonction de X
Ex : Prédire la FCM d’un patient en ne connaissant que son âge
Le coefficient de corrélation n’est pas suffisant
Recours à la régression linéaire :
Y = β1 X + β0 + ϵ
Où Y est la variable à expliquer et X la variable explicative
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
11 / 100
Régression linéaire simple (Rappels)
Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X est un caractère contrôlé (caractère explicatif)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xi est la valeur fixée pour l’individu i
Objectif : Exprimer le lien entre Y et X .
Y = f (X ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire
Régression linéaire simple
1
Modèle de régression
2
Droite de régression au sens des moindres carrés
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
13 / 100
Régression linéaire simple (Rappels)
Modèle de régression linéaire simple
Modèle de régression linéaire
∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que
Yi = β1 xi + β0 + ϵi
Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 : coefficients du modèle, constantes (valeurs fixes dans la population).
Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendante de X → Cov(xi , ϵi ) = 0
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
15 / 100
Régression linéaire simple (Rappels)
Méthode des moindres carrés ordinaires
Droite de régression au sens des moindres carrés
Objectif : estimer β0 et β1 grâce à leur estimateurs B0 et B1 et leur réalisations b0
et b1 sur un échantillon d’observations i.i.d. de taille n.
Trouver b0 et b1 qui minimisent un critère d’ajustement.
⇒ Méthode des moindres carrés ordinaires
S(β0 , β1 ) =
n
n
∑
∑
2
(ei )2 =
(yi − (β1 xi + β0 ))
i=1
i=1
→ min S(β0 , β1 )
Dérivées partielles → Systèmes aux équations normales
Solutions :
b1 =
sxy
et b0 = ȳ − b1 x̄
sx2
Détails
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
17 / 100
Régression linéaire simple (Rappels)
Méthode des moindres carrés ordinaires
Droite de régression au sens des moindres carrés
La droite de régression au sens des moindres carrés a pour expression :
ybi = b1 xi + b0
C’est une estimation du modèle de régression par la méthode des moindres carrés.
Les erreurs observées sur l’échantillon sont appelés résidus.
ei = (yi − ybi ) = yi − b1 xi − b0
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
18 / 100
Régression linéaire simple (Rappels)
Qualité de l’ajustement
Qualité de l’ajustement
Equation d’analyse de la variance
yi − ȳ = (b
yi − ȳ ) + (yi − ybi )
(yi − ȳ )2 = (b
yi − ȳ )2 + (yi − ybi )2
n
n
n
∑
∑
∑
(yi − ȳ )2 =
(b
yi − ȳ )2 +
(yi − ybi )2
i=1
n
∑
(yi − ȳ )2
i=1
|
{z
}
Somme des carrés
totale
SCT
Michaël Genin (Université de Lille 2)
i=1
=
n
∑
(b
yi − ȳ )2
i=1
|
{z
}
Somme des carrés
expliquée
SCE
Régression linéaire multiple
i=1
+
n
∑
(yi − ybi )2
i=1
|
{z
}
Somme des carrés
résiduelle
SCR
Version - 17 mars 2016
20 / 100
Régression linéaire simple (Rappels)
Qualité de l’ajustement
Qualité de l’ajustement
Evaluation de la qualité d’ajustement du modèle
⇒ Coefficient de détermination
R2 =
SCE
∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire.
Remarque importante : le carré du coefficient de corrélation linéaire est égal au
coefficient de détermination :
r 2 = R2
Conséquence : deux tests statistiques équivalents pour évaluer la liaison linéaire
entre X et Y .
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
21 / 100
Régression linéaire simple (Rappels)
Validité du modèle
Etude de la validité du modèle
Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs
Vérifier la normalité des résidus observés (Droite de Henry)
Vérifier que les résidus ne contiennent pas d’information structurée
(V[ϵ] = σ 2 )
Les résidus ne dépendent pas de X (Graphiques)
Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont
mutuellement indépendantes) (Test de Durbin Watson)
→ Ces hypothèses vont permettre par la suite de réaliser des tests dans le
modèle linéaire.
Observations aberrantes / influentes
Valeur aberrante de x (Descriptif univarié)
Observation i mal reconstituée par la régression → (ei élevé) (résidus
studentisés)
Observation i présentant un poids exagéré dans la régression (prédiction /
coefficients) (distance de Cook)
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
23 / 100
Régression linéaire simple (Rappels)
Validité du modèle
Conclusion sur l’étude de la validité du modèle
Etape très importante !!
1
2
3
4
Descriptif univarié
Estimation des coefficients du modèle
Vérification des hypothèses sur les erreurs
Détection d’observations influentes
Si OUI : Correction ou suppression
Nouvelle estimation des coefficients
Après ces étapes : Inférence statistique
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
24 / 100
Régression linéaire simple (Rappels)
Inférence statistique
Evaluation globale de la régression
Tableau d’analyse de variance - Test de significativité globale
R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la
régression de Y par X traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA
Source de variation
Somme des carrés
DDL
(yi − ŷi )
1
n−2
(yi − ȳ )2
n−1
∑
SCE = ∑ i (ŷi − ȳ )2
2
Expliquée
Résiduelle
SCR =
Totale
SCT =
i
∑
i
Carrés moyens
CME =
CMR =
SCE
1
SCR
n−2
-
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl
SCE par déduction : (n − 1) − (n − 2) = 1 ddl
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
26 / 100
Régression linéaire simple (Rappels)
Inférence statistique
Evaluation globale de la régression
Tableau d’analyse de variance - Test de significativité globale
Le test F permet d’évaluer la significativité globale de la régression.
{
H0 : La variabilité expliquée est identique à la variabilité résiduelle
H1 : La variabilité expliquée est supérieure à la variabilité résiduelle
Sous H0
F =
Interprétation :
CME
∼ F1,n−2 ddl
CMR
{
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
27 / 100
Régression linéaire simple (Rappels)
Inférence statistique
Evaluation des coefficients - β1
Test de significativité de β1
Idée : tester la nullité de β1 .
{
H0 : β1 = 0 "X n’a aucun pouvoir explicatif sur Y"
H1 : β1 ̸= 0 "X a un pouvoir explicatif sur Y"
Nous savons que
B1 −β1
b
σB1
∼ Tn−2 , par conséquent sous H0
B1
∼ Tn−2
σ
bB1
Intervalle de confiance de β1

IC
1−α
β1
Michaël Genin (Université de Lille 2)

= b1 ± t(1−α/2;n−2) √∑
Régression linéaire multiple
sn−2
n
i=1 (xi

− x̄ )2
Version - 17 mars 2016
28 / 100
Régression linéaire simple (Rappels)
Inférence statistique
Evaluation des coefficients - β1
Dans le cas d’une régression linéaire simple de type :
Y = β1 X + β0 + ϵ
Tester la significativité globale du modèle
≡
Tester la significativité de β1
≡
Tester la significativité de ρ
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
29 / 100
Régression linéaire simple (Rappels)
Inférence statistique
Evaluation des coefficients - β1
Lien entre test et intervalle de confiance
1−α
ICθ
= {θ0 /H0 = {θ = θ0 } est accepté au niveau de confiance 1 − α}
Conséquences : pour tester H0 : β1 = 0 au risque α, on peut simplement vérifier
si 0 appartient ou non à l’intervalle de confiance :
Si 0 ∈ IC alors on conserve H0
Si 0 ∈
/ IC alors on rejette H0
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
30 / 100
Régression linéaire simple (Rappels)
Inférence statistique
Evaluation des coefficients - β0
Test de significativité de β0
Idée : tester la nullité de β0 .
{
H0 : β0 = 0 "L’ordonnée à l’origine n’est pas significative"
H1 : β0 ̸= 0 "L’ordonnée à l’origine est significative"
Nous savons que
B0 −β0
b
σB0
∼ Tn−2 , par conséquent sous H0
B0
∼ Tn−2
σ
bB0
Intervalle de confiance de β0
√
[
1−α
β0
IC
= b0 ± t(1−α/2;n−2) sn−2
Michaël Genin (Université de Lille 2)
x̄ 2
1
+ ∑n
2
n
i=1 (xi − x̄ )
Régression linéaire multiple
]
Version - 17 mars 2016
31 / 100
Régression linéaire simple (Rappels)
Prédiction
Intervalle de prédiction d’une observation
Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la
valeur de yn+1 pour une observation xn+1 n’appartenant pas à l’échantillon :
ybn+1 = b1 xn+1 + b0
Or ybn+1 n’est qu’une estimation de la "vraie droite de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
1−α
IC
yn+1
√
[
= ybn+1 ± t(1−α/2;n−2) sn−2
Michaël Genin (Université de Lille 2)
1
(xn+1 − x̄ )2
1 + + ∑n
2
n
i=1 (xi − x̄ )
Régression linéaire multiple
]
Version - 17 mars 2016
33 / 100
Régression linéaire simple (Rappels)
Prédiction
Intervalle de prédiction d’une observation
1−α
IC
yn+1
√
[
= ybn+1 ± t(1−α/2;n−2) sn−2
1
(xn+1 − x̄ )2
1 + + ∑n
2
n
i=1 (xi − x̄ )
]
Quelques remarques
La taille du rayon de l’intervalle de confiance sera d’autant plus faible que
2
sn−2
est faible → la régression est de bonne qualité
n est élevé
2
x∑
n+1 est proche de x̄ ↔ (xn+1 − x̄ ) est faible
n
2
(x
−
x̄
)
est
élevé
→
les
x
sont
bien dispersés
i
i
i=1
Attention : utiliser des valeurs de x qui sont dans le cadre d’étude
(relativement proches de x̄ pour obtenir de bonnes prédictions.
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
34 / 100
Régression linéaire simple (Rappels)
Mise en évidence d’un problème
Mise en évidence d’un problème
Vente de CD et cas de grippe H1N1 en 2009
Région
Nb cas de grippe H1N1
Nb ventes CD M.J.
Région 1
Région 2
.
.
Région n
.
.
.
.
.
.
.
.
.
.
Il existe une liaison linéaire significative . . .
Test de ρ : p < 1.10−4 , Test de β1 : p < 1.10−4
. . . mais pas de relation de cause à effet !
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
36 / 100
Régression linéaire simple (Rappels)
Mise en évidence d’un problème
Mise en évidence d’un problème
Existence de Facteurs de confusion (ici : la période de temps)
Exemple : vente de CD de MJ les plus fortes en automne alors
{
↗ ventes
Pour la même période :
↗ cas de grippes
Temps
Grippe
Ventes
Figure : Diagramme de corrélation
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
37 / 100
Régression linéaire simple (Rappels)
Mise en évidence d’un problème
Mise en évidence d’un problème
Nécessité de pouvoir ajuster sur des facteurs de confusion
Dans de nombreuses situations, plusieurs facteurs peuvent expliquer un
caractère
Y = f (X1 , X2 , . . . , Xp )
Régression linéaire multiple
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
38 / 100
Régression linéaire multiple
Cadre d’étude
Y est un caractère non contrôlé (caractère expliqué)
X1 , X2 , . . . Xp sont des caractères contrôlés (caractères explicatifs)
Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n}
yi est la valeur observée pour l’individu i
xij est la valeur fixée pour l’individu i et la variable j, j ∈ {1, 2, . . . , p}
Objectif : Exprimer le lien entre Y et les Xj .
Y = f (X1 , X2 , . . . , Xp ) + ϵ
Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire
Régression linéaire multiple
1
Modèle de régression
2
Hyperplan de régression au sens des moindres carrés
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
40 / 100
Régression linéaire multiple
Exemple : Données véhicules
n = 31 véhicules pour lesquels on dispose de
Consommation (L/100Km)
Prix (Fr.)
Cylindrée (cm3)
Puissance (KW)
Poids (Kg)
Objectif : prédire la consommation (Y ) en fonction des différents paramètres.
Modèle de régression à estimer
Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ϵ
Modèle estimé sur un échantillon (hyperplan de régression)
\ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids
Conso
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
41 / 100
Régression linéaire multiple
Modèle de régression linéaire multiple
Modèle de régression linéaire multiple
∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que
Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip + ϵi = β0 +
p
∑
βj xij + ϵi
j=1
Avec
ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée
par le lien fonctionnel linéaire)
β0 , β1 , . . . , βp : coefficients du modèle, constantes (valeurs fixes dans la
population).
Hypothèses du modèle
E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité)
L’erreur est indépendantes des Xj → COV(xij , ϵi ) = 0
ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle
Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence
d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j.
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
43 / 100
Régression linéaire multiple
Modèle de régression linéaire multiple
Ecriture du modèle
Sur un échantillon de n observations i.i.d. :
Y1
Y2
= β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1
= β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2
..
.
Yn
= β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn
Ecriture matricielle



Y1



Y =  ... β = 
Yn

β0
.. 
. 
βp
Y=
n×1
Michaël Genin (Université de Lille 2)

1
 ..
X= .
1
X.
n × (p + 1)
x11
..
.
x12
..
.
xn1
xn2
β
(p + 1) × 1
Régression linéaire multiple
···
..
.
···


x1p
.. ϵ = 

. 
xnp

ϵ1
.. 
. 
ϵn
+ϵ
n×1
Version - 17 mars 2016
44 / 100
Régression linéaire multiple
Méthode des moindres carrés ordinaires
Hyperplan de régression au sens des moindres carrés
Objectif : estimer β0 , β1 , . . . , βp grâce à leur estimateurs B0 , B1 , B2 , . . . , Bp et
leur réalisations b0 , b1 , b2 , . . . , bp sur un échantillon d’observations i.i.d. de taille
n.






β0
B0
b0






β =  ...  B =  ...  b =  ... 
βp
Bp
bp
Trouver b qui minimisent l’erreur :
(
)2
p
n
n
∑
∑
∑
S(β0 , . . . , βp ) =
(ϵi )2 =
yi − β0 −
βj xij
= ||ϵ||2
i=1
i=1
j=1
(
)−1 T
Solution : b = XT X
X Y
Remarque : B est appelé estimateur des moindres carrés de β.
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Détails
Version - 17 mars 2016
46 / 100
Régression linéaire multiple
Méthode des moindres carrés ordinaires
Hyperplan de régression au sens des moindres carrés
L’ hyperplan de régression au sens des moindres carrés a pour expression :
ybi = b0 +
p
∑
bj xij
j=1
C’est une estimation du modèle de régression multiple par la méthode des
moindres carrés.
Les erreurs observées sur l’échantillon sont appelés résidus.
ei = (yi − ybi ) = yi − b0 −
p
∑
bj xij
j=1
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
47 / 100
Régression linéaire multiple
Méthode des moindres carrés ordinaires
Exemple : Données véhicules
Modèle de régression à estimer
Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + β0 + ϵ
Modèle estimé sur un échantillon (hyperplan de régression)
\ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids + b0
Conso
Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix
2.042e-05 8.731e-06
Cylindree
-5.006e-04 5.748e-04
Puissance
2.499e-02 9.992e-03
Poids
4.161e-03 8.788e-04
Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
48 / 100
Régression linéaire multiple
Méthode des moindres carrés ordinaires
Propriétés des estimateurs - Moments (1)
E[B] = β estimateur sans biais
(
)−1
V[B] = σ 2 XT X
Détails
V[B](p+1)×(p+1) est appelée matrice de variances - covariances des coefficients :

 2
σ
bB0 COV (B0 , B1 ) . . . COV (B0 , Bp )
 ·
σ
bB2 1
. . . COV (B1 , Bp ) 



 ..

 .
·
...
·
·
Michaël Genin (Université de Lille 2)
·
...
Régression linéaire multiple
σ
bB2 p
Version - 17 mars 2016
49 / 100
Régression linéaire multiple
Méthode des moindres carrés ordinaires
Propriétés des estimateurs - Moments (2)
La matrice de variances - covariances V[B] fait intervenir la variance de l’erreur
σ2 .
Cette variance est inconnue
2
Elle est estimée par Sn−p−1
au moyen du tableau d’ANOVA.
On montre que
2
Sn−p−1
∑n
2
(Ei )
SCR
=
= i=1
n−p−1
n−p−1
est un estimateur non biaisé de σ 2 .
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
50 / 100
Régression linéaire multiple
Méthode des moindres carrés ordinaires
Propriétés des estimateurs - Distributions d’échantillonnage
De par les hypothèses du modèle et l’estimation de σ 2 , on montre que
∀j ∈ {0, 1, . . . , p}
Bj − βj
∼ Tn−p−1 d.d.l.
σ
bBj
avec σ
bBj tiré de la matrice de variances-covariances.
Ces distributions vont nous permettre de réaliser une inférence statistique sur les
coefficients (tests de nullité et intervalles de confiance).
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
51 / 100
Régression linéaire multiple
Qualité de l’ajustement
Qualité de l’ajustement
Equation d’analyse de la variance
yi − ȳ = (b
yi − ȳ ) + (yi − ybi )
(yi − ȳ )2 = (b
yi − ȳ )2 + (yi − ybi )2
n
n
n
∑
∑
∑
(yi − ȳ )2 =
(b
yi − ȳ )2 +
(yi − ybi )2
i=1
n
∑
(yi − ȳ )2
i=1
|
{z
}
Somme des carrés
totale
SCT
Michaël Genin (Université de Lille 2)
i=1
=
n
∑
(b
yi − ȳ )2
i=1
|
{z
}
Somme des carrés
expliquée
SCE
Régression linéaire multiple
i=1
+
n
∑
(yi − ybi )2
i=1
|
{z
}
Somme des carrés
résiduelle
SCR
Version - 17 mars 2016
53 / 100
Régression linéaire multiple
Qualité de l’ajustement
Qualité de l’ajustement
Evaluation de la qualité d’ajustement du modèle
⇒ Coefficient de détermination
R2 =
SCE
∈ [0, 1]
SCT
Interprétation : Part de variabilité de Y expliquée par le modèle de régression
linéaire multiple.
Remarque importante : R 2 est fonction du nombre variables explicatives dans le
modèle (même non pertinentes)
p ↗ → R2 ↗
Aussi : tests de significativité des coefficients, sélection de variables (modèle
parcimonieux)
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
54 / 100
Régression linéaire multiple
Qualité de l’ajustement
Exemple : Données véhicules
Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
Coefficients:
Estimate Std. Error
(Intercept) 2.456e+00 6.268e-01
Prix
2.042e-05 8.731e-06
Cylindree
-5.006e-04 5.748e-04
Puissance
2.499e-02 9.992e-03
Poids
4.161e-03 8.788e-04
Multiple R-squared:
0.9546
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
55 / 100
Régression linéaire multiple
Validité du modèle
Etude de la validité du modèle
Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs
Vérifier la normalité des résidus observés
Vérifier que les résidus ne contiennent pas d’information structurée
(V[ϵ] = σ 2 )
Les résidus ne dépendent pas des Xj
Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont
mutuellement indépendantes)
→ Ces hypothèses vont permettre par la suite de réaliser des tests dans le
modèle linéaire.
Observations aberrantes / influentes
Valeur aberrante d’une observation (diagnostic univarié, multivarié)
Observation i mal reconstituée par la régression → (ei élevé)
Observation i présentant un poids exagéré dans la régression (prédiction /
coefficients)
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
57 / 100
Régression linéaire multiple
Validité du modèle
Etude des résidus
Vérification de la normalité des résidus
histogramme ⇒ la distribution doit être unimodale et symétrique autour de 0.
Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peu
puissants (peu aptes à rejeter H0 )
Droite de Henry ⇒ confronte les quantiles théoriques de la loi normale et la
distribution cumulée estimée sur les données
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
58 / 100
Régression linéaire multiple
Validité du modèle
Etude des
des résidus
résidus
Etude
Vérification de l’homoscédasticité des résidus
Vérification de l’homoscédasticité des résidus
Les résidus sont homoscédastiques si leur répartition est homogène
Les résidus
sont ditspas
homoscédastiques
dispersion
est homogène
et ne
et ne dépend
des valeurs desilaleur
variable
explicative
(et donc
pas
dépend pas des valeurs de la variable explicative xj (et donc pas non plus des
non plus des valeurs prédites).
valeurs prédites).
On vérifie que les résidus n’ont pas de structure particulière en
On vérifie que les résidus n’ont pas de structure particulière en traçant un graphe
traçant: un graphe des résidus :
des résidus
Residus correles
4
Residus non correles
●
●
●
2
●
0
Residus
●●
● ●
●
● ●
−2
●
●● ●
●
●
●
●
●
●
●
●
●●
●
●
● ● ●
●
●
●
●
● ●
●● ●
●
●
●
●● ●
●
● ●
●● ●
●
●
● ●
●
●
●
●
●
● ●●
●
●
●●
● ●
●
●● ● ●
●●
●
●●
●
●
● ●●
●●
●● ●
●
●●
●
●
● ●
●
● ●
●
● ●●●
●
●
●
● ●●● ●
●
●●
●
●
●
●
● ●
●
● ●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●
●
●
●
●
1
●
●●
●●●
●●
●
● ●
●
●●
●
●
●
●
●
●●
●
●
●
●
●
●
●●●
●
●
●
●●
●
0
●
●
●
●
●
●
●
●
●
● ●
● ●
●●
● ●
●
●
● ●●
●
●●
●
●
●
●
●
●●
●
●●●
●● ●● ● ●
●● ● ● ●
●● ● ●
● ●● ●
●
●
●●
●
● ●
●
●
●
●
●
●● ● ●
●
●
●
●
● ●
●
●
●
●●
●
●
●
● ● ●●
●● ●
●
●
●
●● ●
●
●
●
●
●
●
●
●
●●
●●
●
●
●
●
●● ●
● ●●
●
●●● ●
●
●
● ●
● ●
● ●
●
●
●
●
●
●
●● ● ●
●
●
●
● ●
● ●●
●
●
●
●
●●
●
●
●
●
●
●●
●
●●
●
●●
●
●
●●
●
●●
●
Residus
2
●●
●
●
●
−1
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
−2
−4
●
−40
−20
0
20
●
40
X
Michaël Genin (Université de Lille 2)
●
−40
−20
0
20
40
X
Régression linéaire multiple
Version - 17 mars 2016
59 / 100
Régression linéaire multiple
Validité du modèle
Etude des résidus
On peut localiser des points du nuage mal expliqués par la relation linéaire en
traçant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1
on peut considérer ces points, si ils ne sont pas trop nombreux, comme des
points exceptionnels, les éliminer et recalculer b1 et b0 .
on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindres
2
carrés pondérés (fonction de l’écart |y − ŷ |/2sn−p−1
). Méthode plus robuste
si il y a beaucoup de points mal expliqués (en dehors de la bande), c’est que
le modèle est mal choisi.
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
60 / 100
Régression linéaire multiple
Validité du modèle
Etude des résidus
6
graphe des residus
4
●
●
2
●
●
0
●
●
−2
residus
●
●
●
●
−4
●
●
−6
●
25
30
35
40
45
50
55
age
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
61 / 100
Régression linéaire multiple
Validité du modèle
Etude des résidus
Vérification de l’indépendance entre les résidus
Test de Durbin Watson
{
H0 : il n’y a pas de corrélation entre ϵi et ϵi−1
H1 : il y a une corrélation entre ϵi et ϵi−1
∑n
(ei − ei−1 )2
i=2∑
n
2
i=1 ei
d=
La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pas
d’autocorrélation.
La loi de d est tabulée : DL et DU bornes au risque α.
0
DL
AC
Positive
Rejet H0
Michaël Genin (Université de Lille 2)
DU
?
2
4-DU
Pas d’AC
Non Rejet de
H0
4-DL
?
Régression linéaire multiple
4
AC
Négative
Rejet H0
Version - 17 mars 2016
62 / 100
Régression linéaire multiple
Validité du modèle
Observations aberrantes / influentes
Valeur aberrante de xj (Univarié) → Boxplot
Effet important sur l’estimation de l’hyperplan de régression
10
20
30
40
50
Mauvais ajustement aux données
Solution : descriptif univarié → boxplot
●
Problème : Ne prend pas en compte les interactions possibles entre les Xj .
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
63 / 100
Régression linéaire multiple
Validité du modèle
Observations aberrantes / influentes
Valeur aberrante (Multivarié) → Levier
Principe : Pour une observation i, mesure la distance avec le centre de gravité du
nuage défini par les Xj , j ∈ {1, , . . . , p}
Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) :
(
)−1 T
H = X XT X
X
En pratique
(
)−1 T
hii = hi = xi XT X
xi
avec xi la ième ligne de la matrice X.
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
64 / 100
Régression linéaire multiple
Validité du modèle
Observations aberrantes / influentes
Valeur aberrante (Multivarié) → Levier
Règle de décision
R.C . : hi > 2 ×
p+1
n
Permet de détecter des observations aberrantes / influentes d’un point de vue
multivarié
Effet néfaste sur l’estimation des βj par les MCO
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
65 / 100
Régression linéaire multiple
Validité du modèle
Exemple : Données véhicules
1. Levier Seuil : 2(p + 1)/n = 2(4 + 1)/31 = 0.32.
Maserati.Ghibli.GT
Mercedes.S.600
0.4
Levier
0.6
0.8
Ferrari.456.GT
Toyota.Previa.salon
0.2
Hyundai.Sonata.3000
Seat.Alhambra.2.0
Lancia.K.3.0.LS Peugeot.806.2.0
Subaru.Vivio.4WD
Daihatsu.Cuore
Opel.Omega.2.5i.V6
Mazda.Hachtback.V
Mitsubishi.Galant
Fiat.Panda.Mambo.L
Seat.Ibiza.2.0.GTI
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Volvo.960.Kombi.aut
VW.Polo.1.4.60
Renault.Safrane.2.2..V
Citroen.ZX.Volcane
Ford.Fiesta.1.2.Zetec
Honda.Civic.Joker.1.4
Fort.Escort.1.4i.PT
Volvo.850.2.5
Toyota.Corolla Opel.Astra.1.6i.16V
Nissan.Primera.2.0
Peugeot.306.XS.108
VW.Golt.2.0.GTI
Fiat.Tempra.1.6.Liberty
0
5
10
15
20
25
30
Index
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500
2789
209 1485
14.5
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
66 / 100
Régression linéaire multiple
Validité du modèle
Exemple : Données véhicules
1. Levier Interprétation : 3 véhicules se démarquent. Raisons potentielles :
Grosses cylindrées luxueuses
Limousine (Mercedes)
Sportives (Ferrari et Maserati)
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500
2789
209 1485
14.5
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
67 / 100
Régression linéaire multiple
Validité du modèle
Observations aberrantes / influentes
Résidus studentisés internes
Idée : Mettre en évidence les observations dont le résidu ei est important Pour une
observation i, le résidu studentisé interne est défini par :
ti =
ei
√
sn−p−1 1 − hi
avec hi levier de l’observation i. On montre que
Ti ∼ T(n−p−1) .
D’où :
1−α/2
RC : |ti | > tn−p−1
Problème : L’observation évaluée a participé à la construction de la droite (Juge
et partie).
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
68 / 100
Régression linéaire multiple
Validité du modèle
Observations aberrantes / influentes
Résidus studentisés externes
Idée : Estimer le modèle sans l’observation i (−i) et comparer la valeur observée
de yi à celle prédite par le modèle (ŷi (−i) : prédiction pour une nouvelle
observation).
Pour une observation i, le résidu studentisé externe est défini par :
ti∗ =
yi − ŷi (−i)
√
sn−p−1 (−i) 1 − hi (−i)
On montre que
D’où :
Ti∗ ∼ T(n−p−1) .
RC : |ti∗ | > tn−p−1
1−α/2
√
Remarque :
ti∗
Michaël Genin (Université de Lille 2)
=
n−p−2
n − p − 1 − ti2
Régression linéaire multiple
Version - 17 mars 2016
69 / 100
Régression linéaire multiple
Validité du modèle
Observations aberrantes / influentes
Distance de Cook
Idée : Evaluer l’influence d’une observation i sur l’estimation des coefficients.
Comparaison des prédictions du modèle complet et du modèle sans l’observation i.
La distance de Cook pour une observation i est définie par
∑n
Di =
j=1 (yˆj
− yˆj (−i))2
2
(p + 1)sn−p−1
Règle de décision
RC : Di > 1
RC : Di >
4
n−p−1
(Ajustement sur le nombre de variables)
Si la différence entre les prédictions est élevée, l’observations i joue un rôle sur
l’estimation des coefficients.
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
70 / 100
Régression linéaire multiple
Validité du modèle
Exemple : données véhicules
2. Distance de Cook
Seuil : 4/(n − p − 1) = 4/(31 − 4 − 1) = 0.154
4
3
2
1
cooks.distance(fit)
5
Ferrari.456.GT
Mercedes.S.600
0
Hyundai.Sonata.3000
Mitsubishi.Galant
Toyota.Previa.salon
Opel.Omega.2.5i.V6
Seat.Ibiza.2.0.GTI
Opel.Astra.1.6i.16V
Maserati.Ghibli.GT
Fiat.Tempra.1.6.Liberty
Seat.Alhambra.2.0
Toyota.Corolla
Volvo.960.Kombi.aut
Peugeot.306.XS.108
Peugeot.806.2.0
Ford.Fiesta.1.2.Zetec
Renault.Safrane.2.2..V
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Subaru.Vivio.4WD
VW.Polo.1.4.60
Honda.Civic.Joker.1.4
Lancia.K.3.0.LS
Fort.Escort.1.4i.PT
Volvo.850.2.5
Mazda.Hachtback.V
VW.Golt.2.0.GTI
Nissan.Primera.2.0
Fiat.Panda.Mambo.L
Citroen.ZX.Volcane
Daihatsu.Cuore
0
5
10
15
20
25
30
Index
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990
2972
107 1400
11.7
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
71 / 100
Régression linéaire multiple
Validité du modèle
Observations aberrantes / influentes
DFBETAS
Idée : Si la distance de COOK a identifié une observation ayant une influence sur
l’estimation des coefficients, on peut aller plus loin pour déterminer quel
coefficient est affecté.
Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, le
DFBETAS est défini par :
DFBETASi,j =
bj − bj (−i)
√
−1
sn−p−1 (−i) (XT X)j
Règle de décision
2
RC : |DFBETASi,j | > √
n
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
72 / 100
Régression linéaire multiple
Validité du modèle
Exemple : données véhicules
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
2
1
0
dfbeta$Prix
3
Ferrari.456.GT
Mercedes.S.600
Toyota.Previa.salon
Seat.Alhambra.2.0
Lancia.K.3.0.LS
Subaru.Vivio.4WD Opel.Astra.1.6i.16V Citroen.ZX.Volcane
Fort.Escort.1.4i.PT
Nissan.Primera.2.0
Opel.Omega.2.5i.V6
Opel.Corsa.1.2i.Eco
Fiat.Tempra.1.6.Liberty
Fiat.Panda.Mambo.L
Renault.Safrane.2.2..V
Daihatsu.Cuore
Peugeot.806.2.0Volvo.960.Kombi.aut
Toyota.Corolla
Suzuki.Swift.1.0.GLS
Honda.Civic.Joker.1.4
Ford.Fiesta.1.2.Zetec
VW.Golt.2.0.GTI
Peugeot.306.XS.108
Volvo.850.2.5
VW.Polo.1.4.60
Mazda.Hachtback.V
Maserati.Ghibli.GT
Seat.Ibiza.2.0.GTI
Mitsubishi.Galant
Hyundai.Sonata.3000
0
5
10
15
20
25
30
Index
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990
2972
107 1400
11.7
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
73 / 100
Régression linéaire multiple
Validité du modèle
Exemple : données véhicules
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
0.5
0.0
Opel.Omega.2.5i.V6
Seat.Ibiza.2.0.GTI
Honda.Civic.Joker.1.4
Ford.Fiesta.1.2.Zetec
Volvo.850.2.5
Peugeot.306.XS.108
VW.Golt.2.0.GTI
Peugeot.806.2.0
Toyota.Corolla Opel.Astra.1.6i.16V
Fiat.Tempra.1.6.Liberty
Mazda.Hachtback.V
Opel.Corsa.1.2i.Eco
Suzuki.Swift.1.0.GLS
Fiat.Panda.Mambo.L
Daihatsu.Cuore
Nissan.Primera.2.0
Lancia.K.3.0.LS
Citroen.ZX.Volcane
Fort.Escort.1.4i.PT
Toyota.Previa.salon
VW.Polo.1.4.60
Renault.Safrane.2.2..V
Subaru.Vivio.4WD
Volvo.960.Kombi.aut
Seat.Alhambra.2.0
Maserati.Ghibli.GT
−0.5
Mitsubishi.Galant
Ferrari.456.GT
−1.0
dfbeta$Cylindree
1.0
Hyundai.Sonata.3000
Mercedes.S.600
0
5
10
15
20
25
30
Index
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990
2972
107 1400
11.7
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
74 / 100
Régression linéaire multiple
Validité du modèle
Exemple : données véhicules
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
0.5
Mitsubishi.Galant
0.0
VW.Polo.1.4.60
Subaru.Vivio.4WD
Toyota.Corolla
Suzuki.Swift.1.0.GLS
Daihatsu.Cuore
Fiat.Panda.Mambo.L
Opel.Corsa.1.2i.Eco
Volvo.960.Kombi.aut
Seat.Ibiza.2.0.GTI
Mazda.Hachtback.V
Renault.Safrane.2.2..V
Peugeot.806.2.0
Peugeot.306.XS.108
VW.Golt.2.0.GTI
Volvo.850.2.5
Citroen.ZX.Volcane
Nissan.Primera.2.0
Ford.Fiesta.1.2.Zetec
Fiat.Tempra.1.6.Liberty
Fort.Escort.1.4i.PT
Honda.Civic.Joker.1.4
Seat.Alhambra.2.0
Lancia.K.3.0.LS
Opel.Omega.2.5i.V6
Opel.Astra.1.6i.16V
Toyota.Previa.salon
−0.5
dfbeta$Puissance
Maserati.Ghibli.GT
Mercedes.S.600
Hyundai.Sonata.3000
Ferrari.456.GT
0
5
10
15
20
25
30
Index
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990
2972
107 1400
11.7
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
75 / 100
Régression linéaire multiple
Validité du modèle
Exemple : données véhicules
√
√
3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36|
Toyota.Previa.salon
0.4
Mercedes.S.600
0.2
0.0
Suzuki.Swift.1.0.GLS
VW.Polo.1.4.60
Opel.Astra.1.6i.16V
Daihatsu.Cuore
Toyota.Corolla
Maserati.Ghibli.GT
Opel.Corsa.1.2i.Eco
Subaru.Vivio.4WD
Fiat.Panda.Mambo.L
Volvo.960.Kombi.aut
Ford.Fiesta.1.2.Zetec
Fort.Escort.1.4i.PT
Citroen.ZX.Volcane
Lancia.K.3.0.LS
Nissan.Primera.2.0
Volvo.850.2.5
Fiat.Tempra.1.6.Liberty
Peugeot.806.2.0
Mazda.Hachtback.V
VW.Golt.2.0.GTI
Peugeot.306.XS.108
Honda.Civic.Joker.1.4
−0.6 −0.4 −0.2
dfbeta$Poids
Seat.Alhambra.2.0
Renault.Safrane.2.2..V
Mitsubishi.Galant
Seat.Ibiza.2.0.GTI
Ferrari.456.GT
Opel.Omega.2.5i.V6
Hyundai.Sonata.3000
0
5
10
15
20
25
30
Index
ID
Modele
Prix Cylindree Puissance Poids Consommation
Ferrari.456.GT
8
Ferrari.456.GT 285000
5474
325 1690
21.3
Mercedes.S.600
9
Mercedes.S.600 183900
5987
300 2250
18.7
Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990
2972
107 1400
11.7
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
76 / 100
Régression linéaire multiple
Inférence statistique
Evaluation globale de la régression
Tableau d’analyse de variance - Test de significativité globale
R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la
régression de Y par les Xj traduit-elle une relation qui existe vraiment dans la
population ?
Table : Tableau ANOVA
Source de variation
Somme des carrés
DDL
Carrés moyens
(yi − ŷi )
p
n−p−1
CME = CME
p
CMR
CMR = n−p−1
(yi − ȳ )2
n−1
-
∑
SCE = i (ŷi − ȳ )2
∑
2
Expliquée
Résiduelle
SCR =
Totale
SCT =
i
∑
i
Degrés de liberté :
SCT nécessite l’estimation ȳ → n − 1 ddl
SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl
SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
78 / 100
Régression linéaire multiple
Inférence statistique
Evaluation globale de la régression
Tableau d’analyse de variance - Test de significativité globale
Le test F permet d’évaluer la significativité globale de la régression.
{
H0 : β1 = β2 = . . . = βp = 0
H1 : ∃j/βj ̸= 0
Sous H0
F =
Interprétation :
CME
∼ Fp,n−p−1 ddl
CMR
{
H0 : "Le modèle est non explicatif"
H1 : "Le modèle est explicatif"
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
79 / 100
Régression linéaire multiple
Inférence statistique
Evaluation des coefficients - βj
Test de significativité de βj
Idée : tester la nullité de βj .
{
H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y"
H1 : βj ̸= 0 ”Xj a un pouvoir explicatif sur Y"
Nous savons que
Sous H0
Bj −βj
b
σ Bj
∼ Tn−p−1 , par conséquent :
Bj
∼ Tn−p−2
σ
bBj
Intervalle de confiance de βj
1−α
ICβ
Michaël Genin (Université de Lille 2)
j
[
]
= bj ± t(1−α/2;n−p−1) σ
bBj
Régression linéaire multiple
Version - 17 mars 2016
80 / 100
Régression linéaire multiple
Inférence statistique
Exemple : données véhicule
Modèle estimé
\ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46
Conso
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.456e+00 6.268e-01
3.919 0.000578
Prix
2.042e-05 8.731e-06
2.339 0.027297
Cylindree
-5.006e-04 5.748e-04 -0.871 0.391797
Puissance
2.499e-02 9.992e-03
2.501 0.018993
Poids
4.161e-03 8.788e-04
4.734 6.77e-05
--Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05
***
*
*
***
’.’0.1 ’ ’ 1
Residual standard error: 0.8172 on 26 degrees of freedom
Multiple R-squared: 0.9546, Adjusted R-squared: 0.9476
F-statistic: 136.5 on 4 and 26 DF, p-value: < 2.2e-16
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
81 / 100
Régression linéaire multiple
Prédiction
Intervalle de prédiction d’une observation
Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la
valeur de yn+1 pour une observation Xn+1 n’appartenant pas à l’échantillon :
Xn+1 = (xn+1,1 , xn+1,2 , . . . , xn+1,p )
ybn+1 = b0 +
p
∑
bj xn+1,j
j=1
ybn+1 = Xn+1 .b
Or ybn+1 n’est qu’une estimation du "vrai hyperplan de régression" dans la
population. Une estimation ponctuelle ne suffit pas, il faut lui associer un
intervalle de confiance :
IC
1−α
yn+1
[
]
√
−1
= ybn+1 ± t(1−αr ;n−p−1) sn−p−1 1 + Xn+1 (XT X) XT
n+1
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
83 / 100
Régression linéaire multiple
Détection et traitement de la colinéarité
Définition et conséquences de la colinéarité
Définition
Une variable explicative Xj est colinéaire à une autre variable Xk lorsque
rXj ,Xk > 0.8.
Une variable explicative Xj est multicolinéaire aux autres variables lorsque
′
′
′
′
′
Xj = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp ,
elle peut s’écrire comme une combinaison linéaire des autres variables explicatives.
Conséquences
Valeurs/Signes des coefficients contraires à l’intuition
Variances estimées des coefficients trop importantes
Coefficients non significatifs (inférence statistique)
Instabilité du modèle
Risque de passer à côté d’une variable importante (redondance)
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
85 / 100
Régression linéaire multiple
Détection et traitement de la colinéarité
Détection de la colinéarité
Variance Inflation Factor - VIF
Principe : Pour chaque Xj , réalisation de la régression de Xj avec les autres
variables explicatives. On note Rj2 le coefficient de détermination associé à cette
régression.
Pour une variable Xj , le VIF est défini par
VIFj =
1
1 − Rj2
La valeur du VIF sera d’autant plus forte que Xj est une combinaison linéaire des
autres variables.
Règle de décision
VIFj ≥ 4
Rq : Détermination des variables incriminées dans la combinaison linéaire →
Cercle des corrélations (ACP)
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
86 / 100
Régression linéaire multiple
Détection et traitement de la colinéarité
Détection de la colinéarité
Variance Inflation Factor - VIF
Remarque :
σB2 j =
σ2
VIFj
n
Donc :
Plus la valeur de VIFj est importante plus σB2 j sera importante
Estimation instable
Problème de significativité du coefficient
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
87 / 100
Régression linéaire multiple
Détection et traitement de la colinéarité
Traitement de la colinéarité
Approche "métier"
Mise en évidence de plusieurs variables explicatives colinéaires (VIF + ACP)
Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pour
l’analyse
Approche statistique
Méthode de sélection de variables (Forward, Backward, Stepwise)
Mais si toutes les variables sont pertinentes ?
Régression sur les composantes principales de l’ACP
Régression ridge
Régression PLS
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
88 / 100
Régression linéaire multiple
Sélection de variables
Motivations - Critère de sélection de variables
Motivations
Sélection d’un sous-ensemble de Xj pertinentes et non redondantes qui
expliquent au mieux Y
Principe du rasoir d’Occam → Modèles parcimonieux
Modèle plus simple, lisible, robuste, stable
Nombre restreint de variables explicatives (collecte des données)
Traitement de la multicolinéarité
Critère de sélection de variables
Retrait ou ajout d’une variable Xj dans le modèle en fonction de sa valeur du Fj
partiel de Fisher :
(
Fj =
Bj
σ
bBJ
)2
∼ F1,n−p−1
Détails
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
90 / 100
Régression linéaire multiple
Sélection de variables
Motivations - Critère de sélection de variables
Autres critères de sélection de variables
R 2 ajusté
R̄ 2 = 1 −
AIC (à minimiser)
SCR/(n − p − 1)
SCT /(n − 1)
(
AIC = n ln
SCR
n
)
+ 2(p + 1)
BIC de Schwartz (à maximiser)
(
BIC = n ln
SCR
n
)
+ ln(n)(p + 1)
etc. . .
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
91 / 100
Régression linéaire multiple
Sélection de variables
Méthodes de sélection de variables
Méthode ascendante (Forward)
Principe : On part du modèle sans Xj . On ajoute successivement les Xj qui sont
significatifs au sens du F partiel de Fisher et on s’arrête lorsqu’on ne peut plus
ajouter de Xj (NS dans le modèle)
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp }
(
)
SI P Fj∗ > fj∗ < αsle ALORS
Ajout de Xj au modèle
SINON Arrêt
Fin TANT QUE
Remarques :
Plus αsle est élevé plus le nombre de variables dans le modèle sera important
En pratique : αsle = 0.2
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
92 / 100
Régression linéaire multiple
Sélection de variables
Méthodes de sélection de variables
Méthode ascendante (Forward) - Exemple
Soient Y et X1 , X2 , X3 sur un échantillon de n = 50 observations
Etape
Modèle
ddl
F (p-value)
1
Y = β0
1 ;50-1-1
X1 → 43 (3, 51.10−8 )
X2 → 150 (2, 22.10−16 )
X3 → 12 (1, 11.10−3 )
2
Y = β0 + β2 X2
1 ;50-2-1
X1 → 9 (4, 31.10−3 )
X3 → 2 (0.1639)
3
Y = β0 + β2 X2 + β1 X1
1 ;50-3-1
X3 → 0.7 (0.4071)
X3 n’est plus significative dans le modèle. Modèle final :
Y = β0 + β2 X2 + β1 X1
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
93 / 100
Régression linéaire multiple
Sélection de variables
Méthodes de sélection de variables
Méthode descendante (Backward)
Principe : On part du modèle saturé (toutes les Xj ). On retire successivement les
Xj qui sont non significatifves au sens du F partiel de Fisher et on s’arrête
lorsqu’on toutes les Xj sont significatives.
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = min{F1 , . . . , Fp }
(
)
SI P Fj∗ > fj∗ > αsls ALORS
Retrait de Xj du modèle
SINON Arrêt
Fin TANT QUE
Remarques :
Plus αsls est faible plus le nombre de variables dans le modèle sera faible
En pratique : αsls = 0.2
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
94 / 100
Régression linéaire multiple
Sélection de variables
Méthodes de sélection de variables
Méthode Stepwise
Principe : "Mix" entre les méthodes ascendante et descendante. On début par le
modèle sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher
(αsle ). Dans les étapes suivantes, on vérifie que l’ajout d’une variable de conduit
pas à la non significativité (αsls ) des autres déjà présentes dans le modèle (phase
descendante).
Le processus se termine quand aucune Xj n’est significative lors de la phase
ascendante.
Avantage : Contrairement la méthode ascendante, une Xj introduite dans le
modèle peut être remise en cause lors des étapes suivantes.
En pratique :
αsle = αsls = 0.2
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
95 / 100
Régression linéaire multiple
Sélection de variables
Méthodes de sélection de variables
Méthode Stepwise
On part du modèle : Y = β0
TANT QUE Condition d’arrêt = FAUX FAIRE
Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt)
Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp }
(
)
SI P Fj∗ > fj∗ < αsle ALORS
Ajout de Xj du modèle
POUR Chaque Xj inclue dans le modèle FAIRE
Calcul de Fj pour chaque Xj
∗
Choix( de Fj∗ tel
) que Fj = min{F1 , . . . , Fp }
∗
∗
SI P Fj > fj > αsls ALORS
Retrait de Xj du modèle
FIN POUR
SINON Arrêt
Fin TANT QUE
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
96 / 100
Régression linéaire multiple
Conclusions
Processus de modélisation
1
Estimation des coefficients (MCO)
2
3
Mesure de la qualité d’ajustement (R 2 )
Etude la validité du modèle
Si hypothèses sur les erreurs non vérifiées → STOP
Si observations aberrantes/influentes →
Correction/Suppression
Retour à l’Etape 1
4
Inférence statistique
Test de significativité globale
Tests de significativité des coefficients
5
6
Evaluation de la multicolinéarité
Sélection de variables (Modèle parcimonieux)
Modèle restreint
Réitération des Etapes 1, 2, 3, 4
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
98 / 100
Références
Références
Livres
Probabilités Analyses des données et Statistique, G. Saporta, TECHNIP
Dodge, Y, Rousson, V., Analyse de régression appliquée, Dunod, 2ème édition,
2004.
Supports en ligne
Econométrie - Régression linéaire simple et multiple, R. Rakotomalala
http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf
Pratique de la régression linéaire multiple - Diagnostic et Sélection de
variables, R. Rakotomalala
http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf
Régression linéaire, A. Guyader
http:
//www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
100 / 100
Annexe 1 - Système aux équations normales
min S(β0 , β1 ) = min
n
∑
2
(yi − (β1 xi + β0 ))
i=1
n
∑
[ 2
]
= min
yi − 2xi yi β1 − 2yi β0 + β12 xi2 + 2β0 β1 xi + β02
i=1
S(β0 , β1 ) est strictement convexe donc elle admet un minimum au point unique
(b0 , b1 ) déterminé en annulant les dérivées partielles de S :
∑
∂S(β0 , β1 )
=0⇒
−2yi + 2b1 xi + 2b0 = 0
∂β0
i=1
(1)
∑
∂S(β0 , β1 )
=0⇒
−2xi yi + 2b1 xi2 + 2b0 xi = 0
∂β1
i=1
(2)
n
n
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
1 / 11
Annexe 1 - Système aux équations normales
De (1) on déduit que
∑n
b0 =
i=1 yi
− b1
n
∑n
i=1 xi
= ȳ − b1 x̄
(3)
De (2) on déduit que
b1
n
∑
xi2 + b0
i=1
n
∑
xi =
i=1
n
∑
xi yi
(4)
i=1
En utilisant (3) nous obtenons
b1
n
∑
i=1
Michaël Genin (Université de Lille 2)
xi2 + (ȳ − b1 x̄ )
n
∑
xi =
i=1
Régression linéaire multiple
n
∑
(5)
xi yi
i=1
Version - 17 mars 2016
2 / 11
Annexe 1 - Système aux équations normales
En divisant par n les deux termes :
b1
n
n
1∑ 2
1∑
xi + (ȳ − b1 x̄ )x̄ =
xi yi
n i=1
n i=1
[
b1
(6)
]
n
n
1∑ 2
1∑
2
xi − x̄ =
xi yi − x̄ ȳ
n i=1
n i=1
(7)
sxy
sx2
(8)
b1 =
Retour
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
3 / 11
Annexe 2 - RLM : MCO
Observons que ||ϵ||2 = ||Y − Xβ||2 . Aussi
T
||ϵ||2 = (Y − Xβ) (Y − Xβ) = YT Y − YT Xβ − β T XT Y + β T XT Xβ.
Or comme la transposée d’un scalaire est égale à lui-même :
( T
)T
Y Xβ = β T XT Y,
nous avons donc
S(β0 , . . . , βp ) = ||ϵ||2 = YT Y − 2β T XT Y + β T XT Xβ
Minimiser la fonction S revient à annuler les dérivées différentielles par rapport à
β. L’annulation de la dérivation matricielle nous donne
(
)
(
)
∂S
= −2 XT Y + 2 XT X b = 0
∂β
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
4 / 11
Annexe 2 - RLM : MCO
Aussi
(
)
(
)
XT X b = XT Y .
(
)
Or rg(X) = p et p ≤ n donc XT X est inversible. Aussi
(
)−1 ( T )
X Y
b = XT X
Retour
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
5 / 11
Annexe 3 - RLM : moments des estimateurs
Espérance
[(
)−1 T ] ( T )−1 T
E[B] = E XT X
X Y = X X
X E[Y]
(
)−1 T
E[B] = XT X
X E[X.β + ϵ] = β
Variance
[(
)−1 T ]
(
)−1
(
)−1 T
XT X
X Y = X XT X
V[Y] XT X
X
( T )−1
( T )−1 T
(
)
−1
V[B] = X X X
V[ϵ] X X
X = σ 2 XT X
V[B] = V
Retour
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
6 / 11
Annexe 4 - F partiel de Fisher
L’égalité
(
F =
Bj
σ
bBJ
)2
∼ F1,n−p−1
se base sur un cas particulier du test de nullité d’un bloc de q coefficients.
{
H0 : Y = β0 + β1 X1 + . . . + βj Xj + βj+q+1 Xj+q+1 + . . . + βp Xp + ϵ
H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ
{
H0 : Modèle sans les q variables (modèle restreint)
H1 : Modèle complet
Posons
2
: Coefficient de détermination du modèle restreint (H0 )
R(0)
2
: Coefficient de détermination du modèle complet (H1 )
R(1)
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
7 / 11
Annexe 4 - F partiel de Fisher
Notons F la statistique de test associée. On montre que sous H0 ,
(
)
2
2
R(1)
− R(0)
/q
)
∼ Fq,n−p−1
F =(
2
1 − R(1)
/(n − p − 1)
Autre interprétation : si l’accroissement
(
)
2
2
R(1)
− R(0)
>
q
fq,n−p−1
n−p−1
alors la place des q variables dans le modèle est justifiée.
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
8 / 11
Annexe 4 - F partiel de Fisher
Cas particulier quand q = 1
On veut tester la nullité d’un coefficient βj
{
H0 : Y = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp + ϵ
H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ
{
H0 : Modèle sans Xj (modèle restreint)
H1 : Modèle complet
Posons
2
: Coefficient de détermination du modèle restreint (H0 )
R(0)
2
: Coefficient de détermination du modèle complet (H1 )
R(1)
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
9 / 11
Annexe 4 - F partiel de Fisher
Cas particulier quand q = 1
Notons F la statistique de test associée. On montre que sous H0 ,
(
)
2
2
R(1)
− R(0)
/1
)
F =(
∼ F1,n−p−1
2
1 − R(1)
/(n − p − 1)
Or
T =
Bj
∼ Tn−p−1
σ
bBJ
Donc
(
F = T2 =
Bj
σ
bBJ
)2
Remarque : test de la significativité du coefficient et son apport au R 2 .
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
10 / 11
Annexe 4 - F partiel de Fisher
Cas particulier quand q = 1
Autre interprétation : si l’accroissement
(
)
2
2
R(1)
− R(0)
>
1
f1,n−p−1
n−p−1
alors la place de Xj dans le modèle est justifiée.
Note : Tests de type III sous SAS.
Retour
Michaël Genin (Université de Lille 2)
Régression linéaire multiple
Version - 17 mars 2016
11 / 11