La régression linéaire multiple

Transcription

La régression linéaire multiple
Plan
La régression linéaire multiple
- Chapitre V Notes de cours
Modélisation Statistique
L3 MIASHS - Université de Bordeaux
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 1/46
Plan
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 2/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 3/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Première écriture du modèle
Le modèle de régression linéaire multiple s’écrit sous la forme :
Y = β0 +
p
X
βk X (k) + ε
k=1
- les p variables explicatives X (k) sont non aléatoires réelles,
- l’erreur ε est aléatoire,
- la variable à expliquer Y est donc aléatoire.
L’objectif : estimer les p + 1 paramètres β0 , . . . , βp .
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 4/46
(1)
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Seconde écriture du modèle
On se donne deux n-échantillons (Xn ) et (Yn ) qui ne sont pas
mutuellement indépendants où :
- (Xn ) forme une suite de vecteurs de dimension p ≥ 1,
(1)
(p)
- Xi = (Xi , . . . , Xi
) est la ième composante de (Xn ).
Le modèle s’écrit alors :
Yi = β0 +
p
X
(k)
βk Xi
+ εi i = 1, . . . , n.
k=1
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 5/46
(2)
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Les hypothèses sont celles de la régression linéaire simple :
(1) E[εi ] = 0, ∀ i = 1, . . . , n : les erreurs sont centrées,
P
(k)
⇔ E[Yi ] = β0 + pk=1 βk Xi .
(2) V(εi ) = σ 2 , ∀ i = 1, . . . , n : la variance des erreurs est
constante, on parle d’homogénéité des variances ou encore d’
homoscédasticité,
⇔ V(Yi ) = σ 2 .
Remarque : σ 2 est un autre paramètre inconnu à estimer.
(3) Cov(εi , ε` ) = 0 , ∀ i 6= ` : les erreurs sont non corrélées,
⇔ Cov(Yi , Y` ) = 0.
Remarque : Lorsqu’on ajoute une hypothèse de normalité sur
les εi , les εi sont indépendants. (εn ) est alors un bruit blanc
gaussien.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 6/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Sous les hypothèses (1) à (3), l’estimateur des moindres
carrées de β = (β0 , β1 , . . . , βp )t aura de bonnes propriétés.
En ajoutant l’hypothèse de normalité des erreurs, on pourra
définir l’estimateur du maximum de vraisemblance de β et
effectuer des tests sur la nullité des paramètres.
En pratique, il conviendra de vérifier si ces hypothèses sont
vérifiées.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 7/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Ecriture matricielle du modèle
Le modèle (2) s’écrit :
Y = Xβ + ε
(3)
où

Y1
Y2 
 
Y =  . ,
 .. 
Yn


1
1

X =
 ..
.
1
(1)
X1
(1)
X2
..
.
(1)
Xn
(2)
X1
(2)
X2
..
.
(2)
Xn
- Chapitre V -
...
...
(p) 
X1
(p)
X2 

.. 
,
. 
...
Xn
(p)

β0
 β1 
 
β =  . ,
 .. 
βp

 
ε1
ε2 
 
ε =  . .
 .. 
εn
L3 MIASHS- La régression linéaire multiple 8/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Ecriture matricielle
Les 3 hypothèses précédentes peuvent alors s’écrire sous la forme :
(1’) E(ε) = 0n ⇒ E(Y ) = X β ∈ Rn .
(2’) V(ε) = σ 2 In ⇒ V(Y ) = σ 2 In .
où 0n est le vecteur nul de dimension n et In est la matrice identité
de dimension n × n.
On suppose en outre que
p + 1 < n,
rang(X ) = p + 1,
c’est-à-dire qu’il n’existe pas de liaison linéaire entre les X (k) .
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 9/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Ecriture matricielle
Il est important de bien faire la différence entre
P
(k)
l’expression E(Yi ) = β0 + pk=1 βk Xi (qui désigne
l’espérance d’une variable aléatoire scalaire), et l’expression
E(Y ) = X β (qui désigne l’espérance d’une variable aléatoire
vectorielle) : on obtient dans un cas un scalaire, dans l’autre
cas un vecteur de Rn .
l’expression V(Yi ) = σ 2 (qui désigne la variance d’une variable
aléatoire scalaire), et l’expression V(Y ) = σ 2 In (qui désigne la
covariance d’une variable aléatoire vectorielle) : on obtient
dans un cas un scalaire (σ 2 ), dans l’autre cas une matrice
carrée (σ 2 In ) de dimension n × n.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 10/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Estimateur des moindres carrés de β
On cherche l’équation de la droite de régression en dimension
p + 1 pour laquelle les erreurs quadratiques (ε2n ) sont les plus
faibles. On cherche alors à minimiser
n
X
i=1
ε2i =
n
X
(1)
(2)
(p)
(Yi − β0 − β1 Xi − β2 Xi − . . . − βp Xi )2 = εtε
i=1
On remarque que ε = Y − X β, ce qui nous conduit à
εtε = (Y − X β)t (Y − X β)
=
Y t Y − 2 Y t X β + β t X tX β
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 11/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Estimateur des moindres carrés de β
Ainsi, par dérivation (vectorielle...) par rapport à β,
∂ εtε
= −2 X tY + 2 X tX β.
∂β
Chercher à annuler cette dérivée revient à choisir l’estimateur βb tel
que X tX βb = X tY et donc
βb = (X tX )−1 X tY .
(4)
→ Exercice 1 (facile).
Cela nous contraint en outre à supposer que la matrice X tX de
dimension (p + 1) × (p + 1) est bien inversible.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 12/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Prédictions et résidus
Une fois que β a été estimé, nous pouvons reconstruire nos
données à l’aide de notre modélisation.
On construit les prédictions
bi = βb0 +
Y
p
X
(k)
βbk Xi
ou encore
b = X β,
b
Y
k=1
et les résidus
bi
εbi = Yi − Y
ou encore
b.
εb = Y − Y
Remarque. Ŷi estime E(Yi ).
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 13/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Propriétés de β̂
Sous les hypothèses retenues, on peut montrer que :
E(β̂) = β
V(β̂) = σ 2 (X tX )−1
→ Exercice 2 (facile).
On peut également montrer que β̂ est l’estimateur sans biais de
variance minimale ou encore estimateur BLUE (Best Linear
Unbiased Estimator).
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 14/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Estimation de σ 2
Selon la stratégie usuelle, on considère l’estimateur
n
σ
b2 =
tε
X
1
b εb
εbi 2 =
n−p−1
n−p−1
i=1
Sous les hypothèses retenues on peut montrer que :
E[b
σ 2] = σ2.
→ Exercice 3 (difficile).
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 15/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Estimation de σ 2
→ On en déduit un estimateur sans biais de V(β̂) ;
V̂(β̂) = σ̂ 2 (X t X )−1 .
→ Pour débiaiser l’estimateur de σ 2 nous retrouvons une
normalisation par n − p − 1 lorsque l’estimation concerne
p + 1 paramètres.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 16/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Interprétation géométrique
On munit l’espace Rn des variables de la métrique D = n1 In .
On note W le sous-espace de Rn de dimension p + 1 engendré
par les colonnes de X.
On montre alors que :
b est la projection D-orthogonale de Y sur W .
Y
→ La preuve est directe en écrivant :
b = PW Y ,
Y
avec PW = X (X t DX )−1 X t D l’opérateur de projection sur W .
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 17/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Cas du modèle gaussien
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 18/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Cas du modèle gaussien
Hypothèse supplémentaire
On ajoute l’hypothèse de normalité des erreurs :
εi ∼ N (0, σ 2 ) ⇒ Yi ∼ N (βXi , σ 2 ),
ou encore matriciellement :
(3’) ε ∼ N (0n , σ 2 In ) ⇒ Y ∼ N (βX , σ 2 In ).
Remarques.
Sous l’hypothèse de normalité, V(ε) = V(Y ) = σ 2 In implique
que le εi et les Yi sont indépendants.
Les hypothèses (1’), (2’) (3’) ⇒ (εn ) est un bruit blanc de loi
N (0, σ 2 ).
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 19/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Cas du modèle gaussien
Estimateurs du maximum de vraisemblance de β et de σ 2
La fonction de vraisemblance est la densité conjointe des Yi notée
L(β, σ 2 ). Les estimateurs β̃ et σ̃ 2 qui maximisent L(β, σ 2 ) sont :
β̃ = (X t X )−1 X t Y
1
1
σ̃ 2 = (Y − X β̂)t (y − X β̂) = ε̂t ε̂
n
n
= β̂
6= σ̂ 2
→ Exercice 4 (facile).
Remarque. σ̃ 2 est biaisé.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 20/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Cas du modèle gaussien
Propriétés de β̃ et σ̃ 2
Sous les hypothèses (1’), (2’) et (3’) on montre que :
1
β̃ ∼ N β, σ 2 (X t X )−1 ⇒ β̂ ∼ N β, σ 2 (X t X )−1 .
2
n σσ̃2 ∼ χ2 (n − p − 1) ⇒ (n − p − 1) σ̂σ2 ∼ χ2 (n − p − 1).
3
β̃ et σ̃ 2 indépendants ⇒ β̂ et σ̂ 2 indépendants.
2
2
→ Exercice 5 (difficile).
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 21/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Définition
Interprétation
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 22/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Définition
Interprétation
Définition
On définit R comme le coefficient de corrélation linéaire entre les
Yi et les Ŷi . Son carré s’interprète en terme de variance expliquée :
Pn b
(Yi − Ȳn )2
SCE
2
R = Pi=1
=
n
2
SCT
i=1 (Yi − Ȳn )
SCR
.
=1−
SCT
avec la décomposition :
n
X
|i=1
2
n
X
}
|i=1
(Yi − Ȳn ) =
{z
SCT
bn )2 +
(Yi − Y
{z
SCR
}
n
X
|i=1
bi − Ȳn )2
(Y
{z
SCE
}
bi = Yi .
Remarque. R 2 = 1 ⇒ l’ajustement est parfait : ∀i, Y
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 23/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Définition
Interprétation
Interprétation
→ Interprétation géométrique : R est le cosinus de l’angle formé
b − Ȳ ) où Ȳ = (Ȳn , . . . , Ȳn )t ∈ Rn .
par (Y − Ȳ ) et (Y
→ Interprétation statistique : R 2 peut être utilisé pour tester
l’ajustement de Y par Ŷ . On peut montrer que sous
H0 : “β1 = . . . = βq = 0” (ou H0 : “R 2 = 0”) :
Fn =
SCE /p
R 2 /p
=
∼ F (p, n−p−1)
2
SCR/(n − p − 1)
(1 − R )/(n − p − 1)
→ Exercice 6 (facile).
⇒ On rejette H0 si Fn > fp, n−p−1, 1−α .
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 24/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 25/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Test de significativité du modèle
Nous avons vu que l’on peut utiliser la statistique de test
Fn =
SCE /p
SCR/(n − p − 1)
pour tester l’hypothèse
H0 : “β1 = . . . = βp = 0”
contre
H1 : “∃ j ∈ {1, . . . , p}, βj 6= 0”.
La zone de rejet associé à cette statistique est :
R = ]fp, n−p−1, 1−α , +∞[.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 26/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Test de significativité d’un coefficient βk
On veut tester
H0 : “βk = 0”
contre
H1 : “βk 6= 0”
→ construire une statistique de test dont on connaı̂t la loi sous H0 .
On peut montrer que
βbk − βk
∼ t(n − p − 1)
√
σ
b ckk
où c00 , c11 , . . . , cpp sont les éléments diagonaux de (X tX )−1
→ Exercice 7
Remarque. V̂(β̂k ) = σ̂ 2 ckk .
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 27/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Test de significativité d’un coefficient βk
On utilise donc la statistique de test
βbk
Tn = √
σ
b ckk
pour tester les hypothèses
H0 : “βk = 0”
contre
H1 : “βk 6= 0”
La zone de rejet associé à cette statistique est :
R = ]− ∞, −tn−p−1, 1−α/2 [ ∪ ] tn−p−1, 1−α/2 , +∞[.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 28/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Test de significativité d’un coefficient βk
Rejeter H0 signifie :
que la variable explicative X (k) joue un rôle dans le modèle de
régression, c’est-à-dire que X (k) apporte de l’information
quant à la reconstruction de Y ,
que le coefficient βk est significativement non nul,
que βk s’interprète comme le taux d’accroissement moyen de
Y en fonction d’une variation de X (k) lorsque tous les autres
régresseurs X (1) , . . . , X (k−1) , X (k+1) , . . . , X (p) restent fixés.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 29/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Contribution jointe d’un ensemble de régresseurs
On cherche à tester la nullité des q ≤ p premiers paramètres :
H0 : “β1 = . . . = βq = 0”
contre
H1 : “∃ k ∈ {1, . . . , q}, βk 6= 0”.
Cela revient à comparer deux modèles :
le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
le modèle réduit à p − q regresseurs (modèle 0) pour lequel on
évalue la somme des carrés des résidus SCR0 .
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 30/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Contribution jointe d’un ensemble de régresseurs
On peut montrer que sous H0 :
(SCR0 − SCR1 )/q
∼ F (q, n − p − 1).
SCR1 /(n − p − 1)
Nous en déduisons la zone de rejet associée à cette statistique de
test :
R = ]fq, n−p−1, 1−α , +∞[.
Remarque. Ce test est utile pour faire de la modélisation pas à
pas et sélectionner un ensemble optimal de régresseurs nécessaires
à la reconstruction de Y .
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 31/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Intervalle de prédiction
Intervalle de confiance
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 32/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Intervalle de prédiction
Intervalle de confiance
Prévision d’une valeur future
Objectif : prévoir à l’aide du modèle la valeur de Y pour une
(1)
(p)
nouvelle observation notée (X0 , . . . , X0 ).
D’après le modèle, on a :
Y0 = X0t β + ε0 ,
(1)
(p)
où X0 = (1, X0 , . . . , X0 )t ,
Deux possibilités :
Construire un intervalle qui contient la prédiction Ŷ0 = Ê(Y0 )
avec une probabilité 1 − α (intervalle de prédiction).
Construire un intervalle de confiance de E(Y0 ) de niveau
1 − α.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 33/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Intervalle de prédiction
Intervalle de confiance
Intervalle de prédiction
La prédiction pour une nouvelle observation est donc :
Ŷ0 = X0t β̂.
On montre que
Y0 − Ŷ0
p
∼ T (n − p − 1).
σ̂ 1 + X0t (X t X )−1 X0
→ Exercice 8.
On en déduit l’intervalle de prédiction qui est :
q
t
t
−1
Ŷ0 ± tn−p−1,1−α/2 σ̂ 1 + X0 (X X ) X0
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 34/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Intervalle de prédiction
Intervalle de confiance
Intervalle de confiance
On veut construire un intervalle de confiance du paramètre
E (Y0 ) = X0t β
On sait que Ŷ0 ∼ N (X0t β, σ 2 X0t (X t X )−1 X0 ) doù
Ŷ − X0t β
p t0
∼ T (n − p − 1).
σ̂ X0 (X t X )−1 X0
On en déduit l’intervalle de confiance qui est :
q
t
t
−1
Ŷ0 ± tn−p−1,1−α/2 σ̂ X0 (X X ) X0
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 35/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 36/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Sélection de variables
Objectif : Sélectionner parmi les p variables explicatives, les q ≤ p
variables qui donnent le “meilleur” modèle pour prédire Y .
Il va donc falloir :
Définir un critère qui permet de comparer deux modèles
n’ayant pas nécessairement le même nombre de variables
explicatives.
Définir un procédure qui permet “d’optimiser” ce critère parmi
tous les modèles. On parle de procédure de choix de modèle.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 37/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Les critères de choix
→ Le coefficient R 2 = 1 −
SCR
SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le
modèle augmente,
permet de comparer des modèles ayant le même nombre de
variables
⇒ Ce critère ne peut pas être utilisé dans une procédure de
choix de modèle.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 38/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Les critères de choix
2
→ Le coefficient Rajusté
=1−
SCR/(n−p−1)
SCT /(n−1)
2
V(ε)
σ
2
Estime le Rpopulation
= 1 − V(Y
) = 1 − σY2 ,
peut prendre des valeurs négatives,
n’augmente pas forcément lorsque le nombre de variables
introduites dans le modèle augmente.
⇒ Ce critère peut être utilisé dans une procédure de choix de
modèle (à maximiser).
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 39/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Les critères de choix
→ Le Cq de Mallows :
Cq =
SCR0
− n + 2(q + 1)
SCR1/(n − p − 1)
où
SCR1 est évalué pour le modèle complet à p variables,
SCR0 est évalué pour le modèle réduit à q variables.
⇒ Ce critère doit être comparé à q + 1 dans une procédure de
choix de modèle.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 40/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Les critères de choix
→ Les critères de vraisemblance pénalisée :
AIC (Akaike Information Criterion)
AIC = −2 ln(L) + 2k,
BIC (Bayesian Information Criterion) :
BIC = −2 ln(L) + k ln(n),
où
L est la vraisemblance du modèle estimé (vraisemblance
maximisée),
k est le nombre de paramètres du modèle.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 41/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Les critères de choix
→ Les critères de AIC et BIC en régression multiple :
k = q + 1 (paramètres β1 , . . . , βq et σ),
−2 ln(L) = n [ln(2πσ̃) + 1]
où σ̃ =
SCR
n
souvent remplacé par σ̂ =
SCR
n−p−1 .
→ Les critères AIC et BIC peuvent alors être simplifiés :
AIC = n ln(SCR) + 2k
BIC = n ln(SCR) + k ln(n)
AIC = n ln(σ̂) + 2k
BIC = n ln(σ̂) + k ln(n)
⇒ Ces critères doivent être minimisés dans une procédure de
choix de modèle.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 42/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Procédure exhaustive de sélection de variables
Il s’agit d’évaluer avec l’un des critères précédent tous les modèles
de régression à q ≤ p variables et retenir le meilleur mais,
le nombre de modèles à q variables est Cpq =
p!
q!(p−q)! ,
le nombre total de modèles à considérer est
p
X
Cpq = 2p − 1.
q=1
,→ Le nombre de modèles croı̂t exponentiellement avec p. Par
exemple, si 30 variables sont à disposition, on devrait
considérer 230 = 109 modèles...
,→ Impossible en pratique dès que p grandit.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 43/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Procédure leaps and bounds
Procédure basée sur l’algorithme de Furnival et Wilson :
algorithme de type branch and bound,
permet de trouver, pour q fixé, le “meilleur” modèle c’est à
dire le “meilleur” sous-ensemble de q variables.
Pour q fixé, on a :
2
min AIC ⇔ min BIC ⇔ max R 2 ⇔ max Rajusté
⇔ min SCR.
En pratique :
La procédure fournit le meilleur modèle à 1, 2, . . . , p variables ,
2 Choisir q ∈ {1, . . . , p} qui fournit le meilleur modèle avec l’un
des critères de choix (sauf R 2 et SCR).
Remarque. Efficace mais limitée à une trentaine de variables.
1
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 44/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Procédure pas à pas ascendante (forward stepwise)
1
2
3
On effectue p régressions linéaires simple et on sélectionne la
variable qui donne le meilleur modèle c’est à dire :
le modèle qui maximise R 2 ⇔ minimise SCR ...
ou de manière équivalente la variable qui a la p-value du test
de contribution marginale la plus petite.
On effectue p − 1 régressions linéaires avec 2 variables explicatives
en gardant celle sélectionnée à l’étape 1 et on sélectionne celle qui
ajoutée à la première :
apporte la plus grande augmentation du R 2 ⇔ maximise la
statistique de Fisher du test de contribution jointe,
ou de manière équivalente a la p-value du test de contribution
marginale la plus petite (variable la plus significative).
On recommence jusqu’à ce qu’aucune variable significative ne puisse
être ajoutée.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 45/46
Ecriture du modèle et estimation des paramètres
Cas du modèle gaussien
Coefficient de determination R 2
Tests d’hypothèse
Prévision d’une valeur future
Sélection de variables
Les critères de choix
Les procédures de sélection de variables
Procédure pas à pas descendante (backward stepwise)
1
On effectue une régression linéaire multiple avec les p variables
explicatives disponibles.
2
On effectue p − 1 régressions linéaires en supprimant une variable et
on sélectionne la variable qui :
apporte la plus grande diminuation du R 2 ⇔ minimise la
statistique de Fisher du test de contribution jointe,
ou de manière équivalente a la p-value du test de contribution
marginale la plus grande (variable la moins significative).
3
On recommence jusqu’à ce qu’aucune variable non significative ne
puisse être retirée.
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 46/46