La régression linéaire multiple

Transcription

Plan
La régression linéaire multiple
- Chapitre V Notes de cours
Modélisation Statistique
L3 MIASHS - Université de Bordeaux
- Chapitre V -
L3 MIASHS- La régression linéaire multiple 1/46
Plan
Plan
1
Ecriture du modèle et estimation des paramètres
2
Cas du modèle gaussien
3
Coefficient de determination R 2
4
Tests d’hypothèse
5
Prévision d’une valeur future
6
Sélection de variables
- Chapitre V -
Le modèle de régression linéaire multiple
Estimation de β et de σ 2
Interprétation géométrique
Plan
1
2
3
4
5
6
- Chapitre V -
Première écriture du modèle
Le modèle de régression linéaire multiple s’écrit sous la forme :
Y = β0 +
p
X
βk X (k) + ε
k=1
- les p variables explicatives X (k) sont non aléatoires réelles,
- l’erreur ε est aléatoire,
- la variable à expliquer Y est donc aléatoire.
L’objectif : estimer les p + 1 paramètres β0 , . . . , βp .
- Chapitre V -
(1)
Seconde écriture du modèle
On se donne deux n-échantillons (Xn ) et (Yn ) qui ne sont pas
mutuellement indépendants où :
- (Xn ) forme une suite de vecteurs de dimension p ≥ 1,
(1)
(p)
- Xi = (Xi , . . . , Xi
) est la ième composante de (Xn ).
Le modèle s’écrit alors :
Yi = β0 +
p
X
(k)
βk Xi
+ εi i = 1, . . . , n.
k=1
- Chapitre V -
(2)
Les hypothèses sont celles de la régression linéaire simple :
(1) E[εi ] = 0, ∀ i = 1, . . . , n : les erreurs sont centrées,
P
(k)
⇔ E[Yi ] = β0 + pk=1 βk Xi .
(2) V(εi ) = σ 2 , ∀ i = 1, . . . , n : la variance des erreurs est
constante, on parle d’homogénéité des variances ou encore d’
homoscédasticité,
⇔ V(Yi ) = σ 2 .
Remarque : σ 2 est un autre paramètre inconnu à estimer.
(3) Cov(εi , ε` ) = 0 , ∀ i 6= ` : les erreurs sont non corrélées,
⇔ Cov(Yi , Y` ) = 0.
Remarque : Lorsqu’on ajoute une hypothèse de normalité sur
les εi , les εi sont indépendants. (εn ) est alors un bruit blanc
gaussien.
- Chapitre V -
Sous les hypothèses (1) à (3), l’estimateur des moindres
carrées de β = (β0 , β1 , . . . , βp )t aura de bonnes propriétés.
En ajoutant l’hypothèse de normalité des erreurs, on pourra
définir l’estimateur du maximum de vraisemblance de β et
effectuer des tests sur la nullité des paramètres.
En pratique, il conviendra de vérifier si ces hypothèses sont
vérifiées.
- Chapitre V -
Ecriture matricielle du modèle
Le modèle (2) s’écrit :
Y = Xβ + ε
(3)
où

Y1
Y2 
 
Y =  . ,
 .. 
Yn


1
1

X =
 ..
.
1
(1)
X1
(1)
X2
..
.
(1)
Xn
(2)
X1
(2)
X2
..
.
(2)
Xn
- Chapitre V -
...
...
(p) 
X1
(p)
X2 

.. 
,
. 
...
Xn
(p)

β0
 β1 
 
β =  . ,
 .. 
βp

 
ε1
ε2 
 
ε =  . .
 .. 
εn
Ecriture matricielle
Les 3 hypothèses précédentes peuvent alors s’écrire sous la forme :
(1’) E(ε) = 0n ⇒ E(Y ) = X β ∈ Rn .
(2’) V(ε) = σ 2 In ⇒ V(Y ) = σ 2 In .
où 0n est le vecteur nul de dimension n et In est la matrice identité
de dimension n × n.
On suppose en outre que
p + 1 < n,
rang(X ) = p + 1,
c’est-à-dire qu’il n’existe pas de liaison linéaire entre les X (k) .
- Chapitre V -
Ecriture matricielle
Il est important de bien faire la différence entre
P
(k)
l’expression E(Yi ) = β0 + pk=1 βk Xi (qui désigne
l’espérance d’une variable aléatoire scalaire), et l’expression
E(Y ) = X β (qui désigne l’espérance d’une variable aléatoire
vectorielle) : on obtient dans un cas un scalaire, dans l’autre
cas un vecteur de Rn .
l’expression V(Yi ) = σ 2 (qui désigne la variance d’une variable
aléatoire scalaire), et l’expression V(Y ) = σ 2 In (qui désigne la
covariance d’une variable aléatoire vectorielle) : on obtient
dans un cas un scalaire (σ 2 ), dans l’autre cas une matrice
carrée (σ 2 In ) de dimension n × n.
- Chapitre V -
Estimateur des moindres carrés de β
On cherche l’équation de la droite de régression en dimension
p + 1 pour laquelle les erreurs quadratiques (ε2n ) sont les plus
faibles. On cherche alors à minimiser
n
X
i=1
ε2i =
n
X
(1)
(2)
(p)
(Yi − β0 − β1 Xi − β2 Xi − . . . − βp Xi )2 = εtε
i=1
On remarque que ε = Y − X β, ce qui nous conduit à
εtε = (Y − X β)t (Y − X β)
=
Y t Y − 2 Y t X β + β t X tX β
- Chapitre V -
Estimateur des moindres carrés de β
Ainsi, par dérivation (vectorielle...) par rapport à β,
∂ εtε
= −2 X tY + 2 X tX β.
∂β
Chercher à annuler cette dérivée revient à choisir l’estimateur βb tel
que X tX βb = X tY et donc
βb = (X tX )−1 X tY .
(4)
→ Exercice 1 (facile).
Cela nous contraint en outre à supposer que la matrice X tX de
dimension (p + 1) × (p + 1) est bien inversible.
- Chapitre V -
Prédictions et résidus
Une fois que β a été estimé, nous pouvons reconstruire nos
données à l’aide de notre modélisation.
On construit les prédictions
bi = βb0 +
Y
p
X
(k)
βbk Xi
ou encore
b = X β,
b
Y
k=1
et les résidus
bi
εbi = Yi − Y
ou encore
b.
εb = Y − Y
Remarque. Ŷi estime E(Yi ).
- Chapitre V -
Propriétés de β̂
Sous les hypothèses retenues, on peut montrer que :
E(β̂) = β
V(β̂) = σ 2 (X tX )−1
On peut également montrer que β̂ est l’estimateur sans biais de
variance minimale ou encore estimateur BLUE (Best Linear
Unbiased Estimator).
- Chapitre V -
Estimation de σ 2
Selon la stratégie usuelle, on considère l’estimateur
n
σ
b2 =
tε
X
1
b εb
εbi 2 =
n−p−1
n−p−1
i=1
Sous les hypothèses retenues on peut montrer que :
E[b
σ 2] = σ2.
→ Exercice 3 (difficile).
- Chapitre V -
Estimation de σ 2
→ On en déduit un estimateur sans biais de V(β̂) ;
V̂(β̂) = σ̂ 2 (X t X )−1 .
→ Pour débiaiser l’estimateur de σ 2 nous retrouvons une
normalisation par n − p − 1 lorsque l’estimation concerne
p + 1 paramètres.
- Chapitre V -
On munit l’espace Rn des variables de la métrique D = n1 In .
On note W le sous-espace de Rn de dimension p + 1 engendré
par les colonnes de X.
On montre alors que :
b est la projection D-orthogonale de Y sur W .
Y
→ La preuve est directe en écrivant :
b = PW Y ,
Y
avec PW = X (X t DX )−1 X t D l’opérateur de projection sur W .
- Chapitre V -
Plan
1
2
3
4
5
6
- Chapitre V -
Hypothèse supplémentaire
On ajoute l’hypothèse de normalité des erreurs :
εi ∼ N (0, σ 2 ) ⇒ Yi ∼ N (βXi , σ 2 ),
ou encore matriciellement :
(3’) ε ∼ N (0n , σ 2 In ) ⇒ Y ∼ N (βX , σ 2 In ).
Remarques.
Sous l’hypothèse de normalité, V(ε) = V(Y ) = σ 2 In implique
que le εi et les Yi sont indépendants.
Les hypothèses (1’), (2’) (3’) ⇒ (εn ) est un bruit blanc de loi
N (0, σ 2 ).
- Chapitre V -
Estimateurs du maximum de vraisemblance de β et de σ 2
La fonction de vraisemblance est la densité conjointe des Yi notée
L(β, σ 2 ). Les estimateurs β̃ et σ̃ 2 qui maximisent L(β, σ 2 ) sont :
β̃ = (X t X )−1 X t Y
1
1
σ̃ 2 = (Y − X β̂)t (y − X β̂) = ε̂t ε̂
n
n
= β̂
6= σ̂ 2
Remarque. σ̃ 2 est biaisé.
- Chapitre V -
Propriétés de β̃ et σ̃ 2
Sous les hypothèses (1’), (2’) et (3’) on montre que :
1
β̃ ∼ N β, σ 2 (X t X )−1 ⇒ β̂ ∼ N β, σ 2 (X t X )−1 .
2
n σσ̃2 ∼ χ2 (n − p − 1) ⇒ (n − p − 1) σ̂σ2 ∼ χ2 (n − p − 1).
3
β̃ et σ̃ 2 indépendants ⇒ β̂ et σ̂ 2 indépendants.
2
2
→ Exercice 5 (difficile).
- Chapitre V -
Définition
Interprétation
Plan
1
2
3
4
5
6
- Chapitre V -
Définition
Interprétation
Définition
On définit R comme le coefficient de corrélation linéaire entre les
Yi et les Ŷi . Son carré s’interprète en terme de variance expliquée :
Pn b
(Yi − Ȳn )2
SCE
2
R = Pi=1
=
n
2
SCT
i=1 (Yi − Ȳn )
SCR
.
=1−
SCT
avec la décomposition :
n
X
|i=1
2
n
X
}
|i=1
(Yi − Ȳn ) =
{z
SCT
bn )2 +
(Yi − Y
{z
SCR
}
n
X
|i=1
bi − Ȳn )2
(Y
{z
SCE
}
bi = Yi .
Remarque. R 2 = 1 ⇒ l’ajustement est parfait : ∀i, Y
- Chapitre V -
Définition
Interprétation
Interprétation
→ Interprétation géométrique : R est le cosinus de l’angle formé
b − Ȳ ) où Ȳ = (Ȳn , . . . , Ȳn )t ∈ Rn .
par (Y − Ȳ ) et (Y
→ Interprétation statistique : R 2 peut être utilisé pour tester
l’ajustement de Y par Ŷ . On peut montrer que sous
H0 : “β1 = . . . = βq = 0” (ou H0 : “R 2 = 0”) :
Fn =
SCE /p
R 2 /p
=
∼ F (p, n−p−1)
2
SCR/(n − p − 1)
(1 − R )/(n − p − 1)
⇒ On rejette H0 si Fn > fp, n−p−1, 1−α .
- Chapitre V -
Test de significativité du modèle
Test de significativité d’un coefficient βk
Contribution jointe d’un ensemble de régresseurs
Plan
1
2
3
4
5
6
- Chapitre V -
Nous avons vu que l’on peut utiliser la statistique de test
Fn =
SCE /p
SCR/(n − p − 1)
pour tester l’hypothèse
H0 : “β1 = . . . = βp = 0”
contre
H1 : “∃ j ∈ {1, . . . , p}, βj 6= 0”.
La zone de rejet associé à cette statistique est :
R = ]fp, n−p−1, 1−α , +∞[.
- Chapitre V -
On veut tester
H0 : “βk = 0”
contre
H1 : “βk 6= 0”
→ construire une statistique de test dont on connaı̂t la loi sous H0 .
On peut montrer que
βbk − βk
∼ t(n − p − 1)
√
σ
b ckk
où c00 , c11 , . . . , cpp sont les éléments diagonaux de (X tX )−1
→ Exercice 7
Remarque. V̂(β̂k ) = σ̂ 2 ckk .
- Chapitre V -
On utilise donc la statistique de test
βbk
Tn = √
σ
b ckk
pour tester les hypothèses
H0 : “βk = 0”
contre
H1 : “βk 6= 0”
La zone de rejet associé à cette statistique est :
R = ]− ∞, −tn−p−1, 1−α/2 [ ∪ ] tn−p−1, 1−α/2 , +∞[.
- Chapitre V -
Rejeter H0 signifie :
que la variable explicative X (k) joue un rôle dans le modèle de
régression, c’est-à-dire que X (k) apporte de l’information
quant à la reconstruction de Y ,
que le coefficient βk est significativement non nul,
que βk s’interprète comme le taux d’accroissement moyen de
Y en fonction d’une variation de X (k) lorsque tous les autres
régresseurs X (1) , . . . , X (k−1) , X (k+1) , . . . , X (p) restent fixés.
- Chapitre V -
On cherche à tester la nullité des q ≤ p premiers paramètres :
H0 : “β1 = . . . = βq = 0”
contre
H1 : “∃ k ∈ {1, . . . , q}, βk 6= 0”.
Cela revient à comparer deux modèles :
le modèle complet à p regresseurs (modèle 1) pour lequel on
évalue la somme des carrés des résidus SCR1 ,
le modèle réduit à p − q regresseurs (modèle 0) pour lequel on
évalue la somme des carrés des résidus SCR0 .
- Chapitre V -
On peut montrer que sous H0 :
(SCR0 − SCR1 )/q
∼ F (q, n − p − 1).
SCR1 /(n − p − 1)
Nous en déduisons la zone de rejet associée à cette statistique de
test :
R = ]fq, n−p−1, 1−α , +∞[.
Remarque. Ce test est utile pour faire de la modélisation pas à
pas et sélectionner un ensemble optimal de régresseurs nécessaires
à la reconstruction de Y .
- Chapitre V -
Intervalle de prédiction
Intervalle de confiance
Plan
1
2
3
4
5
6
- Chapitre V -
Objectif : prévoir à l’aide du modèle la valeur de Y pour une
(1)
(p)
nouvelle observation notée (X0 , . . . , X0 ).
D’après le modèle, on a :
Y0 = X0t β + ε0 ,
(1)
(p)
où X0 = (1, X0 , . . . , X0 )t ,
Deux possibilités :
Construire un intervalle qui contient la prédiction Ŷ0 = Ê(Y0 )
avec une probabilité 1 − α (intervalle de prédiction).
Construire un intervalle de confiance de E(Y0 ) de niveau
1 − α.
- Chapitre V -
La prédiction pour une nouvelle observation est donc :
Ŷ0 = X0t β̂.
On montre que
Y0 − Ŷ0
p
∼ T (n − p − 1).
σ̂ 1 + X0t (X t X )−1 X0
→ Exercice 8.
On en déduit l’intervalle de prédiction qui est :
q
t
t
−1
Ŷ0 ± tn−p−1,1−α/2 σ̂ 1 + X0 (X X ) X0
- Chapitre V -
On veut construire un intervalle de confiance du paramètre
E (Y0 ) = X0t β
On sait que Ŷ0 ∼ N (X0t β, σ 2 X0t (X t X )−1 X0 ) doù
Ŷ − X0t β
p t0
∼ T (n − p − 1).
σ̂ X0 (X t X )−1 X0
On en déduit l’intervalle de confiance qui est :
q
t
t
−1
Ŷ0 ± tn−p−1,1−α/2 σ̂ X0 (X X ) X0
- Chapitre V -
Les critères de choix
Les procédures de sélection de variables
Plan
1
2
3
4
5
6
- Chapitre V -
Objectif : Sélectionner parmi les p variables explicatives, les q ≤ p
variables qui donnent le “meilleur” modèle pour prédire Y .
Il va donc falloir :
Définir un critère qui permet de comparer deux modèles
n’ayant pas nécessairement le même nombre de variables
explicatives.
Définir un procédure qui permet “d’optimiser” ce critère parmi
tous les modèles. On parle de procédure de choix de modèle.
- Chapitre V -
→ Le coefficient R 2 = 1 −
SCR
SCT
mesure l’ajustement du modèle aux données,
augmente lorsque le nombre de variables incluses dans le
modèle augmente,
permet de comparer des modèles ayant le même nombre de
variables
⇒ Ce critère ne peut pas être utilisé dans une procédure de
choix de modèle.
- Chapitre V -
2
→ Le coefficient Rajusté
=1−
SCR/(n−p−1)
SCT /(n−1)
2
V(ε)
σ
2
Estime le Rpopulation
= 1 − V(Y
) = 1 − σY2 ,
peut prendre des valeurs négatives,
n’augmente pas forcément lorsque le nombre de variables
introduites dans le modèle augmente.
⇒ Ce critère peut être utilisé dans une procédure de choix de
modèle (à maximiser).
- Chapitre V -
→ Le Cq de Mallows :
Cq =
SCR0
− n + 2(q + 1)
SCR1/(n − p − 1)
où
SCR1 est évalué pour le modèle complet à p variables,
SCR0 est évalué pour le modèle réduit à q variables.
⇒ Ce critère doit être comparé à q + 1 dans une procédure de
choix de modèle.
- Chapitre V -
→ Les critères de vraisemblance pénalisée :
AIC (Akaike Information Criterion)
AIC = −2 ln(L) + 2k,
BIC (Bayesian Information Criterion) :
BIC = −2 ln(L) + k ln(n),
où
L est la vraisemblance du modèle estimé (vraisemblance
maximisée),
k est le nombre de paramètres du modèle.
- Chapitre V -
→ Les critères de AIC et BIC en régression multiple :
k = q + 1 (paramètres β1 , . . . , βq et σ),
−2 ln(L) = n [ln(2πσ̃) + 1]
où σ̃ =
SCR
n
souvent remplacé par σ̂ =
SCR
n−p−1 .
→ Les critères AIC et BIC peuvent alors être simplifiés :
AIC = n ln(SCR) + 2k
BIC = n ln(SCR) + k ln(n)
AIC = n ln(σ̂) + 2k
BIC = n ln(σ̂) + k ln(n)
⇒ Ces critères doivent être minimisés dans une procédure de
choix de modèle.
- Chapitre V -
Procédure exhaustive de sélection de variables
Il s’agit d’évaluer avec l’un des critères précédent tous les modèles
de régression à q ≤ p variables et retenir le meilleur mais,
le nombre de modèles à q variables est Cpq =
p!
q!(p−q)! ,
le nombre total de modèles à considérer est
p
X
Cpq = 2p − 1.
q=1
,→ Le nombre de modèles croı̂t exponentiellement avec p. Par
exemple, si 30 variables sont à disposition, on devrait
considérer 230 = 109 modèles...
,→ Impossible en pratique dès que p grandit.
- Chapitre V -
Procédure leaps and bounds
Procédure basée sur l’algorithme de Furnival et Wilson :
algorithme de type branch and bound,
permet de trouver, pour q fixé, le “meilleur” modèle c’est à
dire le “meilleur” sous-ensemble de q variables.
Pour q fixé, on a :
2
min AIC ⇔ min BIC ⇔ max R 2 ⇔ max Rajusté
⇔ min SCR.
En pratique :
La procédure fournit le meilleur modèle à 1, 2, . . . , p variables ,
2 Choisir q ∈ {1, . . . , p} qui fournit le meilleur modèle avec l’un
des critères de choix (sauf R 2 et SCR).
Remarque. Efficace mais limitée à une trentaine de variables.
1
- Chapitre V -
Procédure pas à pas ascendante (forward stepwise)
1
2
3
On effectue p régressions linéaires simple et on sélectionne la
variable qui donne le meilleur modèle c’est à dire :
le modèle qui maximise R 2 ⇔ minimise SCR ...
ou de manière équivalente la variable qui a la p-value du test
de contribution marginale la plus petite.
On effectue p − 1 régressions linéaires avec 2 variables explicatives
en gardant celle sélectionnée à l’étape 1 et on sélectionne celle qui
ajoutée à la première :
apporte la plus grande augmentation du R 2 ⇔ maximise la
statistique de Fisher du test de contribution jointe,
ou de manière équivalente a la p-value du test de contribution
marginale la plus petite (variable la plus significative).
On recommence jusqu’à ce qu’aucune variable significative ne puisse
être ajoutée.
- Chapitre V -
Procédure pas à pas descendante (backward stepwise)
1
On effectue une régression linéaire multiple avec les p variables
explicatives disponibles.
2
On effectue p − 1 régressions linéaires en supprimant une variable et
on sélectionne la variable qui :
apporte la plus grande diminuation du R 2 ⇔ minimise la
statistique de Fisher du test de contribution jointe,
ou de manière équivalente a la p-value du test de contribution
marginale la plus grande (variable la moins significative).
3
On recommence jusqu’à ce qu’aucune variable non significative ne
puisse être retirée.
- Chapitre V -

La régression linéaire multiple

Transcription

Documents pareils

TME 4 : Régression logisitique

Mon deuxi`eme livre sur les jeux vidéo

La droite de Williamson : une technique de

Impossible à dire de Patricia Reilly Giff Un vrai coup de coeur! C`est

Ginie Line à Boussens

Statistiques Master Statistique et econométrie TD sur les tests

Correction de l`interrogation de matématiques no 7 Exercice 1 (5

1001 BaptÃªmes - Tout pour le baptÃªme et la naissance

TP Analyse d`un syst`eme dynamique discret : la suite logistique

Univers Viewer