La régression linéaire multiple
Transcription
La régression linéaire multiple
Plan La régression linéaire multiple - Chapitre V Notes de cours Modélisation Statistique L3 MIASHS - Université de Bordeaux - Chapitre V - L3 MIASHS- La régression linéaire multiple 1/46 Plan Plan 1 Ecriture du modèle et estimation des paramètres 2 Cas du modèle gaussien 3 Coefficient de determination R 2 4 Tests d’hypothèse 5 Prévision d’une valeur future 6 Sélection de variables - Chapitre V - L3 MIASHS- La régression linéaire multiple 2/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Plan 1 Ecriture du modèle et estimation des paramètres 2 Cas du modèle gaussien 3 Coefficient de determination R 2 4 Tests d’hypothèse 5 Prévision d’une valeur future 6 Sélection de variables - Chapitre V - L3 MIASHS- La régression linéaire multiple 3/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Première écriture du modèle Le modèle de régression linéaire multiple s’écrit sous la forme : Y = β0 + p X βk X (k) + ε k=1 - les p variables explicatives X (k) sont non aléatoires réelles, - l’erreur ε est aléatoire, - la variable à expliquer Y est donc aléatoire. L’objectif : estimer les p + 1 paramètres β0 , . . . , βp . - Chapitre V - L3 MIASHS- La régression linéaire multiple 4/46 (1) Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Seconde écriture du modèle On se donne deux n-échantillons (Xn ) et (Yn ) qui ne sont pas mutuellement indépendants où : - (Xn ) forme une suite de vecteurs de dimension p ≥ 1, (1) (p) - Xi = (Xi , . . . , Xi ) est la ième composante de (Xn ). Le modèle s’écrit alors : Yi = β0 + p X (k) βk Xi + εi i = 1, . . . , n. k=1 - Chapitre V - L3 MIASHS- La régression linéaire multiple 5/46 (2) Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Les hypothèses sont celles de la régression linéaire simple : (1) E[εi ] = 0, ∀ i = 1, . . . , n : les erreurs sont centrées, P (k) ⇔ E[Yi ] = β0 + pk=1 βk Xi . (2) V(εi ) = σ 2 , ∀ i = 1, . . . , n : la variance des erreurs est constante, on parle d’homogénéité des variances ou encore d’ homoscédasticité, ⇔ V(Yi ) = σ 2 . Remarque : σ 2 est un autre paramètre inconnu à estimer. (3) Cov(εi , ε` ) = 0 , ∀ i 6= ` : les erreurs sont non corrélées, ⇔ Cov(Yi , Y` ) = 0. Remarque : Lorsqu’on ajoute une hypothèse de normalité sur les εi , les εi sont indépendants. (εn ) est alors un bruit blanc gaussien. - Chapitre V - L3 MIASHS- La régression linéaire multiple 6/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Sous les hypothèses (1) à (3), l’estimateur des moindres carrées de β = (β0 , β1 , . . . , βp )t aura de bonnes propriétés. En ajoutant l’hypothèse de normalité des erreurs, on pourra définir l’estimateur du maximum de vraisemblance de β et effectuer des tests sur la nullité des paramètres. En pratique, il conviendra de vérifier si ces hypothèses sont vérifiées. - Chapitre V - L3 MIASHS- La régression linéaire multiple 7/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Ecriture matricielle du modèle Le modèle (2) s’écrit : Y = Xβ + ε (3) où Y1 Y2 Y = . , .. Yn 1 1 X = .. . 1 (1) X1 (1) X2 .. . (1) Xn (2) X1 (2) X2 .. . (2) Xn - Chapitre V - ... ... (p) X1 (p) X2 .. , . ... Xn (p) β0 β1 β = . , .. βp ε1 ε2 ε = . . .. εn L3 MIASHS- La régression linéaire multiple 8/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Ecriture matricielle Les 3 hypothèses précédentes peuvent alors s’écrire sous la forme : (1’) E(ε) = 0n ⇒ E(Y ) = X β ∈ Rn . (2’) V(ε) = σ 2 In ⇒ V(Y ) = σ 2 In . où 0n est le vecteur nul de dimension n et In est la matrice identité de dimension n × n. On suppose en outre que p + 1 < n, rang(X ) = p + 1, c’est-à-dire qu’il n’existe pas de liaison linéaire entre les X (k) . - Chapitre V - L3 MIASHS- La régression linéaire multiple 9/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Ecriture matricielle Il est important de bien faire la différence entre P (k) l’expression E(Yi ) = β0 + pk=1 βk Xi (qui désigne l’espérance d’une variable aléatoire scalaire), et l’expression E(Y ) = X β (qui désigne l’espérance d’une variable aléatoire vectorielle) : on obtient dans un cas un scalaire, dans l’autre cas un vecteur de Rn . l’expression V(Yi ) = σ 2 (qui désigne la variance d’une variable aléatoire scalaire), et l’expression V(Y ) = σ 2 In (qui désigne la covariance d’une variable aléatoire vectorielle) : on obtient dans un cas un scalaire (σ 2 ), dans l’autre cas une matrice carrée (σ 2 In ) de dimension n × n. - Chapitre V - L3 MIASHS- La régression linéaire multiple 10/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Estimateur des moindres carrés de β On cherche l’équation de la droite de régression en dimension p + 1 pour laquelle les erreurs quadratiques (ε2n ) sont les plus faibles. On cherche alors à minimiser n X i=1 ε2i = n X (1) (2) (p) (Yi − β0 − β1 Xi − β2 Xi − . . . − βp Xi )2 = εtε i=1 On remarque que ε = Y − X β, ce qui nous conduit à εtε = (Y − X β)t (Y − X β) = Y t Y − 2 Y t X β + β t X tX β - Chapitre V - L3 MIASHS- La régression linéaire multiple 11/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Estimateur des moindres carrés de β Ainsi, par dérivation (vectorielle...) par rapport à β, ∂ εtε = −2 X tY + 2 X tX β. ∂β Chercher à annuler cette dérivée revient à choisir l’estimateur βb tel que X tX βb = X tY et donc βb = (X tX )−1 X tY . (4) → Exercice 1 (facile). Cela nous contraint en outre à supposer que la matrice X tX de dimension (p + 1) × (p + 1) est bien inversible. - Chapitre V - L3 MIASHS- La régression linéaire multiple 12/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Prédictions et résidus Une fois que β a été estimé, nous pouvons reconstruire nos données à l’aide de notre modélisation. On construit les prédictions bi = βb0 + Y p X (k) βbk Xi ou encore b = X β, b Y k=1 et les résidus bi εbi = Yi − Y ou encore b. εb = Y − Y Remarque. Ŷi estime E(Yi ). - Chapitre V - L3 MIASHS- La régression linéaire multiple 13/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Propriétés de β̂ Sous les hypothèses retenues, on peut montrer que : E(β̂) = β V(β̂) = σ 2 (X tX )−1 → Exercice 2 (facile). On peut également montrer que β̂ est l’estimateur sans biais de variance minimale ou encore estimateur BLUE (Best Linear Unbiased Estimator). - Chapitre V - L3 MIASHS- La régression linéaire multiple 14/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Estimation de σ 2 Selon la stratégie usuelle, on considère l’estimateur n σ b2 = tε X 1 b εb εbi 2 = n−p−1 n−p−1 i=1 Sous les hypothèses retenues on peut montrer que : E[b σ 2] = σ2. → Exercice 3 (difficile). - Chapitre V - L3 MIASHS- La régression linéaire multiple 15/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Estimation de σ 2 → On en déduit un estimateur sans biais de V(β̂) ; V̂(β̂) = σ̂ 2 (X t X )−1 . → Pour débiaiser l’estimateur de σ 2 nous retrouvons une normalisation par n − p − 1 lorsque l’estimation concerne p + 1 paramètres. - Chapitre V - L3 MIASHS- La régression linéaire multiple 16/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Le modèle de régression linéaire multiple Estimation de β et de σ 2 Interprétation géométrique Interprétation géométrique On munit l’espace Rn des variables de la métrique D = n1 In . On note W le sous-espace de Rn de dimension p + 1 engendré par les colonnes de X. On montre alors que : b est la projection D-orthogonale de Y sur W . Y → La preuve est directe en écrivant : b = PW Y , Y avec PW = X (X t DX )−1 X t D l’opérateur de projection sur W . - Chapitre V - L3 MIASHS- La régression linéaire multiple 17/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Cas du modèle gaussien Plan 1 Ecriture du modèle et estimation des paramètres 2 Cas du modèle gaussien 3 Coefficient de determination R 2 4 Tests d’hypothèse 5 Prévision d’une valeur future 6 Sélection de variables - Chapitre V - L3 MIASHS- La régression linéaire multiple 18/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Cas du modèle gaussien Hypothèse supplémentaire On ajoute l’hypothèse de normalité des erreurs : εi ∼ N (0, σ 2 ) ⇒ Yi ∼ N (βXi , σ 2 ), ou encore matriciellement : (3’) ε ∼ N (0n , σ 2 In ) ⇒ Y ∼ N (βX , σ 2 In ). Remarques. Sous l’hypothèse de normalité, V(ε) = V(Y ) = σ 2 In implique que le εi et les Yi sont indépendants. Les hypothèses (1’), (2’) (3’) ⇒ (εn ) est un bruit blanc de loi N (0, σ 2 ). - Chapitre V - L3 MIASHS- La régression linéaire multiple 19/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Cas du modèle gaussien Estimateurs du maximum de vraisemblance de β et de σ 2 La fonction de vraisemblance est la densité conjointe des Yi notée L(β, σ 2 ). Les estimateurs β̃ et σ̃ 2 qui maximisent L(β, σ 2 ) sont : β̃ = (X t X )−1 X t Y 1 1 σ̃ 2 = (Y − X β̂)t (y − X β̂) = ε̂t ε̂ n n = β̂ 6= σ̂ 2 → Exercice 4 (facile). Remarque. σ̃ 2 est biaisé. - Chapitre V - L3 MIASHS- La régression linéaire multiple 20/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Cas du modèle gaussien Propriétés de β̃ et σ̃ 2 Sous les hypothèses (1’), (2’) et (3’) on montre que : 1 β̃ ∼ N β, σ 2 (X t X )−1 ⇒ β̂ ∼ N β, σ 2 (X t X )−1 . 2 n σσ̃2 ∼ χ2 (n − p − 1) ⇒ (n − p − 1) σ̂σ2 ∼ χ2 (n − p − 1). 3 β̃ et σ̃ 2 indépendants ⇒ β̂ et σ̂ 2 indépendants. 2 2 → Exercice 5 (difficile). - Chapitre V - L3 MIASHS- La régression linéaire multiple 21/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Définition Interprétation Plan 1 Ecriture du modèle et estimation des paramètres 2 Cas du modèle gaussien 3 Coefficient de determination R 2 4 Tests d’hypothèse 5 Prévision d’une valeur future 6 Sélection de variables - Chapitre V - L3 MIASHS- La régression linéaire multiple 22/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Définition Interprétation Définition On définit R comme le coefficient de corrélation linéaire entre les Yi et les Ŷi . Son carré s’interprète en terme de variance expliquée : Pn b (Yi − Ȳn )2 SCE 2 R = Pi=1 = n 2 SCT i=1 (Yi − Ȳn ) SCR . =1− SCT avec la décomposition : n X |i=1 2 n X } |i=1 (Yi − Ȳn ) = {z SCT bn )2 + (Yi − Y {z SCR } n X |i=1 bi − Ȳn )2 (Y {z SCE } bi = Yi . Remarque. R 2 = 1 ⇒ l’ajustement est parfait : ∀i, Y - Chapitre V - L3 MIASHS- La régression linéaire multiple 23/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Définition Interprétation Interprétation → Interprétation géométrique : R est le cosinus de l’angle formé b − Ȳ ) où Ȳ = (Ȳn , . . . , Ȳn )t ∈ Rn . par (Y − Ȳ ) et (Y → Interprétation statistique : R 2 peut être utilisé pour tester l’ajustement de Y par Ŷ . On peut montrer que sous H0 : “β1 = . . . = βq = 0” (ou H0 : “R 2 = 0”) : Fn = SCE /p R 2 /p = ∼ F (p, n−p−1) 2 SCR/(n − p − 1) (1 − R )/(n − p − 1) → Exercice 6 (facile). ⇒ On rejette H0 si Fn > fp, n−p−1, 1−α . - Chapitre V - L3 MIASHS- La régression linéaire multiple 24/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Test de significativité du modèle Test de significativité d’un coefficient βk Contribution jointe d’un ensemble de régresseurs Plan 1 Ecriture du modèle et estimation des paramètres 2 Cas du modèle gaussien 3 Coefficient de determination R 2 4 Tests d’hypothèse 5 Prévision d’une valeur future 6 Sélection de variables - Chapitre V - L3 MIASHS- La régression linéaire multiple 25/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Test de significativité du modèle Test de significativité d’un coefficient βk Contribution jointe d’un ensemble de régresseurs Test de significativité du modèle Nous avons vu que l’on peut utiliser la statistique de test Fn = SCE /p SCR/(n − p − 1) pour tester l’hypothèse H0 : “β1 = . . . = βp = 0” contre H1 : “∃ j ∈ {1, . . . , p}, βj 6= 0”. La zone de rejet associé à cette statistique est : R = ]fp, n−p−1, 1−α , +∞[. - Chapitre V - L3 MIASHS- La régression linéaire multiple 26/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Test de significativité du modèle Test de significativité d’un coefficient βk Contribution jointe d’un ensemble de régresseurs Test de significativité d’un coefficient βk On veut tester H0 : “βk = 0” contre H1 : “βk 6= 0” → construire une statistique de test dont on connaı̂t la loi sous H0 . On peut montrer que βbk − βk ∼ t(n − p − 1) √ σ b ckk où c00 , c11 , . . . , cpp sont les éléments diagonaux de (X tX )−1 → Exercice 7 Remarque. V̂(β̂k ) = σ̂ 2 ckk . - Chapitre V - L3 MIASHS- La régression linéaire multiple 27/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Test de significativité du modèle Test de significativité d’un coefficient βk Contribution jointe d’un ensemble de régresseurs Test de significativité d’un coefficient βk On utilise donc la statistique de test βbk Tn = √ σ b ckk pour tester les hypothèses H0 : “βk = 0” contre H1 : “βk 6= 0” La zone de rejet associé à cette statistique est : R = ]− ∞, −tn−p−1, 1−α/2 [ ∪ ] tn−p−1, 1−α/2 , +∞[. - Chapitre V - L3 MIASHS- La régression linéaire multiple 28/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Test de significativité du modèle Test de significativité d’un coefficient βk Contribution jointe d’un ensemble de régresseurs Test de significativité d’un coefficient βk Rejeter H0 signifie : que la variable explicative X (k) joue un rôle dans le modèle de régression, c’est-à-dire que X (k) apporte de l’information quant à la reconstruction de Y , que le coefficient βk est significativement non nul, que βk s’interprète comme le taux d’accroissement moyen de Y en fonction d’une variation de X (k) lorsque tous les autres régresseurs X (1) , . . . , X (k−1) , X (k+1) , . . . , X (p) restent fixés. - Chapitre V - L3 MIASHS- La régression linéaire multiple 29/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Test de significativité du modèle Test de significativité d’un coefficient βk Contribution jointe d’un ensemble de régresseurs Contribution jointe d’un ensemble de régresseurs On cherche à tester la nullité des q ≤ p premiers paramètres : H0 : “β1 = . . . = βq = 0” contre H1 : “∃ k ∈ {1, . . . , q}, βk 6= 0”. Cela revient à comparer deux modèles : le modèle complet à p regresseurs (modèle 1) pour lequel on évalue la somme des carrés des résidus SCR1 , le modèle réduit à p − q regresseurs (modèle 0) pour lequel on évalue la somme des carrés des résidus SCR0 . - Chapitre V - L3 MIASHS- La régression linéaire multiple 30/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Test de significativité du modèle Test de significativité d’un coefficient βk Contribution jointe d’un ensemble de régresseurs Contribution jointe d’un ensemble de régresseurs On peut montrer que sous H0 : (SCR0 − SCR1 )/q ∼ F (q, n − p − 1). SCR1 /(n − p − 1) Nous en déduisons la zone de rejet associée à cette statistique de test : R = ]fq, n−p−1, 1−α , +∞[. Remarque. Ce test est utile pour faire de la modélisation pas à pas et sélectionner un ensemble optimal de régresseurs nécessaires à la reconstruction de Y . - Chapitre V - L3 MIASHS- La régression linéaire multiple 31/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Intervalle de prédiction Intervalle de confiance Plan 1 Ecriture du modèle et estimation des paramètres 2 Cas du modèle gaussien 3 Coefficient de determination R 2 4 Tests d’hypothèse 5 Prévision d’une valeur future 6 Sélection de variables - Chapitre V - L3 MIASHS- La régression linéaire multiple 32/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Intervalle de prédiction Intervalle de confiance Prévision d’une valeur future Objectif : prévoir à l’aide du modèle la valeur de Y pour une (1) (p) nouvelle observation notée (X0 , . . . , X0 ). D’après le modèle, on a : Y0 = X0t β + ε0 , (1) (p) où X0 = (1, X0 , . . . , X0 )t , Deux possibilités : Construire un intervalle qui contient la prédiction Ŷ0 = Ê(Y0 ) avec une probabilité 1 − α (intervalle de prédiction). Construire un intervalle de confiance de E(Y0 ) de niveau 1 − α. - Chapitre V - L3 MIASHS- La régression linéaire multiple 33/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Intervalle de prédiction Intervalle de confiance Intervalle de prédiction La prédiction pour une nouvelle observation est donc : Ŷ0 = X0t β̂. On montre que Y0 − Ŷ0 p ∼ T (n − p − 1). σ̂ 1 + X0t (X t X )−1 X0 → Exercice 8. On en déduit l’intervalle de prédiction qui est : q t t −1 Ŷ0 ± tn−p−1,1−α/2 σ̂ 1 + X0 (X X ) X0 - Chapitre V - L3 MIASHS- La régression linéaire multiple 34/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Intervalle de prédiction Intervalle de confiance Intervalle de confiance On veut construire un intervalle de confiance du paramètre E (Y0 ) = X0t β On sait que Ŷ0 ∼ N (X0t β, σ 2 X0t (X t X )−1 X0 ) doù Ŷ − X0t β p t0 ∼ T (n − p − 1). σ̂ X0 (X t X )−1 X0 On en déduit l’intervalle de confiance qui est : q t t −1 Ŷ0 ± tn−p−1,1−α/2 σ̂ X0 (X X ) X0 - Chapitre V - L3 MIASHS- La régression linéaire multiple 35/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Plan 1 Ecriture du modèle et estimation des paramètres 2 Cas du modèle gaussien 3 Coefficient de determination R 2 4 Tests d’hypothèse 5 Prévision d’une valeur future 6 Sélection de variables - Chapitre V - L3 MIASHS- La régression linéaire multiple 36/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Sélection de variables Objectif : Sélectionner parmi les p variables explicatives, les q ≤ p variables qui donnent le “meilleur” modèle pour prédire Y . Il va donc falloir : Définir un critère qui permet de comparer deux modèles n’ayant pas nécessairement le même nombre de variables explicatives. Définir un procédure qui permet “d’optimiser” ce critère parmi tous les modèles. On parle de procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 37/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Les critères de choix → Le coefficient R 2 = 1 − SCR SCT mesure l’ajustement du modèle aux données, augmente lorsque le nombre de variables incluses dans le modèle augmente, permet de comparer des modèles ayant le même nombre de variables ⇒ Ce critère ne peut pas être utilisé dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 38/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Les critères de choix 2 → Le coefficient Rajusté =1− SCR/(n−p−1) SCT /(n−1) 2 V(ε) σ 2 Estime le Rpopulation = 1 − V(Y ) = 1 − σY2 , peut prendre des valeurs négatives, n’augmente pas forcément lorsque le nombre de variables introduites dans le modèle augmente. ⇒ Ce critère peut être utilisé dans une procédure de choix de modèle (à maximiser). - Chapitre V - L3 MIASHS- La régression linéaire multiple 39/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Les critères de choix → Le Cq de Mallows : Cq = SCR0 − n + 2(q + 1) SCR1/(n − p − 1) où SCR1 est évalué pour le modèle complet à p variables, SCR0 est évalué pour le modèle réduit à q variables. ⇒ Ce critère doit être comparé à q + 1 dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 40/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Les critères de choix → Les critères de vraisemblance pénalisée : AIC (Akaike Information Criterion) AIC = −2 ln(L) + 2k, BIC (Bayesian Information Criterion) : BIC = −2 ln(L) + k ln(n), où L est la vraisemblance du modèle estimé (vraisemblance maximisée), k est le nombre de paramètres du modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 41/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Les critères de choix → Les critères de AIC et BIC en régression multiple : k = q + 1 (paramètres β1 , . . . , βq et σ), −2 ln(L) = n [ln(2πσ̃) + 1] où σ̃ = SCR n souvent remplacé par σ̂ = SCR n−p−1 . → Les critères AIC et BIC peuvent alors être simplifiés : AIC = n ln(SCR) + 2k BIC = n ln(SCR) + k ln(n) AIC = n ln(σ̂) + 2k BIC = n ln(σ̂) + k ln(n) ⇒ Ces critères doivent être minimisés dans une procédure de choix de modèle. - Chapitre V - L3 MIASHS- La régression linéaire multiple 42/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Procédure exhaustive de sélection de variables Il s’agit d’évaluer avec l’un des critères précédent tous les modèles de régression à q ≤ p variables et retenir le meilleur mais, le nombre de modèles à q variables est Cpq = p! q!(p−q)! , le nombre total de modèles à considérer est p X Cpq = 2p − 1. q=1 ,→ Le nombre de modèles croı̂t exponentiellement avec p. Par exemple, si 30 variables sont à disposition, on devrait considérer 230 = 109 modèles... ,→ Impossible en pratique dès que p grandit. - Chapitre V - L3 MIASHS- La régression linéaire multiple 43/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Procédure leaps and bounds Procédure basée sur l’algorithme de Furnival et Wilson : algorithme de type branch and bound, permet de trouver, pour q fixé, le “meilleur” modèle c’est à dire le “meilleur” sous-ensemble de q variables. Pour q fixé, on a : 2 min AIC ⇔ min BIC ⇔ max R 2 ⇔ max Rajusté ⇔ min SCR. En pratique : La procédure fournit le meilleur modèle à 1, 2, . . . , p variables , 2 Choisir q ∈ {1, . . . , p} qui fournit le meilleur modèle avec l’un des critères de choix (sauf R 2 et SCR). Remarque. Efficace mais limitée à une trentaine de variables. 1 - Chapitre V - L3 MIASHS- La régression linéaire multiple 44/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Procédure pas à pas ascendante (forward stepwise) 1 2 3 On effectue p régressions linéaires simple et on sélectionne la variable qui donne le meilleur modèle c’est à dire : le modèle qui maximise R 2 ⇔ minimise SCR ... ou de manière équivalente la variable qui a la p-value du test de contribution marginale la plus petite. On effectue p − 1 régressions linéaires avec 2 variables explicatives en gardant celle sélectionnée à l’étape 1 et on sélectionne celle qui ajoutée à la première : apporte la plus grande augmentation du R 2 ⇔ maximise la statistique de Fisher du test de contribution jointe, ou de manière équivalente a la p-value du test de contribution marginale la plus petite (variable la plus significative). On recommence jusqu’à ce qu’aucune variable significative ne puisse être ajoutée. - Chapitre V - L3 MIASHS- La régression linéaire multiple 45/46 Ecriture du modèle et estimation des paramètres Cas du modèle gaussien Coefficient de determination R 2 Tests d’hypothèse Prévision d’une valeur future Sélection de variables Les critères de choix Les procédures de sélection de variables Procédure pas à pas descendante (backward stepwise) 1 On effectue une régression linéaire multiple avec les p variables explicatives disponibles. 2 On effectue p − 1 régressions linéaires en supprimant une variable et on sélectionne la variable qui : apporte la plus grande diminuation du R 2 ⇔ minimise la statistique de Fisher du test de contribution jointe, ou de manière équivalente a la p-value du test de contribution marginale la plus grande (variable la moins significative). 3 On recommence jusqu’à ce qu’aucune variable non significative ne puisse être retirée. - Chapitre V - L3 MIASHS- La régression linéaire multiple 46/46