Régression linéaire - Lamsade - Université Paris
Transcription
Régression linéaire - Lamsade - Université Paris
Analyse de données Régression linéaire Jamal Atif [email protected] Université Paris-Dauphine, Licence MIDO 2014-2015 1 / 45 Jamal Atif Analyse de Données Copyright Ce cours est adapté librement des ressources suivantes : ▶ 2 / 45 Livre : Régression avec , Pierre-André Cornillon et Eric Matzner- Lober, Springer 2010. Jamal Atif Analyse de Données Exemple introductif Un analyste en webmarketing s’intéresse à la relation de causalité entre les frais de publicité et les ventes d’un produit donné. En particulier il cherche à savoir s’il est possible d’expliquer le nombre de ventes par les frais de publicité. Il collecte l’échantillon des données suivant : Pub. (e) 1 2 3 4 5 Ventes (unité) 1 1 2 2 4 Il s’agit alors : ▶ de trouver un modèle permettant d’expliquer Ventes en fonction de Pub, ▶ de prédire les valeurs de Ventes par de nouvelles valeurs de Pub. ⇒ Régression 3 / 45 Jamal Atif Analyse de Données Nuage de points 4 / 45 ▶ Pub (x) est une variable indépendante, dite variable explicative ou encore de régression ▶ Ventes (y) est dépendante dite réponse. Jamal Atif Analyse de Données Première démarche Examiner le nuage de points Trouver une relation entre la variable x et la variable y, telle que : yi ≈ f (xi ), i = 1, · · · , n 5 / 45 Jamal Atif Analyse de Données Modèle yi ≈ f (xi ) ; Se fixer une famille de fonction F (ex : fonctions linéaires) et une fonction de coût L telle que : n ∑ L(y − f (x)) est minimale pour une fonction f ∈ F donnée, i=1 où n représente le nombre de données disponibles (taille de l’échantillon) et L une fonction de coût ou de perte (Loss). ⇕ f̂ = argmin f ∈F 6 / 45 Exemples de L : ▶ L(x) =| x |, ▶ L(x) = x2 , ▶ etc. n ∑ L(y − f (x)), i = 1, · · · , n i=1 Jamal Atif Analyse de Données Modèle de régression linéaire simple ▶ F est une famille de fonctions linéaires (affines) de R dans R. ▶ On suppose disposer d’un échantillon de n points (xi , yi ). yi = β1 + β2 xi + εi , ∀i = 1, · · · , n 7 / 45 ▶ εi modélisent le bruit et sont supposés aléatoires (les points n’étant jamais parfaitement alignées sur une droite). ▶ β1 et β2 sont les paramètres inconnues du modèles. Jamal Atif Analyse de Données Modèle de régression linéaire simple Hypothèses : yi = β1 + β2 xi + εi , ∀i = 1, · · · , n 1. le bruit est une variable aléatoire d’espérance nulle et de variance inconnue fixe (homoscédacité) : E(εi ) = 0 et Var(εi ) = σ 2 , 2. εi et εj sont décorrélés pour tout i ̸= j : cov(εi , εj ) = 0 3. εi une v.a distribuée selon une loi normale de moyenne nulle et de variance σ 2 : εi ∼ N (0, σ 2 ). 8 / 45 Jamal Atif Analyse de Données Modèle de régression linéaire simple Hypothèses : Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi Nuage de points (xi , yi ). 9 / 45 Jamal Atif Analyse de Données Modèle de régression linéaire simple Hypothèses : Homoscédacité vs Hétéroscédacité εi ∼ N (0, xi ) Nuage de points (xi , εi ). 10 / 45 Jamal Atif Analyse de Données Modèle de régression linéaire simple Hypothèses : Homoscédacité vs Hétéroscédacité Ex : yi = 2xi + 1 + εi Distribution des erreurs. 11 / 45 Jamal Atif Analyse de Données Modèle de régression linéaire simple Hypothèses : Dépendance vs indépendance du bruit Ex : yi = 2xi + 1 + εi A gauche (xi , yi ), au milieu (xi , εi ) et à droite la distribution de ε. εi+1 ∼ N (εi , 100) 12 / 45 Jamal Atif Analyse de Données Estimateur des Moindres carrés Ordinaires f̂ = argmin f ∈F n ∑ L(yi − f (xi )), i = 1, · · · , n i=1 On fixe L(x) = x2 et f (x) = β1 + β2 x n ∑ (β̂1 , β̂2 ) = argmin (yi − β1 − β2 xi )2 β1 ,β2 13 / 45 Jamal Atif i=1 Analyse de Données Estimateur des Moindres carrés Ordinaires Cela revient à minimiser le carré du bruit εi pour chaque i : εi = yi − β1 + β2 xi = yi − ỹi yi : le point observé, et ỹi le point de la droite théorique. (β̂1 , β̂2 ) = argmin β1 ,β2 = argmin β1 ,β2 = argmin β1 ,β2 n ∑ i=1 n ∑ (yi − β1 − β2 xi )2 , (yi − ỹi )2 , i=1 n ∑ ε2i , i=1 = argmin ||ε||2 β1 ,β2 14 / 45 Jamal Atif Analyse de Données Illustration Au tableau ! 15 / 45 Jamal Atif Analyse de Données Calcul des estimateurs de β1 et β2 16 / 45 ∑n − β1 − β2 xi )2 ▶ On notera S(β1 , β2 ) = ▶ S(β1 , β2 ) est quadratique donc convexe et différentiable ⇒ admet un minimum unique en (βˆ1 , βˆ2 ). ▶ On calcule les points pour lesquelles les dérivées partielles de S en β1 et β2 s’annulent. On obtient les équations normales suivantes : n ∑ ∂S = −2 (yi − βˆ1 − βˆ2 xi ) = 0 ∂ βˆ1 i=1 (1) n ∑ ∂S xi (yi − βˆ1 − βˆ2 xi ) = 0 = −2 ∂ βˆ2 i=1 i=1 (yi Jamal Atif Analyse de Données Calcul des estimateurs de β1 et β2 ∑ ∂S = −2 (yi − βˆ1 − βˆ2 xi ) = 0 ∂ βˆ1 n i=1 ⇒βˆ1 n + βˆ2 n ∑ xi = i=1 n ∑ yi i=1 ⇒βˆ1 = y − βˆ2 x. 17 / 45 Jamal Atif Analyse de Données Calcul des estimateurs de β1 et β2 ∑ ∂S = −2 xi (yi − βˆ1 − βˆ2 xi ) = 0 ∂ βˆ2 n i=1 ⇒βˆ1 n ∑ xi + βˆ2 n ∑ x2i = n ∑ xi yi i=1 i=1 i=1 ∑ ∑ ∑ ∑ x y − x (x − x)(yi − y) y xi (yi − y) i i i ˆ ⇒β2 = ∑ 2 ∑ =∑ =∑ i xi (xi − x) (xi − x)(xi − x) xi − xi x Exercice de TD ! 18 / 45 Jamal Atif Analyse de Données Quelques remarques ▶ La relation βˆ1 = y − βˆ2 x montre que la droite des moindres carrés passe par le centre de gravité des nuages (x, y). Les expressions obtenues pour βˆ1 et βˆ2 montrent que ces ▶ deux estimateurs sont linéaires par rapport au vecteur y. L’estimateur βˆ2 peut s’écrire (exercice de TD) : ▶ ∑ (x − x)εi ˆ β2 = β2 + ∑ i (xi − x)2 → La variation de βˆ1 et βˆ2 vient seulement de ε 19 / 45 Jamal Atif Analyse de Données Quelques propriétés de βˆ1 et βˆ2 Sous les hypothèses 1 et 2 (centrage, décorrélation et homoscédacité) β1 et β2 sont des estimateurs sans biais de β1 et β2 . Nous savons que : ∑ (xi − x)εi βˆ2 = β2 + ∑ (xi − x)2 Dans cette expression, seuls les bruits εi sont aléatoires d’espérance nulle. Nous avons donc : E(βˆ2 ) = β2 Pour β̂1 , on part de l’expression : β̂1 = y − β̂2 x, d’où l’on tire : E(βˆ1 ) = E(y) − xE(βˆ2 ) = β1 + xβ2 − xβ2 = β1 20 / 45 Jamal Atif Analyse de Données Quelques propriétés de βˆ1 et βˆ2 Les variances des estimateurs sont : ∑ ( ) σ 2 x2i 1 x2 2 ˆ var(β1 ) = ∑ =σ +∑ n (xi − x)2 n (xi − x)2 σ2 var(βˆ2 ) = ∑ (xi − x)2 Et la covariance vaut : σ2x cov(βˆ1 , βˆ2 ) = − ∑ (xi − x)2 Preuve au tableau. 21 / 45 Jamal Atif Analyse de Données Résultat fondamental Théorème de Gauss-Markov : Parmi les estimateurs sans biais linéaires de y, les estimateurs β̂i sont de variances minimales. Nous omettrons la preuve. 22 / 45 Jamal Atif Analyse de Données Calcul des résidus et de la variance résiduelle ε̂i = yi − ŷi = yi − βˆ1 − βˆ2 xi = (yi − y) − βˆ2 (xi − x) Par construction, nous avons : ∑ ∑ ∑ (xi − x) = 0. ε̂i = (yi − y) − βˆ2 i i i 2 Estimateur non biaisé ∑ de σ La statistique σ̂ 2 = σ2. ε̂2i /(n − 2) est un estimateur sans biais de Détails au tableau. 23 / 45 Jamal Atif Analyse de Données Prévision Rappel : un des buts de la régression est la prévision/prédiction. Soit xn+1 une nouvelle valeur pour laquelle nous voulons prédire yn+1 . Le modèle s’écrit : yn+1 = β1 + β2 xn+1 + εn+1 , avec E(εn+1 ) = 0, var(εn+1 = σ 2 ) et cov(εn+1 , εn ) = 0 pour tout i = 1, · · · , n. La valeur yn+1 peut être prédite comme suit : ŷn+1 = βˆ1 + βˆ2 xn+1 24 / 45 Jamal Atif Analyse de Données Erreur de prévision ŷn+1 = βˆ1 + βˆ2 xn+1 L’erreur de prévision ε̂n+1 = (yn+1 − ŷn+1 ) satisfait les propriétés suivantes : { E(ε̂n+1 ) =0 ( ) var(ε̂n+1 ) = σ 2 1 + 1 n + (xn+1 −x)2 ∑ n 2 i=1 (xi −x) (2) Interprétation La variance augmente lorsque xn+1 s’éloigne du centre de gravité. Autrement dit, faire la prévision lorsque xn+1 est «loin» de x est périlleux, puisque la variance de l’erreur de prévision peut être très grande. 25 / 45 Jamal Atif Analyse de Données Interprétation géométrique Le problème de régression peut prendre la forme matricielle : y = Ab + ε, avec 1 x1 ε1 [ ] β1 A = ... ... , b = , ε = ... β2 1 xn εn 26 / 45 Jamal Atif Analyse de Données Décomposition de la variance ε̂ = y − ŷ Par le théorème de Pythagore, nous avons : ||y − y1||2 = ||ŷ − y1||2 + ||ε̂||2 n ∑ i=1 (yi − y)2 = n ∑ (ŷi − y)2 + i=1 n ∑ (3) ε̂2i , (4) i=1 SCT = SCE + SCR (5) ▶ SCT : Somme des Carrés des écarts Totale ; elle possède (n − 1) degrés de liberté ▶ SCE : Somme des Carrés des écarts Expliquée ; elle possède (1) degrés de liberté ▶ SCR : Somme des Carrés des écarts Résiduelle ; elle possède (n − 2) degrés de liberté 27 / 45 Jamal Atif Analyse de Données Rappels sur les degré de liberté Somme des carrés à la moyenne, SC SC = n ∑ (xi − x)2 i=1 Nombre de degrés de liberté (ddl) ▶ ddl = nombre total des valeurs − nombre des valeurs estimées. ▶ Pour la somme précédente (SC), on a estimé la moyenne, donc ddl = n − 1. Variance estimée SC 1 ∑ (xi − x)2 = ddl n−1 n var(x) = i=1 28 / 45 Jamal Atif Analyse de Données Décomposition de la variance SCT = SCE + SCR Les degrés de liberté (ddl) s’additionnent, tout comme les sommes carrés d’écarts : (n − 1) = 1 + (n − 2) Les variances s’obtient en divisant chaque somme de carrés d’écarts par le nombre de ddl correspondants : Vt = SCT SCE , Ve = SCE, Vr = n−1 n−2 Ce sont respectivement les variances totale, expliquée, et résiduelle. (Ces variances ne s’additionnent pas !) 29 / 45 Jamal Atif Analyse de Données Quelques quantités Le coefficient de détermination R2 R2 = ||ŷ − y1||2 ||ε̂||2 SCR SCE = =1− =1− = ρ2xy 2 SCT ||y − y1|| ||y − y1||2 SCT ▶ Si R2 = 1, le modèle explique tout, l’angle θ vaut zéro et y est dans M(X), c’est-à-dire que yi = β1 + β2 xi pour tout i : les points de l’échantillon sont parfaitement alignés sur la droite des moindres carrés ; ▶ Si R2 = 0, cela veut dire que (ŷi − y)2 = 0, donc ŷi = y pour tout i. Le modèle de régression linéaire est inadapté puisqu’on ne modélise rien de mieux que la moyenne ; ▶ Si R2 est proche de zéro, cela veut dire que Y est quasiment dans l’orthogonal de M(X), le modèle de régression linéaire est inadapté, la variable x n’explique pas bien la variable réponse y (du moins pas de façon affine). 30 / 45 Jamal Atif Analyse de Données Quelques quantités Le coefficient de corrélation R : c’est la racine du coefficient de détermination, affecté du signe de la pente βˆ2 . Il est toujours compris entre −1 et 1. L’écart-type résiduel σ̂ : c’est√la racine carrée de la variance résiduelle (σ̂ = Vr ). C’est une estimation de l’erreur faite sur la mesure de la variable dépendante y. Une valeur de 0 indiquerait un ajustement parfait. Le rapport de variance F : c’est le rapport de la variance e expliquée à la variance résiduelle (F = V Vr ). 31 / 45 Jamal Atif Analyse de Données Régions de confiances et tests d’hypothèses Mieux que les expressions des estimateurs et celles de leurs variances, on aimerait connaître leurs lois : ceci permettrait par exemple d’obtenir des régions de confiance et d’effectuer des tests d’hypothèses. Dans cette optique, il faut bien entendu faire une hypothèse plus forte sur notre modèle, à savoir préciser la loi des erreurs. 32 / 45 Jamal Atif Analyse de Données Cas d’erreurs gaussiennes Hypothèses supplémentaires sur le modèle : 1. εi ∼ N (0, σ 2 ) 2. εi sont mutuellement indépendants Il s’en suit : ∀i ∈ {1, · · · , n} yi ∼ N (β1 + β2 xi , σ 2 ) 33 / 45 Jamal Atif Analyse de Données Estimateurs du maximum de vraisemblance La vraisemblance vaut L(y; β1 , β2 , σ 2 ) = n ∏ N (β1 + β2 xi , σ 2 ) i=1 ( )n [ n 1 ∑ = √ exp − 2 (yi − β1 − β2 xi )2 2σ 2πσ 2 i=1 ( [ ] )n 1 1 = √ exp − 2 S(β1 , β2 ) 2σ 2πσ 2 1 ⇒ Trouver (βˆ1 , βˆ2 , σ̂ 2 ) qui maximisent la vraisemblance. ⇒ Pour simplifier le calcul on prend la log-vraisemblance : log(L). n 1 log L(y; β1 , β2 , σ 2 ) = − log(2πσ 2 ) − 2 S(β1 , β2 ) 2 2σ 34 / 45 Jamal Atif Analyse de Données ] Estimateurs du maximum de vraisemblance βˆ1 mv , βˆ2 mv n 1 log L(y; β1 , β2 , σ 2 ) = − log(2πσ 2 ) − 2 S(β1 , β2 ) 2 2σ ▶ Maximiser par rapport à (β1 , β2 ) revient à minimiser −S(β1 , β2 ). ⇒ Les estimateurs du maximum de vraisemblance de β1 et β2 sont égaux aux estimateurs des moindres carrés. βˆ1 mv = βˆ1 , 35 / 45 Jamal Atif βˆ2 mv = βˆ2 Analyse de Données Estimateurs du maximum de vraisemblance 2 σ̂mv Il reste à maximiser log L(y; βˆ1 , βˆ2 , σ 2 ) par rapport à σ 2 . ∂L(y; βˆ1 , βˆ2 , σ 2 ) n 1 = − 2 + 4 S(βˆ1 , βˆ2 ) 2 ∂σ 2σ 2σ n n 1 ∑ =− 2 + 4 (yi − βˆ1 − βˆ2 xi )2 2σ 2σ i=1 n ∂L(y; βˆ1 , βˆ2 , σ 2 ) 1∑ 2 2 ε̂i = 0 ⇒ σ̂ = mv 2 ∂ σ̂mv n i=1 ▶ L’estimateur du maximum de vraisemblance de σ 2 est différent de l’estimateur MCO σ̂ 2 . ▶ L’estimateur du maximum de vraisemblance de σ 2 est donc biaisé. En 2 )= effet E(σ̂mv 1 n ∑ E(ε̂2i ) = n−2 2 σ n ⇒ Ce biais est d’autant plus négligeable que le nombre d’observations est grand. 36 / 45 Jamal Atif Analyse de Données Lois des estimateurs et régions de confiance Rappels sur les lois usuelles Loi du χ2 Soit X1 , · · · , Xn des variables aléatoires i.i.d. suivant une loi normale centrée ∑ réduite. La loi de la variable X = ni=1 Xi2 est appelée loi du χ2 à n degrés de liberté (ddl), noté X ∼ χ2n . Loi de Student Soit Z une variable aléatoire suivant une loi normale centrée réduite et X une variable suivant une loi du χ2 à n degrés de liberté, avec Z et X indépendantes. La loi de la variable T = √Z est appelée loi de Student à n degrés de liberté et on note T ∼ Tn . X/n Loi de Fisher Soit U1 une variable aléatoire suivant une loi du χ2 à n1 degrés de liberté et U2 une variable aléatoire suivant une loi du χ2 à n2 degrés de liberté, avec U1 U1 /n1 et U2 indépendantes. La loi de la variable F = U est appelée loi de Fisher 2 /n2 n1 à (n1 , n2 ) degrés de liberté et on note F ∼ Fn2 . 37 / 45 Jamal Atif Analyse de Données Lois des estimateurs et régions de confiance Quelques notations préalables : −σ 2 x (xi − x)2 ∑ 2 ( ) xi 2 2 ∑ σ1 = σ n (xi − x)2 σ2 σ22 = ∑ (xi − x)2 c= ∑ 38 / 45 1 ∑ 2 ε̂i n−2 ∑ 2 ( ) xi 2 ∑ σ̂1 = σ̂ n (xi − x)2 σ̂ 2 σ̂2 = ∑ (xi − x)2 σ̂ 2 = ▶ σ12 , σ22 et c sont les variances et covariance des estimateurs des moindres carrés ordinaires. ▶ σ̂12 et σ̂22 correspondent quant à elles aux estimateurs des variances d e βˆ1 et βˆ2 . Jamal Atif Analyse de Données Lois des estimateurs avec variance connue Les lois des estimateurs des MCO avec variance σ 2 connue sont : [ ] [ ] βˆ1 β1 2 ▶ β̂ = ∼ N (β, σ V) où β = et β2 βˆ2 [ ∑ 2 ] [ 2 ] /n −x x σ c 1 1 1 i = σ2 V = ∑(x −x)2 i −x 1 c σ22 (n−2) 2 σ̂ ∼ χ2n−2 , loi du χ2 à σ2 ▶ β̂ et σ̂ 2 sont indépendants. ▶ 39 / 45 Jamal Atif (n − 2) ddl. Analyse de Données Lois des estimateurs avec variance estimée Les lois des estimateurs des MCO avec variance σ 2 estimée sont : ˆ ▶ β1 −β1 σ1 ∼ Tn−2 où Tn−2 est une loi de Student à (n − 2) degrés de liberté. ˆ ▶ β2 −β2 σ2 ▶ 1 2 (β̂ 2σ̂ ∼ Tn−2 . 2 , loi de Fisher de − β)′ V −1 ((β̂ − β) ∼ Fn−2 paramètres (2, n − 2). Ces dernières propriétés nous permettent de donner des intervalles de confiance (IC) ou des régions de confiance (RC) des estimateurs. 40 / 45 Jamal Atif Analyse de Données Intervalles et régions de confiance ▶ ▶ ▶ ▶ IC(βˆ1 ) ± tn−2 (1 − α/2)σ̂1 où tn−2 (1 − α/2) est le quantile de niveau (1 − α/2) d’une loi de Student Tn−2 . IC(βˆ2 ) ± tn−2 (1 − α/2)σ̂2 RC(β) : Une région de confiance simultanée pour β1 et β2 au niveau (1 − α) est ) ∑ 1 ( ˆ 2 2 ˆ 2 ˆ1 − β1 )(βˆ2 − β2 ) + n( β − β ) + 2nx( β x ( β − β ) 2 2 1 1 i 2σ̂ 2 2 ≤ fn−2 (1 − α), 2 (1 − α) est le quantile de niveau (1 − α) d’une loi où fn−2 2 Fn−2 . Un intervalle de confiance de σ 2 est donné par : [ ] (n − 2)σ̂ 2 (n − 2)σ̂ 2 , cn−2 (1 − α/2) cn−2 (α/2) où cn−2 (1 − α/2) est le quantile de niveau 1 − α/2 d’une loi χ2n−2 . 41 / 45 Jamal Atif Analyse de Données Loi et intervalle de confiance pour la prédiction On a : yn+1 − ŷn+1 ( ( )) 1 (xn+1 − x)2 2 ∼ N 0, σ 1 + + ∑n 2 n i=1 (xi − x) Avec les notations et hypothèses précédentes, on obtient : √ σ̂ yn+1 − ŷn+1 1+ 1 n + (xn+1 −x)2 ∑ n 2 i=1 (xi −x) ∼ Tn−2 d’où l’on déduit l’intervalle de confiance suivant pour yn+1 : √ [ ] 1 (xn+1 − x)2 ŷn+1 ± tn−2 (1 − α/2)σ̂ 1 + + ∑n 2 n i=1 (xi − x) 42 / 45 Jamal Atif Analyse de Données Tests d’hypothèse Test Bilatéral H0 : β1 = 0, Ha : β2 ̸= 0 Sous H0 , nous avons la v.a : t= βˆ2 ∼ tn−2 σ̂2 Considérons un niveau de test α (usuellement 0,05 ou 0,01), On calcule t∗ : 43 / 45 ▶ si |t∗ | ≤ tn−2 (1 − α/2), alors H0 est acceptée, ▶ si |t∗ | > tn−2 (1 − α/2), alors H0 est rejetée. Jamal Atif Analyse de Données Tests d’hypothèse Test unilatéral Exemple : vérifier si β2 est positive. H0 : β2 ≥ 0, Ha : β2 < 0 Sous H0 , nous avons : t= βˆ2 βˆ2 − β2 β2 = + ∼ tn−2 + terme positif σ̂2 σ̂2 σ̂2 Considérons un niveau de test α (usuellement 0,05 ou 0,01), On calcule t∗ : 44 / 45 ▶ si |t∗ | ≥ tn−2 (α), alors H0 est acceptée, ▶ si |t∗ | < tn−2 (α), alors H0 est rejetée. Jamal Atif Analyse de Données Tests d’hypothèse Test de passage par l’oginie β1 Test si β1 = 0 : H0 : β1 = 0, H1 : β1 ̸= 0 Sous H0 , nous avons la v.a : t= βˆ1 ∼ tn−2 σ̂1 Considérons un niveau de test α (usuellement 0,05 ou 0,01), On calcule t∗ : 45 / 45 ▶ si |t∗ | ≤ tn−2 (1 − α/2), alors H0 est acceptée, ▶ si |t∗ | > tn−2 (1 − α/2), alors H0 est rejetée. Jamal Atif Analyse de Données