Régression linéaire multiple
Transcription
Régression linéaire multiple
Régression linéaire multiple Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins [email protected] DU Biostatistiques appliquées à la recherche clinique et à l’épidémiologie Plan 1 Introduction à l’étude de deux variables quantitatives 2 Coefficient de corrélation (Rappels) 3 Régression linéaire simple (Rappels) 4 Régression linéaire multiple 5 Références Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 1 / 100 Introduction à l’étude de deux variables quantitatives Introduction Croisement de deux variables quantitatives âge et fréquence cardiaque Consommation et poids d’un véhicule Capacité d’épargne et revenus Etude du lien entre ces deux variables Représentation graphique Indicateur statistique (Coefficient de corrélation) Modèle de prédiction (Régression linéaire) Notations On considère n individus sur lesquels on mesure X et Y deux variables quantitatives. Pour chaque individu i (1 ≤ i ≤ n), on dispose d’un couple d’observations (xi , yi ) qui représente les valeurs prises par X et Y pour l’individu i. Remarque : les slides suivantes sont uniquement des rappels sur les principes de corrélation et de régression linéaire simple et ne constituent en aucun cas un cours ! → Lien cours complet ← Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 3 / 100 Introduction à l’étude de deux variables quantitatives 1ère étape Représentation graphique Graphique pour représenter deux variables quantitatives ⇒ nuage de points 1ère étape de toute analyse de liaison : apprécier la forme de la relation entre les deux variables −500 ● ● ● ● ● −2000 ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● 0 20 40 X liaison linéaire Michaël Genin (Université de Lille 2) 60 ● ● ● ● 0 ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● −2 ● ● ● ● ● ● ● ●● ●● ● −3000 −20 ● ● ● ● ● −50 −40 ●● ● ● ● ● ● ●● ● −60 ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ●● ●● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ● ● ●● ● Y ● ● ● ● ● ● ● ● ● ● ● ● ● −1 ● ●● ● ●● ● −1500 Y −1000 ● ● ● ● 1 ● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ●● ● ●● ● ● ●● ● ● ● ● ● −2500 0 Y 50 ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ● ● ● ●●● ● ●● ●● ● ●● ● ●● ● ●●● ● ● ● ● ● ●● ●● ●● ● ● ●● ●● ●● ● ● ● ●● ● ● ●● ● ●● ● ●●● ● ●● ●● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ●● ●● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ●● ● ●●● ●●●● ●●●●●● ●●●● ● ● ● ● ● ● ●● ●● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ●●● ● ● ● ● ● ● ● ● ●● ● ●● ● ●● ●● 2 0 ● ● ●● ● ●●● ● ● ● ●●● ● ●● ●●●● ●●●● ● ● ● ● −3 ● −60 −40 −20 0 20 40 60 X liaison polynomiale Régression linéaire multiple −40 −20 0 20 40 X pas de liaison Version - 17 mars 2016 4 / 100 Coefficient de corrélation (Rappels) Définition Coefficient de corrélation linéaire Coefficient de corrélation théorique ρXY = σXY ∈ [−1; 1] σX σY Coefficient de corrélation de Bravais-Pearson ρ est estimé par r= Michaël Genin (Université de Lille 2) ∑n (xi − x̄ )(yi − ȳ ) sxy = √∑ i=1 ∑n n sx sy 2 2 i=1 (xi − x̄ ) i=1 (yi − ȳ ) Régression linéaire multiple Version - 17 mars 2016 7 / 100 Coefficient de corrélation (Rappels) Test du coefficient de corrélation Test de la significativité de ρ Principe du test : Test de la nullité du coefficient de corrélation. Si ρ = 0 alors il n’y a pas de liaison linéaire entre X et Y Si ρ ̸= 0 alors il existe une relation linéaire entre X et Y Condition d’application : X ∼ N (µ1 , σ1 ) et Y ∼ N (µ2 , σ2 ) En pratique : Vérification de X et Y "a peu près normales" (symétrique) car test robuste (n grand) Hypothèses du test { H0 : ρ = 0 H1 : ρ ̸= 0 Statistique de test Sous H0 , √ R n−2 T = √ ∼ Tn−2 1 − R2 Michaël Genin (Université de Lille 2) Régression linéaire multiple ddl Version - 17 mars 2016 9 / 100 Coefficient de corrélation (Rappels) Conclusions Conclusions Le coefficient de corrélation permet de mesurer le lien linéaire entre deux variables quantitatives X et Y . On peut également cherche à modéliser le lien entre X et Y afin de réaliser des prédictions : Exprimer Y en fonction de X Ex : Prédire la FCM d’un patient en ne connaissant que son âge Le coefficient de corrélation n’est pas suffisant Recours à la régression linéaire : Y = β1 X + β0 + ϵ Où Y est la variable à expliquer et X la variable explicative Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 11 / 100 Régression linéaire simple (Rappels) Cadre d’étude Y est un caractère non contrôlé (caractère expliqué) X est un caractère contrôlé (caractère explicatif) Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n} yi est la valeur observée pour l’individu i xi est la valeur fixée pour l’individu i Objectif : Exprimer le lien entre Y et X . Y = f (X ) + ϵ Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire Régression linéaire simple 1 Modèle de régression 2 Droite de régression au sens des moindres carrés Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 13 / 100 Régression linéaire simple (Rappels) Modèle de régression linéaire simple Modèle de régression linéaire ∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que Yi = β1 xi + β0 + ϵi Avec ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée par le lien fonctionnel linéaire) β0 , β1 : coefficients du modèle, constantes (valeurs fixes dans la population). Hypothèses du modèle E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité) L’erreur est indépendante de X → Cov(xi , ϵi ) = 0 Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j. ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 15 / 100 Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires Droite de régression au sens des moindres carrés Objectif : estimer β0 et β1 grâce à leur estimateurs B0 et B1 et leur réalisations b0 et b1 sur un échantillon d’observations i.i.d. de taille n. Trouver b0 et b1 qui minimisent un critère d’ajustement. ⇒ Méthode des moindres carrés ordinaires S(β0 , β1 ) = n n ∑ ∑ 2 (ei )2 = (yi − (β1 xi + β0 )) i=1 i=1 → min S(β0 , β1 ) Dérivées partielles → Systèmes aux équations normales Solutions : b1 = sxy et b0 = ȳ − b1 x̄ sx2 Détails Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 17 / 100 Régression linéaire simple (Rappels) Méthode des moindres carrés ordinaires Droite de régression au sens des moindres carrés La droite de régression au sens des moindres carrés a pour expression : ybi = b1 xi + b0 C’est une estimation du modèle de régression par la méthode des moindres carrés. Les erreurs observées sur l’échantillon sont appelés résidus. ei = (yi − ybi ) = yi − b1 xi − b0 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 18 / 100 Régression linéaire simple (Rappels) Qualité de l’ajustement Qualité de l’ajustement Equation d’analyse de la variance yi − ȳ = (b yi − ȳ ) + (yi − ybi ) (yi − ȳ )2 = (b yi − ȳ )2 + (yi − ybi )2 n n n ∑ ∑ ∑ (yi − ȳ )2 = (b yi − ȳ )2 + (yi − ybi )2 i=1 n ∑ (yi − ȳ )2 i=1 | {z } Somme des carrés totale SCT Michaël Genin (Université de Lille 2) i=1 = n ∑ (b yi − ȳ )2 i=1 | {z } Somme des carrés expliquée SCE Régression linéaire multiple i=1 + n ∑ (yi − ybi )2 i=1 | {z } Somme des carrés résiduelle SCR Version - 17 mars 2016 20 / 100 Régression linéaire simple (Rappels) Qualité de l’ajustement Qualité de l’ajustement Evaluation de la qualité d’ajustement du modèle ⇒ Coefficient de détermination R2 = SCE ∈ [0, 1] SCT Interprétation : Part de variabilité de Y expliquée par le modèle de régression linéaire. Remarque importante : le carré du coefficient de corrélation linéaire est égal au coefficient de détermination : r 2 = R2 Conséquence : deux tests statistiques équivalents pour évaluer la liaison linéaire entre X et Y . Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 21 / 100 Régression linéaire simple (Rappels) Validité du modèle Etude de la validité du modèle Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs Vérifier la normalité des résidus observés (Droite de Henry) Vérifier que les résidus ne contiennent pas d’information structurée (V[ϵ] = σ 2 ) Les résidus ne dépendent pas de X (Graphiques) Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont mutuellement indépendantes) (Test de Durbin Watson) → Ces hypothèses vont permettre par la suite de réaliser des tests dans le modèle linéaire. Observations aberrantes / influentes Valeur aberrante de x (Descriptif univarié) Observation i mal reconstituée par la régression → (ei élevé) (résidus studentisés) Observation i présentant un poids exagéré dans la régression (prédiction / coefficients) (distance de Cook) Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 23 / 100 Régression linéaire simple (Rappels) Validité du modèle Conclusion sur l’étude de la validité du modèle Etape très importante !! 1 2 3 4 Descriptif univarié Estimation des coefficients du modèle Vérification des hypothèses sur les erreurs Détection d’observations influentes Si OUI : Correction ou suppression Nouvelle estimation des coefficients Après ces étapes : Inférence statistique Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 24 / 100 Régression linéaire simple (Rappels) Inférence statistique Evaluation globale de la régression Tableau d’analyse de variance - Test de significativité globale R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la régression de Y par X traduit-elle une relation qui existe vraiment dans la population ? Table : Tableau ANOVA Source de variation Somme des carrés DDL (yi − ŷi ) 1 n−2 (yi − ȳ )2 n−1 ∑ SCE = ∑ i (ŷi − ȳ )2 2 Expliquée Résiduelle SCR = Totale SCT = i ∑ i Carrés moyens CME = CMR = SCE 1 SCR n−2 - Degrés de liberté : SCT nécessite l’estimation ȳ → n − 1 ddl SCR nécessite l’estimation de β0 et β1 pour ŷi → n − 2 ddl SCE par déduction : (n − 1) − (n − 2) = 1 ddl Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 26 / 100 Régression linéaire simple (Rappels) Inférence statistique Evaluation globale de la régression Tableau d’analyse de variance - Test de significativité globale Le test F permet d’évaluer la significativité globale de la régression. { H0 : La variabilité expliquée est identique à la variabilité résiduelle H1 : La variabilité expliquée est supérieure à la variabilité résiduelle Sous H0 F = Interprétation : CME ∼ F1,n−2 ddl CMR { H0 : "Le modèle est non explicatif" H1 : "Le modèle est explicatif" Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 27 / 100 Régression linéaire simple (Rappels) Inférence statistique Evaluation des coefficients - β1 Test de significativité de β1 Idée : tester la nullité de β1 . { H0 : β1 = 0 "X n’a aucun pouvoir explicatif sur Y" H1 : β1 ̸= 0 "X a un pouvoir explicatif sur Y" Nous savons que B1 −β1 b σB1 ∼ Tn−2 , par conséquent sous H0 B1 ∼ Tn−2 σ bB1 Intervalle de confiance de β1 IC 1−α β1 Michaël Genin (Université de Lille 2) = b1 ± t(1−α/2;n−2) √∑ Régression linéaire multiple sn−2 n i=1 (xi − x̄ )2 Version - 17 mars 2016 28 / 100 Régression linéaire simple (Rappels) Inférence statistique Evaluation des coefficients - β1 Dans le cas d’une régression linéaire simple de type : Y = β1 X + β0 + ϵ Tester la significativité globale du modèle ≡ Tester la significativité de β1 ≡ Tester la significativité de ρ Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 29 / 100 Régression linéaire simple (Rappels) Inférence statistique Evaluation des coefficients - β1 Lien entre test et intervalle de confiance 1−α ICθ = {θ0 /H0 = {θ = θ0 } est accepté au niveau de confiance 1 − α} Conséquences : pour tester H0 : β1 = 0 au risque α, on peut simplement vérifier si 0 appartient ou non à l’intervalle de confiance : Si 0 ∈ IC alors on conserve H0 Si 0 ∈ / IC alors on rejette H0 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 30 / 100 Régression linéaire simple (Rappels) Inférence statistique Evaluation des coefficients - β0 Test de significativité de β0 Idée : tester la nullité de β0 . { H0 : β0 = 0 "L’ordonnée à l’origine n’est pas significative" H1 : β0 ̸= 0 "L’ordonnée à l’origine est significative" Nous savons que B0 −β0 b σB0 ∼ Tn−2 , par conséquent sous H0 B0 ∼ Tn−2 σ bB0 Intervalle de confiance de β0 √ [ 1−α β0 IC = b0 ± t(1−α/2;n−2) sn−2 Michaël Genin (Université de Lille 2) x̄ 2 1 + ∑n 2 n i=1 (xi − x̄ ) Régression linéaire multiple ] Version - 17 mars 2016 31 / 100 Régression linéaire simple (Rappels) Prédiction Intervalle de prédiction d’une observation Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la valeur de yn+1 pour une observation xn+1 n’appartenant pas à l’échantillon : ybn+1 = b1 xn+1 + b0 Or ybn+1 n’est qu’une estimation de la "vraie droite de régression" dans la population. Une estimation ponctuelle ne suffit pas, il faut lui associer un intervalle de confiance : 1−α IC yn+1 √ [ = ybn+1 ± t(1−α/2;n−2) sn−2 Michaël Genin (Université de Lille 2) 1 (xn+1 − x̄ )2 1 + + ∑n 2 n i=1 (xi − x̄ ) Régression linéaire multiple ] Version - 17 mars 2016 33 / 100 Régression linéaire simple (Rappels) Prédiction Intervalle de prédiction d’une observation 1−α IC yn+1 √ [ = ybn+1 ± t(1−α/2;n−2) sn−2 1 (xn+1 − x̄ )2 1 + + ∑n 2 n i=1 (xi − x̄ ) ] Quelques remarques La taille du rayon de l’intervalle de confiance sera d’autant plus faible que 2 sn−2 est faible → la régression est de bonne qualité n est élevé 2 x∑ n+1 est proche de x̄ ↔ (xn+1 − x̄ ) est faible n 2 (x − x̄ ) est élevé → les x sont bien dispersés i i i=1 Attention : utiliser des valeurs de x qui sont dans le cadre d’étude (relativement proches de x̄ pour obtenir de bonnes prédictions. Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 34 / 100 Régression linéaire simple (Rappels) Mise en évidence d’un problème Mise en évidence d’un problème Vente de CD et cas de grippe H1N1 en 2009 Région Nb cas de grippe H1N1 Nb ventes CD M.J. Région 1 Région 2 . . Région n . . . . . . . . . . Il existe une liaison linéaire significative . . . Test de ρ : p < 1.10−4 , Test de β1 : p < 1.10−4 . . . mais pas de relation de cause à effet ! Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 36 / 100 Régression linéaire simple (Rappels) Mise en évidence d’un problème Mise en évidence d’un problème Existence de Facteurs de confusion (ici : la période de temps) Exemple : vente de CD de MJ les plus fortes en automne alors { ↗ ventes Pour la même période : ↗ cas de grippes Temps Grippe Ventes Figure : Diagramme de corrélation Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 37 / 100 Régression linéaire simple (Rappels) Mise en évidence d’un problème Mise en évidence d’un problème Nécessité de pouvoir ajuster sur des facteurs de confusion Dans de nombreuses situations, plusieurs facteurs peuvent expliquer un caractère Y = f (X1 , X2 , . . . , Xp ) Régression linéaire multiple Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 38 / 100 Régression linéaire multiple Cadre d’étude Y est un caractère non contrôlé (caractère expliqué) X1 , X2 , . . . Xp sont des caractères contrôlés (caractères explicatifs) Considérons un échantillon de n observations i.i.d. : I = {1, . . . , n} yi est la valeur observée pour l’individu i xij est la valeur fixée pour l’individu i et la variable j, j ∈ {1, 2, . . . , p} Objectif : Exprimer le lien entre Y et les Xj . Y = f (X1 , X2 , . . . , Xp ) + ϵ Il existe une infinité de liaisons fonctionnelles −→ la plus simple est linéaire Régression linéaire multiple 1 Modèle de régression 2 Hyperplan de régression au sens des moindres carrés Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 40 / 100 Régression linéaire multiple Exemple : Données véhicules n = 31 véhicules pour lesquels on dispose de Consommation (L/100Km) Prix (Fr.) Cylindrée (cm3) Puissance (KW) Poids (Kg) Objectif : prédire la consommation (Y ) en fonction des différents paramètres. Modèle de régression à estimer Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + ϵ Modèle estimé sur un échantillon (hyperplan de régression) \ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids Conso Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 41 / 100 Régression linéaire multiple Modèle de régression linéaire multiple Modèle de régression linéaire multiple ∀i ∈ I, yi est la réalisation de la v.a.r. Yi telle que Yi = β0 + β1 xi1 + β2 xi2 + . . . βp xip + ϵi = β0 + p ∑ βj xij + ϵi j=1 Avec ϵi : erreur du modèle (v.a.r.) (part de variabilité de Y qui n’est pas expliquée par le lien fonctionnel linéaire) β0 , β1 , . . . , βp : coefficients du modèle, constantes (valeurs fixes dans la population). Hypothèses du modèle E[ϵi ] = 0, V[ϵi ] = σ 2 (hypothèse d’homoscédasticité) L’erreur est indépendantes des Xj → COV(xij , ϵi ) = 0 ϵi ∼ N (0, σ 2 ) (normalité des résidus) → tests dans le modèle Les ϵi , 1 ≤ i ≤ n, sont mutuellement indépendantes (absence d’autocorrélation des résidus) → Cov(ϵi , ϵj ) = 0 si i ̸= j. Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 43 / 100 Régression linéaire multiple Modèle de régression linéaire multiple Ecriture du modèle Sur un échantillon de n observations i.i.d. : Y1 Y2 = β0 + β1 x11 + β2 x12 + . . . + βp x1p + ϵ1 = β0 + β1 x21 + β2 x22 + . . . + βp x2p + ϵ2 .. . Yn = β0 + β1 xn1 + β2 xn2 + . . . + βp xnp + ϵn Ecriture matricielle Y1 Y = ... β = Yn β0 .. . βp Y= n×1 Michaël Genin (Université de Lille 2) 1 .. X= . 1 X. n × (p + 1) x11 .. . x12 .. . xn1 xn2 β (p + 1) × 1 Régression linéaire multiple ··· .. . ··· x1p .. ϵ = . xnp ϵ1 .. . ϵn +ϵ n×1 Version - 17 mars 2016 44 / 100 Régression linéaire multiple Méthode des moindres carrés ordinaires Hyperplan de régression au sens des moindres carrés Objectif : estimer β0 , β1 , . . . , βp grâce à leur estimateurs B0 , B1 , B2 , . . . , Bp et leur réalisations b0 , b1 , b2 , . . . , bp sur un échantillon d’observations i.i.d. de taille n. β0 B0 b0 β = ... B = ... b = ... βp Bp bp Trouver b qui minimisent l’erreur : ( )2 p n n ∑ ∑ ∑ S(β0 , . . . , βp ) = (ϵi )2 = yi − β0 − βj xij = ||ϵ||2 i=1 i=1 j=1 ( )−1 T Solution : b = XT X X Y Remarque : B est appelé estimateur des moindres carrés de β. Michaël Genin (Université de Lille 2) Régression linéaire multiple Détails Version - 17 mars 2016 46 / 100 Régression linéaire multiple Méthode des moindres carrés ordinaires Hyperplan de régression au sens des moindres carrés L’ hyperplan de régression au sens des moindres carrés a pour expression : ybi = b0 + p ∑ bj xij j=1 C’est une estimation du modèle de régression multiple par la méthode des moindres carrés. Les erreurs observées sur l’échantillon sont appelés résidus. ei = (yi − ybi ) = yi − b0 − p ∑ bj xij j=1 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 47 / 100 Régression linéaire multiple Méthode des moindres carrés ordinaires Exemple : Données véhicules Modèle de régression à estimer Conso = β1 Prix + β2 Cylind + β3 Puiss + β4 Poids + β0 + ϵ Modèle estimé sur un échantillon (hyperplan de régression) \ = b1 Prix + b2 Cylind + b3 Puiss + b4 Poids + b0 Conso Coefficients: Estimate Std. Error (Intercept) 2.456e+00 6.268e-01 Prix 2.042e-05 8.731e-06 Cylindree -5.006e-04 5.748e-04 Puissance 2.499e-02 9.992e-03 Poids 4.161e-03 8.788e-04 Modèle estimé \ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46 Conso Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 48 / 100 Régression linéaire multiple Méthode des moindres carrés ordinaires Propriétés des estimateurs - Moments (1) E[B] = β estimateur sans biais ( )−1 V[B] = σ 2 XT X Détails V[B](p+1)×(p+1) est appelée matrice de variances - covariances des coefficients : 2 σ bB0 COV (B0 , B1 ) . . . COV (B0 , Bp ) · σ bB2 1 . . . COV (B1 , Bp ) .. . · ... · · Michaël Genin (Université de Lille 2) · ... Régression linéaire multiple σ bB2 p Version - 17 mars 2016 49 / 100 Régression linéaire multiple Méthode des moindres carrés ordinaires Propriétés des estimateurs - Moments (2) La matrice de variances - covariances V[B] fait intervenir la variance de l’erreur σ2 . Cette variance est inconnue 2 Elle est estimée par Sn−p−1 au moyen du tableau d’ANOVA. On montre que 2 Sn−p−1 ∑n 2 (Ei ) SCR = = i=1 n−p−1 n−p−1 est un estimateur non biaisé de σ 2 . Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 50 / 100 Régression linéaire multiple Méthode des moindres carrés ordinaires Propriétés des estimateurs - Distributions d’échantillonnage De par les hypothèses du modèle et l’estimation de σ 2 , on montre que ∀j ∈ {0, 1, . . . , p} Bj − βj ∼ Tn−p−1 d.d.l. σ bBj avec σ bBj tiré de la matrice de variances-covariances. Ces distributions vont nous permettre de réaliser une inférence statistique sur les coefficients (tests de nullité et intervalles de confiance). Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 51 / 100 Régression linéaire multiple Qualité de l’ajustement Qualité de l’ajustement Equation d’analyse de la variance yi − ȳ = (b yi − ȳ ) + (yi − ybi ) (yi − ȳ )2 = (b yi − ȳ )2 + (yi − ybi )2 n n n ∑ ∑ ∑ (yi − ȳ )2 = (b yi − ȳ )2 + (yi − ybi )2 i=1 n ∑ (yi − ȳ )2 i=1 | {z } Somme des carrés totale SCT Michaël Genin (Université de Lille 2) i=1 = n ∑ (b yi − ȳ )2 i=1 | {z } Somme des carrés expliquée SCE Régression linéaire multiple i=1 + n ∑ (yi − ybi )2 i=1 | {z } Somme des carrés résiduelle SCR Version - 17 mars 2016 53 / 100 Régression linéaire multiple Qualité de l’ajustement Qualité de l’ajustement Evaluation de la qualité d’ajustement du modèle ⇒ Coefficient de détermination R2 = SCE ∈ [0, 1] SCT Interprétation : Part de variabilité de Y expliquée par le modèle de régression linéaire multiple. Remarque importante : R 2 est fonction du nombre variables explicatives dans le modèle (même non pertinentes) p ↗ → R2 ↗ Aussi : tests de significativité des coefficients, sélection de variables (modèle parcimonieux) Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 54 / 100 Régression linéaire multiple Qualité de l’ajustement Exemple : Données véhicules Modèle estimé \ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46 Conso Coefficients: Estimate Std. Error (Intercept) 2.456e+00 6.268e-01 Prix 2.042e-05 8.731e-06 Cylindree -5.006e-04 5.748e-04 Puissance 2.499e-02 9.992e-03 Poids 4.161e-03 8.788e-04 Multiple R-squared: 0.9546 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 55 / 100 Régression linéaire multiple Validité du modèle Etude de la validité du modèle Etude des résidus : Vérification des hypothèses du modèle faites sur les erreurs Vérifier la normalité des résidus observés Vérifier que les résidus ne contiennent pas d’information structurée (V[ϵ] = σ 2 ) Les résidus ne dépendent pas des Xj Vérifier que les résidus ne sont pas auto-corrélés entre eux (les ϵi sont mutuellement indépendantes) → Ces hypothèses vont permettre par la suite de réaliser des tests dans le modèle linéaire. Observations aberrantes / influentes Valeur aberrante d’une observation (diagnostic univarié, multivarié) Observation i mal reconstituée par la régression → (ei élevé) Observation i présentant un poids exagéré dans la régression (prédiction / coefficients) Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 57 / 100 Régression linéaire multiple Validité du modèle Etude des résidus Vérification de la normalité des résidus histogramme ⇒ la distribution doit être unimodale et symétrique autour de 0. Tests (Kolmogorov-Smirnov, Shapiro Wilks, . . . ) mais souvent tests peu puissants (peu aptes à rejeter H0 ) Droite de Henry ⇒ confronte les quantiles théoriques de la loi normale et la distribution cumulée estimée sur les données Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 58 / 100 Régression linéaire multiple Validité du modèle Etude des des résidus résidus Etude Vérification de l’homoscédasticité des résidus Vérification de l’homoscédasticité des résidus Les résidus sont homoscédastiques si leur répartition est homogène Les résidus sont ditspas homoscédastiques dispersion est homogène et ne et ne dépend des valeurs desilaleur variable explicative (et donc pas dépend pas des valeurs de la variable explicative xj (et donc pas non plus des non plus des valeurs prédites). valeurs prédites). On vérifie que les résidus n’ont pas de structure particulière en On vérifie que les résidus n’ont pas de structure particulière en traçant un graphe traçant: un graphe des résidus : des résidus Residus correles 4 Residus non correles ● ● ● 2 ● 0 Residus ●● ● ● ● ● ● −2 ● ●● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ●● ● ● ● ●● ● ● ●● ● ●● ● ● ● ●● ●● ●● ● ● ●● ● ● ● ● ● ● ● ● ● ●●● ● ● ● ● ●●● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 1 ● ●● ●●● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ● ● ● ● ● ●●● ● ● ● ●● ● 0 ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ● ● ● ● ●● ● ●●● ●● ●● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ● ● ● ● ● ● ● ●● ●● ● ● ● ● ●● ● ● ●● ● ●●● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●● ● ● ● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ● ● ● ●● ● ●● ● ●● ● ● ●● ● ●● ● Residus 2 ●● ● ● ● −1 ● ●● ● ● ●● ● ● ● ● ●● ● ● ● −2 −4 ● −40 −20 0 20 ● 40 X Michaël Genin (Université de Lille 2) ● −40 −20 0 20 40 X Régression linéaire multiple Version - 17 mars 2016 59 / 100 Régression linéaire multiple Validité du modèle Etude des résidus On peut localiser des points du nuage mal expliqués par la relation linéaire en traçant les deux droites d1 = 2sn−p−1 et d2 = −2sn−p−1 on peut considérer ces points, si ils ne sont pas trop nombreux, comme des points exceptionnels, les éliminer et recalculer b1 et b0 . on peut aussi attribuer un poids moindre aux points aberrants ⇒ moindres 2 carrés pondérés (fonction de l’écart |y − ŷ |/2sn−p−1 ). Méthode plus robuste si il y a beaucoup de points mal expliqués (en dehors de la bande), c’est que le modèle est mal choisi. Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 60 / 100 Régression linéaire multiple Validité du modèle Etude des résidus 6 graphe des residus 4 ● ● 2 ● ● 0 ● ● −2 residus ● ● ● ● −4 ● ● −6 ● 25 30 35 40 45 50 55 age Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 61 / 100 Régression linéaire multiple Validité du modèle Etude des résidus Vérification de l’indépendance entre les résidus Test de Durbin Watson { H0 : il n’y a pas de corrélation entre ϵi et ϵi−1 H1 : il y a une corrélation entre ϵi et ϵi−1 ∑n (ei − ei−1 )2 i=2∑ n 2 i=1 ei d= La valeur de d est toujours comprise entre 0 et 4, d = 2 quand il n’y a pas d’autocorrélation. La loi de d est tabulée : DL et DU bornes au risque α. 0 DL AC Positive Rejet H0 Michaël Genin (Université de Lille 2) DU ? 2 4-DU Pas d’AC Non Rejet de H0 4-DL ? Régression linéaire multiple 4 AC Négative Rejet H0 Version - 17 mars 2016 62 / 100 Régression linéaire multiple Validité du modèle Observations aberrantes / influentes Valeur aberrante de xj (Univarié) → Boxplot Effet important sur l’estimation de l’hyperplan de régression 10 20 30 40 50 Mauvais ajustement aux données Solution : descriptif univarié → boxplot ● Problème : Ne prend pas en compte les interactions possibles entre les Xj . Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 63 / 100 Régression linéaire multiple Validité du modèle Observations aberrantes / influentes Valeur aberrante (Multivarié) → Levier Principe : Pour une observation i, mesure la distance avec le centre de gravité du nuage défini par les Xj , j ∈ {1, , . . . , p} Le levier d’une observation i se lit sur la diagonale de la matrice H (hat matrix) : ( )−1 T H = X XT X X En pratique ( )−1 T hii = hi = xi XT X xi avec xi la ième ligne de la matrice X. Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 64 / 100 Régression linéaire multiple Validité du modèle Observations aberrantes / influentes Valeur aberrante (Multivarié) → Levier Règle de décision R.C . : hi > 2 × p+1 n Permet de détecter des observations aberrantes / influentes d’un point de vue multivarié Effet néfaste sur l’estimation des βj par les MCO Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 65 / 100 Régression linéaire multiple Validité du modèle Exemple : Données véhicules 1. Levier Seuil : 2(p + 1)/n = 2(4 + 1)/31 = 0.32. Maserati.Ghibli.GT Mercedes.S.600 0.4 Levier 0.6 0.8 Ferrari.456.GT Toyota.Previa.salon 0.2 Hyundai.Sonata.3000 Seat.Alhambra.2.0 Lancia.K.3.0.LS Peugeot.806.2.0 Subaru.Vivio.4WD Daihatsu.Cuore Opel.Omega.2.5i.V6 Mazda.Hachtback.V Mitsubishi.Galant Fiat.Panda.Mambo.L Seat.Ibiza.2.0.GTI Opel.Corsa.1.2i.Eco Suzuki.Swift.1.0.GLS Volvo.960.Kombi.aut VW.Polo.1.4.60 Renault.Safrane.2.2..V Citroen.ZX.Volcane Ford.Fiesta.1.2.Zetec Honda.Civic.Joker.1.4 Fort.Escort.1.4i.PT Volvo.850.2.5 Toyota.Corolla Opel.Astra.1.6i.16V Nissan.Primera.2.0 Peugeot.306.XS.108 VW.Golt.2.0.GTI Fiat.Tempra.1.6.Liberty 0 5 10 15 20 25 30 Index ID Modele Prix Cylindree Puissance Poids Consommation Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3 Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7 Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500 2789 209 1485 14.5 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 66 / 100 Régression linéaire multiple Validité du modèle Exemple : Données véhicules 1. Levier Interprétation : 3 véhicules se démarquent. Raisons potentielles : Grosses cylindrées luxueuses Limousine (Mercedes) Sportives (Ferrari et Maserati) ID Modele Prix Cylindree Puissance Poids Consommation Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3 Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7 Maserati.Ghibli.GT 10 Maserati.Ghibli.GT 92500 2789 209 1485 14.5 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 67 / 100 Régression linéaire multiple Validité du modèle Observations aberrantes / influentes Résidus studentisés internes Idée : Mettre en évidence les observations dont le résidu ei est important Pour une observation i, le résidu studentisé interne est défini par : ti = ei √ sn−p−1 1 − hi avec hi levier de l’observation i. On montre que Ti ∼ T(n−p−1) . D’où : 1−α/2 RC : |ti | > tn−p−1 Problème : L’observation évaluée a participé à la construction de la droite (Juge et partie). Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 68 / 100 Régression linéaire multiple Validité du modèle Observations aberrantes / influentes Résidus studentisés externes Idée : Estimer le modèle sans l’observation i (−i) et comparer la valeur observée de yi à celle prédite par le modèle (ŷi (−i) : prédiction pour une nouvelle observation). Pour une observation i, le résidu studentisé externe est défini par : ti∗ = yi − ŷi (−i) √ sn−p−1 (−i) 1 − hi (−i) On montre que D’où : Ti∗ ∼ T(n−p−1) . RC : |ti∗ | > tn−p−1 1−α/2 √ Remarque : ti∗ Michaël Genin (Université de Lille 2) = n−p−2 n − p − 1 − ti2 Régression linéaire multiple Version - 17 mars 2016 69 / 100 Régression linéaire multiple Validité du modèle Observations aberrantes / influentes Distance de Cook Idée : Evaluer l’influence d’une observation i sur l’estimation des coefficients. Comparaison des prédictions du modèle complet et du modèle sans l’observation i. La distance de Cook pour une observation i est définie par ∑n Di = j=1 (yˆj − yˆj (−i))2 2 (p + 1)sn−p−1 Règle de décision RC : Di > 1 RC : Di > 4 n−p−1 (Ajustement sur le nombre de variables) Si la différence entre les prédictions est élevée, l’observations i joue un rôle sur l’estimation des coefficients. Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 70 / 100 Régression linéaire multiple Validité du modèle Exemple : données véhicules 2. Distance de Cook Seuil : 4/(n − p − 1) = 4/(31 − 4 − 1) = 0.154 4 3 2 1 cooks.distance(fit) 5 Ferrari.456.GT Mercedes.S.600 0 Hyundai.Sonata.3000 Mitsubishi.Galant Toyota.Previa.salon Opel.Omega.2.5i.V6 Seat.Ibiza.2.0.GTI Opel.Astra.1.6i.16V Maserati.Ghibli.GT Fiat.Tempra.1.6.Liberty Seat.Alhambra.2.0 Toyota.Corolla Volvo.960.Kombi.aut Peugeot.306.XS.108 Peugeot.806.2.0 Ford.Fiesta.1.2.Zetec Renault.Safrane.2.2..V Opel.Corsa.1.2i.Eco Suzuki.Swift.1.0.GLS Subaru.Vivio.4WD VW.Polo.1.4.60 Honda.Civic.Joker.1.4 Lancia.K.3.0.LS Fort.Escort.1.4i.PT Volvo.850.2.5 Mazda.Hachtback.V VW.Golt.2.0.GTI Nissan.Primera.2.0 Fiat.Panda.Mambo.L Citroen.ZX.Volcane Daihatsu.Cuore 0 5 10 15 20 25 30 Index ID Modele Prix Cylindree Puissance Poids Consommation Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3 Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7 Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 71 / 100 Régression linéaire multiple Validité du modèle Observations aberrantes / influentes DFBETAS Idée : Si la distance de COOK a identifié une observation ayant une influence sur l’estimation des coefficients, on peut aller plus loin pour déterminer quel coefficient est affecté. Pour une observation i et pour chaque coefficient βj , j ∈ {0, 1, . . . , p}, le DFBETAS est défini par : DFBETASi,j = bj − bj (−i) √ −1 sn−p−1 (−i) (XT X)j Règle de décision 2 RC : |DFBETASi,j | > √ n Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 72 / 100 Régression linéaire multiple Validité du modèle Exemple : données véhicules √ √ 3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36| 2 1 0 dfbeta$Prix 3 Ferrari.456.GT Mercedes.S.600 Toyota.Previa.salon Seat.Alhambra.2.0 Lancia.K.3.0.LS Subaru.Vivio.4WD Opel.Astra.1.6i.16V Citroen.ZX.Volcane Fort.Escort.1.4i.PT Nissan.Primera.2.0 Opel.Omega.2.5i.V6 Opel.Corsa.1.2i.Eco Fiat.Tempra.1.6.Liberty Fiat.Panda.Mambo.L Renault.Safrane.2.2..V Daihatsu.Cuore Peugeot.806.2.0Volvo.960.Kombi.aut Toyota.Corolla Suzuki.Swift.1.0.GLS Honda.Civic.Joker.1.4 Ford.Fiesta.1.2.Zetec VW.Golt.2.0.GTI Peugeot.306.XS.108 Volvo.850.2.5 VW.Polo.1.4.60 Mazda.Hachtback.V Maserati.Ghibli.GT Seat.Ibiza.2.0.GTI Mitsubishi.Galant Hyundai.Sonata.3000 0 5 10 15 20 25 30 Index ID Modele Prix Cylindree Puissance Poids Consommation Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3 Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7 Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 73 / 100 Régression linéaire multiple Validité du modèle Exemple : données véhicules √ √ 3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36| 0.5 0.0 Opel.Omega.2.5i.V6 Seat.Ibiza.2.0.GTI Honda.Civic.Joker.1.4 Ford.Fiesta.1.2.Zetec Volvo.850.2.5 Peugeot.306.XS.108 VW.Golt.2.0.GTI Peugeot.806.2.0 Toyota.Corolla Opel.Astra.1.6i.16V Fiat.Tempra.1.6.Liberty Mazda.Hachtback.V Opel.Corsa.1.2i.Eco Suzuki.Swift.1.0.GLS Fiat.Panda.Mambo.L Daihatsu.Cuore Nissan.Primera.2.0 Lancia.K.3.0.LS Citroen.ZX.Volcane Fort.Escort.1.4i.PT Toyota.Previa.salon VW.Polo.1.4.60 Renault.Safrane.2.2..V Subaru.Vivio.4WD Volvo.960.Kombi.aut Seat.Alhambra.2.0 Maserati.Ghibli.GT −0.5 Mitsubishi.Galant Ferrari.456.GT −1.0 dfbeta$Cylindree 1.0 Hyundai.Sonata.3000 Mercedes.S.600 0 5 10 15 20 25 30 Index ID Modele Prix Cylindree Puissance Poids Consommation Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3 Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7 Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 74 / 100 Régression linéaire multiple Validité du modèle Exemple : données véhicules √ √ 3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36| 0.5 Mitsubishi.Galant 0.0 VW.Polo.1.4.60 Subaru.Vivio.4WD Toyota.Corolla Suzuki.Swift.1.0.GLS Daihatsu.Cuore Fiat.Panda.Mambo.L Opel.Corsa.1.2i.Eco Volvo.960.Kombi.aut Seat.Ibiza.2.0.GTI Mazda.Hachtback.V Renault.Safrane.2.2..V Peugeot.806.2.0 Peugeot.306.XS.108 VW.Golt.2.0.GTI Volvo.850.2.5 Citroen.ZX.Volcane Nissan.Primera.2.0 Ford.Fiesta.1.2.Zetec Fiat.Tempra.1.6.Liberty Fort.Escort.1.4i.PT Honda.Civic.Joker.1.4 Seat.Alhambra.2.0 Lancia.K.3.0.LS Opel.Omega.2.5i.V6 Opel.Astra.1.6i.16V Toyota.Previa.salon −0.5 dfbeta$Puissance Maserati.Ghibli.GT Mercedes.S.600 Hyundai.Sonata.3000 Ferrari.456.GT 0 5 10 15 20 25 30 Index ID Modele Prix Cylindree Puissance Poids Consommation Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3 Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7 Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 75 / 100 Régression linéaire multiple Validité du modèle Exemple : données véhicules √ √ 3. DFBETAS Seuil : |2/ n| = |2/ 31| = |0.36| Toyota.Previa.salon 0.4 Mercedes.S.600 0.2 0.0 Suzuki.Swift.1.0.GLS VW.Polo.1.4.60 Opel.Astra.1.6i.16V Daihatsu.Cuore Toyota.Corolla Maserati.Ghibli.GT Opel.Corsa.1.2i.Eco Subaru.Vivio.4WD Fiat.Panda.Mambo.L Volvo.960.Kombi.aut Ford.Fiesta.1.2.Zetec Fort.Escort.1.4i.PT Citroen.ZX.Volcane Lancia.K.3.0.LS Nissan.Primera.2.0 Volvo.850.2.5 Fiat.Tempra.1.6.Liberty Peugeot.806.2.0 Mazda.Hachtback.V VW.Golt.2.0.GTI Peugeot.306.XS.108 Honda.Civic.Joker.1.4 −0.6 −0.4 −0.2 dfbeta$Poids Seat.Alhambra.2.0 Renault.Safrane.2.2..V Mitsubishi.Galant Seat.Ibiza.2.0.GTI Ferrari.456.GT Opel.Omega.2.5i.V6 Hyundai.Sonata.3000 0 5 10 15 20 25 30 Index ID Modele Prix Cylindree Puissance Poids Consommation Ferrari.456.GT 8 Ferrari.456.GT 285000 5474 325 1690 21.3 Mercedes.S.600 9 Mercedes.S.600 183900 5987 300 2250 18.7 Hyundai.Sonata.3000 22 Hyundai.Sonata.3000 38990 2972 107 1400 11.7 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 76 / 100 Régression linéaire multiple Inférence statistique Evaluation globale de la régression Tableau d’analyse de variance - Test de significativité globale R 2 permet d’évaluer la qualité de l’ajustement. L’information emmenée par la régression de Y par les Xj traduit-elle une relation qui existe vraiment dans la population ? Table : Tableau ANOVA Source de variation Somme des carrés DDL Carrés moyens (yi − ŷi ) p n−p−1 CME = CME p CMR CMR = n−p−1 (yi − ȳ )2 n−1 - ∑ SCE = i (ŷi − ȳ )2 ∑ 2 Expliquée Résiduelle SCR = Totale SCT = i ∑ i Degrés de liberté : SCT nécessite l’estimation ȳ → n − 1 ddl SCR nécessite l’estimation des βj pour ŷi → n − (p + 1) ddl SCE par déduction : (n − 1) − (n − p − 1) = 1 ddl Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 78 / 100 Régression linéaire multiple Inférence statistique Evaluation globale de la régression Tableau d’analyse de variance - Test de significativité globale Le test F permet d’évaluer la significativité globale de la régression. { H0 : β1 = β2 = . . . = βp = 0 H1 : ∃j/βj ̸= 0 Sous H0 F = Interprétation : CME ∼ Fp,n−p−1 ddl CMR { H0 : "Le modèle est non explicatif" H1 : "Le modèle est explicatif" Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 79 / 100 Régression linéaire multiple Inférence statistique Evaluation des coefficients - βj Test de significativité de βj Idée : tester la nullité de βj . { H0 : βj = 0 ”Xj n’a aucun pouvoir explicatif sur Y" H1 : βj ̸= 0 ”Xj a un pouvoir explicatif sur Y" Nous savons que Sous H0 Bj −βj b σ Bj ∼ Tn−p−1 , par conséquent : Bj ∼ Tn−p−2 σ bBj Intervalle de confiance de βj 1−α ICβ Michaël Genin (Université de Lille 2) j [ ] = bj ± t(1−α/2;n−p−1) σ bBj Régression linéaire multiple Version - 17 mars 2016 80 / 100 Régression linéaire multiple Inférence statistique Exemple : données véhicule Modèle estimé \ = 0.00002Prix − 0.0005Cylind + 0.025Puiss + 0.004Poids + 2.46 Conso Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.456e+00 6.268e-01 3.919 0.000578 Prix 2.042e-05 8.731e-06 2.339 0.027297 Cylindree -5.006e-04 5.748e-04 -0.871 0.391797 Puissance 2.499e-02 9.992e-03 2.501 0.018993 Poids 4.161e-03 8.788e-04 4.734 6.77e-05 --Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 *** * * *** ’.’0.1 ’ ’ 1 Residual standard error: 0.8172 on 26 degrees of freedom Multiple R-squared: 0.9546, Adjusted R-squared: 0.9476 F-statistic: 136.5 on 4 and 26 DF, p-value: < 2.2e-16 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 81 / 100 Régression linéaire multiple Prédiction Intervalle de prédiction d’une observation Contexte : Le modèle de régression ayant été validé, il est possible d’estimer la valeur de yn+1 pour une observation Xn+1 n’appartenant pas à l’échantillon : Xn+1 = (xn+1,1 , xn+1,2 , . . . , xn+1,p ) ybn+1 = b0 + p ∑ bj xn+1,j j=1 ybn+1 = Xn+1 .b Or ybn+1 n’est qu’une estimation du "vrai hyperplan de régression" dans la population. Une estimation ponctuelle ne suffit pas, il faut lui associer un intervalle de confiance : IC 1−α yn+1 [ ] √ −1 = ybn+1 ± t(1−αr ;n−p−1) sn−p−1 1 + Xn+1 (XT X) XT n+1 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 83 / 100 Régression linéaire multiple Détection et traitement de la colinéarité Définition et conséquences de la colinéarité Définition Une variable explicative Xj est colinéaire à une autre variable Xk lorsque rXj ,Xk > 0.8. Une variable explicative Xj est multicolinéaire aux autres variables lorsque ′ ′ ′ ′ ′ Xj = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp , elle peut s’écrire comme une combinaison linéaire des autres variables explicatives. Conséquences Valeurs/Signes des coefficients contraires à l’intuition Variances estimées des coefficients trop importantes Coefficients non significatifs (inférence statistique) Instabilité du modèle Risque de passer à côté d’une variable importante (redondance) Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 85 / 100 Régression linéaire multiple Détection et traitement de la colinéarité Détection de la colinéarité Variance Inflation Factor - VIF Principe : Pour chaque Xj , réalisation de la régression de Xj avec les autres variables explicatives. On note Rj2 le coefficient de détermination associé à cette régression. Pour une variable Xj , le VIF est défini par VIFj = 1 1 − Rj2 La valeur du VIF sera d’autant plus forte que Xj est une combinaison linéaire des autres variables. Règle de décision VIFj ≥ 4 Rq : Détermination des variables incriminées dans la combinaison linéaire → Cercle des corrélations (ACP) Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 86 / 100 Régression linéaire multiple Détection et traitement de la colinéarité Détection de la colinéarité Variance Inflation Factor - VIF Remarque : σB2 j = σ2 VIFj n Donc : Plus la valeur de VIFj est importante plus σB2 j sera importante Estimation instable Problème de significativité du coefficient Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 87 / 100 Régression linéaire multiple Détection et traitement de la colinéarité Traitement de la colinéarité Approche "métier" Mise en évidence de plusieurs variables explicatives colinéaires (VIF + ACP) Discussion et choix de la (ou les) variable(s) la (les) plus pertinente(s) pour l’analyse Approche statistique Méthode de sélection de variables (Forward, Backward, Stepwise) Mais si toutes les variables sont pertinentes ? Régression sur les composantes principales de l’ACP Régression ridge Régression PLS Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 88 / 100 Régression linéaire multiple Sélection de variables Motivations - Critère de sélection de variables Motivations Sélection d’un sous-ensemble de Xj pertinentes et non redondantes qui expliquent au mieux Y Principe du rasoir d’Occam → Modèles parcimonieux Modèle plus simple, lisible, robuste, stable Nombre restreint de variables explicatives (collecte des données) Traitement de la multicolinéarité Critère de sélection de variables Retrait ou ajout d’une variable Xj dans le modèle en fonction de sa valeur du Fj partiel de Fisher : ( Fj = Bj σ bBJ )2 ∼ F1,n−p−1 Détails Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 90 / 100 Régression linéaire multiple Sélection de variables Motivations - Critère de sélection de variables Autres critères de sélection de variables R 2 ajusté R̄ 2 = 1 − AIC (à minimiser) SCR/(n − p − 1) SCT /(n − 1) ( AIC = n ln SCR n ) + 2(p + 1) BIC de Schwartz (à maximiser) ( BIC = n ln SCR n ) + ln(n)(p + 1) etc. . . Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 91 / 100 Régression linéaire multiple Sélection de variables Méthodes de sélection de variables Méthode ascendante (Forward) Principe : On part du modèle sans Xj . On ajoute successivement les Xj qui sont significatifs au sens du F partiel de Fisher et on s’arrête lorsqu’on ne peut plus ajouter de Xj (NS dans le modèle) TANT QUE Condition d’arrêt = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt) Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ < αsle ALORS Ajout de Xj au modèle SINON Arrêt Fin TANT QUE Remarques : Plus αsle est élevé plus le nombre de variables dans le modèle sera important En pratique : αsle = 0.2 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 92 / 100 Régression linéaire multiple Sélection de variables Méthodes de sélection de variables Méthode ascendante (Forward) - Exemple Soient Y et X1 , X2 , X3 sur un échantillon de n = 50 observations Etape Modèle ddl F (p-value) 1 Y = β0 1 ;50-1-1 X1 → 43 (3, 51.10−8 ) X2 → 150 (2, 22.10−16 ) X3 → 12 (1, 11.10−3 ) 2 Y = β0 + β2 X2 1 ;50-2-1 X1 → 9 (4, 31.10−3 ) X3 → 2 (0.1639) 3 Y = β0 + β2 X2 + β1 X1 1 ;50-3-1 X3 → 0.7 (0.4071) X3 n’est plus significative dans le modèle. Modèle final : Y = β0 + β2 X2 + β1 X1 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 93 / 100 Régression linéaire multiple Sélection de variables Méthodes de sélection de variables Méthode descendante (Backward) Principe : On part du modèle saturé (toutes les Xj ). On retire successivement les Xj qui sont non significatifves au sens du F partiel de Fisher et on s’arrête lorsqu’on toutes les Xj sont significatives. TANT QUE Condition d’arrêt = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt) Choix de Fj∗ tel que Fj∗ = min{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ > αsls ALORS Retrait de Xj du modèle SINON Arrêt Fin TANT QUE Remarques : Plus αsls est faible plus le nombre de variables dans le modèle sera faible En pratique : αsls = 0.2 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 94 / 100 Régression linéaire multiple Sélection de variables Méthodes de sélection de variables Méthode Stepwise Principe : "Mix" entre les méthodes ascendante et descendante. On début par le modèle sans Xj et on choisit le Xj le plus significatif au sens du F partiel de Fisher (αsle ). Dans les étapes suivantes, on vérifie que l’ajout d’une variable de conduit pas à la non significativité (αsls ) des autres déjà présentes dans le modèle (phase descendante). Le processus se termine quand aucune Xj n’est significative lors de la phase ascendante. Avantage : Contrairement la méthode ascendante, une Xj introduite dans le modèle peut être remise en cause lors des étapes suivantes. En pratique : αsle = αsls = 0.2 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 95 / 100 Régression linéaire multiple Sélection de variables Méthodes de sélection de variables Méthode Stepwise On part du modèle : Y = β0 TANT QUE Condition d’arrêt = FAUX FAIRE Calcul de Fj pour chaque Xj candidate (Si ∅ Xj → Arrêt) Choix de Fj∗ tel que Fj∗ = max{F1 , . . . , Fp } ( ) SI P Fj∗ > fj∗ < αsle ALORS Ajout de Xj du modèle POUR Chaque Xj inclue dans le modèle FAIRE Calcul de Fj pour chaque Xj ∗ Choix( de Fj∗ tel ) que Fj = min{F1 , . . . , Fp } ∗ ∗ SI P Fj > fj > αsls ALORS Retrait de Xj du modèle FIN POUR SINON Arrêt Fin TANT QUE Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 96 / 100 Régression linéaire multiple Conclusions Processus de modélisation 1 Estimation des coefficients (MCO) 2 3 Mesure de la qualité d’ajustement (R 2 ) Etude la validité du modèle Si hypothèses sur les erreurs non vérifiées → STOP Si observations aberrantes/influentes → Correction/Suppression Retour à l’Etape 1 4 Inférence statistique Test de significativité globale Tests de significativité des coefficients 5 6 Evaluation de la multicolinéarité Sélection de variables (Modèle parcimonieux) Modèle restreint Réitération des Etapes 1, 2, 3, 4 Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 98 / 100 Références Références Livres Probabilités Analyses des données et Statistique, G. Saporta, TECHNIP Dodge, Y, Rousson, V., Analyse de régression appliquée, Dunod, 2ème édition, 2004. Supports en ligne Econométrie - Régression linéaire simple et multiple, R. Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours/econometrie_regression.pdf Pratique de la régression linéaire multiple - Diagnostic et Sélection de variables, R. Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours/La_regression_dans_la_pratique.pdf Régression linéaire, A. Guyader http: //www.sites.univ-rennes2.fr/laboratoire-statistique/AGUYADER/doc/regression/poly.pdf Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 100 / 100 Annexe 1 - Système aux équations normales min S(β0 , β1 ) = min n ∑ 2 (yi − (β1 xi + β0 )) i=1 n ∑ [ 2 ] = min yi − 2xi yi β1 − 2yi β0 + β12 xi2 + 2β0 β1 xi + β02 i=1 S(β0 , β1 ) est strictement convexe donc elle admet un minimum au point unique (b0 , b1 ) déterminé en annulant les dérivées partielles de S : ∑ ∂S(β0 , β1 ) =0⇒ −2yi + 2b1 xi + 2b0 = 0 ∂β0 i=1 (1) ∑ ∂S(β0 , β1 ) =0⇒ −2xi yi + 2b1 xi2 + 2b0 xi = 0 ∂β1 i=1 (2) n n Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 1 / 11 Annexe 1 - Système aux équations normales De (1) on déduit que ∑n b0 = i=1 yi − b1 n ∑n i=1 xi = ȳ − b1 x̄ (3) De (2) on déduit que b1 n ∑ xi2 + b0 i=1 n ∑ xi = i=1 n ∑ xi yi (4) i=1 En utilisant (3) nous obtenons b1 n ∑ i=1 Michaël Genin (Université de Lille 2) xi2 + (ȳ − b1 x̄ ) n ∑ xi = i=1 Régression linéaire multiple n ∑ (5) xi yi i=1 Version - 17 mars 2016 2 / 11 Annexe 1 - Système aux équations normales En divisant par n les deux termes : b1 n n 1∑ 2 1∑ xi + (ȳ − b1 x̄ )x̄ = xi yi n i=1 n i=1 [ b1 (6) ] n n 1∑ 2 1∑ 2 xi − x̄ = xi yi − x̄ ȳ n i=1 n i=1 (7) sxy sx2 (8) b1 = Retour Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 3 / 11 Annexe 2 - RLM : MCO Observons que ||ϵ||2 = ||Y − Xβ||2 . Aussi T ||ϵ||2 = (Y − Xβ) (Y − Xβ) = YT Y − YT Xβ − β T XT Y + β T XT Xβ. Or comme la transposée d’un scalaire est égale à lui-même : ( T )T Y Xβ = β T XT Y, nous avons donc S(β0 , . . . , βp ) = ||ϵ||2 = YT Y − 2β T XT Y + β T XT Xβ Minimiser la fonction S revient à annuler les dérivées différentielles par rapport à β. L’annulation de la dérivation matricielle nous donne ( ) ( ) ∂S = −2 XT Y + 2 XT X b = 0 ∂β Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 4 / 11 Annexe 2 - RLM : MCO Aussi ( ) ( ) XT X b = XT Y . ( ) Or rg(X) = p et p ≤ n donc XT X est inversible. Aussi ( )−1 ( T ) X Y b = XT X Retour Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 5 / 11 Annexe 3 - RLM : moments des estimateurs Espérance [( )−1 T ] ( T )−1 T E[B] = E XT X X Y = X X X E[Y] ( )−1 T E[B] = XT X X E[X.β + ϵ] = β Variance [( )−1 T ] ( )−1 ( )−1 T XT X X Y = X XT X V[Y] XT X X ( T )−1 ( T )−1 T ( ) −1 V[B] = X X X V[ϵ] X X X = σ 2 XT X V[B] = V Retour Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 6 / 11 Annexe 4 - F partiel de Fisher L’égalité ( F = Bj σ bBJ )2 ∼ F1,n−p−1 se base sur un cas particulier du test de nullité d’un bloc de q coefficients. { H0 : Y = β0 + β1 X1 + . . . + βj Xj + βj+q+1 Xj+q+1 + . . . + βp Xp + ϵ H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ { H0 : Modèle sans les q variables (modèle restreint) H1 : Modèle complet Posons 2 : Coefficient de détermination du modèle restreint (H0 ) R(0) 2 : Coefficient de détermination du modèle complet (H1 ) R(1) Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 7 / 11 Annexe 4 - F partiel de Fisher Notons F la statistique de test associée. On montre que sous H0 , ( ) 2 2 R(1) − R(0) /q ) ∼ Fq,n−p−1 F =( 2 1 − R(1) /(n − p − 1) Autre interprétation : si l’accroissement ( ) 2 2 R(1) − R(0) > q fq,n−p−1 n−p−1 alors la place des q variables dans le modèle est justifiée. Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 8 / 11 Annexe 4 - F partiel de Fisher Cas particulier quand q = 1 On veut tester la nullité d’un coefficient βj { H0 : Y = β0 + β1 X1 + . . . + βj−1 Xj−1 + βj+1 Xj+1 + . . . + βp Xp + ϵ H1 : Y = β0 + β1 X1 + . . . + βp Xp + ϵ { H0 : Modèle sans Xj (modèle restreint) H1 : Modèle complet Posons 2 : Coefficient de détermination du modèle restreint (H0 ) R(0) 2 : Coefficient de détermination du modèle complet (H1 ) R(1) Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 9 / 11 Annexe 4 - F partiel de Fisher Cas particulier quand q = 1 Notons F la statistique de test associée. On montre que sous H0 , ( ) 2 2 R(1) − R(0) /1 ) F =( ∼ F1,n−p−1 2 1 − R(1) /(n − p − 1) Or T = Bj ∼ Tn−p−1 σ bBJ Donc ( F = T2 = Bj σ bBJ )2 Remarque : test de la significativité du coefficient et son apport au R 2 . Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 10 / 11 Annexe 4 - F partiel de Fisher Cas particulier quand q = 1 Autre interprétation : si l’accroissement ( ) 2 2 R(1) − R(0) > 1 f1,n−p−1 n−p−1 alors la place de Xj dans le modèle est justifiée. Note : Tests de type III sous SAS. Retour Michaël Genin (Université de Lille 2) Régression linéaire multiple Version - 17 mars 2016 11 / 11