Analyse de régression
Transcription
Analyse de régression
Introduction à la régression La régression est utilisée pour estimer une fonction f( ) décrivant une relation entre une variable expliquée continue, Y, et une ou plusieurs variables explicatives, Xi. Y = f(X1, X2, X3,…, Xn) + ε Analyse de régression Remarque : • f( ) décrit la variation systématique de la relation. • ε représente la variation non systématique (aléatoire) de la relation. 1 2 Le nuage de points des données Un Exemple Considérons la relation entre le budget de publicité (X1) et les ventes (Y). Il y a probablement une relation de type : quand la publicité augmente, les ventes devraient aussi augmenter. En pratique, comment peut-on quantifier cette relation? Voir le fichier Fig9-1.xls Ventes ( x 1 000 $) 600.0 500.0 400.0 300.0 200.0 100.0 0.0 20 30 40 50 60 70 80 90 100 Publicité (x 1 000 $) 3 4 Un modèle de régression linéaire simple La nature de la relation statistique Le nuage de points illustre une relation (environ) linéaire entre la publicité et les ventes. Y Les données suggèrent donc le modèle de régression suivant : Courbe de régression Yi = β 0 + β 1 X 1i + ε i Cela se veut la vraie relation entre la population entière des données de publicité et de ventes. La fonction de régression estimée (calculée avec notre échantillon) sera représentées ainsi : = b +b X Y i 0 1 1i Distributions de probabilités pour Y à différents niveaux de X Ŷi est l'estimation (ou l'ajustement) de Y à un certain niveau de X X 5 6 1 Déterminer le meilleur ajustement Utilisation du Solver Des valeurs numériques doivent être déterminées pour b0 and b1 La méthode des moindres carrés trouve les valeurs qui minimisent n: n ESS = ∑ (Y − Y ) = ∑ (Y − (b 2 i =1 i i i =1 0 i Voir le fichier Fig9-4.xls + b1 X1 )) 2 i Si ESS = 0, la fonction estimée s’ajuste parfaitement aux données. Nous pouvons résoudre ce problème à l’aide du Solver d’Excel. 7 8 Utilisation de l’utilitaire d’analyse La fonction de régression estimée Excel possède aussi un outil intégré (utilitaire d’analyse) pour réaliser une étude de régression : – Plus simple à utiliser – Génère beaucoup plus d’information à propos du problème Selon les données, la fonction de régression estimée est la suivante : = 36.342 + 5.550 X Y i 1 i Voir le fichier Fig9-1.xls 9 La fonction TREND() 10 Évaluer la qualité de l’ajustement TREND(Plage en Y, Plage en X, Valeur X pour la prédiction) 600.0 Sales (in n $000s) Où : Plage en Y est l’ensemble des cellules contenant les valeurs de la variable expliquée Y Plage en X est l’ensemble des cellules contenant les valeurs de(s) variable(s) explicatives X Valeur X pour la prédiction est la(les) cellule(s) contenant la(les) valeur(s) de(des) variable(s) explicative(s) pour laquelle(lesquelles) on désire une prédiction de la 500.0 400.0 300.0 100.0 0.0 20 Remarque : La fonction TREND( ) est dynamiquement remise à jour dès qu’une valeur d’entrée est modifiée. Toutefois, elle ne fournit pas toute l’information statistique de l’outil de régression. 11 2 R = 0.9691 200.0 30 40 50 60 70 80 90 100 Advertising (in $000s) 12 2 La statistique R2 Décomposition de l’erreur La statistique R2 indique en partie le niveau d’ajustement du modèle aux données 0 < R2 < 1 Elle mesure la proportion de la variation totale de Y autour de la moyenne qui est comprise dans l’équation de régression Le graphique suivant illustre bien ce concept Yi (valeur réelle) Y * Yi - Y ^ Yi - Y i ^ (Valeur estimée) Y i ^ -Y Y i Y ^ Y = b0 + b1X X 13 Partitionnement de la somme des carrés totaux (TSS) n n 2 2 i =1 i i i =1 TSS = R2 = Faire des prédictions Supposons que l’on désire estimer le niveau moyen des ventes espérées en dépensant 65 000$ de publicité n ∑ (Y − Y) = ∑ (Y − Y ) + ∑ (Y − Y ) i i =1 ESS + 14 2 i = 36.342 + 5.550X Y i 1 RSS i Ventes estimées = 36.342 + 5.550 * 65 = 397.092 RSS ESS = 1− TSS TSS Donc, quand 65 000$ sont dépensés en publicité, nous pouvons espérer avoir un niveau moyen des ventes de 397 092$ 15 Un intervalle de prédiction approximatif L’erreur type Un intervalle de confiance à 95%, approximatif, pour une nouvelle valeur de Y quand X1=X1h est donné par : L’erreur type (erreur standard) mesure la dispersion des données autour de la droite de régression n ∑ (Y − Y ) Se = i =1 i 16 ± 2S Y h e 2 i n − k −1 Où : = b +b X Y h 0 1 1 h Exemple : Si 65 000$ sont dépensés en publicité : Intervalle de prédiction inférieur à 95% = 397.092 - 2*20.421 = 356.250 Intervalle de prédiction supérieur à 95% = 397.092 + 2*20.421 = 437.934 où k = le nombre de variables explicatives Dans notre dernier exemple, Se = 20.421 Donc, en dépensant 65 000$ en publicité, nous sommes approximativement confiants à 95% que les ventes seront entre 356 250$ et 437 934$ Ceci est utile pour les intervalles de prédiction 17 18 3 Un intervalle de prédiction exact Exemple Un intervalle de confiance à (1-α)% pour une nouvelle valeur de Y quand X1=X1h est donné par : Si 65 000$ était dépensé en publicité : Intervalle de confiance inférieur à 95% = 397.092 - 2.306*21.489 = 347.556 Intervalle de confiance supérieur à 95% = 397.092 + 2.306*21.489 = 446.666 ±t Y h (1−α / 2 ,n − 2 ) S p Où : Donc, on dépensant 65 000$ en publicité, nous sommes confiants à 95% que les ventes seront entre 347 556$ et 446 666$ Ici, cet intervalle est environ seulement 20 000$ plus large que celui approximatif, qui était beaucoup plus simple à obtenir Le gain de précision ne vaut pas nécessairement toujours le trouble supplémentaire, bien que dans Excel … = b +b X Y h 0 1 1 h S p = Se 1 + ( X1 − X ) 2 1 h + n n ( X1 − X ) 2 ∑ i =1 i 19 Comparaison des deux intervalles de confiance calculés Intervalles de confiance pour la moyenne Un intervalle de confiance à (1-α)% pour la vraie valeur moyenne de Y quand X1=X1h est donné par : Sales 575 525 475 Intervalles de confiance calculés avec l’erreur type Se ±t Y h (1− α / 2 ,n − 2 ) S a 425 Où : 375 325 Intervalles de confiance calculés avec l’erreur de prédiction Sp 225 175 35 45 55 65 75 Advertising Expenditures 85 = b +b X Y h 0 1 1 h Droite de régression 275 125 25 20 Sa = Se ( X1 − X) 2 1 h + n n ( X1 − X) 2 ∑ i =1 95 i 21 Une remarque à propos des extrapolations 22 Analyse de régression multiple La majorité des problèmes de régression impliquent plus qu’une variable explicative Des prédictions faites avec un modèle de régression (même avec un grand R2), peuvent être peu ou pas fiables du tout pour des valeurs des variables p explicatives choisies en dehors de celles de l’échantillon ayant servi à élaborer le modèle Interpolation = OK Extrapolation = ???!!! Si chaque variable (ou une transformation de celle-ci) contribue linéairement avec Y, la fonction de régression est alors : = b + b X + b X +"+b X Y i 0 1 1 2 2 k k i i i Les valeurs optimales des bi peuvent encore être déterminées en minimisant ESS Il s’agit maintenant d’ajuster un hyperplan aux données 23 24 4 Exemple d’une surface de régression pour deux variables explicatives Exemple de régression multiple : Évaluation immobilière Y Un évaluateur immobilier désire développer un modèle pour l’aider à prédire le prix du marché de certaines propriétés Trois variables explicatives seront retenues pour prix de vente d’une maison : estimer le p * * ** * * * * * * * * * * * * * * * * * * – Surface totale en pi.ca. – Nombre de chambres à coucher – Dimension du garage * X2 Voir le fichier Fig9-17.xls X1 25 26 Modèles avec une variable explicative Sélectionner le modèle Nous voulons identifier le modèle le plus simple qui exprime bien la variation systématique de la variable Y Utiliser arbitrairement toutes les variables explicatives pourrait induire un « surajustement » Un échantillon contient plusieurs caractéristiques : – Certaines représentant la population – D’autres étant spécifiques à l’échantillon Nous ne voulons pas ajuster les modèles aux caractéristiques spécifiques des échantillons, c’est-à-dire faire du surajustement De façon simpliste, supposons qu’on ajuste trois modèles de régression simple : = b +b X Y i 0 1 1i Yi = b0 + b2 X 2 i = b +b X Y i 0 3 3i Faits saillants des résultats : Variables incluses X1 X2 X3 R2 0.870 0.759 0.793 R2 ajusté 0.855 0.731 0.770 Estimations Se des paramètres 10.299 b0=9.503, b1=56.394 14.030 b0=78.290, b2=28.382 12.982 b0=16.250, b3=27.607 Juste le modèle avec X1 contient déjà 87% de la variation de Y, laissant 13% pour le reste 27 Remarque informatique importante 28 Modèles avec deux variables explicatives Supposons maintenant que nous ajustions les deux modèles suivants : En considérant plus d’une variable explicative, il est important de les maintenir en blocs adjacents afin de pouvoir les sélectionner simultanément = b +b X +b X Y i 0 1 1i 2 2i = b +b X +b X Y i 0 1 1 3 3 i i Faits saillants des résultats : Variables incluses X1 X1 & X2 X1 & X3 La sélection de blocs non contigües est interdite avec l’outil de régression R2 0.870 0.939 0.877 R2 ajusté 0.855 0.924 0.847 Se 10.299 7.471 10.609 Estimations des paramètres b0=9.503, b1=56.394 b0=27.684, b1=38.576 b2=12.875 b0=8.311, b1=44.313 b3=6.743 Le modèle comprenant X1 et X2 explique 93.9% de la variation de Y 29 30 5 Le R2 ajusté Attention à la multicollinéarité À mesure que des variables explicatives sont incluses dans le modèle : Il n’est pas surprenant qu’ajouter X3 (chambres à coucher) au modèle comprenant déjà X1 (surface totale) n’ait pas enrichi significativement le modèle R2 – Le peut seulement croître – Le R2 ajusté peut croître ou décroître ⎛ ESS ⎞ ⎛ n − 1 ⎞ R 2a = 1 − ⎜ ⎟⎜ ⎟ ⎝ TSS ⎠ ⎝ n − k − 1⎠ Le R2 peut être amplifié artificiellement par l’addition de n’importe quelle variable explicative Il est préférable de comparer les valeurs des R2 ajustés pour déterminer si l’introduction d’une variable supplémentaire est utile Ces deux variables représentent ( (approximativement) i ti t) la l même ê chose, h la l grandeur d de la maison Ces deux variables sont fortement corrélées (ou colinéaires) La multicollinéarité doit être évitée 31 32 Modèle avec trois variables explicatives Supposons maintenant que nous voulions inclure les trois variables explicatives : = b +b X +b X +b X Y i 0 1 1 2 2 3 3 i i Estimons la valeur moyenne d’une maison de 2 100 pi.ca. et ayant un garage double : = b +b X +b X Y i 0 1 1i 2 2i Y i = 27 .684 + 38.576 * 2 .1 + 12 .875 * 2 = 134 .444 i Faits saillants des résultats : Variables incluses X1 X1 & X2 X1, X2 & X3 R2 0.870 0.939 0.943 R2 Estimations ajusté Se des paramètres 0.855 10.299 b0=9.503, b1=56.394 0.924 7.471 b0=27.684, b1=38.576, b2=12.875 0.918 7.762 b0=26.440, b1=30.803, b2=12.567, b3=4.576 La valeur moyenne y estimée du p prix de vente est donc de 134 444$ Un intervalle de confiance approximatif de 95% pour le prix de vente est : ± 2S Y h e Le modèle comprenant X1 et X2 semble être le meilleur : – Plus grand R2 ajusté – Plus faible Se (intervalles de prédiction les plus petits) Faire des prédictions = 134.444 - 2*7.471 Î 119 502 $ Intervalle supérieure à 95% = 134.444 + 2*7.471 Î 149 386$ Intervalle inférieur à 95% 33 34 Régression polynomiale Variables explicatives binaires Parfois, la relation entre les variables n’est pas linéaire Il est possible d’introduire des variables explicatives non quantitatives par l’entremise de variables binaires $175 Exemple : La présence (ou l’absence) d’une piscine Selling Price X pi $150 ⎧1, si la maison i a une piscine =⎨ ⎩0, autrement Exemple : Selon que la toiture est en bonne, moyenne ou mauvaise condition ⎧1, si le toit de la maison i est en bonne condition X ri = ⎨ ⎩0, autrement $125 $100 $75 $50 0.900 1.200 1.500 1.800 Square Footage 2.100 2.400 Ce graphique suggère une relation quadratique entre la surface (X) et le prix de vente (Y) ⎧1, si le toit de la maison i est en moyenne condition X r +1i = ⎨ ⎩ 0, autrement 35 36 6 Le modèle de régression Implantation du modèle Un modèle de régression approximatif pour ce cas pourrait être : Voir le fichier Fig9-25.xls = b + b X + b X2 Y i 0 1 1 2 1 i i Ou encore = b +b X +b X Y i 0 1 1 2 2 i i avec X 2 = X 12 i i 37 38 Ajuster un modèle polynomial du troisième ordre Graphique de la fonction quadratique de régression Nous pourrions aussi ajuster un modèle polynomial du troisième ordre, $175 $150 = b + b X + b X2 + b X3 Y i 0 1 1 2 1 3 1 Selling P Price i Y i = b0 + b1 X 1 + b2 X 2 + b3 X 3 $100 i avec $75 i i i X 2 = X 12 i $50 0.900 i Ou encore $125 1.200 1.500 1.800 Square Footage 2.100 X3 = 2.400 i i X 13 i 39 Attention au surajustement Graphique de la fonction polynomiale de régression du troisième ordre Particulièrement avec les modèles polynomiaux, il faut être prudents pour ne pas surajuster le modèle à l’échantillon Comment faire pour décider du nombre de termes? Peut être avec le R2 ajusté! $175 $150 Selling P Price 40 $125 $100 $75 $50 0.900 1.200 1.500 1.800 Square Footage 2.100 2.400 41 42 7