Le modèle de la régression simple
Transcription
Le modèle de la régression simple
La régression simple La régression simple Étude de la liaison linéaire entre deux variables numériques : - une variable explicative X - une variable à expliquer Y 2 Étude du lien entre deux variables X et Y Variable X explicative Quantitatif Variable Y à expliquer Qualitatif Quantitatif Qualitatif - Régression simple Analyse de la variance - Corrélation simple à un facteur Régression logistique Test du khi-deux d'indépendance 3 Cas Prix d’un appartement 1. CENSIER, bas de R. Mouffetard, pied-à-terre, 28m2, tt confort. Visite vendredi, samedi, dim. 130.000 € à discuter. Facilités 3. R. St-Simon, en pleine verdure, calme, plein soleil, Superbe appt 4p., 106m2, cuis. aménagée, s. de bains moderne, chff. cent. Parfait état. Px 650.000 à discuter. Agence s’abstenir. Direct. Propriétaire. 5. R. St André-des-Arts, beau liv + chbre, imm. XVIIIe siècle, 55m2, 268.000 €. 7. GOBELINS, Beau 5p., 110m2, gd cft, soleil, 500.000 € 9. CENSIER, très grand studio + entrée 48m2, tt cft, ensoleillé, calme, bel imm., 250.000 € 11. RUE MADAME, 3P. + Serv., 86m2, 350.000 €. 2. 13. PANTHEON, bel imm., verdure, magnifique studio 32m2, caractère, 155.000 €. 15. MONTPARNASSE, Part. vend atelier d’artiste 40m2, duplex, vue imprenable, tout confort, Prix 200.000 €. 17. BD St-GERMAIN, 4P., 70m2, à amén., 4e ét., 325.000 €. 14. 19. JUSSIEU, Charme, gd 3 pces, 90m2, 378.000 €. 20. 21. MONTPARNASSE, Imm. p.d.t., 4-5 P., 105m2, bon état, 375.000 €. 23. CENSIER, Bel imm., 4P. 80m2, tt cft, petits travaux, 270.000 €. 25. SUR JARDINS OBSERVATOIRE, 140m2, grand charme, 990.000 €. 27. PRES LUXEMBOURG, Bel imm., pierre de taille, Appartement 100m2, salon, sal. à manger, 2 chbres, office, cuis., bains, chf. cent., asc., prix : 495.000 €. 22. 4. 6. 8. 10. 12. 16. 18. 24. 26. 28. CONTRESCARPE, imm. Ancien, pierre de taille, beau duplex caractère, 50m2, poutres, refait neuf, 280.000 € RAPP 7P., 196m2 standing, 9 fenêtres plein soleil, 800.000 €. 5e PRES QUAIS, 7 pces, 190m2 caractère, standing, 790.000 € GOBELINS, et. élevé, calme, asc., 2 pièces, 60m2, 320.000 € PANTHEON, 7e étage, ascenseur, grand studio 35m2 + terrasse. Vue. 250.000 €. RUE DE SEINE, 3P., tt cft, 65m2, calme, soleil, 300.000 €. SEVRES BAB, 1er ét., 2P., gde cuis., bns, 52m2, état neuf, 245.000 €. RUE D’ASSAS, imm. gd standing, bel appart 260m2, triple récept. + 5 ch., tt cft (travaux) 2 park., 2 ch. Serv., Prix 1.500.000 € à déb. ILE St-LOUIS, Lux. appt., 117m2, en duplex, gde récept., gde chambre, 2 sdb, Terras., parf. et., décor tr. bon goût, 950.000 €. QUARTIER LATIN, 30m2 à aménager, prix 78.000 €. RUE MAZARINE, 4e ét., sans ascens., 52m2 à rénover. Prix total 200.000 €. ASSAS LUXEMBOURG, 3P. 60m2 s/arbres, imm. caractère, 295.000 €. RUE DE SAVOIE, 4e ét., Studio 20m2, dche, 85.000 €. crédit possible. Mo GOBELINS, studio, cuis., s. de bains, 28m2, calme. Prix 85.000 €. Cas Prix d’un appartement 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 censier contrescarpe rue saint-simon rapp saint-andré des arts 5-ième, près quais gobelins gobelins censier panthéon rue madame rue de seine panthéon sèvres-babylone montparnasse rue d'assas saint-germain ile saint-louis jussieu quartier-latin montparnasse rue mazarine censier assas luxembourg jardins de l'observatoire rue de savoie près luxembourg gobelins Surface 28 50 106 196 55 190 110 60 48 35 86 65 32 52 40 260 70 117 90 30 105 52 80 60 140 20 100 28 1600 16 1400 1200 18 1000 Prix (en milliers d'euros) Localisation Prix (en milliers d'euros) 130 280 650 800 268 790 500 320 250 250 350 300 155 245 200 1500 325 950 378 78 375 200 270 295 990 85 495 85 25 64 800 3 600 27 7 19 21 11 17 8 2 2412 23 10 9145 15 22 113 2628 20 400 200 0 0 100 200 300 Surface 5 Identification des outliers au niveau du Prix au mètre carré 9000 Ile saint-louis 8000 Panthéon (10) 7000 Jardins de l'observatoire 6000 5000 4000 3000 2000 N= 28 Prix du mètre carré 6 La droite des moindres carrés 1600 16 1400 1200 Prix (en milliers d'euros) 1000 18 25 64 800 3 600 27 7 19 21 17 11 8 2 2412 23 10 9145 15 22 13 1 2628 20 400 200 0 0 Surface 100 200 300 7 Les données Y = Variable à expliquer numérique (ou dépendante) X = Variable explicative numérique ou binaire (ou indépendante) 1 M i M n X x1 M xi M xn Y y1 M yi M yn Le tableau des données 8 La droite des moindres carrés 1600 On cherche yˆ = aˆx + bˆ 1400 â et b̂ 1200 valeur prédite minimisant yi1000 ŷi erreur ei 800 n 2 e ∑i * 600 i =1 400 200 Prix valeur observée 0 0 Surface 100 xi 200 300 9 Résultats SPSS Coefficientsa Model 1 (Constant) Surface Unstandardized Coefficients B Std. Error -29.466 41.246 5.353 .414 Standardized Coefficients Beta .930 t -.714 12.931 Sig. .481 .000 F 167.210 Sig. .000a a. Dependent Variable: Prix (en milliers d'euros) ANOVAb Model 1 Regression Residual Total Sum of Squares 2527208 392963.2 2920171 df 1 26 27 Mean Square 2527207.505 15113.970 a. Predictors: (Constant), Surface b. Dependent Variable: Prix (en milliers d'euros) 10 Résultats SPSS Numéro 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Résidu Prix standardisé (en milliers €) 0.078 130 0.340 280 0.911 650 -1.788 800 0.025 268 -1.608 790 -0.483 500 0.230 320 0.183 250 0.749 250 -0.658 350 -0.150 300 0.107 155 -0.032 245 0.125 200 1.120 1500 -0.165 325 2.873 950 -0.605 378 -0.432 78 -1.282 375 -0.398 200 -1.048 270 0.027 295 2.196 990 0.060 85 -0.088 495 -0.288 85 Valeur prédite 120.42 238.19 537.97 1019.75 264.96 987.64 559.38 291.72 227.49 157.89 430.91 318.49 141.84 248.90 184.66 1362.36 345.26 596.85 452.32 131.13 532.62 248.90 398.79 291.72 719.98 77.60 505.85 120.42 Résidu 9.58 41.81 112.03 -219.75 3.04 -197.64 -59.38 28.28 22.51 92.11 -80.91 -18.49 13.16 -3.90 15.34 137.64 -20.26 353.15 -74.32 -53.13 -157.62 -48.90 -128.79 3.28 270.02 7.40 -10.85 -35.42 Modèle : Prix calculé = -29.466 + 5.353 Surface n 2 e ∑ i = 392963.2 i =1 Pour le modèle avec constante on a aussi : n ∑ ei = 0 i =1 Coefficient de détermination R2, Coefficient de corrélation R A) Formule de décomposition ∑ ( yi − y) = ∑ ( ŷi − y) + ∑ ei 2 2 2 Somme des carrés totale Somme des carrés expliquée Somme des carrés résiduelle (Total Sum of Squares) (Regression Sum of Squares) (Residual Sum of Squares) ∑ ( ŷi − y) = 2 ∑ ( yi − y) 2 B) R2 C) R = signe(â ) R 2 12 Résultats SPSS Model Summary Model 1 R R Square .930a .865 Adjusted R Square .860 Std. Error of the Estimate 122.939 a. Predictors: (Constant), Surface |R| Correlations SURFACE Pearson Correlation Sig. (2-tailed) N PRIX .930** .000 28 R **. Correlation is significant at the 0.01 level (2-tailed). 13 Le R2 mesure la force de la liaison linéaire entre X et Y 1) 0 ≤ R2 ≤ 1 2) R2 = 1 3) Y Y * * * * * y X R2 = 0 * * * * * * * * * ** * X 14 Le R2 mesure la force de la liaison linéaire entre X et Y 120 Modèle non linéaire: Y = aX2 + bX 100 80 60 40 Y 20 Rsq = 0.0000 0 -20 -10 0 10 20 X 15 La corrélation R mesure la force et le sens de la liaison linéaire entre X et Y Y Y * * * ** * * * * * * aˆ > 0 R>0 * X * * X aˆ < 0 R<0 16 Karl Pearson Calcul direct de R R= ∑ ( x i − x )( yi − y) 2 2 ∑ ( x i − x ) ∑ ( y i − y) Résultat SPSS : Correlations SURFACE Pearson Correlation Sig. (2-tailed) N PRIX .930** .000 28 **. Correlation is significant at the 0.01 level (2-tailed). 17 La corrélation R est-elle significative au risque α = 0.05 ? Notations Règle de décision - ρ = Corrélation au niveau On rejette H0 au risque α = 0.05 de la population de se tromper si - R = Corrélation au niveau de l’échantillon Test : H0 : ρ = 0 2 R ≥ n (Bonne approximation pour n > 20) H1 : ρ ≠ 0 18 La corrélation R est-elle significative au risque α ? Notations Règle de décision - ρ = Corrélation au niveau On rejette H0 au risque α de se tromper si de la population - R = Corrélation au niveau de l’échantillon Test : H0 : ρ = 0 H1 : ρ ≠ 0 R ≥ t1−α / 2 (n − 2) 2 1−α / 2 t ( n − 2) + n − 2 Niveau de signification Plus petit α conduisant au rejet de H0. 19 Seuil critique r (ν = n − 2, α ) pour un coefficient de corrélation simple Table 6 Exemple de corrélation non significative 9000 Correlations 18 8000 10 PRIXM2 25 7000 3 6000 8 9 15 524 13 1 14 12 17 5000 26 22 4000 Prix au m2 16 2 27 On a 30,9 chances sur 100 de se tromper en affirmant qu’il existe une liaison linéaire entre le prix au m2 et la surface. 7 19 11 23 64 21 28 3000 20 2000 Rsq = 0.0397 0 100 200 Pearson Correlation Sig. (2-tailed) N SURFACE .199 .309 28 300 Surface En rouge la droite des moindres carrés, en bleu la droite y = prix au m2 moyen On considère donc que la corrélation (.199) entre le prix au m2 et la surface n’est pas significative. 21 Le modèle statistique de la régression simple Chaque valeur observée yi est considérée comme une réalisation d’une variable aléatoire Yi définie par : Yi = axi + b + εi où εi est un terme aléatoire suivant une loi normale N(0, σ). On suppose que les les aléas εi sont indépendants les uns des autres. 22 Le modèle de la régression simple Modèle : Y = aX + b + ε , avec ε ∼ N(0, σ) Y µx + 1.96σ Loi de Y * y = ax + b µx= ax+b 95% des µx - 1.96σ valeurs de Y * x X L’écart-type σ représente à peu près le quart de l’épaisseur du nuage 23 Estimation de a, b et σ Estimation de a et b : aˆ = estimation de a bˆ = estimation de b Estimation de σ : n 1 2 2 σˆ 2 = σ e = estimation de ∑i n − 2 i =1 σˆ = σˆ 2 = estimation de σ 24 Prévision de Y Modèle : Y = aX + b + ε , avec ε ∼ N(0, σ) µx= E(Y | X = x) = ax + b Problème 1 : Calculer une estimation et un intervalle de confiance au niveau de confiance 95 % de la moyenne µx de Y lorsque X est fixé à x. Soit y une future valeur de Y pour X fixé à x. Problème 2 : Calculer une prévision et un intervalle contenant 95 % des futures valeurs de Y lorsque X est fixé à x. 25 Résultat pour µx Estimation de µx = E(Y | X=x) : ˆ + bˆ µˆ x = ax Intervalle de confiance de µx au niveau 95 % : 1 (x − x) 2 yˆ ± t 0.975 (n − 2) × σˆ × + n n ∑ (x i − x) 2 i =1 Formule approchée : σˆ ŷ ± 2 n 26 Résultats SPSS Numéro Surface moyenne = 82.32 Variance de la surface = 3266.3 Localisation Surface Prix (en milliers €) Prédiction INF95% Moyenne SUP95% Moyenne INF95% Individu SUP95% Individu 1 censier 28 130 120.42 53.96 186.89 -140.88 381.72 2 3 4 5 contrescarpe rue saint-simon rapp saint-andré des arts 50 106 196 55 280 650 800 268 238.19 537.97 1019.75 264.96 183.08 486.14 911.87 211.84 293.30 589.80 1127.64 318.07 -20.45 280.00 744.99 6.73 496.84 795.94 1294.52 523.18 6 7 8 5-ième, près quais gobelins gobelins 190 110 60 790 500 320 987.64 559.38 291.72 884.31 506.13 240.33 1090.96 612.63 343.12 714.62 301.13 33.85 1260.65 817.64 549.60 9 10 11 12 censier panthéon rue madame rue de seine 48 35 86 65 250 250 350 300 227.49 157.89 430.91 318.49 171.51 95.43 383.05 268.51 283.47 220.36 478.77 368.47 -31.34 -102.42 173.71 60.89 486.32 418.21 688.10 576.09 13 14 15 16 panthéon sèvres-babylone montparnasse rue d'assas 32 52 40 260 155 245 200 1500 141.84 248.90 184.66 1362.36 77.69 194.62 124.85 1203.80 205.98 303.18 244.47 1520.91 -118.88 -9.57 -75.03 1064.03 402.55 507.37 444.35 1660.69 17 18 19 saint-germain ile saint-louis jussieu 70 117 90 325 950 378 345.26 596.85 452.32 296.36 540.72 404.12 394.15 652.99 500.52 87.86 337.99 195.06 602.65 855.72 709.58 20 21 22 23 quartier-latin montparnasse rue mazarine censier 30 105 52 80 78 375 200 270 131.13 532.62 248.90 398.79 65.84 481.11 194.62 350.99 196.42 584.12 303.18 446.58 -129.87 274.72 -9.57 141.60 392.13 790.52 507.37 655.97 24 25 26 27 assas luxembourg jardins de l'observatoire rue de savoie près luxembourg 60 140 20 100 295 990 85 495 291.72 719.98 77.60 505.85 240.33 651.50 6.23 455.78 343.12 788.46 148.96 555.92 33.85 458.16 -184.99 248.23 549.60 981.80 340.19 763.47 28 gobelins 28 85 120.42 53.96 186.89 -140.88 381.72 27 Résultat graphique pour les intervalles de confiance Prix vs Surface (28 obs.) : Intervalle de confiance à 95% 1600 1400 1200 1000 800 600 400 Prix 200 0 0 Surface 100 200 300 28 Intervalle de confiance de la moyenne µx = ax + b pour une liaison non significative 9000 8000 7000 6000 y 5000 Prix au m2 4000 3000 2000 0 100 200 300 Surface La droite y = y appartient à la zone de confiance des Y moyens. Donc la liaison entre Y et X n’est pas significative. 29 Résultat pour y Prévision de y pour x fixé : yˆ = aˆx + bˆ Intervalle de prévision de y à 95 % pour x fixé : 1 ( x − x )2 yˆ ± t0.975 (n − 2) × σˆ × 1 + + n n ∑ ( xi − x ) 2 i =1 Formule approchée : ŷ ± 2σˆ 30 Résultat graphique pour les intervalles de prévision Intervalle de prévision individuelle à 95% 1600 Observations atypiques 1400 1200 Jardins de l‘Observatoire Ile Saint-louis Prix (en milliers d‘Euros) 1000 800 600 400 200 0 0 Surface 100 200 300 31 Observation atypique Une observation est atypique (outlier) si elle n’appartient pas à son propre intervalle de prévision : 1 (x − x)2 y ∉ [ ŷ ± t 0.975 (n − 2) × σˆ × 1 + + n ] 2 n ∑i =1 ( x i − x ) En utilisant la formule approchée : y ∉ [ ŷ ± 2σˆ ] soit e = y − ŷ > 2σˆ Conclusion : Une observation i est un outlier si son résidu ei standardisé est supérieur à 2 en valeur absolue. σ̂ 32 Résultats SPSS NUMERO Surface 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 28 50 106 196 55 190 110 60 48 35 86 65 32 52 40 260 70 117 90 30 105 52 80 60 140 20 100 28 Prix (en milliers d’€) 130 280 650 800 268 790 500 320 250 250 350 300 155 245 200 1500 325 950 378 78 375 200 270 295 990 85 495 85 Prédiction Résidu 120.42 238.19 537.97 1019.75 264.96 987.64 559.38 291.72 227.49 157.89 430.91 318.49 141.84 248.90 184.66 1362.36 345.26 596.85 452.32 131.13 532.62 248.90 398.79 291.72 719.98 77.60 505.85 120.42 9.58 41.81 112.03 -219.75 3.04 -197.64 -59.38 28.28 22.51 92.11 -80.91 -18.49 13.16 -3.90 15.34 137.64 -20.26 353.15 -74.32 -53.13 -157.62 -48.90 -128.79 3.28 270.02 7.40 -10.85 -35.42 Résidu standardisé 0.08 0.34 0.91 -1.79 0.02 -1.61 -0.48 0.23 0.18 0.75 -0.66 -0.15 0.11 -0.03 0.12 1.12 -0.16 2.87 -0.60 -0.43 -1.28 -0.40 -1.05 0.03 2.20 0.06 -0.09 -0.29 INF 95% Individuel -140.88 -20.45 280.00 744.99 6.73 714.62 301.13 33.85 -31.34 -102.42 173.71 60.89 -118.88 -9.57 -75.03 1064.03 87.86 337.99 195.06 -129.87 274.72 -9.57 141.60 33.85 458.16 -184.99 248.23 -140.88 SUP 95% Individuel 381.72 496.84 795.94 1294.52 523.18 1260.65 817.64 549.60 486.32 418.21 688.10 576.09 402.55 507.37 444.35 1660.69 602.65 855.72 709.58 392.13 790.52 507.37 655.97 549.60 981.80 340.19 763.47 381.72 Élimination des observations atypiques Pour rendre la prévision plus opérationnelle, on peut restreindre le champ d’application du modèle en éliminant des observations atypiques, mais en le justifiant par des considérations extra-statistiques. Compléter le tableau suivant jusqu’à élimination de toutes les données atypiques Nombre Corrélation Écart-type Observations Intervalle de prévision à R d’observations du résidu atypiques 95 % du prix d’un 100 m2 28 26 M 34