STAT-G204 Chapitre II: La régression multiple
Transcription
STAT-G204 Chapitre II: La régression multiple
STAT-G204 Chapitre II: La régression multiple Caroline Verhoeven Table des matières 1 Régression simple 2 Principe de la régression multiple 3 Résolution avec SPSS eamerlogo Caroline Verhoeven STAT-G204 2 / 19 1. Régression simple La régression linéaire Y : La variable que l’on veut prédire (variable dépendante) X : La variable explicative (variable indépendante) Détermination de la droite de régression : Mesures : x1 ,y1 , x2 ,y2 , xN ,yN La pente b1 et l’ordonnée b0 à l’origine de la “meilleure droite” d5 Age 4 3 d1 2 0,10 d3 yi : valeur d’Y pour le sujet i d4 ŷi = b0 + b1 xi d2 di = yi − ŷi : “résidu” 0,15 0,20 0,25 Porportion noir 0,30 La “meilleure” droite : celle qui minimise Q= N X di2 = i=1 N X (yi − ŷi )2 i=1 eamerlogo Caroline Verhoeven STAT-G204 3 / 19 2. Principe de la régression multiple Utilité de la régression multiple Un variable peut dépendre de plusieurs facteurs à la fois. Exemple 1 Prédire la taille d’une personne à partir de la taille du père, de la mère et de son sexe But : Prédire les valeur d’Y à partir de plusieurs variables X1 , X2 ,. . ., Xk X1 , X2 , . . .Xk sont en général quantitatives ou ordinales, quelques unes peuvent être nominales Exemple 1 Le sexe est une variable nominale : 0=femme 1=homme eamerlogo Caroline Verhoeven STAT-G204 4 / 19 2. Principe de la régression multiple Principe et exemple Etude du lien linéaire entre Y et les variables X1 , X2 ,. . ., Xk : y = b0 + b1 x1 + b2 x2 + · · · + bk xk . On cherche : b0 , b1 , b2 , . . . ,bk Exemple 2 Prédiction des recettes d’un film hollywoodien tiré d’un livre sur base de : Coûts de production Coûts publicitaires Recettes du livres On considère 10 films. eamerlogo Caroline Verhoeven STAT-G204 5 / 19 2. Principe de la régression multiple Conditions pour la régression multiple 1 Il existe un lien linéaire entre Y et les Xi 2 Pas de multi-colinéarité : Il ne peut pas y avoir une grande corrélation entre les Xi 3 Il faut beaucoup de sujets dan l’échantillon. Minimum : 5k , k : le nombre de variables prédictives eamerlogo Caroline Verhoeven STAT-G204 6 / 19 3. Résolution avec SPSS Exemple Exemple 2 Données pour les 10 films, en millions de dollars Recette film 85.1 106.3 50.2 130.6 54.8 30.3 79.4 91.0 135.4 89.3 Coût film 8.5 12.9 5.2 10.7 3.1 3.5 9.2 9.0 15.1 10.2 Coût pub 5.1 5.8 2.1 8.4 2.9 1.2 3.7 7.6 7.7 4.5 Recette livre 4.7 8.8 15.1 12.2 10.6 3.5 9.7 5.9 20.8 7.9 eamerlogo Caroline Verhoeven STAT-G204 7 / 19 3. Résolution avec SPSS Données en SPSS eamerlogo Caroline Verhoeven STAT-G204 8 / 19 3. Résolution avec SPSS Menu régression en SPSS I Analyze → Regression ⇒ Linear eamerlogo Caroline Verhoeven STAT-G204 9 / 19 3. Résolution avec SPSS Menu régression en SPSS II Analyze → Regression ⇒ Linear eamerlogo Caroline Verhoeven STAT-G204 10 / 19 3. Résolution avec SPSS Choisir les variables Choisir la variable dépendante et les variables indépendantes eamerlogo Caroline Verhoeven STAT-G204 11 / 19 3. Résolution avec SPSS Les méthodes pour la régression I Méthode “Enter” : Méthode qui introduit toutes les variables indépendantes simultanément A utiliser si on veut déterminer l’équation de la droite de régression avec toutes les variables indépendantes Les autres méthodes sont des méthodes hiérarchiques. Seulement à utiliser si on pense qu’une des variable est plus importante que les autres eamerlogo Caroline Verhoeven STAT-G204 12 / 19 3. Résolution avec SPSS Les méthodes pour la régression II Méthode “Forward” : Introduction d’une variable indépendante à la fois L’ordre est déterminé en fonction de la corrélation avec la variable dépendante S’il n’améliore pas le modèle significativement, elle est éliminée Méthode “Backward” On introduit toutes les variables On retire la variable indépendante la plus faible Si cela affaiblit significativement le modèle elle est réintroduite On répète la procédure jusqu’à ce que l’on n’a que les variables utiles Méthode “Stepwize” Les variables indépendantes sont introduites une à une On teste si la nouvelle est significative, et on refait un test sur les autres Les variables non significatives son éliminées eamerlogo Caroline Verhoeven STAT-G204 13 / 19 3. Résolution avec SPSS Régression avec la méthode Enter eamerlogo Caroline Verhoeven STAT-G204 14 / 19 3. Résolution avec SPSS Résultat de la régression avec SPSS eamerlogo Caroline Verhoeven STAT-G204 15 / 19 3. Résolution avec SPSS Résultat : La méthode Nous donne la méthode et les variables éliminées eamerlogo Caroline Verhoeven STAT-G204 16 / 19 3. Résolution avec SPSS Résultat : R 2 R 2 : Proportion de la variabilité dans la variable dépendante expliquée par le modèle R 2 a tendance à surestimer le résultat Adjusted R 2 : Tient compte du nombre de variables indépendantes et du nombre de sujets eamerlogo Caroline Verhoeven STAT-G204 17 / 19 3. Résolution avec SPSS Résultat : ANOVA Que test cette ANOVA ? H0 : β1 = β2 = · · · = βk = 0 Ha : Il y a au moins un βi 6= 0 Si p < 0,05 : RH0 Si p > 0,05 : NRH0 eamerlogo Caroline Verhoeven STAT-G204 18 / 19 3. Résolution avec SPSS Résultat : Coefficients X1 : coût prod., X2 : coût pub., X3 : recette livre y = 7,676 + 3,662x1 + 7,621x2 + 0,828x3 Beta: Analyse avec les variables réduites (s = 1) p (Sig.) : la valeur p testant si la variable est significative ou non eamerlogo Caroline Verhoeven STAT-G204 19 / 19