STAT-G204 Chapitre II: La régression multiple

Transcription

STAT-G204 Chapitre II: La régression multiple
STAT-G204
Chapitre II: La régression multiple
Caroline Verhoeven
Table des matières
1
Régression simple
2
Principe de la régression multiple
3
Résolution avec SPSS
eamerlogo
Caroline Verhoeven
STAT-G204
2 / 19
1. Régression simple
La régression linéaire
Y : La variable que l’on veut prédire (variable dépendante)
X : La variable explicative (variable indépendante)
Détermination de la droite de régression :
Mesures : x1 ,y1 , x2 ,y2 , xN ,yN
La pente b1 et l’ordonnée b0 à l’origine de la “meilleure droite”
d5
Age
4
3 d1
2
0,10
d3
yi : valeur d’Y pour le sujet i
d4
ŷi = b0 + b1 xi
d2
di = yi − ŷi : “résidu”
0,15 0,20 0,25
Porportion noir
0,30
La “meilleure” droite : celle qui minimise
Q=
N
X
di2 =
i=1
N
X
(yi − ŷi )2
i=1
eamerlogo
Caroline Verhoeven
STAT-G204
3 / 19
2. Principe de la régression multiple
Utilité de la régression multiple
Un variable peut dépendre de plusieurs facteurs à la fois.
Exemple 1
Prédire la taille d’une personne à partir de la taille du père, de la mère et
de son sexe
But : Prédire les valeur d’Y à partir de plusieurs variables X1 , X2 ,. . ., Xk
X1 , X2 , . . .Xk sont en général quantitatives ou ordinales, quelques unes
peuvent être nominales
Exemple 1
Le sexe est une variable nominale :
0=femme
1=homme
eamerlogo
Caroline Verhoeven
STAT-G204
4 / 19
2. Principe de la régression multiple
Principe et exemple
Etude du lien linéaire entre Y et les variables X1 , X2 ,. . ., Xk :
y = b0 + b1 x1 + b2 x2 + · · · + bk xk .
On cherche : b0 , b1 , b2 , . . . ,bk
Exemple 2
Prédiction des recettes d’un film hollywoodien
tiré d’un livre sur base de :
Coûts de production
Coûts publicitaires
Recettes du livres
On considère 10 films.
eamerlogo
Caroline Verhoeven
STAT-G204
5 / 19
2. Principe de la régression multiple
Conditions pour la régression multiple
1
Il existe un lien linéaire entre Y et les Xi
2
Pas de multi-colinéarité : Il ne peut pas y avoir une grande
corrélation entre les Xi
3
Il faut beaucoup de sujets dan l’échantillon.
Minimum : 5k , k : le nombre de variables prédictives
eamerlogo
Caroline Verhoeven
STAT-G204
6 / 19
3. Résolution avec SPSS
Exemple
Exemple 2
Données pour les 10 films, en millions de dollars
Recette film
85.1
106.3
50.2
130.6
54.8
30.3
79.4
91.0
135.4
89.3
Coût film
8.5
12.9
5.2
10.7
3.1
3.5
9.2
9.0
15.1
10.2
Coût pub
5.1
5.8
2.1
8.4
2.9
1.2
3.7
7.6
7.7
4.5
Recette livre
4.7
8.8
15.1
12.2
10.6
3.5
9.7
5.9
20.8
7.9
eamerlogo
Caroline Verhoeven
STAT-G204
7 / 19
3. Résolution avec SPSS
Données en SPSS
eamerlogo
Caroline Verhoeven
STAT-G204
8 / 19
3. Résolution avec SPSS
Menu régression en SPSS I
Analyze → Regression ⇒ Linear
eamerlogo
Caroline Verhoeven
STAT-G204
9 / 19
3. Résolution avec SPSS
Menu régression en SPSS II
Analyze → Regression ⇒ Linear
eamerlogo
Caroline Verhoeven
STAT-G204
10 / 19
3. Résolution avec SPSS
Choisir les variables
Choisir la variable dépendante et les variables indépendantes
eamerlogo
Caroline Verhoeven
STAT-G204
11 / 19
3. Résolution avec SPSS
Les méthodes pour la régression I
Méthode “Enter” : Méthode qui introduit toutes les variables
indépendantes simultanément
A utiliser si on veut déterminer l’équation de la droite de régression
avec toutes les variables indépendantes
Les autres méthodes sont des méthodes hiérarchiques.
Seulement à utiliser si on pense qu’une des variable est plus
importante que les autres
eamerlogo
Caroline Verhoeven
STAT-G204
12 / 19
3. Résolution avec SPSS
Les méthodes pour la régression II
Méthode “Forward” :
Introduction d’une variable indépendante à la fois
L’ordre est déterminé en fonction de la corrélation avec la variable
dépendante
S’il n’améliore pas le modèle significativement, elle est éliminée
Méthode “Backward”
On introduit toutes les variables
On retire la variable indépendante la plus faible
Si cela affaiblit significativement le modèle elle est réintroduite
On répète la procédure jusqu’à ce que l’on n’a que les variables utiles
Méthode “Stepwize”
Les variables indépendantes sont introduites une à une
On teste si la nouvelle est significative, et on refait un test sur les
autres
Les variables non significatives son éliminées
eamerlogo
Caroline Verhoeven
STAT-G204
13 / 19
3. Résolution avec SPSS
Régression avec la méthode Enter
eamerlogo
Caroline Verhoeven
STAT-G204
14 / 19
3. Résolution avec SPSS
Résultat de la régression avec SPSS
eamerlogo
Caroline Verhoeven
STAT-G204
15 / 19
3. Résolution avec SPSS
Résultat : La méthode
Nous donne la méthode et les variables éliminées
eamerlogo
Caroline Verhoeven
STAT-G204
16 / 19
3. Résolution avec SPSS
Résultat : R 2
R 2 : Proportion de la variabilité
dans la variable dépendante
expliquée par le modèle
R 2 a tendance à surestimer le
résultat
Adjusted R 2 : Tient compte du
nombre de variables
indépendantes et du nombre de
sujets
eamerlogo
Caroline Verhoeven
STAT-G204
17 / 19
3. Résolution avec SPSS
Résultat : ANOVA
Que test cette ANOVA ?
H0 : β1 = β2 = · · · = βk = 0
Ha : Il y a au moins un βi 6= 0
Si p < 0,05 : RH0
Si p > 0,05 : NRH0
eamerlogo
Caroline Verhoeven
STAT-G204
18 / 19
3. Résolution avec SPSS
Résultat : Coefficients
X1 : coût prod., X2 : coût pub., X3 : recette livre
y = 7,676 + 3,662x1 + 7,621x2 + 0,828x3
Beta: Analyse avec les variables réduites (s = 1)
p (Sig.) : la valeur p testant si la variable est significative ou non
eamerlogo
Caroline Verhoeven
STAT-G204
19 / 19