Introduction à l`analyse de régression

Transcription

Introduction à l`analyse de régression
Introduction à
l’analyse de régression
Jean-François Bickel
Statistique II – SP08
1
I. Les opérations de la régression
1) Description
a) de la relation entre une variable
dépendante (y) et une ou plusieurs
variables indépendantes (x) et la forme
de cette relation
b) de la force de la relation
2
2. Inférence, sur la base des données
d’échantillon,
a) de la présence ou non d’une relation
entre une variable dépendante (y) et
une ou plusieurs variable(s)
indépendante(s) (x) au sein de la
population, la forme et la force de cette
relation
b) de la valeur de y sur la base de la
valeur d’un ou plusieurs x
3
3. Inférence ou généralisation de type
causale :
déduire de l’existence d’une relation
(association) entre x et y, que x est une
(des) cause(s) de y
‰
On parle souvent dans ce cas de
« l’effet » de x sur y ou que x
« explique » (une part de) y
4
II. Principes généraux
1. La régression est une méthode
statistique visant à analyser la relation
(association) entre une variable
dépendante particulière et une ou
plusieurs variables indépendantes
‰
Dans cette relation, la valeur de la
variable dépendante (=y) est traitée
comme étant fonction de la valeur de la
ou des variable(s) indépendante(s) (=x)
5
‰
‰
En langage formel,
y = f(xk)
pour k=1,2,3… variables indépendantes
Supposons que l’on s’intéresse au revenu
des personnes ; ce dernier peut être
analysé comme étant fonction, par
exemple, de l’âge et du niveau d’éducation
des individus
revenu=f(âge, éducation)
6
‰
On parle de régression bivariée lorsqu’il y
a une seule variable indépendante
¾ par
exemple, le revenu comme étant fonction
de l’âge uniquement
‰
de régression multiple lorsque sont
considérées simultanément deux ou plus
variables indépendantes
¾ par
exemple, le revenu comme étant fonction
à la fois de l’âge et de l’éducation
7
2. La relation entre la variable y et la ou les
variable(s) indépendante(s) x est
susceptible de prendre des formes très
variées
‰
Cependant, de manière très générale,
elle est traitée comme suivant une forme
linéaire
‰
D’où l’expression de régression linéaire
8
‰
On parle à ce propos de modèle
¾ En
statistique, un modèle est une description
(=un résumé) de la relation entre variables
dans une population
‰
Un modèle de régression linéaire (ou
simplement modèle linéaire) décrit la
relation entre la variable y et la ou les
variable(s) indépendante(s) x comme
ayant la forme d’une équation (linéaire)
9
‰
‰
Dans le modèle linéaire, la relation
bivariée entre y et x est décrite (i.e.
résumée) par l’équation suivante :
y=α + βx
Si on reprend notre exemple, on pose
donc :
revenu= α + β(âge)
10
‰
‰
‰
Selon cette équation, le revenu dépend
linéairement de l’âge
I.e. le revenu varie d’un terme constant,
représenté par le coefficient β, pour
chaque année d’âge supplémentaire
Autrement dit, la relation entre x et y est
modélisée (=résumée) par une ligne droite
dont la pente est β
11
‰
‰
Cette équation permet aussi de calculer
un revenu prédit (ou estimé) pour chacun
des âges concernés
Ce revenu prédit (ou estimé) peut être
plus ou moins différent du revenu
effectivement observé au même âge
12
‰
‰
‰
Supposons que dans notre exemple
l’équation ait la forme suivante (chiffres
fictifs) :
revenu = 20000 + (600 x âge)
Cette équation nous dit que le revenu
augmente de 600 Frs pour chaque année
d’âge additionnelle
Le revenu prédit pour une personne âgée de
30 ans est de :
20000 + (600 x 30) = 38000 Frs
13
‰
En généralisant aux cas avec plusieurs
variables indépendantes, le modèle
linéaire décrit (résume) la relation au
moyen de l’équation suivante
y=α + β1x1 + β2x2 … βkxk
14
Dans cette équation
i. y est la variable dépendante
ii. x1, x2… xk sont les variables
indépendantes
iii. α est un coefficient de valeur constante
iv. β1, β2 … βk sont les coefficients des
variables indépendantes
‰
15
‰
‰
‰
Dans notre exemple,
revenu= α + β1(âge) + β2(éducation)
Selon cette équation, le revenu dépend
linéairement de l’âge et de l’éducation
Pour chacun des âges et pour chaque
niveau d’éducation, on peut calculer un
revenu prédit (ou estimé), qui peut être
plus ou moins différent du revenu
effectivement observé au même âge ou
pour le même niveau d’éducation
16
‰
‰
Le revenu prédit varie d’un terme
constant, représenté par le coefficient β1,
pour toute année d’âge supplémentaire,
indépendamment de la relation existant
entre revenu et niveau d’éducation,
et, inversement, il varie d’un terme
constant, représenté par le coefficient β2,
pour tout degré additionnel d’éducation,
indépendamment de la relation existant
entre revenu et âge
17
‰
‰
Supposons que l’équation ait la forme
suivante (chiffres fictifs) :
revenu = 18000 + (1000 x éducation)
+ (500 x âge)
Cette équation nous dit que le revenu
augmente de 500 Frs pour chaque année
d’âge additionnelle, et dans le même temps
qu’il augmente de 1000 Frs pour chaque
niveau d’éducation supplémentaire (par
exemple mesuré en nombre d’années
d’étude)
18
‰
Ainsi, pour une personne âgée de 40 ans
et qui a suivi 12 années d’étude, le revenu
prédit est de :
50000 = 18000 + (1000 x 12) + (500 x 40)
19
3. Jusqu’à maintenant, nous avons
raisonner sur les paramètres α et β
comme si leurs valeurs étaient
directement accessibles et mesurables
‰
Or, les paramètres α et β sont ceux de la
population ou univers de référence
‰
Leurs valeurs sont inconnues, et doivent
être estimées à partir des données
observées (dans l’échantillon)
20
‰
‰
‰
La méthode dite des moindres carrés est
la plus couramment utilisée pour estimer
les paramètres de l’équation de régression
linéaire
L’équation des moindres carrés a, dans le
cas de la régression bivariée, la forme
ŷ = a + bx
En généralisant à la régresion multivariée,
on a
ŷ = a + b1x1 + b2x2 +... bkxk
21
‰
‰
Les lettres a et b sont les coefficients de
l’équation de régression tels qu’ils sont
calculés à partir des données observées
(=de l’échantillon)
De manière conventionnelle, on écrit ŷ afin
d’indiquer qu’il s’agit de la valeur prédite
de y et non de sa valeur réellement
observée
22
Un peu de terminologie
‰
‰
‰
Ce cours est dans sa plus grande part
consacrée à une forme particulière de
régression :
la régression multiple linéaire des
moindres carrés ordinaires
multiple implique que l’on fait intervenir
deux ou plus variables indépendantes
linéaire décrit le type d’équation qui est
estimée
23
‰
‰
moindres carrés réfère à la méthode
utilisée pour estimer les paramètres de
l’équation de régression
ordinaire se dit de la méthode d’estimation
la plus simple basée sur les moindres
carrés
¾ ceci
pour la distinguer de méthodes
d’estimation plus complexes basées sur les
moindres carrés
24
III. La régression bivariée
‰
‰
‰
Après avoir posé quelques principes
généraux de l’analyse de régression,
Entrons plus avant dans sa signification,
utilisation et interprétation
Pour cela, arrêtons-nous au cas le plus
simple, celui de la régression bivariée
25
‰
‰
‰
Partons d’un exemple, emprunté à
l’ouvrage de Paul Allison, p. 8 (cf.
référence complète dans la bibliographie
du cours)
La base de données est constituée de 35
individus pour lesquels on dispose de
deux informations (variables) : le revenu
annuel (en dollars) et l’âge
Le fichier de données se présente donc
comme suit :
26
27
‰
‰
‰
On s’intéresse à déterminer dans quelle
mesure le revenu varie en fonction de
l’âge
Pour décrire cette relation, on peut
commencer par faire un diagramme de
dispersion (scatterplot) où les points
représentent les observations (ici des
individus) avec l’âge en abscisse et le
revenu en ordonnée
Un tel diagramme est utile pour déterminer
si la relation entre x et y est au moins
approximativement linéaire
28
1. Pour cela, aller dans le menu
Graphes
Boîtes de dialogue héritées
Dispersion/Points (Scatterplot)
29
30
2. Dans la fenêtre qui s’affiche, cliquer sur
Dispersion simple, puis sur Définir
3. Puis, dans la fenêtre qui s’affiche,
sélectionner les variables Revenu et Age
et les faire glisser respectivement sous
Axe Y et Axe X
4. Puis cliquer soit sur Ok pour faire
exécuter directement l’instruction, soit
sur Coller pour l’inscrire dans la fenêtre
syntaxe ; dans ce dernier cas, lancer
l’exécution depuis la fenêtre syntaxe
31
32
33
34
‰
‰
‰
On observe une tendance à
l’augmentation du revenu avec l’âge
Cela étant, cette relation est loin d’être
parfaite
Remarquons aussi que la variation du
revenu en fonction de l’âge augmente
avec ce dernier
¾ Sur
un plan plus théorique, c’est d’ailleurs là
un phénomène qui a été bien documenté par
de nombreux travaux
35
‰
‰
‰
Décrire la relation à l’aide d’une droite de
régression semble donc adéquat
L’équation est de forme ŷ = a + bx
Ou, en substituant y et x par les variables
qui nous intéressent ici :
revenu = a + b(âge)
36
‰
‰
L’objectif est de déterminer les coefficients
de l’équation pour la droite de régression
qui permette la meilleure approximation
possible des données observées
Pour cela, on peut procéder par essai et
erreur en examinant successivement
différentes équations pour la droite de
régression
37
‰
‰
Ci-après, deux droites de régression sont
ainsi représentées dans le même
diagramme de dispersion que celui vu cidessus
La première droite (ŷ=-12600+840x) est
construite de façon à ce qu’une personne
encore à l’école obligatoire (âge=15) ait 0$
de revenu, et qu’un individu à l’âge
médian (38 ans) dispose d’un revenu
équivalent au revenu médian (21000$)
38
¾La seconde droite (ŷ=-20000+1000x) est
construite de façon à avoir une pente plus
forte, fixée arbitrairement à 1000, et
qu’une personne de 20 ans dispose d’un
revenu équivalent au revenu observé à cet
âge (4000$)
39
y
00
0
0
=-2
0x
0
0
+1
00
6
2
1
y=-
40x
8
+
40
‰
‰
Comme on le voit sur le diagramme, la
valeur observée à un âge donné est plus
ou moins éloignée de la valeur prédite
pour ce même âge
Pour un même âge, l’écart entre valeur
observée et valeur prédite n’a pas la
même ampleur selon que l’on considère
l’une ou l’autre des droites de régression
41
‰
‰
‰
Sur la base des coefficients de l’équation
de régression, on peut calculer la valeur
prédite de la variable dépendante (ŷ) pour
tous les individus concernés
Ces valeurs prédites sont généralement
différentes des valeurs observées pour
cette même variable y
On peut calculer une erreur de prédiction,
telle que
erreur = valeur observée – valeur prédite
et ce pour tous les individus
42
Obs. 31
Obs. 27
43
‰
‰
Ainsi, en référence à la première droite de
régression évoquée ci-dessus, on a pour
l’observation n° 31 (âge=30) un revenu
prédit (« sur la droite ») de 12600 et un
revenu observé de 34000, soit une erreur
de prédiction de 34000-12600=21400
Pour l’observation n° 27 (âge=65), un
revenu prédit de 42000 et un revenu
observé de 5000, soit une erreur de
prédiction de 5000-42000=-37000
44
‰
‰
Il est dès lors possible de calculer la
somme des erreurs de prédiction pour
l’ensemble des individus (observations)
Mais, comme les erreurs de prédiction
peuvent être positives (quand la valeur
observée est plus grande que la valeur
prédite) ou négatives (dans le cas
inverse), elles s’annulent
45
‰
‰
Pour tenir compte de ce fait, on élève au
carré les erreurs de prédiction (qui dès
lors deviennent toutes positives)
L’objectif reformulé est dès lors le suivant:
déterminer des valeurs pour les
coefficients de l’équation de régression de
telle sorte que la somme des carrés des
erreurs de prédiction soit la plus petite
possible
46
‰
‰
Par la démarche d’essai et erreur
esquissé ci-dessus, cela pourrait être long
et fastidieux!
Mais la méthode d’estimation des
moindres carrés permet d’établir
directement un tel résultat
47
‰
‰
Plus précisément, la méthode d’estimation
des moindres carrés permet d’établir les
valeurs pour les coefficients a et b de
l’équation de régression qui sont les plus
efficientes pour prédire y
Autrement dit, c’est avec ces valeurs de
coefficient que la somme des carrés des
erreurs de prédiction est minimale
48
‰
Les formules sont les suivantes :
∑ (x -⎯x ) (y -⎯y)
b = ___________________
∑ (x -⎯x ) 2
a = ⎯y - b⎯x
49
‰
‰
En utilisant ces formules, on peut
reprendre notre exemple est calculé les
valeurs des coefficients a et b
A l’exemple du tableau ci-dessous :
50
.
.
.
51
‰
‰
Pour obtenir b, nous prenons simplement
le ratio des deux dernières colonnes
b = 3559600 / 6796.17 = 523.76
Ce dernier chiffre nous indique qu’à
chaque année supplémentaire d’âge est
associé un accroissement de 524$
52
‰
‰
Pour obtenir a, on calcule
a = 25200 – (523.76 * 41.77) = 3323
L’équation finale est donc
ŷ = 3323 + 523.76x
53
Nota Bene
‰
‰
Dans l’argument développé ici, nous
avons parlé d’erreurs de prédiction
Mais on trouve aussi les expressions
équivalentes de valeurs résiduelles ou
encore de résidus
54
IV. La régression avec SPSS
55
56
57
58
59
60
Sous forme de syntaxe
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT Revenu
/METHOD=ENTER Age .
* alternativement, les statistiques demandées
* peuvent s’écrire
* /STATISTICS DEFAULTS CI
61
Quelques indications sur l’interprétation des
résultats fournis par SPSS
Sans demande additionnelle, SPSS
fournit « en standard » trois tableaux de
résultats
A. « Récapitulatif du modèle »
B. « ANOVA »
C. « Coefficients »
‰
62
‰
‰
Donnons quelques éléments
d’interprétation à leur propos
N.B. Par souci d’uniformiser le langage de
présentation, là où SPSS utilise des
majuscules, j’utilise des minuscules
‰
par exemple quand SPSS écrit « R », il faut
lire « r »
63
Tableaux de résultats dans SPSS
A. « Récapitulatif du modèle »
Récapitulatif du modèle
Modèle
1
R
.379a
R-deux
.144
R-deux ajusté
.118
Erreur
standard de
l'estimation
18326.338
a. Valeurs prédites : (constantes), Age
64
A. Dans le premier tableau de résultats
nommé « Récapitulatif du modèle »,
figurent notamment les éléments
suivants :
1) Une valeur appelée r : elle est, dans le
cas d’une régression bivariée, rien
d’autre que le coefficient de corrélation
entre x et y
‰
r mesure la force de la relation
(association)
65
2) Une valeur baptisée « r-deux », qui doit
se lire r2 (« r carré »), et que l’on appelle
également coefficient de détermination
‰
Dans une régression bivariée, c’est aussi
une mesure de la force de la relation
entre x et y
‰
On l’utilise surtout comme mesure de la
qualité du modèle (fit), i.e. le degré
auquel celui-ci se rapproche des
données observées
66
L’idée de base du r2 est qu’il mesure la
différence entre deux grandeurs
i. la somme des carrés des erreurs de
prédiction produits par une équation des
moindres carrés sans aucune variable
indépendante, i.e. avec seulement la
constante, qui est alors égale à la
moyenne de y (E1)
ii. la somme des carrés des erreurs de
prédiction produits par l’équation des
moindres carrés sous inspection (E2)
‰
67
‰
‰
Cette différence, exprimée sous forme de
proportion, renvoie à l’amélioration de la
prédiction due au fait qu’on tient compte
de x
Exprimé en formule, cela donne:
r2 = (E1-E2) / E1
68
Nota Bene
‰
Ces éléments portant sur r et r2 sont repris
et développés dans le document
« Introduction à l’analyse de régression
(2) »
69
Tableaux de résultats dans SPSS
B. « ANOVA »
ANOVAb
Modèle
1
Régression
Résidu
Total
Somme
des carrés
1.86E+009
1.11E+010
1.29E+010
ddl
1
33
34
Carré moyen
1864395608
335854679
F
5.551
Signification
.025a
a. Valeurs prédites : (constantes), Age
b. Variable dépendante : Revenu
70
B. Dans le tableau intitulé « Anova »
figurent notamment
1) Les valeurs pour les sommes des
erreurs de prédiction (évoquées cidessus)
71
2) Le résultat d’un test (F) selon lequel
l’ensemble des coefficients des x sont
égales à zéro
¾ I.e. un test de l’absence de toute relation
entre x et y, auquel cas le modèle n’est tout
simplement pas « meilleur » que celui où ne
figure aucun x
72
Nota Bene
‰
Nous revenons plus longuement sur ces
éléments, ainsi que les autres informations
contenues dans le tableau « ANOVA »,
dans le document « Introduction à
l’analyse de régression (2) »
73
Tableaux de résultats dans SPSS
C. « Coefficients »
Coefficientsa
Modèle
1
(constante)
Age
Coefficients non
standardisés
Erreur
B
standard
3321.568
9788.939
523.765
222.302
Coefficients
standardisés
Bêta
t
.379
.339
2.356
Signification
.737
.025
Intervalle de confiance à
95% de B
Borne
Borne
inférieure
supérieure
-16594.18
23237.315
71.488
976.042
a. Variable dépendante : Revenu
74
C. Dans le tableau « Coefficients » figurent
les éléments suivants :
1) Dans la colonne intitulée « B », la valeur
du coefficient b dans l’équation de
régression
75
‰
Le signe du coefficient b donne le sens de
la relation (ici entre âge et revenu)
si b > 0, la relation est positive : y croît
quand x croît
si b < 0, la relation est négative : y décroît
quand x croît
si b=0, il y a absence de relation
76
‰
‰
‰
La valeur du coefficient b dépend de
l’échelle de mesure de x
Généralement, on ne donc pas déduire de
la valeur du coefficient la force de la
relation (association)
On ne peut comparer entre elles deux
valeurs de coefficient que si l’échelle de
mesure des variables x est identique
77
2) La valeur sous « Beta » est celle du
coefficient b de l’équation de régression
lorsqu’on standardise (« score de z »),
les valeurs de x et de y
‰
la relation entre x et y est dès lors
exprimée en termes d’écart type et non
plus par rapport aux échelles originelles
‰
Se lit « de combien varie y en termes
d’écart type lorsque x augmente d’un
écart type »
78
‰
‰
Ce coefficient standardisé est une mesure
de la force de la relation entre x et y
Dans le cas d’une régression bivariée,
cette valeur est égale au coefficient de
corrélation entre x et y, indiquée dans le
tableau « Récapitulatif du modèle »
79
3) L’erreur standard (se), qui est une
mesure de la variation de la valeur du
coefficient b dans la population
80
4) La valeur t, qui est égale au ratio b / se
‰
Cette valeur renvoie à un test de t (avec
un degré de liberté) selon lequel la
valeur du coefficient β dans la population
est égale à 0
¾ Autrement dit, on teste l’hypothèse
d’indépendance selon laquelle il y a une
absence de relation entre x et y dans la
population
81
5) La valeur p donne le résultat du test de t
exprimé sous forme de probabilité
82
6) L’intervalle de confiance, indiquant la
borne inférieure et la borne supérieure
entre lesquelles se trouve, selon toute
probabilité (à 95%), la valeur du
coefficient β dans la population
‰
Avec les valeurs de l’intervalle de
confiance, on peut aussi et du même
coup de calculer un éventail de valeurs
prédites pour y dans la population
83
Nota Bene
‰
‰
‰
Les éléments évoqués sous le point 2) se
rapportent à la mesure de la force de la
relation
Ceux évoqués sous les points 3) à 6) se
réfèrent à l’inférence statistique, i.e.
l’estimation des valeurs dans la population
sur la base des valeurs dans l’échantillon
Ces deux composantes de la régression
sont repris et développés dans le
document « Introduction à l’analyse de
régression (2) »
84
7) Le coefficient pour la constante (colonne
« B »)
‰
Souvent, il ne s’interprète pas
‰
Il se rapporte en effet à la valeur de y
quand x=0
85
‰
‰
Dans notre cas, comme souvent, cela
réfère à une situation irréelle ou absurde
(ici au revenu des personnes ayant 0
années d’âge!)
On doit néanmoins tenir compte de la
valeur du coefficient si on souhaite prédire
la valeur de y
86