Mod`eles d`´equations structurelles

Transcription

Mod`eles d`´equations structurelles
Modèles d’équations
structurelles
Introduction à AMOS
AQC, EQS, 4/3/2001GR
47
Modèle linéaire d’équations
structurelles
EQS : équations structurelles
SEM : Structural equation model
LISREL : Linear structural relations
AMOS : Analysis of moment structure
Références
Arbuckle, J. L. and Wothke, W. (1999). Amos
4.0 Users’ Guide. SmallWaters, Chicago.
Bollen, K. A. (1989). Structural Equations with
Latent Variables. Wiley, New York.
Goldberger, A. and Duncan, O., editors (1973).
Structural Equation Models in the Social
Sciences. Wiley-Interscience, New York.
Jaccard, J. and Wan, C. (1996). LISREL
Approaches to Interaction Effects in Multiple
Regression. QASS. Sage, London.
Jöreskog, K. and Sörbom, D. (1989). LISREL
7 User’s Reference Guide. Scientific
Software, Mooresville, IN.
AQC, EQS, 4/3/2001GR
48
AQC, EQS, 4/3/2001GR
R
E
p
n
n
è
o
n
è
M
c
H
o
y p
é
d
s
o
è
n
l e
o
t h
r m
è
t h
s e
é
o
a
t i f s
r i q
u
h
é
n
o
é
m
a
è
l i t é
n
e
à
é
t u
d
i e
r
O
w
b
s
e
C
o
F
s
n
f r o
Q
u
F
M
A
c
t i o
n
o
a
V
d
:-
P
l e
r é
v
P
r i s
e
e
-
E
v
l u
a
a
m
i o
d
t i o
t i f i c
l i d
i s
-
t a
n
a
è
a
n
a
t i o
t i o
n
p
w
n
u
e
n
e
t i o
d
n
é
d
c
e
i s
i o
p
n
o
D
e
s
n
i r i q
t a
l i t i q
u
e
s
s
t a
e
s
t i s
c
t i s
r v
t i q
r i p
t i q
a
t i o
u
e
n
t i o
u
e
n
49
Estimation et test d’hypothèses avec les
modèles linéaires d’équations structurelles
(EQS).
Un phénomène est schématisé sous forme d’un
graphique de causalité entre variables
(équations linéaires).
1. Possibilité d’effets de retour (feedbacks).
2. Hypothèses larges sur les termes d’erreurs
(possibilités de corrélations entre erreurs).
3. Modélisation des erreurs de mesures (par
l’introduction de variables latentes).
Les schémas (hypothèses) sont testés en
étudiant l’ajustement du modèle aux données.
AQC, EQS, 4/3/2001GR
50
Analyse quantitative des relations
de causalité
Estimation et test d’hypothèses avec les
modèles linéaires d’équations structurelles
(EQS)
plan
1. Forme générale du modèle et notations
2. Estimation et problème d’identification
3. Statistiques d’évaluation
4. Initiation au logiciel AMOS
5. Études de cas : par exemple
– test de non corrélation
– modèle avec variables latentes
– test de comportement identique dans
différents groupes
AQC, EQS, 4/3/2001GR
51
Exemple de modèle simultané
Données : Bank
SEX
AGEBEG
uw
1
EDLEVEL
WORK
1
ue
SALBEG
usa
SALNOW
1
AQC, EQS, 4/3/2001GR
1
usn
52
Représentation équivalente sous forme de 4
équations (variables centrées) :
edlevel = β11agebeg
+ β12sex + ue
work = β21agebeg
+ β22sex + β23edlevel + uw
salbeg = β32sex
+ β33edlevel + β34work + usa
salnow = β42sex
+ β43edlevel + β44work
+ β45salbeg + usn
Quantifier les influences :
– Procéder à 4 régressions indépendantes
(possible ici car pas d’effets de retour.)
– Estimer simultanément le système (possible
avec AMOS.)
AQC, EQS, 4/3/2001GR
53
Forme générale du modèle et notations
z
e
y
3
y
l
3
2
h
3
g
2
2
b
x
l
x
1
d
1
g
1
z
1
1
1
h
x
l
2
d
AQC, EQS, 4/3/2001GR
1
y
2
2
y
l
1
x
1
2
1
1
1
2
1
b
x
3
e
1
1
y
l
2
1
1
y
1
e
2
2
54
Systèmes d’équations EQS (ou LISREL)
η = Bη + Γξ + ζ
y = Λy η + ε
x = Λx ξ + δ
E(η) = 0, E(ξ) = 0, E(ζ) = 0
ζ non corrélé avec ξ
E(ε) = 0, E(δ) = 0,
ε non corrélé avec η, ξ et δ
δ non corrélé avec η, ξ et ε
(I − B) non-singulière.
AQC, EQS, 4/3/2001GR
55
Les variables
not. dim. définition
η
m × 1 variables endogènes latentes
ξ
n × 1 variables exogènes latentes
y
x
p×1
q×1
indicateurs observés de η
indicateurs observés de ξ
ζ
ε
δ
m × 1 erreurs latentes des équations
p × 1 erreurs de mesures pour y
q × 1 erreurs de mesures pour x
Les paramètres
not. dim. définition
Coefficients
B
Γ
m × m coef. des var. endogènes latentes
m × n coef. des var. exogènes latentes
Λy
Λx
p × m coef. liant y à η
q × n coef. liant x à ξ
Matrice de covariances
Φ
Ψ
Θε
Θδ
n×n
m×m
p×p
q×q
Var(ξ) = E(ξξ 0)
Var(ζ) = E(ζζ 0)
Var(ε) = E(εε0)
Var(δ) = E(δδ 0)
AQC, EQS, 4/3/2001GR
56
Estimation du modèle EQS
L’estimation du modèle exploite la relation
entre
- les paramètres θ
(θ = vecteur des paramètres
B, Γ, Λy , Λx, Φ, Ψ, Θε, Θδ )
- les variances et covariances (matrice Σ) des
variables observables.
Σ = Σ(θ) =
"
Σyy (θ) Σyx(θ)
Σxy (θ) Σxx(θ)
#
Pour un modèle sans variables latentes (y = η
et x = ξ)
y = By + Γx + ζ
y = (I − B)−1Γx + (I − B)−1ζ
Les variances covariances des x sont simplement
Σxx = E(xx0)
= E(ξξ 0)
= Φ
AQC, EQS, 4/3/2001GR
57
Les covariances entre les x et les y sont
Σyx = E(yx0)
−1 ζx0 )
= E((I − B)−1Γxx0) + E((I
−
B)
|
{z
}
0
= (I − B)−1ΓΦ
Les variances et covariances des y sont
Σyy = E(yy 0)
³
= E (I −B)−1(Γx + ζ)(x0Γ0 + ζ 0)(I − B)0−1
³
−1
Γ E(xx0)Γ0 + Γ E(xζ 0)
= (I − B)
´
0
0
0
+ E(ζx )Γ + E(ζζ ) (I − B)0−1
µ
´
¶
= (I − B)−1 ΓΦΓ0 + Ψ (I − B)0−1
Pour un modèle sans variables latentes,
Σ(θ) est donc

µ
¶
−1 ΓΦΓ0 + Ψ (I −B)0−1 (I −B)−1 ΓΦ
 (I −B)



ΦΓ0(I −B)0−1
Φ
AQC, EQS, 4/3/2001GR
58





Exemple :
y1 = γ11x1 + ζ1
y2 = β21y1 + ζ2
avec
Cov(x1, ζ1) = 0,
Cov(x1, ζ2) = 0,
ψ12 = Cov(ζ1, ζ2) = 0.
On a
B=
"
Ψ=
"
0 0
β21 0
#
ψ11 0
0 ψ22
Γ=
#
"
γ11
0
#
Φ = [φ11]
et


Var(y1)


Var(y2)
=
 Cov(y2, y1)
Cov(x1, y1) Cov(x1, y2) Var(x1)

2
γ11φ11 +ψ11


2 φ +ψ ) β 2 (γ 2 φ +ψ )+ψ

β21(γ11
11
22
11
11
21 11 11
γ11φ11
β21γ11φ11
φ11

AQC, EQS, 4/3/2001GR
59
Procédure d’estimation
Trouver les valeurs θ̂ qui génèrent la matrice
Σ̂ = Σ(θ̂)
la plus proche possible (selon critère à définir)
de la matrice des covariances empiriques
S. ´On
³
minimise une certaine fonction de S − Σ(θ)
Critères usuels :
- Le maximum de vraisemblance (ml)
FM L =
³
´
−1
= log|Σ(θ)| + tr SΣ (θ) − log|S| − (p+q)
- Les moindres carrés simples (uls)
h³
FM CS = (1/2) tr S − Σ(θ)
´2 i
- Les moindres carrés généralisés (gls)
FM CG = (1/2) tr
·n³
´
S − Σ(θ) W −1
o2 ¸
où W −1 est une matrice de pondération (en
général S −1).
Dans tous les cas la solution est une fonction
θ̂ = θ(S)
AQC, EQS, 4/3/2001GR
60
Identification
Le modèle est exactement identifié si la
fonction Σ(θ) admet une fonction inverse
θ = θ(Σ) ⇐⇒ Σ = Σ(θ)
c’est-à-dire s’il existe une relation biunivoque
entre les paramètres et la matrice des variances
et covariances des variables observables.
Si identification exacte, on a
θ̂ = θ(S) ⇒ Σ̂ = Σ(θ̂) = S
AQC, EQS, 4/3/2001GR
61
On peut cependant avoir
Sous-identification
Plus de paramètres θ que d’éléments
indépendants dans Σ : les paramètres θ ne
peuvent pas être tous quantifiés à partir de S.
Sur-identification
Moins de paramètres θ que d’éléments
indépendants dans Σ : on ne peut pas générer
n’importe quelle matrice Σ. Les éléments de Σ̂
doivent satisfaire les conditions imposées par
Σ = Σ(θ).
⇒
Σ̂ 6= S
Condition nécessaire d’identification
pour le modèle sans variables latentes
r≤
1
(p + q)(p + q + 1)
2
où r est le nombre de paramètres θ libres.
AQC, EQS, 4/3/2001GR
62
Exemple de modèle identifié
Exemple :
y1 = y 2 + x 1
y2 = β21y1 + ζ2
avec
Cov(x1, ζ2) = 0.
On a
B=
"
Ψ=
"
0 1
β21 0
#
"
Γ=
0 0
0 ψ22
#
Φ = [φ11]
1
0
#
et
Σ(θ) =


(1−β21 )−2 (φ11 +ψ22 )

2 φ +ψ )
= (1−β21 )−2 (β21 φ11 +ψ22 ) (1−β21 )−2 (β21
11
22
(1−β21 )−1 φ11
AQC, EQS, 4/3/2001GR
(1−β21 )−1 β21 φ11
φ11
63


Identification : exemple
r = 3, p = 2, q = 1
r=3 <
1
(p + q)(p + q + 1) = 6
2
Condition nécessaire satisfaite.
En fait la matrice Σ(θ) est singulière.
La 1ère équation du modèle est une identité :
connaissant deux variables, on en déduit la
troisième.
(La première ligne de Σ(θ) est la somme des
deux autres :
(1 − β21)−1φ11 = (1 − β21)−2(φ11 − β21φ11) et
2 φ ))
(1−β21)−1β21φ11 = (1−β21)−2(β21φ11−β21
11
Il y a donc une ligne et, par symétrie, une
colonne redondantes dans Σ(θ)
⇒ 3 (=r) éléments indépendants.
⇒ identification exacte possible.
AQC, EQS, 4/3/2001GR
64
Éliminons la 2ème ligne et la 2ème colonne
de Σ(θ)
"
Var(y1 )
sym
#
Cov(y1 , x1 ) Var(x1 )
=
"
#
−2
(1 − β21 ) (φ11 + ψ22 ) sym
(1 − β21 )−1 φ11
φ11
d’où
φ11 = Var(x1)
β21 = 1 −
ψ22 =
"
Var(x1)
Cov(x1, y1)
Var(x1)
Cov(x1, y1)
#2
Var(y1) − Var(x1)
Identification exacte : on a pu expliciter tous les
paramètres de Σ(θ).
AQC, EQS, 4/3/2001GR
65
Lorsque B = 0 (p équations indépendantes) le
modèle est toujours identifié.
"
Σyy (θ) Σyx(θ)
Σxy (θ) Σxx(θ)
#
=
"
ΓΦΓ0 + Ψ ΓΦ
ΦΓ0
Φ
#
d’où
Φ = Σxx
Γ = ΣyxΣ−1
xx
Ψ = Σyy − ΣyxΣ−1
xx Σxy
AQC, EQS, 4/3/2001GR
66
AMOS
Logiciel d’estimation de modèles EQS
Input :
– Données en format SPSS, Excel, dBase,
texte, etc.
– individuelles
– matrice de covariances ou corrélation
– Le modèle spécifié
– graphiquement (module graphique)
– sous formes d’équations (Basics)
Résultats :
– Sur le graphique
– Estimations des coefficients
– Estimations des variances et R2
– Fichier texte ou tableau
– Estimation des paramètres (coefficients,
variances et covariances)
– Nombreuses aides à l’évaluation et à
l’interprétation
AQC, EQS, 4/3/2001GR
67
AMOS : options
AMOS offre un grands choix d’options
(procédures d’estimations, aides à l’évaluation,
etc.)
Les options peuvent être précisées
– Pour une application particulière :
Menu Set/Analysis Properties
– Comme valeurs de défaut :
En créant un template de défaut
AQC, EQS, 4/3/2001GR
68
Évaluation de l’ajustement
– significativité individuelle des paramètres
– R2 pour les variables endogènes (équations)
– ajustement global et pertinence du modèle
Significativité individuelle des paramètres
ti =
θ̂i
σ̂θ̂
i
Sous les hypothèses de normalité, peut être
comparé au seuil critique de la loi normale
(1.96 pour un test bilatéral avec α = 5%).
⇒ θi significatif si ti > 2.
(AMOS : CR)
AQC, EQS, 4/3/2001GR
69
Coefficients de détermination
(mesurent la qualité de la prédiction des
variables endogènes)
Pour chaque équation explicitant une variable
endogène yj
Ry2j
ψ̂jj
var(ŷj )
= 1− 2 =
σ̂yj
var(yj )
AMOS : $smc ⇒ squared multiple correlation
Pour l’ensemble des équations
det(Ψ̂)
2
Rglobal = 1 −
det(Σ̂yy )
AMOS : non fourni
AQC, EQS, 4/3/2001GR
70
Ajustement global du modèle
(Cas d’un seul groupe, g = 1)
q
p
n
θ
α(θ)
a
α0
Ĉ
F̂
C0
F0
nbre de paramètres libres
nbre d’éléments indépendants de Σ
nbre d’observations
vecteur des q paramètres (AMOS : γ)
vecteur des p éléments de Σ(θ)
vecteur des p éléments de S
(moments empiriques)
vecteur des p éléments de Σ0
(moments de la population)
= C(α(θ̂), a)
= F (α(θ̂), a)
= C(α(θ0), α0)
= F (α(θ0), α0)
mesures de parcimonie
– q nombre de paramètres libres à estimer
– d = p − q degrés de liberté
– d d ratio de parcimonie
ind
(AMOS : PRATIO)
AQC, EQS, 4/3/2001GR
71
Mesures de l’écart entre Σ̂ et S (discrepancy)
– Ĉ = (n − 1)F̂
∼ χ2
d si modèle correct
(AMOS : Cmin)
– p-valeur du test de
H0 : modèle correct pour la population.
⇒ devrait être > 5%.
(AMOS : P)
– Ĉ
d devrait être petit (< 5), E(C/d | H0 ) = 1
(AMOS : Cmin/DF)
1
Ĉ
– F̂ = (n−1)
(AMOS : Fmin)
– racine du résidu quadratique moyen :
v
u1 X X
u
RM R = t
(σ̂ij − sij )2
p i j≤i
AQC, EQS, 4/3/2001GR
72
Estimation de l’écart entre Σ̂ et Σ
Steiger, Shapiro, Brown (1985) ont montré que
sous certaines conditions :
Ĉ = (n − 1) F̂ ∼ chi-2 non central
avec non-centralité δ = C0 = (n − 1)F0
et d degrés de liberté.
δ = C0 est l’écart entre Σ̂ et Σ.
Modèle correct pour population ⇒ δ = 0.
Les mesures ci-dessous estiment cet écart
AQC, EQS, 4/3/2001GR
73
– δ̂ = max{Ĉ − d, 0} estimation de δ
(AMOS : NCP)
1 δ̂ estimation de F
– Fˆ0 = n−1
0
(AMOS : F0)
Pas de pénalité pour la complexité (d petit).
Diviser par d pour compenser la complexité ⇒
– Estimation de la racine de l’erreur
quadratique moyenne d’approximation
(RM SEA)
(AMOS : RMSEA)
RM SEA =
s
F̂0
d
devrait être plus petit que 0.08
– p-valeur du test de H0 : RM SEA ≤ 0.05
(modèle presque correct pour la population)
devrait être > 5%
(AMOS : PCLOSE)
AQC, EQS, 4/3/2001GR
74
Mesures d’information
Mesures de la forme Ĉ + k q ou F̂ + k q.
Tiennent compte simultanément de
– Mauvaise qualité de l’ajustement (Ĉ ou F̂ )
– Complexité (k q)
k constante qui détermine l’importance de la
pénalité pour la complexité.
Utiles uniquement pour comparer des modèles.
⇒ préférer les petites valeurs.
Indices présentés selon l’importance croissante
accordée à la pénalité pour la complexité.
AQC, EQS, 4/3/2001GR
75
– AIC (Akaike, 1973)
AIC = Ĉ + 2q
– ECVI
ECVI =
1
2q
AIC = F̂ +
(n − 1)
n−1
– BCC (Browne-Cudek, 1989)
BCC = Ĉ + 2q
(n − 1)
n−p−2
– MECVI
1
MECVI =
BCC
(n − 1)
– CAIC (Bodzogan, 1987) Consistent AIC
CAIC = Ĉ + q(ln(n) + 1)
– BIC (Schwartz, 1978, Raftery, 1993) Bayes
Information Criteria
BIC = Ĉ + q ln(np)
AQC, EQS, 4/3/2001GR
76
Goodness of Fit (GFI))
C’est la part de S reproduite par Σ̂.
³
σ̂ = 1 − s−σ̂ = 1 − s/σ̂−1
s
s
s/σ̂
´
³
tr (Σ̂−1S − I)2
³
´
GFIML = 1 −
−1
2
tr (Σ̂ S)
AGFIML = 1 −
Ã
´
!
q(q + 1)
(1 − GFIML)
2df
Ĉb − Ĉm
NFI = ∆1 =
Ĉb
Ĉb − Ĉm
IFI = ∆2 =
Ĉb − dm
RFI = ρ1 =
Ĉb/db − Ĉm/dm
Ĉb/db
TFI = ρ2 =
Ĉb/db − Ĉm/dm
(Ĉb/db) − 1
AQC, EQS, 4/3/2001GR
77
CN : le N critique de Hoelter (1983)
(AMOS : HOELTER)
Plus grande taille d’échantillon pour laquelle on
accepterait l’hypothèse que le modèle est
correct.
CN =
χ2
[(1−α),d]
F̂
+1
ne varie pas avec la taille d’échantillon n.
Selon Hoelter, CN devrait être au moins 200
(g · 200 si g groupes) pour un risque α = 5 %
AQC, EQS, 4/3/2001GR
78
Modèles contraints
2 types de contraintes :
1. fixer la valeur de paramètres
2. imposer l’égalité de paramètres
Dans AMOS, pour fixer valeur d’un paramètre
– associer la valeur à l’objet (flèche pour
coefficients de régression, flèche
bidirectionnelle pour covariances, variable
pour variances)
– associer une étiquette (alpha-numérique) à
l’objet et définir la contrainte dans
“manage-models”.
Pour imposer l’égalité entre paramètres
– associer la même étiquette aux objets,
– associer des étiquettes différentes et définir la
(les) contrainte(s) dans “manage-models”.
AQC, EQS, 4/3/2001GR
79
Modèles imbriqués
Un modèle M est inclus dans le modèle M0, s’il
se déduit du modèle M0 par l’imposition de
contraintes supplémentaires.
v
EDLEVEL
u
a
1
SALBEG
c
WORK
b
Modèle M 1 : tous les paramètres libres
Modèle M 2 : a = b
Modèle M 3 : a = b, c = 0
M 2 et M 3 inclus dans M 1,
M 3 inclus dans M 2.
AQC, EQS, 4/3/2001GR
80
Comparaison de modèles imbriqués
Test de la différence entre M et M0 (M ⊂ M0)
sous H0 : M correct si M0 correct,
CminM −M0 = CminM − CminM0 ∼ χ2
dM −M0
où dM −M0 = dM − dM0
⇒ CminM −M0 petit ⇔ M ne diffère pas
significativement de M0
AQC, EQS, 4/3/2001GR
81
Comparaisons de groupes
AMOS : manage groups
Groupes : sexe, classes d’âge, race, etc.
L’estimation simultanée du même modèle
– avec paramètres indépendants pour chaque
groupe
– avec contraintes impliquant des paramètres
de différents groupes
permet de tester les différences entre groupes.
Les statistiques concernent l’ensemble des
groupes, soit par exemple le modèle :
·
¸
·
¸·
¸ ·
¸·
¸ ·
¸
Y1 0
B1 0
Y1 0
Γ1 0
X1 0
U1 0
=
+
+
0 Y2
0 B2
0 Y2
0 Γ2
0 X2
0 U2
Certaines statistiques ne sont pas calculés dans
le cas de plusieurs groupes (BIC, CAIC).
AQC, EQS, 4/3/2001GR
82
Groupes : exemple
Groupe 1 : White
Groupe 2 : Non white
v2
v
EDLEVEL
u
a
SALBEG
c
WORK
EDLEVEL
1
b
u
a2
1
SALBEG
c2
WORK
b2
4 variables exogènes (observables)
2 variables endogènes (observables) 2 termes
d’erreur
⇒ nbre d’éléments indépendants dans
matrice des moments empiriques :
p∗(1) = p∗(2) = 6 et p = 12
4 coefficients de régressions
6 variances (4 v. exog. + 2 termes d’erreurs)
2 covariances
⇒ nbre de paramètres : q = 12
AQC, EQS, 4/3/2001GR
83