Équations structurelles : Devoir long

Transcription

Équations structurelles : Devoir long
1
STT-7620
Le 6 novembre 2013
Devoir 4
1-Comparaison fille-garçon du modèle pour la construction des variables latente explicatives
dans l’exemple sur le milieu socio économique de l’étudiant.
Dans l’exemple SES en plus des données sur les 3094 garçons analysées au cours, on dispose
de données pour 3833 filles. Les énoncés Simplis permettant de lire les 4 variables pour les
deux groupes sont :
Group 1: garcon
Observed Variables
MoEd FaEd PaJntInc HSRank
Correlation Matrix
1
.610 1
.446 .531 1
.115 .128 .055 1
Standard deviations
1.229 1.511 2.649 .777
Sample Size 3094
Group 2: fille
Observed Variables
MoEd FaEd PaJntInc HSRank
Correlation Matrix
1
.605 1
.418 .522 1
.092 .104 .082 1
Standard deviations
1.254 1.526 2.619 .681
Sample Size 3833
On veut comparer la stabilité de la définition des variables latentes entre les deux groupes.
a) Ajuster les modèles suivants et mettre dans un tableau les degrés de liberté et la
statistique chi-deux pour l’ajustement:
 Les deux modèles CFA ont exactement les mêmes paramètres
 Seules les variances résiduelles ( 21 ,  22 ,  23 ) varient d’un groupe à l’autre;

Les variances résiduelles ( 21 ,  22 ,  23 ) et les variances des deux variables latentes
varient d’un groupe à l’autre;
 Les deux modèles CFA n’ont aucun paramètre en commun;
 Seule la matrice varie d’un groupe à l’autre;
 Toute les caractéristiques (loadings, variances et variance résiduelles) associées à la
définition de PaSES sont les mêmes dans le deux groupes (et les autres paramètres
changent)
 Seule la variance de ACRank varie entre les deux groupes
b) Conclure votre analyse en des termes non techniques : Les modèles pour les deux
groupes sont-ils identiques? Quelles sont, le cas échéant, les différences les plus
importantes entre les deux groupes.
c) La variance de HSRank change d’un goupe à l’autre. Elle est de .47 pour les filles et
de .60 pour les garçons. C’est la seule différence entre les deux groupes.
2
Modèle
Min fit f.
dl
seuil o.
1
73.68
12
0
2
70.23
9
0
3
70.22
8
0
4
8.20
4
8%
5
13.50
9
14%
6
13.61
10
19%
7
15.33
11
16%
2-Erreurs de mesure
Soient  et  deux variables, disons des indicateurs du niveau de scolarité (FAED) et
d’accomplissements professionnels (FAOC) du père. On suppose que  et  suivent une
distribution normale,
     2
  
N 2   ,  
  

 2 
     
On veut mesurer la corrélation entre  et , ou encore faire la régression de l’une sur
l’autre. Les mesures de ces indicateurs sont entachées d’erreur. On observe X= +  et Y=
+  où  et les erreurs de mesure, sont des variables aléatoires indépendantes, de
distribution N(0,  2 ) et N(0,  2 ), qui sont indépendantes de  et .
a) Montrer que la corrélation entre X et Y sous estime la corrélation entre  et . Qu’en
est-il du coefficient de la régression de Y sur X? (pour évaluer les coefficients de
régression, utiliser la version théorique vue dans la partie 0 des notes de cours.)
On a  ( X , Y )    / ( 2   2 )  (2   2 ) qui est inférieur à . De même le
coefficient de la régression de Y sur X est     / ( 2   2 ) il est plus petit que
 /   le coefficient de la régression de  sur .
b) Une solution au problème des erreurs de mesure utilise une deuxième observation,
prise indépendamment de la première après un certain intervalle de temps pour
chacun des sujets de l’échantillon. On a par exemple X1= +  et X2= +  deux
observations indépendantes de FAED pour le même sujet (on suppose que les erreurs
de mesure  et sont indépendantes); on observe également Y1= +  et Y2= +
auprès de chaque sujet. Formuler un modèle AFC pour (X1, X2, Y1, Y2) qui fasse
intervenir la matrice de variances covariances  comme étant un des paramètres.
Quels sont les paramètres estimables du modèle? combien y a-t-il de degrés de liberté
pour l’erreur?
1 0
1 0
 avec aucun paramètre libre, la matrice
On a un modèle CFA qui implique   
0 1


0 1
diagonale 4x4 des variances des erreurs de mesures  et . Il y a en tout 7 paramètres
libres et 3 degrés de liberté pour l’erreur
c) Ajuster le modèle suggéré en b) aux données suivantes
Observed Variables
Faoc1 Faoc2 Faed1 Faed2
Covariance Matrix
180.9
3
126.77 217.56
23.96 30.20 16.24
22.86 30.47 14.36 15.13
Sample Size 348
Ajuster différents modèles pour évaluer s’il est approprié de fixer tous les loadings égaux à 1.
Évaluer le biais de la corrélation entre X1 et Y1 comme estimateur de la corrélation entre  et
.
Avec tous les loadings non nuls égaux à 1, on a un minimum fit chi square de 10.38 pour 3 dl
(seuil obs. 1.6%). Par contre si on permet des valeurs différentes aux deux loadings de Faoc
on obtient un minimum fit chi square de 1.98 pour 2 dl (seuil obs. 37%). On conserve donc
ce modèle. La corrélation entre X1 et Y1 est de
23.96
r1 
 0.44 alors que celle entre les 2 variables latentes
180.9  16.24
23.19
est r 
 0.62 .
96.74  14.35
d) En fait les 348 réinterrogées une deuxième fois constituent un échantillon de
personnes interrogées au temps 1; 1672 personnes n’ont pas été réinterrogées au
temps 2. Les données pour les personnes peuvent s’écrire (les valeurs 1 et 0 sont
arbitraires)
Observed Variables
Faoc1 Faoc2 Faed1 Faed2
Covariance Matrix
217.27
0
1
25.57 0
16.16
0
0
0
1
Sample Size 1672
Refaire l’analyse présentée en c) en incluant ces nouvelles données comme provenant d’un
deuxième groupe. Dans le deuxième groupe tous les paramètres associés au temps 1 sont
identiques à ceux du premier groupe. Puisqu’il n’y a pas de données au temps 2, fixez les
loadings pour ce temps à 0 et les variances des erreurs à 1. Notez que ceci donne des
variances de 1 et des covariances de 0 pour le temps 2 tel que spécifié dans la matrice de
données.
e) Validez le calcul des degrés de liberté (attention LISREL considère les variances de 1
et les covariances de 0 comme de vraies données). Vérifiez la statistique du chi-deux
et faire un test d’ajustement. L’ajout du deuxième jeu de données permet-il
d’améliorer la précision de l’estimation de la covariance entre les deux variables
latentes ? De combien ?
LISREL rapporte un minimum fit function chisquare de 7.11 pour 12 degré de liberté. Il
y a en fait 10+3=13 paramètres libres au départ et on ajuste un modèle avec 8 degrés de
liberté. Il reste donc 5 degrés de liberté, et non pas 12, pour l’erreur. Lisrel interprète
les 7 variances et covariances bidon comme des vrais paramètres ! L’estimation de la
covariance passe de 23.19 à 25.19 quand on ajoute le deuxième groupe. Sa variance va
de3.05 à 1.41. Cette réduction d’environ 50% est appréciable !
4
3- Le fichier psych.PSF contient des données sur la présence ou l’absence de 10
comportements chez 518 enfants en garderie. Les données sont codée 1=souvent,
2=quelquefois et 3=jamais.
a) Calculez la matrice de corrélation en traitant les données comme étant (i) continues et (ii)
ordinales. Expliquez brièvement comment les corrélations polychoriques sont calculées dans
ce deuxième cas. Observez-vous un phénomène d’atténuation selon lequel traiter des données
ordinales comme étant continues donne des corrélations plus proches de 0 ?
b) Combien de facteurs latents sont-ils nécessaires pour bien modéliser ces données ? Utilisez
une l’AFE pour données ordinales pour répondre à cette question. Ajustez ensuite un modèle
AFC pour le nombre de facteurs trouvés, où chaque variable observée est associée à un seul
construit latent. Utilisez les corrélations polychoriques et l’analyse de la matrice de variances
covariances asymptotiques fournie par LISREL dans vos calculs.
c) Réajusatez le modèle AFC de b) en traitant les données comme étant continues. Comparez
les R2 pour les variables observées et la corrélation entre les deux variables latentes avec
celles calculées en b). Discuter. Quelle analyse semble être la plus intéressante ?
Correlation Matrix (données ordinales sous la diagonale et données continues au dessus
de la diagonale )
G_taquin
G_colere
G_agcont
G_faitma G_compag
G_pretej
0.668
0.708
0.662
-0.136
-0.079
G_taquin
1.000
0.804
0.654
-0.181
-0.137
0.836
G_colere
1.000
0.668
-0.166
-0.127
0.877
0.930
G_agcont
1.000
-0.149
-0.072
0.836
0.824
0.838
G_faitma
1.000
-0.242
-0.207
-0.281
-0.257
-0.243
G_compag
1.000
-0.118
-0.199
-0.181
-0.112
0.726
G_pretej
1.000
-0.435
-0.428
-0.445
-0.398
0.652
0.528
G_bonent
0.189
0.138
0.161
0.219
-0.712
-0.571
G_amuse
-0.265
-0.257
-0.253
-0.240
0.836
0.718
G_conten
-0.156
-0.268
-0.198
-0.231
0.670
0.744
G_moment
G_bonent
G_amuse
G_conten G_moment
-0.285
0.105
-0.171
-0.116
G_taquin
-0.273
0.073
-0.161
-0.189
G_colere
-0.279
0.090
-0.157
-0.146
G_agcont
-0.242
0.114
-0.137
-0.160
G_faitma
0.467
-0.281
-0.257
-0.243
G_compag
0.362
-0.410
0.531
0.608
G_pretej
0.590
0.404
-0.462
G_bonent
1.000
-0.685
-0.427
-0.653
G_amuse
1.000
0.555
0.777
-0.830
G_conten
1.000
0.591
-0.590
0.768
G_moment
1.000
L’atténuation des corrélations par un facteur d’environ 30% est remaquable.
Analyse ordinale (analyse continue entre paranthèses)
LISREL Estimates (Robust Maximum Likelihood)
5
Measurement Equations
G_taquin = 0.90*confli, Errorvar.= 0.19 , Rý = 0.81 (0.62)
(0.020)
(0.057)
45.01
3.31
G_colere = 0.95*confli, Errorvar.= 0.100 , Rý = 0.90 (0.77)
(0.017)
(0.054)
56.30
1.84
G_agcont = 0.97*confli, Errorvar.= 0.050 , Rý = 0.95 (0.82)
(0.013)
(0.051)
75.00
0.98
G_faitma = 0.87*confli, Errorvar.= 0.24 , Rý = 0.76 (0.58)
(0.024)
(0.061)
35.70
3.94
G_compag = 0.86*ami, Errorvar.= 0.27 , Rý = 0.73 (0.59)
(0.026)
(0.063)
32.36
4.25
G_pretej = 0.75*ami, Errorvar.= 0.44 , Rý = 0.56 (0.42)
(0.032)
(0.065)
23.13
6.84
G_bonent = 0.79*ami, Errorvar.= 0.38 , Rý = 0.62 (0.41)
(0.041)
(0.077)
19.40
4.94
G_amuse =
- 0.84*ami, Errorvar.= 0.30 , Rý = 0.70 (0.53)
(0.039)
(0.078)
-21.68
3.85
G_conten = 0.98*ami, Errorvar.= 0.037 , Rý = 0.96 (0.78)
(0.014)
(0.052)
67.90
0.71
G_moment = 0.78*ami, Errorvar.= 0.39 , Rý = 0.61 (0.43)
(0.030)
(0.065)
25.75
5.94
Correlation Matrix of Independent Variables
confli
ami
--------------confli
1.00
ami
-0.29
1.00
corrélation continue: -0.24
(0.06)
-4.60
Goodness of Fit Statistics (données ordinales)
Degrees of Freedom = 34
Minimum Fit Function Chi-Square = 516.99 (P = 0.0)
Normal Theory Weighted Least Squares Chi-Square = 506.93 (P =0.0)
6
Satorra-Bentler Scaled Chi-Square = 71.98 (P = 0.00015)
Root Mean Square Error of Approximation (RMSEA) = 0.046
Goodness of Fit Statistics (données continues)
Degrees of Freedom = 34
Minimum Fit Function Chi-Square = 172.51 (P = 0.0)
Normal Theory Weighted Least Squares Chi-Square = 179.60 (P = 0.0)Root
Mean Square Error of Approximation (RMSEA) = 0.091
Le traitement des données ordinales avec les corrélations
polychoriques donne de meilleurs résultats.
4- Le fichier kjudd.psf contient les données concernant 5 variables pour n=1000 sujet. La
variable y est la variable dépendante alors que les quatre variables x sont explicatives. On
utilise x1 et x2 pour former un premier construit latent xsi1 et x3 et x4 pour former ksi4. On
veut étudier si un
modèle quadratique
en ksi1 et ksi2
s’ajuste bien à ces
données.
i) Faire un graphique
de y en fonction de
x1. Voyez-vous un
effet non linéaire ?
oui on voit un effet
quadratique.
ii) Faire une régression de y sur les quatre variables x observées.
Plot of Y on X1
6
5
4
Y
3
2
1
0
N = 10 00
r = 0 .2 67
-1
(Pro d u c t M o m e n t)
-2
-4
-3
-2
-1
0
1
2
3
4
X1
Estimated Equations
Y = 1.173 + 0.122*X1 + 0.0580*X2 + 0.235*X3 + 0.163*X4
Standerr (0.0221) (0.0239) (0.0258) (0.0262) (0.0275)
Z-values 53.180 5.091 2.248
9.003 5.920
P-values 0.000 0.000 0.025
0.000 0.000
+ Error, R² = 0.237
Error Variance = 0.483
iii) Utiliser le programme LISREL suivant pour estimer les variables latentes et pour faire
une régression de Y sur les deux variables latentes
Raw data from file kjudd.psf
Latent Variables: Ksi1 Ksi2
Relationships
Y=Ksi1 Ksi2
X1=1*Ksi1
X2=Ksi1
X3=1*Ksi2
X4=Ksi2
Path Diagram
PSFfile KJUDD.PSF
7
lisrel output: FS
Estimate Residuals
End of Problem
(noter que la ligne Estimate Residuals ajoute 5 variables au fichier PSF, un résidu
pour chaque variable observée)
Noter que le fichier KJUDDnew.psf contient les estimations des deux variables latentes de
même que les résidus pour les 5 variables observées.
iv)La variable dépendante Y contribue-t-elle à l’estimation des deux variables latentes ?
La sortie LISREL les coefficients suivants : Y contribue à l’estimation des variabbles latentes
Y
X1
X2
X3
X4
-------- -------- -------- -------- -------Ksi1
0.12
0.43
0.19
0.05
0.02
Ksi2
0.20
0.04
0.02
0.44
0.21
v) Faire le graphique de RY (le résidu pour Y) vs Ksi1. Notez-vous un effet quadratique ?
Oui
vi) A l’aide de la commande
compute de l’onglet
transformation, créer une
nouvelle variable prod égale au
produit des deux variables latentes
et faire la régression de Y sur Ksi1
Ksi2 et prod . Cette nouvelle variable contribue-t-elle de façon significative à la
régression ? Faire le graphique des résidus de ce modèle vs ksi1. Notez-vous encore un effet
quadratique ?
Plot of R_Y on Ksi1
4
3
R_Y
2
1
0
N = 10 00
-1
r = 0 .0 70
(Pro d u c t M o m e n t)
-2
-3
-2
-1
0
1
2
3
4
Ksi1
Estimated Equations
Y = 1.085 + 0.198*Ksi1 + 0.482*Ksi2 + 0.458*prod + Error, R² = 0.572
Standerr (0.0174) (0.0246) (0.0242) (0.0263)
Z-values 62.380 8.032
19.918
17.410
P-values 0.000 0.000
0.000
0.000
Error Variance = 0.271
L’ajout de prod améliore le modèle.
Plot of R_Y
on Ksi1
4
3
R_Y
2
1
0
N = 10 00
-1
r = 0 .0 00
(Pro d u c t M o m e n t)
-2
-3
-2
-1
0
1
2
3
4
Ksi1
Le graphique des résidus ne démontre plus d’effet quadratique

Documents pareils

afc

afc Si le diagramme ci-haut décrit bien la réalité et si la variable latente PaSeS est une variable explicative pour les trois variables endogènes DegreAsp, Selctvty et Degree, alors l’analyse de régre...

Plus en détail