M - Cours

Transcription

M - Cours
Chapitre 6-2 PLAN DE SONDAGE À DEUX DEGRÉS, AVEC PROBABILITÉS DE
SÉLECTION VARIABLES AU PREMIER DEGRÉ
Un exemple de population Dans ce cours une enquête complexe est définie comme étant une
enquête à plusieurs degrés où les unités primaires sont tirées selon un plan stratifié avec des
probabilités de sélection variables dans les strates. Statistique Canada utilise ce type de plan de
sondage pour l’Enquête sur la Population Active qui estime à chaque mois le chômage et la
création d’emplois au Canada.
Ce chapitre utilise la « Population des 30 villages » pour illustrer les méthodes proposées. Cette
population se compose de 30 villages, séparés en 3 strates. Un village se compose de M foyers,
27>Mi>16 pour tout i. Une des variables d’intérêt est le nombre de résidents y. Le tableau suivant
donne la valeur de y pour tous les foyers de la population. Avant de réaliser l’enquête, la seule
information disponible concernant cette population est la taille X du village lors du recensement
précédent. Le nombre de foyers M et le nombre de résidents sont inconnus. On peut utiliser cette
variable X pour faire une sélection des villages avec des probabilités de sélection variables.
La population des 30 villages est typique de celles échantillonnées dans des enquêtes complexes.
Elle a une structure hiérarchique à trois niveaux : les personnes sont dans les foyers qui sont euxmêmes dans des villages. Un plan de sondage à deux ou même trois degrés peut donc être utilisé
pour échantillonner cette population.
Réf. : Som, R. K. (1973). A Manual of Sampling Techniques. Heineman
1
Population des 30 villages (les données de couleur violette sont connues avant l’enquête)
str
vill
X
f1
f2
f3
f4
f5
f6
f7
f8
f9
f10
f11
f12
f13
f14
f15
f16
f17
f18
f19
f20
f21
f22
f23
f24
f25
f26
y
1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9
69 82 110 80 92 65 72 108 106 80 72 102 73 84 98 84 85 102 122 102 86 78 112 97 117 106 115 110 104 103
7 6 6 6 5 3 6 5 5 4 8 9 6 6 8 4 7 4 8 7 4 8 9 8 7 7 7 7 3 6
5 5 6 3 4 4 4 3 3 4 4 6 5 4 4 3 5 5 4 4 5 6 4 8 5 3 4 6 8 5
5 4 3 6 6 4 4 3 5 5 4 5 5 6 3 5 5 5 4 5 4 7 5 4 6 5 6 4 5 7
4 5 5 3 5 6 5 7 3 5 6 5 3 4 5 6 3 4 5 6 4 4 8 8 7 6 7 8 7 6
6 4 3 6 4 5 4 4 4 4 5 4 6 5 6 5 5 6 5 5 7 6 6 3 8 6 10 1 6 4
2 5 4 3 5 7 5 4 6 4 5 3 5 4 3 6 4 5 4 4 5 5 3 6 4 7 4 6 10 5
3 6 5 4 6 3 6 6 5 5 5 5 3 4 7 5 4 5 7 6 5 5 6 6 5 5 5 6 7 8
5 5 5 5 5 5 4 6 4 4 7 5 7 5 5 5 5 3 5 4 7 2 5 6 6 6 5 7 8 4
5 3 4 4 4 4 3 4 6 3 3 3 3 7 5 5 8 4 6 4 5 7 5 4 6 5 6 4 4 7
6 5 4 4 4 5 5 5 5 5 5 10 5 6 5 3 4 4 4 7 9 7 5 6 6 5 7 6 8 8
5 4 4 4 7 4 4 3 6 5 6 4 5 4 6 5 4 8 5 5 6 7 6 6 6 4 6 6 7 7
4 4 3 5 6 6 6 7 3 3 6 4 6 6 6 4 6 5 5 2 5 5 2 8 5 10 3 7 6 6
4 5 7 6 6 4 5 6 6 4 6 6 6 4 7 5 5 4 8 5 7 6 8 7 7 7 8 6 6 10
4 3 5 3 5 5 5 4 5 5 4 5 5 5 3 5 7 4 5 4 4 4 5 6 5 6 7 7 5 7
5 3 4 5 4 3 2 5 6 4 4 4 3 6 6 3 4 5 3 4 3 4 8 4 9 5 6 3 7 6
3 5 6 1 4 3 4 6 6 3
7 4 5 6 9 5 6 6 9 5
4 5 8 8 4 6 6 4
3 6 2 3 5 6 5 3 3 4
4 3 3 7 4 5 4 3 6 4
5 6 6 6 6 6 6 5
4 5 5 6
4 5 5 3
5
4 2 5 5 5 4 5 5
7 4 6 4 5 7
5
3
3 1 4 5
3
5 5 6 4 4 6 6
5
6 6 5 2
6
4
4 3 4 4
6
6
6 5 2
7
4 3 3 5
1
3
5 5 4
4
7 4 4
8
7
7 6
5
3
6 4 1
5
5 7 4
5
5
4 6
6 3 5
4
3
4 2
5
6
6
3
76 82 116 76 112 77 88 109 111 88 78 112 80 93 105 93 95 114 127 113 94 83 121 105 129 114 121 116 109 105
2
1-Estimation du total dans un plan à plusieurs degrés.
Dans un plan à plusieurs degrés les unités échantillonnées à un degré constituent des strates pour le
degré suivant. En pratique les tirages sont sans remise à tous les degrés. Ici on suppose que le
premier degré utilise des probabilités de sélection variables πi=nψi.
Poids d’échantillonnage : Dans un plan à plusieurs degrés les poids d’échantillonnage sont les
produits des inverses des probabilités de sélection aux différents degrés. Par exemple si le degré 1
a des probabilités de sélection variables avec πi=nψi et si le degré deux utilise un plan aléatoire
simple de mi unités secondaires parmi les Mi de l’unité primaire i, le poids d’échantillonnage de
l’unité secondaire j tirée de l’unité primaire i est wij=Mi/(minψi). L’estimation du total est toujours
égale à la somme des poids d’échantillonnage fois les valeurs de y. On a
Mi
M i yi . 1
tˆi
1
1
Tˆy  iS , jS wij yij   i
y


.



jSi ij
i
i
i
n
 i mi
n
i
n
i
où tˆi est une estimation du total de y dans l’unité primaire i. On montre facilement que Tˆy est un
estimateur sans biais de Ty.
Pour estimer la variance on peut supposer que le tirage des unités primaires se fait avec remise. On
est en présence de n variables aléatoires indépendantes identiquement distribuées tˆi /  i : i  S de
3
moyenne Ty. La moyenne échantillonnale Tˆy est donc une estimation non biaisée du total Ty et on
peut estimer sa variance par la variance échantillonnale divisée par n,
2
ˆi


t
1
v (Tˆy ) 

  tˆy  .
n(n  1) i   i

Une approche automatisée au calcul de la variance avec remise se fait de la façon suivante. On
pose ai   j wij yij , la somme des poids multipliés par les valeurs de y dans l’unité primaire i.
i
On peut écrire l’estimateur de variance avec remise en fonction des ai de la façon suivante,
n
2
car ai  tˆi / (n i ) .
v(tˆy ) 
(
a

a
)

i
iS
n 1
L’estimation de variances « avec remise » ne donne pas des estimateurs de variance non biaisée
lorsque la sélection est sans remise. Il est possible de trouver des estimateurs de variance non
biaisés en utilisant une approche semblable à celle utilisée au chapitre 5. Cette approche est
présentée au chapitre 6 du livre de S. Lohr.
4
Estimation d’un rapport de moyennes : Pour estimer la variance « avec remise » de
wij yij

i

S
,
j

S
i
Rˆ 
iS , jS wij xij
i
on procède par linéarisation. On a
1
Rˆ  R  iS , jS wij ( yij  Rxij )
i
tx
ˆ ) / tˆ . Dans le plan à deux degrés vu
et on utilise l’approche automatisée avec aij  ( yij  Rx
ij
x
précédemment, cette formule pour l’estimateur de variance donne
2
ˆ )2
M
(
y

Rx
1
i
i
.
i.
v( Rˆ )  2 iS
tˆx
 i2 n(n  1)
Si on a xij=1 alors Rˆ  yˆ estime la moyenne de y et
2
2
ˆ
M
(
y

y
)
1
v( yˆ )  2 iS i 2 i .
où M̂ est une estimation du nombre total d’unités primaires.
ˆ
 i n(n  1)
M


5
Exemple : Population des 30 villages
Dans un premier temps on tire n=6 villages avec remise et avec probabilités proportionnelles à la
taille au recensement précédent. Au deuxième degré on tire m=2 foyers au hasard dans chacun des
6 villages tirés au degré 1.
U.S.É
(3,3)
(3,22)
(12,4)
(12,22)
(21,8)
(21,10)
(23,2)
(23,9)
(26,1)
(26,13)
(27,5)
(27,17)
Échantillon
Xi
Mi
110 26
110 26
102 22
102 22
86
18
86
18
112 21
112 21
106 20
106 20
115 21
115 21
 Les probabilités de tirage au degré 1 sont
yij
3
5
5
5
7
9
4
5
7
7
10
6
poids
55.47
55.47
50.61
50.61
49.12
49.12
44
44
44.28
44.28
42.85
42.85
30
i  Xi /  Xk
1
 Les poids statistiques wi sont wi  M i /(2*6* i ) , par
exemple pour les 2 foyers du village 3,
w=26/(2*6*110/2816)=55.47
 Estimation du nombre total de résidents
My
tˆ =  i i   wij yij =3437.3
i 6 i
 Estimation de variance
2
 M i yi

1
v(tˆ) 
 tˆ   135267  3682


65 i  i

6
Estimation du nombre total de foyers
2
 Mi ˆ 
M
1
Mˆ   i   wij  573 et v( Mˆ ) 
 M   575  242


65 i  i
i 6 i

Estimation de la taille moyenne d’un foyer
2
 Mi 
tˆ
1
tˆ  
2
r
 6.00 et v(r ) 
y


0.56

0.7
5



i


Mˆ
6  5Mˆ 2 i   i 
Mˆ  
Estimation de la taille moyenne d’un foyer sans tenir compte du plan de sondage :
s y2
y  6.1 et v( y )   .34
12
Ainsi l’effet de plan est de .56/.34=1.64.
La procédure SURVEYMEANS de SAS calcule les variances « avec remise » des estimations des
totaux et des moyennes dans des plans complexes en mettant en œuvre la formule automatisée
présentée plus haut. En plus des variables d’intérêt, un fichier SAS de données d’enquête doit
toujours contenir la variable WEIGHT des poids d’échantillonnage et une variable CLUSTER qui
identifie les unités primaires d’échantillonnage. Comme on va le voir dans le prochain exemple on
peut aussi avoir une variable STRATA qui identifie les strates.
7
Programme SAS
data trentvill;
input Popprec taille adul;
poids=2816*taille/(Popprec*6*2);
datalines;
110 26
3
110 26
5
102 22
5
102 22
5
86
18
7
86
18
9
112 21
4
112 21
5
106 20
7
106 20
7
115 21
10
115 21
6;
proc print data=trentvill;run;
proc surveymeans data=trentvill sum mean;
cluster Popprec;
weight poids;
Data Summary
var adul;
Obs
1
2
3
4
5
6
7
8
9
10
11
12
12
Sum of Weights
proc means data=trentvill
var adul;
572.6524
Analysis Variable : adul
Mean
Std Error
6.0833
0.58333
taille
26
26
22
22
18
18
21
21
20
20
21
21
adul
3
5
5
5
7
9
4
5
7
7
10
6
poids
55.4667
55.4667
50.6144
50.6144
49.1163
49.1163
44.0000
44.0000
44.2767
44.2767
42.8522
42.8522
Statistics
6
Number of Clusters
Number of Observations
Popprec
110
110
102
102
86
86
112
112
106
106
115
115
Variable
adul
Mean
Std Error
of Mean
Sum
Std Dev
6.0023 0.747609 3437.2465 367.7530
;
8
PLAN DE SONDAGE COMPLEXE
Un cadre un peu plus général que celui présenté dans la section précédente permet un
échantillonnage stratifié avec des probabilités de sélection variables à l’intérieur des strates au
premier degré. En pratique la sélection des unités primaires dans les strates se fait souvent sans
remise et on utilise l’approche « avec remise » pour estimer la variance ; c’est l’approche mise en
œuvre dans les procédures SAS pour le traitement de données d’enquête.
Dans ce cadre général, les formules d’estimation s’écrivent en fonction des poids de sondage whij
où h identifie la strate, i l’unité primaire et j la dernière unité (secondaire, tertiaire ou autre), sur
laquelle la variable y est observée. On a
n
tˆy  iS , jS whij yhij et v(tˆy )   h h  i (ahi  ah ) 2 avec ahi   jS whij yhij
hi
h
hi
nh  1
h
Pour estimer la variance d’un rapport de moyennes on utilise la linéarisation comme dans la
section précédente.
9
Exemple : Population des 30 villages
zone 1
zone 2
zone 3
foyer
village 5
1
M_11
6
24
16
18
11=92/864
0.10648148 22
village 7
4
M_12
8
20
13
12=72/864
16
0.08333333 18
village 3
3
M_21
5
17
7
21=73/1010 14
0.07227723 15
village 7
4
M_22
12
19
14
22=85/1010 16
0.08415842 18
village 2
3
M_31
5
21
11
31=112/942 14
0.11889597 15
village 4
7
M_32
8
21
12
32=117/942 13
0.12420382 15
y
5
5
4
6
3
5
4
5
4
4
5
6
3
5
3
3
6
7
5
5
5
6
6
5
8
5
6
5
7
8
# adult.
2
2
2
3
2
3
2
3
2
2
3
3
2
2
2
1
4
4
3
2
3
3
4
2
5
2
3
3
3
5
Plan(p) Poids F.
0
22.5391304
0
22.5391304
1
22.5391304
0
22.5391304
0
22.5391304
1
24
0
24
0
24
0
24
0
24
0
23.5205479
0
23.5205479
0
23.5205479
1
23.5205479
0
23.5205479
0
22.5764706
0
22.5764706
0
22.5764706
1
22.5764706
0
22.5764706
0
17.6625
0
17.6625
1
17.6625
0
17.6625
0
17.6625
0
16.9076923
1
16.9076923
0
16.9076923
0
16.9076923
0
16.9076923
Poids A.
45.0782609
45.0782609
45.0782609
67.6173913
45.0782609
72
48
72
48
48
70.5616438
70.5616438
47.0410959
47.0410959
47.0410959
22.5764706
90.3058824
90.3058824
67.7294118
45.1529412
52.9875
52.9875
70.65
35.325
88.3125
33.8153846
50.7230769
50.7230769
50.7230769
84.5384615
 Degré 1 : Stratification par zone et
sélection de 2 villages par zone avec
probabilité de sélection proportionnelle à la
taille au recensement précédent.
 Degré 2 : Sélection de 5 foyers dans les
villages tirés au degré 1
 Degré 3 : Sélection d’un adulte dans
chacun des foyers tirés en 2
 Poids d’échantillonnage :
 Pour les foyers : whij  M hi /(10* hi )
 Pour les adultes : whijk  whij #adulte
Définition des indices
 h représente la strate (h=1,2,3)
 i représente le village dans la strate
 j représente le foyer dans le village
 k représente l’adulte dans le foyer
10
Estimations de totaux
1-Nombre total de résidents (on utilise les poids foyers)
Tableau des ahi :
(strate, village)
poids arrondis
whijyhij
(1,5)
22.5
22.5(5+5+4+6+3)
(1,7)
24
24(5+4+5+4+4)
(2,3)
23.5
23.5(5+6+3+5+3)
(2,19)
22.6
22.6(3+6+7+5+5)
(3,2)
17.7
17.7(5+6+6+5+8)
(3,4)
16.9
16.9(5+6+5+7+8)
tˆy   ahi  517.5  528  517  ..  529.3  3205
ahi
517.5
528
517
588.6
531
523.9
h ,i
v(tˆy )   (ah1  ah 2 )2  (517.5  528) 2  (517  588.6) 2  (531  529.3) 2  5145  71.72
h
(comparativement à une erreur type de 70.4 dans la sortie SAS)
Les 6 moyennes de y dans les villages sélectionnés sont : 4.6, 4.4, 4.4, 5.2, 6 et 6.2 ainsi
11
M y
24  4.6
20  4.4
21  6.2
tˆy   hi hi 

 ... 
 3205 et
2  0.10648 2  0.08333
2  0.1242
h iSh 2 hi
2
M y
M y 
v (tˆy )    h1 h1  h 2 h 2   4961.4  70.42 (en prenant 5 chiffres après le point pour )
2 h 2 
h  2 h1
2- Nombre total d’adultes qui connaissent le plan (avec les poids-personne)
Tableau des ahi :
(strate, village)
ahi
whijkphijk
(1,5)
45.08
22.542
(1,7)
72
243
(2,3)
47.04
23.522
(2,19)
67.74
22.583
(3,2)
70.64
17.664
(3,4)
50.73
16.913
tˆp   ahi  45.08  72  ..  50.73  353
h ,i
v(tˆp )   (ah1  ah 2 )2  (45.08  72) 2  (47.04  67.74) 2  (70.64  50.73) 2  1549.6  39.362
h
12
M pˆ
Pour faire un calcul direct on pourrait prendre tˆp   hi hi où pˆ hi est une estimation du
h iSh 2 hi
nombre moyen, par foyer, d’adultes du village (h,i) qui connaissent le plan. En fait pˆ hi estime
j thij( p )
( p)
pUhi 
où thij
est le nombre d’adultes du foyer (h,i,j) qui connaissent le plan. Si on pouvait
M hi
interviewer tous les adultes des foyers de Shi concernant le plan, on pourrait estimer pUhi par
( p)
thij

jS
( p)
avec mhi=5. Puisque les thij
des foyers de l’échantillon sont inconnus, on les estime
phi  hi
mhi
par tˆhij( p )  xhij  phijk . C’est l’estimation du total (taille de la population multipliée par la moyenne
échantillonnale) obtenue avec un plan aléatoire simple qui tire un adulte parmi les xhij du foyer
(h,i,j). En résumé
x  phijk 24  (2 / 5) 20  (3 / 5)
M
21  (3 / 5)
tˆp   hi  hij


 ... 
 353.2
5
2  0.10648 2  0.08333
2  0.1242
h iSh 2 hi jShi
2
 M pˆ
M pˆ 
De même pour la variance v (tˆp )    h1 h1  h 2 h 2   1550
2 h 2 
h  2 h1
13
Estimation de rapports
1- Taille moyenne d’un foyer (poids foyer) :
w y
tˆ
ˆy   Shi hij hij  y  517.5  528  ...  523.9  5.04 avec Mˆ  636
 whij Mˆ 5  (22.5  24  ...  16.9)
 Shi
Pour estimer la variance on travaille avec la variable de linéarisation, u  ( y  yˆ ) / Mˆ
Tableau des ahi :
(strate, village)
poids arrondis whijuhij
ahi
(1,5)
22.5
22.5(5+5+4+6+3-55.04)/636 -0.0778
(1,7)
24
-0.1208
24(5+4+5+4+4-55.04)/636
(2,3)
23.5
23.5(5+6+3+5+3-55.04)/636 -0.1182
(2,19)
22.6
22.6(3+6+7+5+5-55.04)/636 0.0284
(3,2)
17.7
17.7(5+6+6+5+8-55.04)/636 0.1336
(3,4)
16.9
16.9(5+6+5+7+8-55.04)/636 0.1541
v( yˆ )   (ah1  ah 2 )2  ( 0.778  .1208) 2  ...  (0.1336  0.1541) 2  0.0238  0.1542
h
2
 M h1 ( yh1  yˆ ) M h 2 ( yh 2  yˆ ) 
1
ˆ

On peut également écrire v ( y )  2  
  .024 .
ˆ
2 h1
2 h 2
M h 

14
2- Proportion d’adultes favorables au plan :
(strate, village) xhi
pˆ hi  pˆ  xhi
(1,5)
2.2
2/5-0.0212.2
(1,7)
2.4
3/5-0.0212.4
(2,3)
2.4
2/5-0.0212.4
(2,19)
2.8
3/5-0.0212.8
(3,2)
3.4
4/5-0.0213.4
(3,4)
3.2
3/5-0.0213.2
M hi ( pˆ hi  pˆ  xhi ) / (2 hi )
-6.987
11.520
-12.230
1.355
7.595
-6.087
tˆp
pˆ   0.21 et la variable de linéarisation est u  ( p  pˆ ) / tˆx où tˆx   whij xhij  1704 . Ainsi
tˆx
h ,i , j
2
 M ( pˆ  pˆ  xh1 ) M h 2 ( pˆ h 2  pˆ  xh 2 ) 
1
v( pˆ )  2   h1 h1

 
tˆx h 
2 h1
2 h 2

2
2
1   24  (0.4  0.21  2.2) 20  (0.6  0.21  2.4) 
 21  (0.8  0.21  3.4) 21 (0.6  0.21 3.2)  




  ...  
 
17042  
2  0.10648
2  0.08333
2  0.1189
2  0.1242

 2.5  104  0.0157 2
15
Puisque nh=2, v(tˆy )  h
nh
2
2
.
(
a

a
)

(
a

a
)


hi
h
h1
h2
i
h
nh  1
Estimations de totaux (7 avril)
#total de foyers
2
M
M 
Mˆ   whi  636 et v( Mˆ )    h1  h 2   90
2 h 2 
h ,i , j
h  2 h1
#total de résidents
2
 M h1 y h1 M h 2 y h 2 
tˆy   whij yhij  3205 et v (tˆy )   

  4960
2

2

h ,i , j
h 
h1
h2 
#total d’adultes
2
M x
M x 
tˆx   whij xhij  1704 et v (tˆx )    h1 h1  h 2 h 2   3634
2 h 2 
h ,i , j
h  2 h1
#total d’adultes qui connaissent le plan
2
tˆp 
w
hijk
h ,i , j ,k
phijk
 M h1 p h1 M h 2 p h 2 
ˆ

 353 et v (t p )   
  1550
2

2

h 
h1
h2

16
Estimation de rapports (7 avril)
# Taille moyenne d’un foyer : yˆ 
tˆy
 5.04 et
Mˆ
2
M y
M
M y
M 
1
v ( yˆ )  2   h1 h1  h 2 h 2  yˆ  h1  h 2    .024
2 h 2
Mˆ h  2 h1
 2 h1 2 h 2  
tˆp
ˆ
# Proportion d’adultes favorables au plan : p   0.21 et
tˆx
 M h1 p h1 M h 2 p h 2
 M h1 xh1 M h 2 xh 2  
1
ˆ
ˆ
v( p )  2  

 p


tˆx h  2 h1
2 h 2
2

2

h1
h2  

 2.5  104
2
Estimation sans tenir compte du plan de sondage
# Taille moyenne d’un foyer : y  5.13 v( y )  s 2y / 30  .059
effet de plan : .024/.059=.4
# Proportion d’adultes favorables au plan : pˆ  .21 v( pˆ )  pˆ (1  pˆ ) / 30  54.7 104
effet de plan : 2.5/53.3=.047
17
Programme SAS
proc surveymeans data=fsas.trente sum mean;
strata strate;
cluster village;
weight Poids_fam;
var Taille nbadultes;
ratio nbadultes / Taille;run;
Statistics
Variable
Taille
Std
Error of
Mean
Mean
Sum Std Dev
Plan
Number of Clusters
6
30
Number of Observations
Numer.
636.0317
Denom.
Ratio Std Err
0.5320 0.01376
nbadultes Taille
proc means data=fsas.trente
var Taille; run;
mean stderr;
Analysis Variable :
Taille Taille
Statistics
Plan
3
Ratio Analysis
nbadulte 2.6807 0.085612 1705.0331 60.2832
Mean
Std
Error of
Mean
Sum
Std Dev
0.2071 0.015775
353.2218
39.3683
Mean
Number of Strata
Sum of Weights
5.0388 0.154252 3204.8537 70.4297
Variable Label
Data Summary
Std Err.
5.13333 0.243222
proc surveymeans data=fsas.trente sum mean;
strata strate;
cluster village;
weight Poids_adu;
var Plan;
run;
Analysis Variable :
Plan Plan
Mean
Std Err
0.20000
0.07427
proc means data=fsas.trente
var Plan; run;
mean stderr;
18
UN EXEMPLE D’ENQUÊTE COMPLEXE : L’ÉTUDE SUR LES JEUNES EN INSTITUTIONS
(1987 SURVEY OF YOUTH IN CUSTODY, LIVRE CH. 7-8)
BASE DE SONDAGE
Liste de toutes les maisons d’accueil (on en compte 206) pour jeunes contrevenants et de leurs
tailles lors du recensement de 1985.
PLAN DE SONDAGE
Les 11 maisons avec plus de 360 pensionnaires sont dans l’enquête et forment les strates 6 à 16.
Les 195 institutions restantes sont réparties en 5 strates ; un échantillon à deux degrés avec
probabilités proportionnelles à la taille lors du recensement de 1985 au degré 1 est ensuite tiré dans
ces 5 strates.
Strate
Taille en
Nb u.p.é. (Nh) Taille totale
Nb u.p.é dans
1985
en 85
S
1
1-59
99
2881
11
2
60-119
39
3525
7
3
120-179
30
4355
7
4
180-239
13
2594
7
5
240-359
14
4129
7
Le fichier de données comprend 2621 répondants. Le fichier des petites institutions comprenant
quant à lui les répondants des 5 premières strates compte 1799 unités.
19
Dans les strates 1 à 5 les unités primaires d’échantillonnage sont les institutions, on en
échantillonne 39. Dans les 11 plus grosses instituions, le plan de sondage est stratifié à un degré et
les unités primaires d’échantillonnage sont les personnes. Un total de 822 enfants sont interrogés
dans ces strates. Il y a donc 39+822=861 unités primaires d’échantillonnage dans ce plan.
Les autres variables du fichier sont (Lohr, p. 447)
STRATUM = la strate
PSU = un identificateur de l’institution
PSUSIZE = le nombre de jeunes dans l’u.p.é. en 1987
INITWT= le poids initial égal à l’inverse de la probabilité de sélection
FINALWT= le poids final comprend un ajustement pour la non-réponse et une calibration au total
des jeunes contrevenant obtenu dans un recensement de 1987
RANDGRP= le numéro de groupe, variant de 1 à 7, utilisé dans les calculs de variance
AGE= l’âge en année
RACE=1 (si blanc), 2 (si noir), 3 (si insulaire Asie-Pacifique), 4 (si première nation), 5 (autre), 9
(manquant)
ETHNICTY= 1 (hispanique), 2 (autre), 9 (manquant)
EDUC = Niveau scolaire avant l’envoie en maison de correction, 0-12 (niveau atteint), 13 (si étude
universitaire), 14 (autre), 99 (donnée manquante)
SEX=1 (homme), 2 (femme), 9 manquant
20
LIVEWITH (encadrement parental) = 1 (mère seulement), 2 (père seulement), 3 (les deux), 4
(grands-parents), 5 (autres parents), 6 (amis), 7 (maison d’accueil), 8 (agence ou institution), 9
(autre), 99 (manquant)
FAMTIME (parents emprisonnés) = 1 (oui), 2 (non), 7 (ne sais pas), 9 (manquant)
CRIMTYPE (crime commis) = 1 (avec violence), 2 (propriété), 3 (drogue), 4 (ordre publique), 5
(juvénile) , 9 (manquant)
EVERVIOL (antécédents de violence)= 1 (oui), 2 (non)
NUMARR=#arrestations
PROBTN=# fois en probation
CORRINST=#envoies en institution
EVERTIME=1 (déjà passé du temps en institution), 0 (sinon)
PRVIOL=1 (déjà arrêté pour un crime violent)
PRPROP=1 (déjà arrêté pour un crime à la propriété)
PRDRUG=1 (déjà arrêté pour un crime lié à la drogue)
PRPUB=1 (déjà arrêté pour avoir contrevenu à l’ordre publique)
PRJUV=1 (déjà arrêté pour un crime de type juvénile)
AGEFIRST= âge à la première arrestation (99=manquant)
USEWEPN (utilisation d’arme pour cet incident) = 1 (oui), 2 (non), 9 (manquant)
ALCUSE (consommation d’alcool durant l’année précédant l’arrestation)= 1 (oui), 2 (non), 3
(jamais bu), 9 (manquant)
EVERDRUG (déjà consommer des drogues illégales)= 0 (non), 1 (oui), 9 (manquant)
21
Histogramme des poids finaux (FINALWT)
0
500
1000
1500
L’histogramme des poids montre que certains poids sont
relativement grands. Dans certaines institutions les
enquêteurs devaient obtenir l’autorisation parentale avant de
procéder ce qui a augmenté la non-réponse.
10
20
30
40
50
FINALWT
Un traitement « selon le plan de sondage » avec SURVEYMEANS est-il possible pour ces données ?
En fait la population a été divisée en 2 pour tirer l’échantillon : Dans les 11 plus grosses
institutions, un plan simple stratifié par institution a été utilisé alors que dans les petites institutions
on a un plan à deux degrés avec probabilités variables et stratification au degré 1.
On est en présence d’un plan complexe où le mode de sélection varie d’une strate à l’autre. On
peut traiter ces données avec SURVEYMEANS dans la mesure où l’unité primaire d’échantillonnage,
une institution ou un enfant, est bien identifiée. En tout 39 institutions ont été sélectionnées dans
les 5 strates des petites institutions. Dans les 11 plus grosses, 822 enfants ont été interrogés. Il y a
22
donc 39+822=861 unités primaires d’échantillonnage dans ce plan. La variable PSUN identifie ces
unités primaires d’échantillonnage dans le fichier.
Estimation de l’âge moyen des enfants, à l’aide du fichier de données SAS permanent sycn lu dans
le libname fsas, créé par la commande suivante :
libname fsas "C:\Documents and Settings
\Louis-Paul Rivest\
Mes documents\sondages\Anasyc";
proc surveymeans data=fsas.sycn ;
strata stratum;
cluster psun;
weight finalwt;
var age; run;
proc means data=fsas.sycn mean stderr;
var age; run;
Data Summary
(surveymeans)
Number of Strata
16
Number of Clusters
861
Number of Observations
2621
Sum of Weights
25012
Libellé N
Moyenne
E.T
AGE
2621 16.639293 0.128882
Data Summary
(means)
Moyenne
E.-type
16.8092331
0.0373324
On constate que l’utilisation des poids de sondage diminue l’âge moyen de 0.18 ans. Ceci vient du
fait que les contrevenants jeunes sont sous-représentés. En effet pour ces derniers, un
consentement parental était requis avant de leur faire remplir le questionnaire; le taux de réponse
est donc plus faible chez les jeunes. Ceci est compensé par des poids de sondage plus élevés pour
les jeunes. L’estimation fournie par MEANS souffre du fait que les jeunes sont sous représentés;
SURVEYMEANS utilise les poids de sondage pour corriger ce problème.
23
Étudions maintenant le tableau de fréquence qui met en relation l’âge de l’enfant et le type de
crime commis (violent ou non, CRIMTYPE=1)
proc format;
value fageclass
1='15 ou moins'
2='16 ou 17'
3='18 et plus';
value fviolent
0='Non'
1='Oui';
run;
proc surveyfreq data=fsas.sycn;
format ageclass fageclass. violent
fviolent.;
table ageclass*violent / wchisq chisq ;
strata stratum;
cluster psun;
weight finalwt;
run;
ageclass
15 ou moins
16 ou 17
18 et plus
Total
violent Fréquence Fréquence
pondérée
Non
364
4247
Oui
238
2770
Total
602
7017
Non
740
6542
Oui
516
4630
Total
1256
11172
Non
348
3190
Oui
415
3633
Total
763
6823
Non
1452
13979
Oui
1169
11033
Total
2621
25012
Ec-type de Pourcentage E.t. du
Fréq pond
pourcent.
854.74298
16.9798
2.8312
366.47247
11.0747
1.3269
1067
28.0545
3.3395
582.36561
26.1554
1.7127
537.44003
18.5111
1.9301
916.85679
44.6666
2.6528
224.80498
12.7539
1.2152
248.10343
14.525
1.3478
354.42572
27.2789
2.2366
1142
55.8892
2.5337
687.42539
44.1108
2.5337
1333
100
Pour étudier le lien entre le type de crime commis et l’âge on peut utiliser un tableau de
fréquences. On a 2621 jeunes que l'on peut classifier selon deux variables; c’est la façon standard
de faire. Avec des données d’enquête, on veut tenir compte des poids d’échantillonnage. On
répartit la population totale, estimée à 25012 enfants, dans les 6 cases du tableau. Une fréquence
pondérée est la somme des poids des enfants dans une des cases. A partir des fréquences
pondérées on aimerait tester l’hypothèse d’indépendance entre les deux variables (ch.10 du livre et
cours de Sondages gradué).
La proportion d’incarcérations pour crime violent est de 40%, 41% et 53% pour les classes d’âge
15, 16-17, et 18; le fait d’utiliser ou non les poids de sondage ne change pas grand-chose. On
peut conclure que la proportion d’enfant ayant commis des crimes violents augmente avec l’âge.
24