M - Cours
Transcription
M - Cours
Chapitre 6-2 PLAN DE SONDAGE À DEUX DEGRÉS, AVEC PROBABILITÉS DE SÉLECTION VARIABLES AU PREMIER DEGRÉ Un exemple de population Dans ce cours une enquête complexe est définie comme étant une enquête à plusieurs degrés où les unités primaires sont tirées selon un plan stratifié avec des probabilités de sélection variables dans les strates. Statistique Canada utilise ce type de plan de sondage pour l’Enquête sur la Population Active qui estime à chaque mois le chômage et la création d’emplois au Canada. Ce chapitre utilise la « Population des 30 villages » pour illustrer les méthodes proposées. Cette population se compose de 30 villages, séparés en 3 strates. Un village se compose de M foyers, 27>Mi>16 pour tout i. Une des variables d’intérêt est le nombre de résidents y. Le tableau suivant donne la valeur de y pour tous les foyers de la population. Avant de réaliser l’enquête, la seule information disponible concernant cette population est la taille X du village lors du recensement précédent. Le nombre de foyers M et le nombre de résidents sont inconnus. On peut utiliser cette variable X pour faire une sélection des villages avec des probabilités de sélection variables. La population des 30 villages est typique de celles échantillonnées dans des enquêtes complexes. Elle a une structure hiérarchique à trois niveaux : les personnes sont dans les foyers qui sont euxmêmes dans des villages. Un plan de sondage à deux ou même trois degrés peut donc être utilisé pour échantillonner cette population. Réf. : Som, R. K. (1973). A Manual of Sampling Techniques. Heineman 1 Population des 30 villages (les données de couleur violette sont connues avant l’enquête) str vill X f1 f2 f3 f4 f5 f6 f7 f8 f9 f10 f11 f12 f13 f14 f15 f16 f17 f18 f19 f20 f21 f22 f23 f24 f25 f26 y 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 11 1 2 3 4 5 6 7 8 9 69 82 110 80 92 65 72 108 106 80 72 102 73 84 98 84 85 102 122 102 86 78 112 97 117 106 115 110 104 103 7 6 6 6 5 3 6 5 5 4 8 9 6 6 8 4 7 4 8 7 4 8 9 8 7 7 7 7 3 6 5 5 6 3 4 4 4 3 3 4 4 6 5 4 4 3 5 5 4 4 5 6 4 8 5 3 4 6 8 5 5 4 3 6 6 4 4 3 5 5 4 5 5 6 3 5 5 5 4 5 4 7 5 4 6 5 6 4 5 7 4 5 5 3 5 6 5 7 3 5 6 5 3 4 5 6 3 4 5 6 4 4 8 8 7 6 7 8 7 6 6 4 3 6 4 5 4 4 4 4 5 4 6 5 6 5 5 6 5 5 7 6 6 3 8 6 10 1 6 4 2 5 4 3 5 7 5 4 6 4 5 3 5 4 3 6 4 5 4 4 5 5 3 6 4 7 4 6 10 5 3 6 5 4 6 3 6 6 5 5 5 5 3 4 7 5 4 5 7 6 5 5 6 6 5 5 5 6 7 8 5 5 5 5 5 5 4 6 4 4 7 5 7 5 5 5 5 3 5 4 7 2 5 6 6 6 5 7 8 4 5 3 4 4 4 4 3 4 6 3 3 3 3 7 5 5 8 4 6 4 5 7 5 4 6 5 6 4 4 7 6 5 4 4 4 5 5 5 5 5 5 10 5 6 5 3 4 4 4 7 9 7 5 6 6 5 7 6 8 8 5 4 4 4 7 4 4 3 6 5 6 4 5 4 6 5 4 8 5 5 6 7 6 6 6 4 6 6 7 7 4 4 3 5 6 6 6 7 3 3 6 4 6 6 6 4 6 5 5 2 5 5 2 8 5 10 3 7 6 6 4 5 7 6 6 4 5 6 6 4 6 6 6 4 7 5 5 4 8 5 7 6 8 7 7 7 8 6 6 10 4 3 5 3 5 5 5 4 5 5 4 5 5 5 3 5 7 4 5 4 4 4 5 6 5 6 7 7 5 7 5 3 4 5 4 3 2 5 6 4 4 4 3 6 6 3 4 5 3 4 3 4 8 4 9 5 6 3 7 6 3 5 6 1 4 3 4 6 6 3 7 4 5 6 9 5 6 6 9 5 4 5 8 8 4 6 6 4 3 6 2 3 5 6 5 3 3 4 4 3 3 7 4 5 4 3 6 4 5 6 6 6 6 6 6 5 4 5 5 6 4 5 5 3 5 4 2 5 5 5 4 5 5 7 4 6 4 5 7 5 3 3 1 4 5 3 5 5 6 4 4 6 6 5 6 6 5 2 6 4 4 3 4 4 6 6 6 5 2 7 4 3 3 5 1 3 5 5 4 4 7 4 4 8 7 7 6 5 3 6 4 1 5 5 7 4 5 5 4 6 6 3 5 4 3 4 2 5 6 6 3 76 82 116 76 112 77 88 109 111 88 78 112 80 93 105 93 95 114 127 113 94 83 121 105 129 114 121 116 109 105 2 1-Estimation du total dans un plan à plusieurs degrés. Dans un plan à plusieurs degrés les unités échantillonnées à un degré constituent des strates pour le degré suivant. En pratique les tirages sont sans remise à tous les degrés. Ici on suppose que le premier degré utilise des probabilités de sélection variables πi=nψi. Poids d’échantillonnage : Dans un plan à plusieurs degrés les poids d’échantillonnage sont les produits des inverses des probabilités de sélection aux différents degrés. Par exemple si le degré 1 a des probabilités de sélection variables avec πi=nψi et si le degré deux utilise un plan aléatoire simple de mi unités secondaires parmi les Mi de l’unité primaire i, le poids d’échantillonnage de l’unité secondaire j tirée de l’unité primaire i est wij=Mi/(minψi). L’estimation du total est toujours égale à la somme des poids d’échantillonnage fois les valeurs de y. On a Mi M i yi . 1 tˆi 1 1 Tˆy iS , jS wij yij i y . jSi ij i i i n i mi n i n i où tˆi est une estimation du total de y dans l’unité primaire i. On montre facilement que Tˆy est un estimateur sans biais de Ty. Pour estimer la variance on peut supposer que le tirage des unités primaires se fait avec remise. On est en présence de n variables aléatoires indépendantes identiquement distribuées tˆi / i : i S de 3 moyenne Ty. La moyenne échantillonnale Tˆy est donc une estimation non biaisée du total Ty et on peut estimer sa variance par la variance échantillonnale divisée par n, 2 ˆi t 1 v (Tˆy ) tˆy . n(n 1) i i Une approche automatisée au calcul de la variance avec remise se fait de la façon suivante. On pose ai j wij yij , la somme des poids multipliés par les valeurs de y dans l’unité primaire i. i On peut écrire l’estimateur de variance avec remise en fonction des ai de la façon suivante, n 2 car ai tˆi / (n i ) . v(tˆy ) ( a a ) i iS n 1 L’estimation de variances « avec remise » ne donne pas des estimateurs de variance non biaisée lorsque la sélection est sans remise. Il est possible de trouver des estimateurs de variance non biaisés en utilisant une approche semblable à celle utilisée au chapitre 5. Cette approche est présentée au chapitre 6 du livre de S. Lohr. 4 Estimation d’un rapport de moyennes : Pour estimer la variance « avec remise » de wij yij i S , j S i Rˆ iS , jS wij xij i on procède par linéarisation. On a 1 Rˆ R iS , jS wij ( yij Rxij ) i tx ˆ ) / tˆ . Dans le plan à deux degrés vu et on utilise l’approche automatisée avec aij ( yij Rx ij x précédemment, cette formule pour l’estimateur de variance donne 2 ˆ )2 M ( y Rx 1 i i . i. v( Rˆ ) 2 iS tˆx i2 n(n 1) Si on a xij=1 alors Rˆ yˆ estime la moyenne de y et 2 2 ˆ M ( y y ) 1 v( yˆ ) 2 iS i 2 i . où M̂ est une estimation du nombre total d’unités primaires. ˆ i n(n 1) M 5 Exemple : Population des 30 villages Dans un premier temps on tire n=6 villages avec remise et avec probabilités proportionnelles à la taille au recensement précédent. Au deuxième degré on tire m=2 foyers au hasard dans chacun des 6 villages tirés au degré 1. U.S.É (3,3) (3,22) (12,4) (12,22) (21,8) (21,10) (23,2) (23,9) (26,1) (26,13) (27,5) (27,17) Échantillon Xi Mi 110 26 110 26 102 22 102 22 86 18 86 18 112 21 112 21 106 20 106 20 115 21 115 21 Les probabilités de tirage au degré 1 sont yij 3 5 5 5 7 9 4 5 7 7 10 6 poids 55.47 55.47 50.61 50.61 49.12 49.12 44 44 44.28 44.28 42.85 42.85 30 i Xi / Xk 1 Les poids statistiques wi sont wi M i /(2*6* i ) , par exemple pour les 2 foyers du village 3, w=26/(2*6*110/2816)=55.47 Estimation du nombre total de résidents My tˆ = i i wij yij =3437.3 i 6 i Estimation de variance 2 M i yi 1 v(tˆ) tˆ 135267 3682 65 i i 6 Estimation du nombre total de foyers 2 Mi ˆ M 1 Mˆ i wij 573 et v( Mˆ ) M 575 242 65 i i i 6 i Estimation de la taille moyenne d’un foyer 2 Mi tˆ 1 tˆ 2 r 6.00 et v(r ) y 0.56 0.7 5 i Mˆ 6 5Mˆ 2 i i Mˆ Estimation de la taille moyenne d’un foyer sans tenir compte du plan de sondage : s y2 y 6.1 et v( y ) .34 12 Ainsi l’effet de plan est de .56/.34=1.64. La procédure SURVEYMEANS de SAS calcule les variances « avec remise » des estimations des totaux et des moyennes dans des plans complexes en mettant en œuvre la formule automatisée présentée plus haut. En plus des variables d’intérêt, un fichier SAS de données d’enquête doit toujours contenir la variable WEIGHT des poids d’échantillonnage et une variable CLUSTER qui identifie les unités primaires d’échantillonnage. Comme on va le voir dans le prochain exemple on peut aussi avoir une variable STRATA qui identifie les strates. 7 Programme SAS data trentvill; input Popprec taille adul; poids=2816*taille/(Popprec*6*2); datalines; 110 26 3 110 26 5 102 22 5 102 22 5 86 18 7 86 18 9 112 21 4 112 21 5 106 20 7 106 20 7 115 21 10 115 21 6; proc print data=trentvill;run; proc surveymeans data=trentvill sum mean; cluster Popprec; weight poids; Data Summary var adul; Obs 1 2 3 4 5 6 7 8 9 10 11 12 12 Sum of Weights proc means data=trentvill var adul; 572.6524 Analysis Variable : adul Mean Std Error 6.0833 0.58333 taille 26 26 22 22 18 18 21 21 20 20 21 21 adul 3 5 5 5 7 9 4 5 7 7 10 6 poids 55.4667 55.4667 50.6144 50.6144 49.1163 49.1163 44.0000 44.0000 44.2767 44.2767 42.8522 42.8522 Statistics 6 Number of Clusters Number of Observations Popprec 110 110 102 102 86 86 112 112 106 106 115 115 Variable adul Mean Std Error of Mean Sum Std Dev 6.0023 0.747609 3437.2465 367.7530 ; 8 PLAN DE SONDAGE COMPLEXE Un cadre un peu plus général que celui présenté dans la section précédente permet un échantillonnage stratifié avec des probabilités de sélection variables à l’intérieur des strates au premier degré. En pratique la sélection des unités primaires dans les strates se fait souvent sans remise et on utilise l’approche « avec remise » pour estimer la variance ; c’est l’approche mise en œuvre dans les procédures SAS pour le traitement de données d’enquête. Dans ce cadre général, les formules d’estimation s’écrivent en fonction des poids de sondage whij où h identifie la strate, i l’unité primaire et j la dernière unité (secondaire, tertiaire ou autre), sur laquelle la variable y est observée. On a n tˆy iS , jS whij yhij et v(tˆy ) h h i (ahi ah ) 2 avec ahi jS whij yhij hi h hi nh 1 h Pour estimer la variance d’un rapport de moyennes on utilise la linéarisation comme dans la section précédente. 9 Exemple : Population des 30 villages zone 1 zone 2 zone 3 foyer village 5 1 M_11 6 24 16 18 11=92/864 0.10648148 22 village 7 4 M_12 8 20 13 12=72/864 16 0.08333333 18 village 3 3 M_21 5 17 7 21=73/1010 14 0.07227723 15 village 7 4 M_22 12 19 14 22=85/1010 16 0.08415842 18 village 2 3 M_31 5 21 11 31=112/942 14 0.11889597 15 village 4 7 M_32 8 21 12 32=117/942 13 0.12420382 15 y 5 5 4 6 3 5 4 5 4 4 5 6 3 5 3 3 6 7 5 5 5 6 6 5 8 5 6 5 7 8 # adult. 2 2 2 3 2 3 2 3 2 2 3 3 2 2 2 1 4 4 3 2 3 3 4 2 5 2 3 3 3 5 Plan(p) Poids F. 0 22.5391304 0 22.5391304 1 22.5391304 0 22.5391304 0 22.5391304 1 24 0 24 0 24 0 24 0 24 0 23.5205479 0 23.5205479 0 23.5205479 1 23.5205479 0 23.5205479 0 22.5764706 0 22.5764706 0 22.5764706 1 22.5764706 0 22.5764706 0 17.6625 0 17.6625 1 17.6625 0 17.6625 0 17.6625 0 16.9076923 1 16.9076923 0 16.9076923 0 16.9076923 0 16.9076923 Poids A. 45.0782609 45.0782609 45.0782609 67.6173913 45.0782609 72 48 72 48 48 70.5616438 70.5616438 47.0410959 47.0410959 47.0410959 22.5764706 90.3058824 90.3058824 67.7294118 45.1529412 52.9875 52.9875 70.65 35.325 88.3125 33.8153846 50.7230769 50.7230769 50.7230769 84.5384615 Degré 1 : Stratification par zone et sélection de 2 villages par zone avec probabilité de sélection proportionnelle à la taille au recensement précédent. Degré 2 : Sélection de 5 foyers dans les villages tirés au degré 1 Degré 3 : Sélection d’un adulte dans chacun des foyers tirés en 2 Poids d’échantillonnage : Pour les foyers : whij M hi /(10* hi ) Pour les adultes : whijk whij #adulte Définition des indices h représente la strate (h=1,2,3) i représente le village dans la strate j représente le foyer dans le village k représente l’adulte dans le foyer 10 Estimations de totaux 1-Nombre total de résidents (on utilise les poids foyers) Tableau des ahi : (strate, village) poids arrondis whijyhij (1,5) 22.5 22.5(5+5+4+6+3) (1,7) 24 24(5+4+5+4+4) (2,3) 23.5 23.5(5+6+3+5+3) (2,19) 22.6 22.6(3+6+7+5+5) (3,2) 17.7 17.7(5+6+6+5+8) (3,4) 16.9 16.9(5+6+5+7+8) tˆy ahi 517.5 528 517 .. 529.3 3205 ahi 517.5 528 517 588.6 531 523.9 h ,i v(tˆy ) (ah1 ah 2 )2 (517.5 528) 2 (517 588.6) 2 (531 529.3) 2 5145 71.72 h (comparativement à une erreur type de 70.4 dans la sortie SAS) Les 6 moyennes de y dans les villages sélectionnés sont : 4.6, 4.4, 4.4, 5.2, 6 et 6.2 ainsi 11 M y 24 4.6 20 4.4 21 6.2 tˆy hi hi ... 3205 et 2 0.10648 2 0.08333 2 0.1242 h iSh 2 hi 2 M y M y v (tˆy ) h1 h1 h 2 h 2 4961.4 70.42 (en prenant 5 chiffres après le point pour ) 2 h 2 h 2 h1 2- Nombre total d’adultes qui connaissent le plan (avec les poids-personne) Tableau des ahi : (strate, village) ahi whijkphijk (1,5) 45.08 22.542 (1,7) 72 243 (2,3) 47.04 23.522 (2,19) 67.74 22.583 (3,2) 70.64 17.664 (3,4) 50.73 16.913 tˆp ahi 45.08 72 .. 50.73 353 h ,i v(tˆp ) (ah1 ah 2 )2 (45.08 72) 2 (47.04 67.74) 2 (70.64 50.73) 2 1549.6 39.362 h 12 M pˆ Pour faire un calcul direct on pourrait prendre tˆp hi hi où pˆ hi est une estimation du h iSh 2 hi nombre moyen, par foyer, d’adultes du village (h,i) qui connaissent le plan. En fait pˆ hi estime j thij( p ) ( p) pUhi où thij est le nombre d’adultes du foyer (h,i,j) qui connaissent le plan. Si on pouvait M hi interviewer tous les adultes des foyers de Shi concernant le plan, on pourrait estimer pUhi par ( p) thij jS ( p) avec mhi=5. Puisque les thij des foyers de l’échantillon sont inconnus, on les estime phi hi mhi par tˆhij( p ) xhij phijk . C’est l’estimation du total (taille de la population multipliée par la moyenne échantillonnale) obtenue avec un plan aléatoire simple qui tire un adulte parmi les xhij du foyer (h,i,j). En résumé x phijk 24 (2 / 5) 20 (3 / 5) M 21 (3 / 5) tˆp hi hij ... 353.2 5 2 0.10648 2 0.08333 2 0.1242 h iSh 2 hi jShi 2 M pˆ M pˆ De même pour la variance v (tˆp ) h1 h1 h 2 h 2 1550 2 h 2 h 2 h1 13 Estimation de rapports 1- Taille moyenne d’un foyer (poids foyer) : w y tˆ ˆy Shi hij hij y 517.5 528 ... 523.9 5.04 avec Mˆ 636 whij Mˆ 5 (22.5 24 ... 16.9) Shi Pour estimer la variance on travaille avec la variable de linéarisation, u ( y yˆ ) / Mˆ Tableau des ahi : (strate, village) poids arrondis whijuhij ahi (1,5) 22.5 22.5(5+5+4+6+3-55.04)/636 -0.0778 (1,7) 24 -0.1208 24(5+4+5+4+4-55.04)/636 (2,3) 23.5 23.5(5+6+3+5+3-55.04)/636 -0.1182 (2,19) 22.6 22.6(3+6+7+5+5-55.04)/636 0.0284 (3,2) 17.7 17.7(5+6+6+5+8-55.04)/636 0.1336 (3,4) 16.9 16.9(5+6+5+7+8-55.04)/636 0.1541 v( yˆ ) (ah1 ah 2 )2 ( 0.778 .1208) 2 ... (0.1336 0.1541) 2 0.0238 0.1542 h 2 M h1 ( yh1 yˆ ) M h 2 ( yh 2 yˆ ) 1 ˆ On peut également écrire v ( y ) 2 .024 . ˆ 2 h1 2 h 2 M h 14 2- Proportion d’adultes favorables au plan : (strate, village) xhi pˆ hi pˆ xhi (1,5) 2.2 2/5-0.0212.2 (1,7) 2.4 3/5-0.0212.4 (2,3) 2.4 2/5-0.0212.4 (2,19) 2.8 3/5-0.0212.8 (3,2) 3.4 4/5-0.0213.4 (3,4) 3.2 3/5-0.0213.2 M hi ( pˆ hi pˆ xhi ) / (2 hi ) -6.987 11.520 -12.230 1.355 7.595 -6.087 tˆp pˆ 0.21 et la variable de linéarisation est u ( p pˆ ) / tˆx où tˆx whij xhij 1704 . Ainsi tˆx h ,i , j 2 M ( pˆ pˆ xh1 ) M h 2 ( pˆ h 2 pˆ xh 2 ) 1 v( pˆ ) 2 h1 h1 tˆx h 2 h1 2 h 2 2 2 1 24 (0.4 0.21 2.2) 20 (0.6 0.21 2.4) 21 (0.8 0.21 3.4) 21 (0.6 0.21 3.2) ... 17042 2 0.10648 2 0.08333 2 0.1189 2 0.1242 2.5 104 0.0157 2 15 Puisque nh=2, v(tˆy ) h nh 2 2 . ( a a ) ( a a ) hi h h1 h2 i h nh 1 Estimations de totaux (7 avril) #total de foyers 2 M M Mˆ whi 636 et v( Mˆ ) h1 h 2 90 2 h 2 h ,i , j h 2 h1 #total de résidents 2 M h1 y h1 M h 2 y h 2 tˆy whij yhij 3205 et v (tˆy ) 4960 2 2 h ,i , j h h1 h2 #total d’adultes 2 M x M x tˆx whij xhij 1704 et v (tˆx ) h1 h1 h 2 h 2 3634 2 h 2 h ,i , j h 2 h1 #total d’adultes qui connaissent le plan 2 tˆp w hijk h ,i , j ,k phijk M h1 p h1 M h 2 p h 2 ˆ 353 et v (t p ) 1550 2 2 h h1 h2 16 Estimation de rapports (7 avril) # Taille moyenne d’un foyer : yˆ tˆy 5.04 et Mˆ 2 M y M M y M 1 v ( yˆ ) 2 h1 h1 h 2 h 2 yˆ h1 h 2 .024 2 h 2 Mˆ h 2 h1 2 h1 2 h 2 tˆp ˆ # Proportion d’adultes favorables au plan : p 0.21 et tˆx M h1 p h1 M h 2 p h 2 M h1 xh1 M h 2 xh 2 1 ˆ ˆ v( p ) 2 p tˆx h 2 h1 2 h 2 2 2 h1 h2 2.5 104 2 Estimation sans tenir compte du plan de sondage # Taille moyenne d’un foyer : y 5.13 v( y ) s 2y / 30 .059 effet de plan : .024/.059=.4 # Proportion d’adultes favorables au plan : pˆ .21 v( pˆ ) pˆ (1 pˆ ) / 30 54.7 104 effet de plan : 2.5/53.3=.047 17 Programme SAS proc surveymeans data=fsas.trente sum mean; strata strate; cluster village; weight Poids_fam; var Taille nbadultes; ratio nbadultes / Taille;run; Statistics Variable Taille Std Error of Mean Mean Sum Std Dev Plan Number of Clusters 6 30 Number of Observations Numer. 636.0317 Denom. Ratio Std Err 0.5320 0.01376 nbadultes Taille proc means data=fsas.trente var Taille; run; mean stderr; Analysis Variable : Taille Taille Statistics Plan 3 Ratio Analysis nbadulte 2.6807 0.085612 1705.0331 60.2832 Mean Std Error of Mean Sum Std Dev 0.2071 0.015775 353.2218 39.3683 Mean Number of Strata Sum of Weights 5.0388 0.154252 3204.8537 70.4297 Variable Label Data Summary Std Err. 5.13333 0.243222 proc surveymeans data=fsas.trente sum mean; strata strate; cluster village; weight Poids_adu; var Plan; run; Analysis Variable : Plan Plan Mean Std Err 0.20000 0.07427 proc means data=fsas.trente var Plan; run; mean stderr; 18 UN EXEMPLE D’ENQUÊTE COMPLEXE : L’ÉTUDE SUR LES JEUNES EN INSTITUTIONS (1987 SURVEY OF YOUTH IN CUSTODY, LIVRE CH. 7-8) BASE DE SONDAGE Liste de toutes les maisons d’accueil (on en compte 206) pour jeunes contrevenants et de leurs tailles lors du recensement de 1985. PLAN DE SONDAGE Les 11 maisons avec plus de 360 pensionnaires sont dans l’enquête et forment les strates 6 à 16. Les 195 institutions restantes sont réparties en 5 strates ; un échantillon à deux degrés avec probabilités proportionnelles à la taille lors du recensement de 1985 au degré 1 est ensuite tiré dans ces 5 strates. Strate Taille en Nb u.p.é. (Nh) Taille totale Nb u.p.é dans 1985 en 85 S 1 1-59 99 2881 11 2 60-119 39 3525 7 3 120-179 30 4355 7 4 180-239 13 2594 7 5 240-359 14 4129 7 Le fichier de données comprend 2621 répondants. Le fichier des petites institutions comprenant quant à lui les répondants des 5 premières strates compte 1799 unités. 19 Dans les strates 1 à 5 les unités primaires d’échantillonnage sont les institutions, on en échantillonne 39. Dans les 11 plus grosses instituions, le plan de sondage est stratifié à un degré et les unités primaires d’échantillonnage sont les personnes. Un total de 822 enfants sont interrogés dans ces strates. Il y a donc 39+822=861 unités primaires d’échantillonnage dans ce plan. Les autres variables du fichier sont (Lohr, p. 447) STRATUM = la strate PSU = un identificateur de l’institution PSUSIZE = le nombre de jeunes dans l’u.p.é. en 1987 INITWT= le poids initial égal à l’inverse de la probabilité de sélection FINALWT= le poids final comprend un ajustement pour la non-réponse et une calibration au total des jeunes contrevenant obtenu dans un recensement de 1987 RANDGRP= le numéro de groupe, variant de 1 à 7, utilisé dans les calculs de variance AGE= l’âge en année RACE=1 (si blanc), 2 (si noir), 3 (si insulaire Asie-Pacifique), 4 (si première nation), 5 (autre), 9 (manquant) ETHNICTY= 1 (hispanique), 2 (autre), 9 (manquant) EDUC = Niveau scolaire avant l’envoie en maison de correction, 0-12 (niveau atteint), 13 (si étude universitaire), 14 (autre), 99 (donnée manquante) SEX=1 (homme), 2 (femme), 9 manquant 20 LIVEWITH (encadrement parental) = 1 (mère seulement), 2 (père seulement), 3 (les deux), 4 (grands-parents), 5 (autres parents), 6 (amis), 7 (maison d’accueil), 8 (agence ou institution), 9 (autre), 99 (manquant) FAMTIME (parents emprisonnés) = 1 (oui), 2 (non), 7 (ne sais pas), 9 (manquant) CRIMTYPE (crime commis) = 1 (avec violence), 2 (propriété), 3 (drogue), 4 (ordre publique), 5 (juvénile) , 9 (manquant) EVERVIOL (antécédents de violence)= 1 (oui), 2 (non) NUMARR=#arrestations PROBTN=# fois en probation CORRINST=#envoies en institution EVERTIME=1 (déjà passé du temps en institution), 0 (sinon) PRVIOL=1 (déjà arrêté pour un crime violent) PRPROP=1 (déjà arrêté pour un crime à la propriété) PRDRUG=1 (déjà arrêté pour un crime lié à la drogue) PRPUB=1 (déjà arrêté pour avoir contrevenu à l’ordre publique) PRJUV=1 (déjà arrêté pour un crime de type juvénile) AGEFIRST= âge à la première arrestation (99=manquant) USEWEPN (utilisation d’arme pour cet incident) = 1 (oui), 2 (non), 9 (manquant) ALCUSE (consommation d’alcool durant l’année précédant l’arrestation)= 1 (oui), 2 (non), 3 (jamais bu), 9 (manquant) EVERDRUG (déjà consommer des drogues illégales)= 0 (non), 1 (oui), 9 (manquant) 21 Histogramme des poids finaux (FINALWT) 0 500 1000 1500 L’histogramme des poids montre que certains poids sont relativement grands. Dans certaines institutions les enquêteurs devaient obtenir l’autorisation parentale avant de procéder ce qui a augmenté la non-réponse. 10 20 30 40 50 FINALWT Un traitement « selon le plan de sondage » avec SURVEYMEANS est-il possible pour ces données ? En fait la population a été divisée en 2 pour tirer l’échantillon : Dans les 11 plus grosses institutions, un plan simple stratifié par institution a été utilisé alors que dans les petites institutions on a un plan à deux degrés avec probabilités variables et stratification au degré 1. On est en présence d’un plan complexe où le mode de sélection varie d’une strate à l’autre. On peut traiter ces données avec SURVEYMEANS dans la mesure où l’unité primaire d’échantillonnage, une institution ou un enfant, est bien identifiée. En tout 39 institutions ont été sélectionnées dans les 5 strates des petites institutions. Dans les 11 plus grosses, 822 enfants ont été interrogés. Il y a 22 donc 39+822=861 unités primaires d’échantillonnage dans ce plan. La variable PSUN identifie ces unités primaires d’échantillonnage dans le fichier. Estimation de l’âge moyen des enfants, à l’aide du fichier de données SAS permanent sycn lu dans le libname fsas, créé par la commande suivante : libname fsas "C:\Documents and Settings \Louis-Paul Rivest\ Mes documents\sondages\Anasyc"; proc surveymeans data=fsas.sycn ; strata stratum; cluster psun; weight finalwt; var age; run; proc means data=fsas.sycn mean stderr; var age; run; Data Summary (surveymeans) Number of Strata 16 Number of Clusters 861 Number of Observations 2621 Sum of Weights 25012 Libellé N Moyenne E.T AGE 2621 16.639293 0.128882 Data Summary (means) Moyenne E.-type 16.8092331 0.0373324 On constate que l’utilisation des poids de sondage diminue l’âge moyen de 0.18 ans. Ceci vient du fait que les contrevenants jeunes sont sous-représentés. En effet pour ces derniers, un consentement parental était requis avant de leur faire remplir le questionnaire; le taux de réponse est donc plus faible chez les jeunes. Ceci est compensé par des poids de sondage plus élevés pour les jeunes. L’estimation fournie par MEANS souffre du fait que les jeunes sont sous représentés; SURVEYMEANS utilise les poids de sondage pour corriger ce problème. 23 Étudions maintenant le tableau de fréquence qui met en relation l’âge de l’enfant et le type de crime commis (violent ou non, CRIMTYPE=1) proc format; value fageclass 1='15 ou moins' 2='16 ou 17' 3='18 et plus'; value fviolent 0='Non' 1='Oui'; run; proc surveyfreq data=fsas.sycn; format ageclass fageclass. violent fviolent.; table ageclass*violent / wchisq chisq ; strata stratum; cluster psun; weight finalwt; run; ageclass 15 ou moins 16 ou 17 18 et plus Total violent Fréquence Fréquence pondérée Non 364 4247 Oui 238 2770 Total 602 7017 Non 740 6542 Oui 516 4630 Total 1256 11172 Non 348 3190 Oui 415 3633 Total 763 6823 Non 1452 13979 Oui 1169 11033 Total 2621 25012 Ec-type de Pourcentage E.t. du Fréq pond pourcent. 854.74298 16.9798 2.8312 366.47247 11.0747 1.3269 1067 28.0545 3.3395 582.36561 26.1554 1.7127 537.44003 18.5111 1.9301 916.85679 44.6666 2.6528 224.80498 12.7539 1.2152 248.10343 14.525 1.3478 354.42572 27.2789 2.2366 1142 55.8892 2.5337 687.42539 44.1108 2.5337 1333 100 Pour étudier le lien entre le type de crime commis et l’âge on peut utiliser un tableau de fréquences. On a 2621 jeunes que l'on peut classifier selon deux variables; c’est la façon standard de faire. Avec des données d’enquête, on veut tenir compte des poids d’échantillonnage. On répartit la population totale, estimée à 25012 enfants, dans les 6 cases du tableau. Une fréquence pondérée est la somme des poids des enfants dans une des cases. A partir des fréquences pondérées on aimerait tester l’hypothèse d’indépendance entre les deux variables (ch.10 du livre et cours de Sondages gradué). La proportion d’incarcérations pour crime violent est de 40%, 41% et 53% pour les classes d’âge 15, 16-17, et 18; le fait d’utiliser ou non les poids de sondage ne change pas grand-chose. On peut conclure que la proportion d’enfant ayant commis des crimes violents augmente avec l’âge. 24