Présentation de Guillaume Chauvet et Cyril Favre-Martinoz
Transcription
Présentation de Guillaume Chauvet et Cyril Favre-Martinoz
Inference for superpopulation parameters using sample surveys by Barry I. Graubard and Edward L. Korn Guillaume Chauvet et Cyril Favre-Martinoz École Nationale de la Statistique et de l’Analyse de l’Information Groupe de travail Sondages et Econométrie Insee 09/02/2015 GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 1 / 25 En bref Les auteurs s’intéressent à l’estimation de paramètres de superpopulation pour des données issues d’une enquête par sondage (plan stratifié, plan à plusieurs degrés). Plus précisément, ils s’intéressent à l’estimation de variance pour des estimateurs de ces paramètres. Une façon habituelle d’estimer la variance consiste à "oublier" que l’échantillon est issu d’un plan de sondage, comme si les données étaient directement générées selon le modèle de superpopulation. Les auteurs montrent que cette approche peut conduire à sous-estimer la variance globale. Les auteurs proposent également une revue de la littérature, en comparant leur approche avec des approches existantes. GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 2 / 25 Contexte Les données dans la population U sont générées selon un modèle de superpopulation F : Yi ∼iid L(µ, σ 2 ) pour i = 1, . . . , K avec K la taille de la population finie U . Un échantillon est ensuite tiré dans U selon un plan de sondage p(·) : un sondage aléatoire simple stratifié (STSRS) est considéré dans la Section 2 : "Model without clusters"; un sondage à plusieurs degrés, avec tirage à probabilités inégales (pps) au 1er degré, est considéré dans la Section 3 : "Model with clusters". GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 3 / 25 Section 2 Model without clusters GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 4 / 25 Le modèle Les données dans la population U sont générées selon un modèle à deux niveaux : F : (Yi , ηi ) ∼iid F pour i = 1, . . . , K, avec ηi une indicatrice de strate, générée selon une loi discrète de support {1, . . . , L}, Yi générée conditionnellement à ηi = h selon une loi L(µh , σh2 ). On note Kh le nombre total d’observations obtenues dans la strate h (telles que ηi = h). On note également Ȳ = L X Kh h=1 K Ȳh avec Kh 1 X Ȳh = yhi . Kh i=1 Un échantillon est ensuite sélectionné selon un STSRS de taille kh dans la strate h (l’allocation peut dépendre des tailles de strates). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 5 / 25 Estimation du paramètre µ = EF [Yi ] On considère l’estimateur (sans biais) ȳ = L X Kh h=1 K ȳh avec kh 1 X ȳh = yhi . kh i=1 La variance de cet estimateur est donnée par V ar(ȳ) = EF V arRS (ȳ) + V arF ERS (ȳ) = EF V arRS (ȳ) + V arF (Ȳ ). (1) L’estimateur de variance habituel pour un STSRS vd arwo (ȳ) = L X K 2 Kh − kh s2 h h h=1 K2 Kh kh estime sans biais le 1er terme de (1). Son biais vaut donc −V arF (Ȳ ). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 6 / 25 Estimation du paramètre µ = EF [Yi ] (2) On considère l’estimateur (sans biais) ȳ = L X Kh h=1 K ȳh avec kh 1 X ȳh = yhi . kh i=1 La variance de cet estimateur est donnée par V ar(ȳ) = EF V arRS (ȳ) + V arF (Ȳ ) = EF V arRS (ȳ) + EF V arF |η (Ȳ ) + V arF EF |η (Ȳ ). (2) La variance sous le modèle est due : à la variabilité des yhi : second terme de (2); à la variabilité des tailles de strates Kh : troisième terme de (2). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 7 / 25 Estimation du paramètre µ = EF [Yi ] (3) On considère l’estimateur (sans biais) ȳ = L X Kh h=1 K ȳh avec ȳh = kh 1 X yhi . kh i=1 La variance de cet estimateur est donnée par V ar(ȳ) = EF V arRS (ȳ) + V arF (Ȳ ) = EF V arRS (ȳ) + EF V arF |η (Ȳ ) + V arF EF |η (Ȳ ). (3) L’estimateur de variance qui "oublie" le caractère sans remise vd arwr (ȳ) = L X K 2 s2 h h=1 h K 2 kh estime sans biais les 2 1ers termes de (3). Son biais vaut −V arF EF |η (Ȳ ). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 8 / 25 Estimation du paramètre µ = EF [Yi ] (4) Graubard et Korn proposent d’ajouter un estimateur non biaisé de la partie manquante. Par exemple, on estime ∆betw,y V arF EF |η (Ȳ ) ≡ K L Kh 1 X E (µh − µ)2 . = K K h=1 en utilisant b betw,y = ∆ L L h=1 h=1 X Kh (K − Kh ) s2 K X Kh h (ȳh − ȳ)2 − K −1 K K(K − 1) kh (formule 2.9). On obtient l’estimateur de variance SB b betw,y ∆ K = 0 dans le cas d’une seule strate. vd arSP (ȳ) = vd arwr (ȳ) + donné en (2.11). Notons que ∆betw,y GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 9 / 25 Remarques ∆ S 2.2 Le terme manquant betw,y correspond à une variabilité inter-strates. K On pourrait penser à utiliser l’estimateur de variance vg arwr (ȳ) = s2 k qui "oublie" la stratification. Graubard et Korn montrent dans le cas d’une allocation proportionnelle que cette approche conduit à sur-estimer la variance. S 2.8 Graubard et Korn établissent un parallèle avec le contexte d’une enquête en deux phases pour une stratification. Ne pas tenir compte du second terme de V ar(ȳ) = EF V arRS (ȳ) + V arF (Ȳ ) conduit à ignorer la variance des tailles de strate dues à la 1ère phase de tirage. GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 10 / 25 Estimation d’un ratio L’estimation de paramètres complexes peut se faire en utilisant la technique de linéarisation. Dans le cas de données (Ui , Xi , ηi ) ∼iid F l’estimateur du ratio ρ vaut r̄ = avec ρ= EF (U ) , EF (X) ū . x̄ On peut utiliser l’estimateur de variance approximativement sans biais vd arSP (r̄) = vd arwr (z̄) + avec zhi = b betw,z ∆ K 1 (uhi − r̄ xhi ) (Section 2.3). x̄ L’estimation de variance pour les paramètres d’une régression linéaire ou d’une régression logistique s’effectue de la même manière (Section 2.4). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 11 / 25 Etude par simulations Afin de quantifier le biais de l’estimateur de variance vg arwr (ȳ), Korn et Graubard (1998) donnent les résultats d’une petite étude par simulations. On note πh = E(Kh /K), et : L X variance inter-strates : πh (µh − µ)2 , variance intra-strates : h=1 L X πh σh2 . h=1 Fraction de sondage 1% 10% 25% Ratio variance inter/variance intra 0.1 1 2 < 1% 1% 2% 1% 9% 17% 2% 20% 33% Table: Biais relatif de l’estimateur de variance var ˆ wr (ȳ) pour un STSRS avec un taux de sondage identique dans les strates GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 12 / 25 Section 3 Model with clusters GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 13 / 25 Le modèle Population (U) : K unités primaires Elle est subdivisée en L strates contenant Strate 1 unités primaires Strate 3 unités primaires Unité primaire n° i De taille unités primaires Strate 2 unités primaires Unité secondaire n° j de taille et de total unités secondaires Caractérisé par une variable de taille Et une variable d’appartenance à la strate GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 14 / 25 Le modèle Les données dans la population U sont générées selon le modèle suivant : Mij αi σ11i σ12i F : ∼iid L , Tij τi σ22i (αi , τi , σ11i , σ22i , σ12i , Ni , Zi , ηi ) ∼iid F pour i = 1, . . . , K, avec Mij le nombre d’UT dans l’US j de l’UP i, Tij le total de la variable d’intérêt dans l’US j de l’UP i, ηi une indicatrice de strate, générée selon une loi discrète de support {1, . . . , L}, Zi une variable aléatoire représentant une variable de taille pour l’UP i. On note Kh le nombre total d’unités primaires obtenues dans la strate h (telles que ηi = h). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 15 / 25 Le plan de sondage Au premier degré, un échantillon de kh UP est sélectionné dans la strate h, avec des probabilités proportionnelles à la variable de taille Zi . Au second degré, un échantillon de nhi US est sélectionné dans l’UP i appartenant à la strate h, selon un sondage aléatoire simple avec remise. Les degrés suivants d’échantillonnage n’ont pas besoin d’être spécifiés. L’article requiert seulement la connaissance des poids de sondages whijl des UT appartenant à l’US j. GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 16 / 25 Le paramètre de superpopulation Le paramètre de superpopulation à estimer est : µ= EF (Ni τi ) EF (Ni αi ) estimé asymptotiquement sans biais par : PL Pkh thi t ȳ = = PLh=1 Pki=1 h d h=1 i=1 dhi où thi = nhi X thij , dhi = j=1 X whijl yhijl , dhij = l=1 GC - CFM (ENSAI) dhij , j=1 mhij mhij thij = nhi X Superpopulation parameters X whijl . l=1 GT Sondages Econo. 17 / 25 Le paramètre de superpopulation La variance de cet estimateur est donnée par V ar(ȳ) ≈ EF V arRS (ȳ) + V arF (Ȳ ) car ERS (ȳ) ≈ Ȳ et Ȳ = PL PKh Thi PL PKh Nhi h=1 h=1 i=1 i=1 (4) Le premier terme de (4) peut être estimé asymptotiquement sans biais par : kh L kh X 2 λhi λhj 1 X X 2 vd arwo (ȳ) = 2 − 1 (thi − ȳdhi ) − thj − ȳdhj + Ksw d h=1 i=1 j<i λhij avec L k h 1 XX λhi nhi s2hi , K h=1 i=1 n hi X (thi − ȳdhi ) 2 1 (thij − ȳdhij ) − . = nhi − 1 nhi s2w = s2hi j=1 GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 18 / 25 Le paramètre de superpopulation La variance de cet estimateur est donnée par V ar(ȳ) ≈ EF V arRS (ȳ) + V arF (Ȳ ) car ERS (ȳ) ≈ Ȳ et Ȳ = PL PKh PL PKh h=1 h=1 i=1 (4) Thi i=1 Nhi Un estimateur sans biais du deuxième terme de variance est donné par : " # L kh 1 K XX 2 2 vd ar Ȳ = 2 λhi (thi − ȳdhi ) − Ksw d K −1 h=1 i=1 L’estimateur final de la variance est : vd arSP (ȳ) = vd arwo (ȳ) + vd ar Ȳ Cet estimateur nécessite la connaissance des probabilités d’inclusion d’ordre 2 des UP, notées λhij . GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 18 / 25 Le paramètre de superpopulation Afin de se libérer de cette contrainte, Graubard et Korn proposent de construire un estimateur de variance à partir de l’estimateur de variance avec remise. Pour cela, ils utilisent la décomposition suivante : V ar(ȳ) = EF V ar(ȳ|strateobs) + V arF (E(ȳ|strateobs)) Le premier terme peut être estimé asymptotiquement sans biais par : 2 kh kh L X X X 1 kh (thi − ȳdhi ) − 1 vd arwr (ȳ) = 2 (thj − ȳdhj ) . d kh − 1 kh h=1 GC - CFM (ENSAI) i=1 Superpopulation parameters j=1 GT Sondages Econo. 19 / 25 Le paramètre de superpopulation Un estimateur sans biais du second terme de variance est donné par : ˆ st−mpps = vd ∆ arb − vd arw où #2 "k L h 1 X 1 X vd arb = 2 (thi − ȳdhi ) , d Kh h=1 i=1 2 kh kh L X X X 1 kh (thi − ȳdhi ) − 1 vd arw = 2 (thj − ȳdhj ) . d Kh (kh − 1) kh h=1 i=1 j=1 L’estimateur final de la variance est : vd arSP (ȳ) = vd arwr (ȳ) + vd arb − vd arw . Une heuristique est donnée dans Korn et Graubard (1998). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 20 / 25 Les conditions asymptotiques On considère que l’on tire un nombre d’UP croissant dans un nombre fixe de strates. On fait croître le nombre de strates en gardant dans chaque strate un taux de sondage faible pour les UP. Les conditions plus techniques sont données par Korn et Graubard (1998). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 21 / 25 Remarques Le fait d’avoir une fraction de sondage faible au 1er degré, ne permet pas d’obtenir un estimateur de variance "avec remise" approximativement sans biais. En effet, même avec une fraction de sondage globale faible au 1er degré, ils montrent que le biais de l’estimateur de variance "avec remise" var ˆ wr peut être élevé si une proportion (même petite) de grosses UP est échantillonnée, dans une strate avec une fraction de sondage importante. GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 22 / 25 Sections 4 et 5 Section 4 : Revue de la littérature d’articles portant sur des sujets connexes, Section 5 : Application des estimateurs de variance proposés sur trois enquêtes (NHIS, NHANES III, NHDS). GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 23 / 25 Section 6 Discussion GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 24 / 25 Discussion Choix du paramètre d’intérêt Paramètres d’un modèle de superpopulation relativement simple. D’autres approches (complexes) permettant d’incorporer dans le modèle toutes les caractéristiques de la population et du plan de sondage sont possibles. Choix de l’estimateur L’utilisation d’un estimateur basé sur le plan de sondage permet de limiter les hypothèses du modèle. Prise en compte de l’aléa de sondage Possible de définir des estimateurs de variance basés sur le modèle, mais au prix d’hypothèses supplémentaires. Réaliser une analyse conditionnelle? GC - CFM (ENSAI) Superpopulation parameters GT Sondages Econo. 25 / 25