Présentation de Guillaume Chauvet et Cyril Favre-Martinoz

Transcription

Présentation de Guillaume Chauvet et Cyril Favre-Martinoz
Inference for superpopulation parameters using sample
surveys
by
Barry I. Graubard and Edward L. Korn
Guillaume Chauvet et Cyril Favre-Martinoz
École Nationale de la Statistique et de l’Analyse de l’Information
Groupe de travail Sondages et Econométrie
Insee
09/02/2015
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
1 / 25
En bref
Les auteurs s’intéressent à l’estimation de paramètres de superpopulation
pour des données issues d’une enquête par sondage (plan stratifié, plan à
plusieurs degrés). Plus précisément, ils s’intéressent à l’estimation de variance pour des estimateurs de ces paramètres.
Une façon habituelle d’estimer la variance consiste à "oublier" que l’échantillon
est issu d’un plan de sondage, comme si les données étaient directement
générées selon le modèle de superpopulation. Les auteurs montrent que
cette approche peut conduire à sous-estimer la variance globale.
Les auteurs proposent également une revue de la littérature, en comparant
leur approche avec des approches existantes.
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
2 / 25
Contexte
Les données dans la population U sont générées selon un modèle de superpopulation
F : Yi ∼iid L(µ, σ 2 )
pour
i = 1, . . . , K
avec K la taille de la population finie U .
Un échantillon est ensuite tiré dans U selon un plan de sondage p(·) :
un sondage aléatoire simple stratifié (STSRS) est considéré dans la
Section 2 : "Model without clusters";
un sondage à plusieurs degrés, avec tirage à probabilités inégales (pps)
au 1er degré, est considéré dans la Section 3 : "Model with clusters".
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
3 / 25
Section 2
Model without clusters
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
4 / 25
Le modèle
Les données dans la population U sont générées selon un modèle à deux
niveaux :
F : (Yi , ηi ) ∼iid F
pour
i = 1, . . . , K,
avec
ηi une indicatrice de strate, générée selon une loi discrète de support
{1, . . . , L},
Yi générée conditionnellement à ηi = h selon une loi L(µh , σh2 ).
On note Kh le nombre total d’observations obtenues dans la strate h (telles
que ηi = h). On note également
Ȳ =
L
X
Kh
h=1
K
Ȳh
avec
Kh
1 X
Ȳh =
yhi .
Kh
i=1
Un échantillon est ensuite sélectionné selon un STSRS de taille kh dans la
strate h (l’allocation peut dépendre des tailles de strates).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
5 / 25
Estimation du paramètre µ = EF [Yi ]
On considère l’estimateur (sans biais)
ȳ =
L
X
Kh
h=1
K
ȳh
avec
kh
1 X
ȳh =
yhi .
kh
i=1
La variance de cet estimateur est donnée par
V ar(ȳ) = EF V arRS (ȳ) + V arF ERS (ȳ)
= EF V arRS (ȳ) + V arF (Ȳ ).
(1)
L’estimateur de variance habituel pour un STSRS
vd
arwo (ȳ) =
L
X
K 2 Kh − kh s2
h
h
h=1
K2
Kh
kh
estime sans biais le 1er terme de (1). Son biais vaut donc −V arF (Ȳ ).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
6 / 25
Estimation du paramètre µ = EF [Yi ] (2)
On considère l’estimateur (sans biais)
ȳ =
L
X
Kh
h=1
K
ȳh
avec
kh
1 X
ȳh =
yhi .
kh
i=1
La variance de cet estimateur est donnée par
V ar(ȳ) = EF V arRS (ȳ) + V arF (Ȳ )
= EF V arRS (ȳ) + EF V arF |η (Ȳ ) + V arF EF |η (Ȳ ).
(2)
La variance sous le modèle est due :
à la variabilité des yhi : second terme de (2);
à la variabilité des tailles de strates Kh : troisième terme de (2).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
7 / 25
Estimation du paramètre µ = EF [Yi ] (3)
On considère l’estimateur (sans biais)
ȳ =
L
X
Kh
h=1
K
ȳh
avec
ȳh =
kh
1 X
yhi .
kh
i=1
La variance de cet estimateur est donnée par
V ar(ȳ) = EF V arRS (ȳ) + V arF (Ȳ )
= EF V arRS (ȳ) + EF V arF |η (Ȳ ) + V arF EF |η (Ȳ ).
(3)
L’estimateur de variance qui "oublie" le caractère sans remise
vd
arwr (ȳ) =
L
X
K 2 s2
h
h=1
h
K 2 kh
estime sans biais les 2 1ers termes de (3). Son biais vaut −V arF EF |η (Ȳ ).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
8 / 25
Estimation du paramètre µ = EF [Yi ] (4)
Graubard et Korn proposent d’ajouter un estimateur non biaisé de la partie
manquante. Par exemple, on estime
∆betw,y
V arF EF |η (Ȳ ) ≡
K
L
Kh
1 X
E
(µh − µ)2 .
=
K
K
h=1
en utilisant
b betw,y =
∆
L
L
h=1
h=1
X Kh (K − Kh ) s2
K X Kh
h
(ȳh − ȳ)2 −
K −1
K
K(K − 1) kh
(formule 2.9). On obtient l’estimateur de variance SB
b betw,y
∆
K
= 0 dans le cas d’une seule strate.
vd
arSP (ȳ) = vd
arwr (ȳ) +
donné en (2.11). Notons que ∆betw,y
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
9 / 25
Remarques
∆
S 2.2 Le terme manquant betw,y
correspond à une variabilité inter-strates.
K
On pourrait penser à utiliser l’estimateur de variance
vg
arwr (ȳ) =
s2
k
qui "oublie" la stratification. Graubard et Korn montrent dans le cas
d’une allocation proportionnelle que cette approche conduit à sur-estimer
la variance.
S 2.8 Graubard et Korn établissent un parallèle avec le contexte d’une enquête
en deux phases pour une stratification. Ne pas tenir compte du second
terme de
V ar(ȳ) = EF V arRS (ȳ) + V arF (Ȳ )
conduit à ignorer la variance des tailles de strate dues à la 1ère phase
de tirage.
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
10 / 25
Estimation d’un ratio
L’estimation de paramètres complexes peut se faire en utilisant la technique
de linéarisation. Dans le cas de données
(Ui , Xi , ηi ) ∼iid F
l’estimateur du ratio ρ vaut r̄ =
avec
ρ=
EF (U )
,
EF (X)
ū
.
x̄
On peut utiliser l’estimateur de variance approximativement sans biais
vd
arSP (r̄) = vd
arwr (z̄) +
avec zhi =
b betw,z
∆
K
1
(uhi − r̄ xhi ) (Section 2.3).
x̄
L’estimation de variance pour les paramètres d’une régression linéaire ou
d’une régression logistique s’effectue de la même manière (Section 2.4).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
11 / 25
Etude par simulations
Afin de quantifier le biais de l’estimateur de variance vg
arwr (ȳ), Korn et
Graubard (1998) donnent les résultats d’une petite étude par simulations.
On note πh = E(Kh /K), et :
L
X
variance inter-strates :
πh (µh − µ)2 ,
variance intra-strates :
h=1
L
X
πh σh2 .
h=1
Fraction de sondage
1%
10%
25%
Ratio variance inter/variance intra
0.1
1
2
< 1% 1%
2%
1%
9%
17%
2%
20%
33%
Table: Biais relatif de l’estimateur de variance var
ˆ wr (ȳ) pour un STSRS avec un
taux de sondage identique dans les strates
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
12 / 25
Section 3
Model with clusters
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
13 / 25
Le modèle
Population (U) : K unités primaires
Elle est subdivisée en L strates contenant
Strate 1
unités primaires
Strate 3
unités primaires
Unité primaire n° i
De taille
unités primaires
Strate 2
unités primaires
Unité secondaire n° j de taille
et de total
unités secondaires
Caractérisé par une variable de taille
Et une variable d’appartenance à la strate
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
14 / 25
Le modèle
Les données dans la population U sont générées selon le modèle suivant :
Mij
αi
σ11i σ12i
F :
∼iid L
,
Tij
τi
σ22i
(αi , τi , σ11i , σ22i , σ12i , Ni , Zi , ηi ) ∼iid F pour i = 1, . . . , K,
avec
Mij le nombre d’UT dans l’US j de l’UP i,
Tij le total de la variable d’intérêt dans l’US j de l’UP i,
ηi une indicatrice de strate, générée selon une loi discrète de support
{1, . . . , L},
Zi une variable aléatoire représentant une variable de taille pour l’UP i.
On note Kh le nombre total d’unités primaires obtenues dans la strate h
(telles que ηi = h).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
15 / 25
Le plan de sondage
Au premier degré, un échantillon de kh UP est sélectionné dans la strate
h, avec des probabilités proportionnelles à la variable de taille Zi .
Au second degré, un échantillon de nhi US est sélectionné dans l’UP
i appartenant à la strate h, selon un sondage aléatoire simple avec
remise.
Les degrés suivants d’échantillonnage n’ont pas besoin d’être spécifiés.
L’article requiert seulement la connaissance des poids de sondages whijl
des UT appartenant à l’US j.
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
16 / 25
Le paramètre de superpopulation
Le paramètre de superpopulation à estimer est :
µ=
EF (Ni τi )
EF (Ni αi )
estimé asymptotiquement sans biais par :
PL Pkh
thi
t
ȳ = = PLh=1 Pki=1
h
d
h=1
i=1 dhi
où
thi =
nhi
X
thij ,
dhi =
j=1
X
whijl yhijl ,
dhij =
l=1
GC - CFM (ENSAI)
dhij ,
j=1
mhij
mhij
thij =
nhi
X
Superpopulation parameters
X
whijl .
l=1
GT Sondages Econo.
17 / 25
Le paramètre de superpopulation
La variance de cet estimateur est donnée par
V ar(ȳ) ≈ EF V arRS (ȳ) + V arF (Ȳ )
car ERS (ȳ) ≈ Ȳ et Ȳ =
PL
PKh
Thi
PL
PKh
Nhi
h=1
h=1
i=1
i=1
(4)
Le premier terme de (4) peut être estimé asymptotiquement sans biais
par :


kh L kh X

2
λhi λhj
1 X X
2
vd
arwo (ȳ) = 2
− 1 (thi − ȳdhi ) − thj − ȳdhj
+ Ksw

d h=1 i=1 j<i
λhij
avec
L
k
h
1 XX
λhi nhi s2hi ,
K
h=1 i=1
n
hi
X
(thi − ȳdhi ) 2
1
(thij − ȳdhij ) −
.
=
nhi − 1
nhi
s2w =
s2hi
j=1
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
18 / 25
Le paramètre de superpopulation
La variance de cet estimateur est donnée par
V ar(ȳ) ≈ EF V arRS (ȳ) + V arF (Ȳ )
car ERS (ȳ) ≈ Ȳ et Ȳ =
PL
PKh
PL
PKh
h=1
h=1
i=1
(4)
Thi
i=1 Nhi
Un estimateur sans biais du deuxième terme de variance est donné
par :
"
#
L kh
1
K XX
2
2
vd
ar Ȳ = 2
λhi (thi − ȳdhi ) − Ksw
d K −1
h=1 i=1
L’estimateur final de la variance est :
vd
arSP (ȳ) = vd
arwo (ȳ) + vd
ar Ȳ
Cet estimateur nécessite la connaissance des probabilités d’inclusion
d’ordre 2 des UP, notées λhij .
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
18 / 25
Le paramètre de superpopulation
Afin de se libérer de cette contrainte, Graubard et Korn proposent de
construire un estimateur de variance à partir de l’estimateur de variance
avec remise.
Pour cela, ils utilisent la décomposition suivante :
V ar(ȳ) = EF V ar(ȳ|strateobs) + V arF (E(ȳ|strateobs))
Le premier terme peut être estimé asymptotiquement sans biais par :

2
kh
kh
L
X
X
X
1
kh
(thi − ȳdhi ) − 1
vd
arwr (ȳ) = 2
(thj − ȳdhj ) .
d
kh − 1
kh
h=1
GC - CFM (ENSAI)
i=1
Superpopulation parameters
j=1
GT Sondages Econo.
19 / 25
Le paramètre de superpopulation
Un estimateur sans biais du second terme de variance est donné par :
ˆ st−mpps = vd
∆
arb − vd
arw
où
#2
"k
L
h
1 X 1 X
vd
arb = 2
(thi − ȳdhi ) ,
d
Kh
h=1
i=1

2
kh
kh
L
X
X
X
1
kh
(thi − ȳdhi ) − 1
vd
arw = 2
(thj − ȳdhj ) .
d
Kh (kh − 1)
kh
h=1
i=1
j=1
L’estimateur final de la variance est :
vd
arSP (ȳ) = vd
arwr (ȳ) + vd
arb − vd
arw .
Une heuristique est donnée dans Korn et Graubard (1998).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
20 / 25
Les conditions asymptotiques
On considère que l’on tire un nombre d’UP croissant dans un nombre
fixe de strates.
On fait croître le nombre de strates en gardant dans chaque strate un
taux de sondage faible pour les UP.
Les conditions plus techniques sont données par Korn et Graubard
(1998).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
21 / 25
Remarques
Le fait d’avoir une fraction de sondage faible au 1er degré, ne permet pas
d’obtenir un estimateur de variance "avec remise" approximativement
sans biais.
En effet, même avec une fraction de sondage globale faible au 1er degré, ils montrent que le biais de l’estimateur de variance "avec remise"
var
ˆ wr peut être élevé si une proportion (même petite) de grosses UP
est échantillonnée, dans une strate avec une fraction de sondage importante.
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
22 / 25
Sections 4 et 5
Section 4 : Revue de la littérature d’articles portant sur des sujets
connexes,
Section 5 : Application des estimateurs de variance proposés sur trois
enquêtes (NHIS, NHANES III, NHDS).
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
23 / 25
Section 6
Discussion
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
24 / 25
Discussion
Choix du paramètre d’intérêt
Paramètres d’un modèle de superpopulation relativement simple. D’autres
approches (complexes) permettant d’incorporer dans le modèle toutes
les caractéristiques de la population et du plan de sondage sont possibles.
Choix de l’estimateur
L’utilisation d’un estimateur basé sur le plan de sondage permet de
limiter les hypothèses du modèle.
Prise en compte de l’aléa de sondage
Possible de définir des estimateurs de variance basés sur le modèle, mais
au prix d’hypothèses supplémentaires.
Réaliser une analyse conditionnelle?
GC - CFM (ENSAI)
Superpopulation parameters
GT Sondages Econo.
25 / 25

Documents pareils