Variance d`échantillonnage et échantillons multiples : le cas de deux

Transcription

Variance d`échantillonnage et échantillons multiples : le cas de deux
Variance d’échantillonnage et échantillons
multiples : le cas de deux échantillons disjoints à
entropie maximale
Lionel Qualité
CREST-ENSAI, Rue Blaise Pascal, 35170 Bruz, France.
Abstract
The covariance between Horwitz-Thompson estimators of the total of a variable,
observed on two non-overlapping survey samples drawn according to a bidimensional
simple random sampling scheme, is negative. Henceforth one has a less accurate
estimate of the evolution or the difference between two samples than if the samples
were independant, but one has a better estimator for the total of a variable using
both samples. This property does not hold for all fixed size sampling schemes with
maximum entropy, but can be proved to be true assuming some conditions on the
parameters of the sampling law.
La covariance entre les estimateurs de Horvitz-Thompson du total d’une même
variable, formés à partir de deux échantillons disjoints de taille fixe issus d’un plan
simple est négative. En pratique cela signifie que, lorsque l’on veut estimer une
évolution ou une différence entre deux échantillons sélectionnés de cette manière, la
précision est moins bonne que si on avait tiré les échantillons de manière indépendante.
En contrepartie, l’estimation d’un total sera plus précise. Nous constatons ici que
cette propriété ne peut pas être étendue à tous les plans de taille fixe à entropie
maximale, mais que dans certains cas elle est vérifiée.
mots-clefs: échantillonnage multiple, entropie, sondage Poissonnien, matrice de covariance.
keywords: multiple sampling, entropy, Poisson sampling, covariance matrix.
1
Introduction
Lorsque l’on réalise plusieurs enquêtes sur un même thème, deux objectifs quasiment antinomiques se présentent : obtenir la meilleure estimation possible du total d’une variable,
et de son évolution. Cette incompatibilité se traduit par le signe négatif de la covariance
entre les estimateurs de Horvitz-Thompson du total d’une variable sur deux échantillons
disjoints. En effet, si on veut estimer une évolution entre deux échantillons, on aura la
variance V (X̂1 − X̂2 ) = V (X̂1 ) + V (X̂2 ) − 2Cov(X̂1 , X̂2 ) qui sera meilleure si la covariance
1
est positive, tandis que si on veut estimer un total à partir des deux échantillons, par
combinaison linéaire, la variance V (αX̂1 + (1 − α)X̂2 ) = α2 V (X̂1 ) + (1 − α)2 V (X̂2 ) +
2α(1 − α)Cov(X̂1 , X̂2 ) sera meilleure si la covariance est négative.
On sait que dans le cas d’un sondage aléatoire simple fournissant deux échantillons disjoints, la covariance est toujours négative, et que ça doit être le cas pour d’autres types
d’échantillonnage. En général, lorsqu’on veut pouvoir estimer des évolutions, on essaye
donc de tirer des échantillons qui ont une grosse intersection. Cependant, il arrive, dans
le cas du nouveau système de recensement français, par exemple, que l’on soit confronté
à des échantillons importants, mais disjoints, et il serait intéressant de savoir comment
se comportent les estimateurs d’évolution que l’on peut former à partir de deux vagues
de recensement. Les échantillons du recensement sont tirés, grâce à l’algorithme du cube
[5, p.141-161], selon un plan approximativement à entropie maximale sous certaines contraintes d’équilibrage. Une première approximation, étudiée dans cet article, est de considérer un plan de taille fixe à entropie maximale.
On se place dans un premier temps dans le cas d’enquêtes simultanées : la population et
les variables sont les mêmes dans les différentes enquêtes. Les échantillons proviennent
d’un plan de sondage de dimension supérieure ou égale à deux.
1.1
1.1.1
Définitions
Plan de sondage, probabilités d’inclusion
Un échantillon s est une partie de la population U . Si N = |U |, il peut être vu indifféremment comme un ensemble d’étiquettes {k1 , ..., kn } ⊂ {1, ..., N } ou comme un
vecteur de RN dont les coordonnées d’indices k1 , ..., kn , correspondant aux individus appartenant à l’échantillon, valent 1 et dont les autres coordonnées valent 0.
Un plan de sondage P est une loi de probabilité sur les échantillons s.
Les probabilités d’inclusion du premier ordre πk ; k ∈ U (resp. du second ordre πk,l ) sont
P
P
définies par : πk = E(1k∈s ) = s3k P (s) (resp. πk,l = E(1{k∈s}∩{l∈s} ) = s3k,l P (s)).
1.1.2
Plan de sondage multiple de taille fixe
Un plan de sondage multiple de dimension d est une loi de probabilité sur les d-uplets
(s1 , s2 , ..., sd ) de parties de la population U. Un tel plan est dit de taille fixe si la loi ne
charge que les d-uplets respectant une contrainte de taille :
P (s1 , s2 , ..., sd ) > 0 ⇒ (|s1 | = n1 , ..., |sd | = nd , |s1 ∩ s2 | = n1,2 , ..., |s1 ∩ ... ∩ sd | = n1,...,d )
où les ni1 ,...,ik sont fixés et compatibles.
Il est équivalent d’envisager un plan de sondage sur les 2d − 1 échantillons disjoints dont
2
les tailles sont ainsi fixées : s1 \ ∪i6=1 si ,...,∩di=1 si que l’on note à nouveau s1 , ..., s2d −1 .
1.1.3
Entropie, plan de Poisson
L’entropie du plan de sondage est définie par :
X
H(P ) = −
P (s1 , ..., s2d −1 ) × log(P (s1 , ..., s2d −1 ))
s1 ,...,s2d −1 ⊂U
Un plan qui maximise cette quantité est appelé plan de Poisson. Il existe alors λ1 , ..., λ2d −1
P
des vecteurs de R|U | fonctions des probabilités d’inclusion πki = (s1 ,...,s2d −1 ),si3k (P (s1 , ..., s2d −1 )),
souvent fixées à priori, tels que :
−1
P (s1 , s2 , ..., s2d −1 ) = [CD
exp(λ1 · s1 + ... + λ2d −1 · s2d −1 )]1D (s1 , ..., s2d −1 )
où CD est une constante de normalisation, qui dépend des λi et du domaine d’intégration
(échantillons de taille fixe, contraintes supplémentaires...), et où les échantillons si sont disjoints. Si le plan est de taille fixe (n1 , ..., n2d −1 ), les vecteurs λ1 , ..., λ2d −1 sont définis chacun
à une constante additive près, et C à une constante multiplicative près. Réciproquement,
un plan de sondage de cette forme possède une entropie maximale pour les contraintes
envisagées.
Dans la suite on étudie le cas de deux échantillons disjoints et plus particulièrement
de l’estimation d’une différence entre ces deux échantillons.
1.2
Estimateur de Horvitz-Thompson et variance
On note X̂1 = k∈s1 πxk1 = k∈U xπk1 1k∈s1 et X̂2 = k∈s2 πxk2 les estimateurs de Horvitzk
k
k
Thompson du total d’une variable X sur les deux échantillons.
Si N = |U |, X = (x1 , ..., xN ), la variance de X̂1 , par exemple, s’écrit sous forme
matricielle : V (X̂1 ) = X 0 D 11 ∆1,1 D 11 X où
P
P
P
π
D
et
∆
1,1
=







π
1
π1
=








1
π11
0
..
.
0
1,1
π1,1
− π11 π11
..
.
..
.
1,1
1 1
πN,1 − πN
π1
0
...
.. ..
.
.
.. ..
.
.
... 0
0
..
.
0
1
1
πN




;



1,1
. . . . . . π1,N
.. ..
.
.
.. ..
.
.
1,1
. . . . . . πN,N
3
1
− π11 πN
..
.
..
.
1 1
− πN
πN




.


La matrice de covariance, quant à elle, s’écrit 21 (D 11 ∆1,2 D 12 + D 12 ∆2,1 D 11 )
π
π
π
π
où
k,l
∆k,l = [cov(1i∈sk , 1j∈sl )]i,j∈{1,...,N } = [πi,j
− πik πjl ]i,j ∈ U ; k, l ∈ {1, 2}
∆
2
k,l
=







k,l
π1,1
− π1k π1l
..
.
..
.
k,l
k l
πN,1 − πN
π1
k,l
. . . . . . π1,N
.. ..
.
.
.. ..
.
.
k,l
. . . . . . πN,N
l
− π1k πN
..
.
..
.
k l
− πN
πN




.


Le plan simple, puis un exemple de plan à probabilités inégales
2.1
Le cas du plan simple de taille fixe
Un plan simple de taille fixe (n1 , n2 ) pour deux échantillons disjoints est une loi de probabilité uniforme sur les couples d’échantillons (s1 , s2 ) ∈ P (U )2 tels que s1 ∩ s2 = ∅,
|s1 | = n1 et |s2 | = n2 . Les couples (s1 , s2 ) envisagés par la suite sont supposés respecter
ces conditions.
On a donc :
P (s1 , s2 ) =
1
1{s ∩s =∅,|s1 |=n1 ,|s2 |=n2 } .
CNn1 CNn2−n1 1 2
Les variances et covariances des estimateurs envisagés sont fournies par :
N (N − n1 )
V (X̂1 ) =
n1
− x)2
; V (X̂2 ) =
N −1
k∈U (xk
P
N (N −n2 )
n2
P
(xk −x)2
;
N −1
k∈U
− x)2
.
N −1
On remarque que la covariance ne dépend
pas des tailles n1 et n2 , et que, dans le cas
q
N
limite où n1 = n2 = 2 ; Cov(X̂1 , X̂2 ) = V (X̂1 )V (X̂2 ) = 21 (V (X̂1 ) + V (X̂2 )). On ne peut
donc avoir, en toute généralité, de meilleure majoration que l’évidente : V (X̂1 − X̂2 ) ≤
2(V (X̂1 ) + V (X̂2 )).
On peut remarquer au passage que :
Cov(X̂1 , X̂2 ) = −N
V (αX̂1 + (1 − α)X̂2 ) = N [α
2N
P
k∈U (xk
− n1
N − n2
+ (1 − α)2
− 2α(1 − α)]
n1
n2
4
P
− x)2
.
N −1
k∈U (xk
1
. Tout se passe alors comme si l’on avait
Cette quantité est minimale lorsque α = n1n+n
2
fait un sondage aléatoire simple de taille n1 + n2 et
V (X̂
2.2
n1
n1 +n2
N (N − (n1 + n2 ))
)=
n1 + n 2
P
− x)2
.
N −1
k∈U (xk
Un exemple de plan à probabilités inégales où la covariance
n’est pas négative
La négativité de la covariance entre les estimateurs de Horwitz-Thompson est assurée
pour les plans simples, qui sont des plans à entropie maximale particuliers dans lesquels
les probabilités d’inclusion de tous les individus sont égales. Mais, lorsqu’on impose des
πk non constants, le signe de la covariance peut changer, comme nous allons le voir dans
l’exemple suivant :
Soit U une population de taille 2, P le plan de taille (1, 1) à échantillons disjoints tel que
π11 = λ, π21 = 1 − λ, π12 = 1 − λ, π22 = λ. λ
+ x2 x1 1−λ
− (x21 + x22 ). Si X = (1, 1), par exemple, et
Alors, Cov(X̂1 , X̂2 ) = x1 x2 1−λ
λ
λ 6= 12 , la quantité Cov(X̂1 , X̂2 ) est toujours positive.
Par contre, si les vecteurs de probabilités d’inclusion du premier et du deuxième échantillon
sont égaux, la matrice de covariance possède une valeur propre nulle, pour le vecteur propre (π1 , ..., πn ), comme dans le cas du sondage aléatoire simple. Si, de plus, (π1 , ..., πn )
est proche de ( Nn , ..., Nn ), par continuité, ses autres valeurs propres seront strictement
négatives.
3
Le cas λ1 = λ2
Si les deux vecteurs paramètres de P sont égaux à λ, P (s = s1 ∪s2 ) est un plan Poissonnien.
C’est approximativement la situation dans le recensement rénové de la population.
Le plan P (s) est donné par :
−1
P (s) = CD
X
exp(λ.s) =
s1 ∪s2 =s
où CD =
P
(s1 ,s2 )
Cnn11 +n2
exp(λ.s)
CD
exp(λ.(s1 + s2 )).
La probabilité conditionnelle qu’un individu k appartienne à l’échantillon s1 sachant qu’il
appartient à s = s1 ∪ s2 vaut :
1|s
πk
C −1 s3k s1 3k,s1 ⊂s exp(λ.s)
Cn1 −1 2 −1
n1
= P (k ∈ s1 |k ∈ s) = D −1 P
= n1n+n
=
P
1
Cn1 +n2
n1 + n 2
CD s3k s1 ⊂s exp(λ.s)
P
P
5
2|s
2
et de même, πk = n1n+n
.
2
Les plans P (s1 , .|s) et P (., s2 |s) sont des plans simples (tous les échantillons ont la même
probabilité Cn11 d’être sélectionnés).
On a alors :
n1 +n2
et
2

1 X xk 
n X  xk
Cov(X̂1 , X̂2 |s) = −
−
n − 1 k∈s πks n k∈s πks

X
n 
xk X
Cov(X̂1 , X̂2 ) =
Vs (X̂s ) −
πks (1 − πks )
−
n−1
πks
n
k∈U
Or, dans le cas de l’entropie maximale, Vs (X̂s ) ≈
!2
s
k∈U πk (1
P
−
X
(πks )2
k∈U
−
πks )
xk
πks
−
xk X
−
πks
n
X
n
2
!2 
.
, et dans le
cas du plan simple, la formule est exacte. On peut donc penser que cette quantité est
négative.
La matrice







−(π1s )2
..
.
..
.
s
s s
πN,1 − πN
π1
s
s
. . . . . . π1,N
− π1s πN
..
.. ..
.
.
.
..
.. ..
.
.
.
s 2
... ...
−(πN
)







qui apparaı̂t dans la covariance semble en effet être négative. Si les πks sont tous plus grands
que 21 , la matrice est à diagonale strictement dominante et le résultat est assuré. C’est
également le cas en dimension 2 et 3, et des simulations pour les dimensions supérieures
viennent appuyer ce résultat.
Bibliographie
[1] Caron, N. et Ravalet, P. (2000) Estimation dans les enquêtes répétées : application à
l’enquête emploi en continu, Document de travail INSEE de la direction des statistiques
démographiques et sociales N◦ 0005, Paris.
[2] Deville, J.C. (2001) Notes de cours de théorie des sondages, ENSAE, Paris.
[3] Goga, C. (2003) Estimation de la variance dans les sondages à plusieurs échantillons
et prise en compte de l’information auxiliaire par des méthodes non paramétriques, Thèse
de doctorat, université de Rennes II.
[4] Särndal, C.E., Swensson, B. et Wretman, J.H. (1992) Model assisted survey sampling,
Springer-Verlag, New-York.
[5] Tillé, Y. (2001) Théorie des sondages : échantillonnage et estimation en populations
finies, Dunod, Paris.
6