TD n 7 Estimation par le quotient Corrigé

Transcription

TD n 7 Estimation par le quotient Corrigé
Myriam Maumy-Bertrand
M2 Statistique - M2 Actuariat - Sondage - 2012/2013
T. D. no 7
Estimation par le quotient
Corrigé
Exercice 1. Comparaison de plusieurs estimateurs.
1.
(i) Estimation par la moyenne à probabilités égales avec remise.
L’estimateur de la moyenne X est égal à :
n
1X
xSASP EAR =
xi
n i=1
et sa variance est égale à :
2
σpop
Var [xSASP EAR ] =
.
n
(ii) Estimation par la moyenne à probabilités égales sans remise.
L’estimateur de la moyenne X est égal à :
n
1X
xSASP ESR =
xi
n i=1
et sa variance est égale à :
2
N − n σpop
Var [xSASP ESR ] =
.
N −1 n
(iii) Estimation par le quotient. L’estimateur de la moyenne X est égal
à:
x
xQ = Y .
y
Cet estimateur est biaisé et par conséquent ce n’est pas la variance
qu’il faut étudier mais l’erreur quadratique de cet estimateur.
2. Construisons l’estimateur par la différence xD :
xD = Y + xSAS − y SAS ,
où Y dénote la moyenne des y pour la population entière.
Justification de l’estimateur. Il y a deux façons de justifier intuitivement
cet estimateur.
Première justification. On peut décomposer X en deux parties, l’une
connue, l’autre pas :
X =Y + X −Y .
La première partie, Y , est
connue, et on n’a pas besoin de l’estimer. La
deuxième partie, X − Y , la différence entre la moyenne des x et celle des
y, n’est pas connue et doit être estimée. On l’estime, naturellement, par la
1
Myriam Maumy-Bertrand
M2 Statistique - M2 Actuariat - Sondage - 2012/2013
différence entre les deux moyennes échantillonnées, x − y. C’est ce qui donne
l’estimateur par la différence.
Deuxième justification. L’estimateur naturel de X est x et a priori c’est
l’estimateur privilégié. Dans l’estimateur par la différence, écrit comme
xD = x + Y − y ,
l’ajout du terme Y − y peut s’interpréter comme un ajustement à l’estimateur x. Grâce à notre information sur la variable y, on peut deviner si, en
l’occurrence, l’estimateur x a surestimé ou sous-estimé la moyenne X.
3. (i) Calculons l’espérance de l’estimateur xD :
E [xD ] = E xSAS + Y − y SAS
= E[xSAS ] + Y − E [y SAS ]
= X +Y −Y
= X.
On en conclut que l’estimateur de la différence xD est un estimateur
sans biais de X.
(ii) Calculons la variance de l’estimateur xD :
Var [xD ] = Var xSAS + Y − y SAS
= Var [xSAS ] − 2Cov(xSAS , y SAS ) + Var [y SAS ] .
4.
À partir de cette égalité, il est d’usage de se demander comment on
doit tirer l’échantillon : à probabilités égales avec ou sans remise.
(i) Estimation par la moyenne à probabilités égales avec remise.
22072, 63;
(ii) Estimation par la moyenne à probabilités égales sans remise.
22072, 63;
(iii) Estimation par le quotient.
22072, 63
32039, 66 ×
= 32763, 08.
21585, 26
(iv) Estimateur par la différence.
32039, 66 + (22072, 63 − 21585, 26) = 32527, 03.
On note une grande variabilité dans les estimations. Pour choisir la meilleure
estimation et par conséquent le meilleur estimateur, il faut savoir quelle est
la plus petite variance associée à chaque estimateur. Pour cela, on va calculer
les différents intervalles de confiance à 95%.
(i) Intervalle de confiance pour la moyenne X (PEAR).
r
4 131 789 466
22072, 63 ± 1, 96 ×
35
22072, 63 ± 1, 96 × 10865, 13
22072, 63 ± 21295, 67
2
Myriam Maumy-Bertrand
M2 Statistique - M2 Actuariat - Sondage - 2012/2013
où 1, 96 est le quantile d’une loi normale centrée réduite à 95%. Or
on fait une large approximation en utilisant une loi normale centrée
réduite. Il serait conseillé d’utiliser plutôt un quantile de Student à
95%.
(ii) Intervalle de confiance pour la moyenne X (PESR).
s
35 4 131 789 466
1−
22072, 63 ± 1, 96 ×
180
35
22072, 63 ± 1, 96 × 9751, 76
22072, 63 ± 19113, 44
où 1, 96 est le quantile d’une loi normale centrée réduite à 95%. Or
on fait une large approximation en utilisant une loi normale centrée
réduite. Il serait conseillé d’utiliser plutôt un quantile de Student à
95%.
(iii) Intervalle de confiance pour la moyenne X (par le quotient).
Estimons maintenant la variance de xQ :
b xy + R
b 2 s2
s2x − 2Rs
y
\
Var [xQ ] = (1 − f )
n
35 4 131 789 466 − 2, 04(4 059 448 772) + (1, 02)2 3 989 656 072
=
1−
180
35
= 32 918, 77.
D’où l’intervalle de confiance pour la moyenne X est égal à
32763, 08 ± 1, 96 × 181, 43
32763, 08 ± 355, 61.
(iv) Intervalle de confiance pour la moyenne X (par la différence).
Estimons maintenant la variance de xD :
s2x − 2sxy + s2y
\
Var
[xD ] = (1 − f )
n
35 4 131 789 466 − 2(4 059 448 772) + 3 989 656 072
=
1−
180
35
= 58 644, 31.
D’où l’intervalle de confiance pour la moyenne X est égal à
32527, 03 ± 1, 96 × 242, 17
32527, 03 ± 474, 64.
Conclusion : Les deux derniers intervalles de confiance pour la moyenne
X sont les plus intéressants pour nous car les deux écart-types sont
très petits. D’autre part, il faut noter qu’il y a peu de différence entre
l’estimateur par le quotient et l’estimateur par la différence.
3
Myriam Maumy-Bertrand
M2 Statistique - M2 Actuariat - Sondage - 2012/2013
5. On constate que les deux estimateurs qui utilisent la variable auxiliaire sont
très nettement meilleurs. Les estimations elles-mêmes sont très différentes :
de l’ordre de 22 000 pour l’estimateur par la moyenne avec ou sans remise ;
et de l’ordre de 32 000 pour les deux autres estimateurs. S’il fallait décider
lequel des estimateurs à employer, on dirait 32 000 plutôt que 22 000. Mais il
n’est pas question, en pratique, de calculer plusieurs estimateurs et puis leur
écart-type. Il faudrait pouvoir faire un choix d’avance. Est-ce qu’on aurait pu
prévoir la supériorité des deux derniers estimateurs, et s’en tenir à l’un ou
l’autre de ces deux, sans même considérer le premier ? Dans le cas présent,
on aurait pu le prévoir. En général, les estimateurs qui font appel à une
variable auxiliaire sont avantageux dans la mesure où la variable auxiliaire est
corrélée positivement avec la variable d’intérêt. Il est évident que le nombre
d’habitants en 1996 est corrélé avec le nombre d’habitants en 2001. C’est
donc une information pertinente, et les estimateurs par la différence et par
le quotient en tirent profit. La leçon importante qui se dégage est « si la
variable auxiliaire est fortement liée à la variable d’intérêt, il vaut mieux
utiliser l’estimateur par la différence ou l’estimateur par le quotient ».
Exercice 2. Estimation d’un ratio. D’après l’examen de Juin 2005, M1IMSV. Remarque à propos de cet exercice : L’énoncé original a été modifié.
Il est donc conseillé de noter les corrections qui ont été apportées.
Cet exercice a été corrigé pendant une séance d’exercices.
Exercice 3. Stratification et estimateur par la diff´erence. D’après l’examen de Janvier 2006, M2-Statistique.
1. L’estimateur est sans biais. En effet, puisque
H
X
Nh b
b
Yπ =
Y h,
N
h=1
où Yb h désigne la moyenne simple des yk dans l’échantillon de la strate h,
h i
h
i
b
E Yb D = E Yb π + X − X
π
h i
h i
b
= E Yb π + X − E X
π
= Y +X −X
= Y.
2. On pose
zk = yk − xk .
On a
b .
Yb D = X + Z
π
4
Myriam Maumy-Bertrand
M2 Statistique - M2 Actuariat - Sondage - 2012/2013
Donc
h i
h i
b
b
Var Y D = Var Z
π
2 2
H X
Nh
nh Szh
=
1−
,
N
N
n
h
h
h=1
où
2
Szh
=
X
1
b 2
zk − Z
h
Nh − 1 k∈U
h
=
et
Sxyh
2
Syh
+
2
Sxh
− 2Sxyh ,
X
1
b
b
=
x k − X h yk − Y h .
Nh − 1 k∈U
h
h
i
b
3. En posant zk = yk − xk , le problème revient à minimiser Var Z π sous la
P
seule contrainte de taille fixe, qui s’écrit ici H
h=1 nh = n. En effet, le coût
unitaire est le même dans toutes les strates, ce qui donne
Nh Szh
n.
nh = H
X
Nl Szl
l=1
En pratique, on estime a priori les Szh , on arrondit nh à l’entier le plus proche,
après avoir fixé n en fonction du budget global dont on dispose. Il peut arriver
que l’on obtienne nh > Nh pour certains h : dans ce cas, on impose nh = Nh
et on reprend l’ensemble du calcul avec les strates restantes.
4. Puisque
2 2
H h i X
Nh
nh Syh
b
Var Y π =
,
1−
N
Nh nh
h=1
et que les deux estimateurs sont sans biais, Yb D est indicutablement préférable
à Yb π lorsque, pour tout h,
2
2
Syh
> Szh
,
soit, pour tout h
Sxyh
1
> .
2
Sxh
2
Cette condition revient à obtenir une droite de régression de y sur x qui, dans
chaque strate, ait une pente supérieure à 1/2. C’est en particulier le cas si on
pose y = x (pente égale à 1) : ce résultat est naturel, car alors
b =X
X
D
quel que soit l’échantillon tiré. On dit que l’estimateur Yb D est « calé » sur
X.
5