polycopié

Transcription

polycopié
CHAPITRE 4
Estimation par intervalles
Résumé : Le chapitre précédent, beaucoup plus théorique que la moyenne des chapitres de ce cours, a introduit le concept de l’estimation et a étudié quelques propriétés
qu’il est désirable pour un estimateur d’avoir. Vous avez remarqué au passage que pour
un objectif donné, on peut proposer plusieurs estimateurs, et que la théorie nous aide
souvent à trouver lequel est le meilleur. Vous avez vu peu d’exemples concrets, mais avez
entraperçu l’objet de la recherche en statistique mathématique. Parmi toutes les qualités
citées précédemment, la normalité asymptotique, et également, dans une certaine mesure,
la consistance, seront constamment utilisées dans ce chapitre.
Objectif : Ici, nous allons retrouver des vraies données et nous intéresser à l’estimation
en pratique. (Adieu l’abstraction et les contre-exemples vicieux !) On veut donner une idée
de la valeur d’un paramètre d’intérêt, par exemple, l’espérance de la loi commune des
observations. Mais si, comme en estimation ponctuelle, on ne donne qu’une valeur, il n’y
a aucune chance que l’on propose la vraie valeur, même si l’on est en sans doute proche. Il
vaut donc mieux indiquer une fourchette de valeurs possibles, tout un intervalle : ni trop
gros, pour qu’il soit assez informatif, ni trop petit, pour qu’on soit raisonnablement sûr
p
qu’il contiennent la vraie valeur. Nous allons voir que typiquement, un 1/ n voisinage
d’un estimateur réalise ce compromis (où n est, comme toujours, la taille d’échantillon).
Je vais expliquer comment on construit ces voisinages, mais pour la suite, je ne vous
demanderai que d’apprendre leur expression, pas de savoir refaire les preuves.
Motivation
Ce chapitre va vous aider à comprendre la remarque très ironique de Georges Elgozy :
« Dans toute statistique, l’inexactitude du nombre est compensé par la précision des
décimales. » Vous ne présenterez plus vos résultats comme avant, et verrez qu’il est souvent
ridicule de présenter des pourcentages avec de nombreuses décimales, que cela marque un
manque de recul profond et vous décrédibiliserait face à vos orateurs. (Inversement, vous
pourrez bientôt vous moquer de tous ceux qui annoncent des chiffres trop précis !) Il faut
en effet toujours préciser une marge d’erreur, l’analyse des données ne donne qu’une idée
plus ou moins vague de la vérité, pas la vérité en elle-même.
Exemple 4.1 (Chirac, Le Pen et Jospin, ou du non-usage des intervalles de confiance).
Les sondeurs généralement omettent toute indication des marges d’erreur (ou alors, les
journalistes ne la reprennent pas). A une exception notable près : à 20h, les soirs d’élection,
de plus en plus de pincettes sont prises pour présenter les estimations des résultats. Parfois,
même un peu trop : le 21 avril 2002, pas à 20h pile, mais quelques minutes plus tard, il
est précisé quelque chose comme 17.0 % 0.5 % de votes en faveur de Jean-Marie Le Pen
et 16.5 % 0.5 % pour Lionel Jospin, une annonce pas encore tout à fait claire du second
candidat du second tour. Dans l’analyse détaillée des résultats, mais pas dans l’estimation
à 20h, les journalistes, surpris par un résultat que les sondages ne prévoyaient pas, prennent
Eléments de statistique mathématique
le maximum de précautions et proposent des intervalles avec une intersection non-vide.
Ce n’est évidemment pas la même chose que d’annoncer 17.0 % 0.1 % et 16.5 % 0.1 %,
car là, le classement est clair. On vient bien que des estimées sans intervalles de confiance
associés sont quasiment inutiles ! (Au final, les scores seront de 16.86 % et 16.18 %.)
Les journalistes n’avaient en revanche pris aucune sorte de précautions lors de la campagne de 2002, lorsqu’ils commentaient les sondages d’opinion. Depuis cet événement,
qui a jeté le doute sur ces sondages, plutôt que de parler de marges d’erreur (à 2 % au
mieux), ils accompagnent chaque résultat de sondage de la formule : « Nous vous rappelons
que ce sondage ne reflète qu’un instantané de l’opinion et ne préjuge pas du résultat de
l’élection. » Peut mieux faire... Quand le grand public aura-t-il le droit à une information
complète avec marges d’erreur ?
A retenir de ce chapitre : La taille des intervalles de confiance mesure la précision
de l’estimation. Elle est fonction de l’écart-type et de la taille d’échantillon : plus précisép
menent, elle est typiquement proportionnelle à σ/ n. C’est pour cela que la variance est
une statistique si importante et qu’on dit qu’elle mesure la dispersion des données.
1. Quantiles d’une loi
1.1. Définition théorique. Dans la suite, nous n’aurons presque toujours qu’à calculer les quantiles de lois admettant une densité f strictement positive sur R ou R+ . Les
définitions suivantes ne considèrent donc que ce cadre, et seul un exercice s’intéresse à la
définition des quantiles pour les lois discrètes.
Définition 4.1 (Fonction de répartition). Etant donnée une variable aléatoire X,
de loi admettant une densité f, on définit leur fonction de répartition F comme, pour
tout x 2 R,
Z
not.
F(x) =
P{X 6 x} =
x
f(t) dt .
−∞
Définition–Théorème 4.1 (Fonction quantile). Avec les notations précédentes,
lorsque la loi charge tout R, i.e f > 0 sur R, la fonction de répartition F réalise une
bijection croissante R → ]0, 1[. On appelle fonction quantile son inverse F−1 .
Pour tout β 2 ]0, 1[, on définit le β-quantile comme F−1 (β). En particulier, si X
suit la loi de densité f, on a
P X 6 F−1 (β) = β .
Remarque 4.1. Certaines lois ne chargent que R+ , comme par exemple la loi exponentielle (ou les lois du χ2 , que nous allons voir bientôt). Pour elles, on adapte la définition
suivante de la sorte.
Soit une loi telle que f > 0 sur R+ et f = 0 sur R− (la valeur en 0 est sans objet). La
fonction de répartition associée F réalise ici une bijection R+ → [0, 1[ ; on appelle fonction
quantile son inverse F−1 , et pour tout β 2 ]0, 1[, on définit le β-quantile comme F−1 (β).
La différence essentielle par rapport au cas précédent concerne le traitement du cas
β = 0. On a en effet de nombreuses valeurs x telles que
P{X 6 x} = 0 ;
parmi elles, on ne retient que x = F−1 (0) = 0.
Exercice 4.1 (Médiane). Montrer que la médiane d’une loi peut être définie comme
un certain quantile.
38
Gilles Stoltz
Eléments de statistique mathématique
1.2. Calcul pratique. En pratique, et selon les outils à disposition, on exploite un
logiciel sur ordinateur (par exemple SPSS – c’est la méthode moderne) ; ou on lit une table
de quantiles (c’est la méthode ancienne, qui date du temps où les calculs sur ordinateur
n’étaient pas accessibles à tous).
Calcul informatique.
La minute SPPS 4.1. Les fonctions quantiles sont de la forme IDF.xxx, où xxx est
le nom de la loi. Ainsi, on peut lire par exemple dans l’aide :
IDF.EXP(p, scale). Numeric. Returns the value of an exponentially decaying
variable, with rate of decay scale, for which the cumulative probability is p.
...
IDF.NORMAL(prob, mean, stddev). Numeric. Returns the value from the
normal distribution, with specified mean and standard deviation stddev, for which
the cumulative probability is prob.
...
IDF.T(prob, df). Numeric. Returns the value from Student’s t distribution,
with specified degrees of freedom df, for which the cumulative probability is prob.
Pour calculer des quantiles, il suffit de démarrer une nouvelle page, de taper les valeurs désirées pour β dans la première colonne, puis cliquer sur Transform / Compute Variable,
afin de définir une nouvelle variable, qui sera stockée dans la deuxième colonne. Il faudra
choisir le groupe de fonctions Inverse DF.
Recours à des tables. Lorsque l’on lit une table, il faut bien vérifier si c’est la fonction
quantile ou la fonction de répartition qui est tabulée. Il est aisé de passer de l’une à l’autre,
encore faut-il un peu de pratique, que je vous propose ci-dessous. Les tables pour les lois
considérées sont sur le site web du cours et je vous les ai également distribuées.
Exercice 4.2 (Loi normale N (0, 1)). Lire sur la table les quantiles à 60 % et à 40 %.
Lire ensuite les quantiles à 98.2 % et à 27.6 %. Indiquer les probabilités qu’une variable
aléatoire distribuée selon une loi normale soit : plus petite que 1.82, plus grande que −0.63,
et comprise entre −2.13 et 1.98. Enfin, calculer u tel que
P |Z| 6 u = 80 %
où Z suit une loi N (0, 1). Indication : dans tout l’exercice, utiliser la symétrie de la loi
normale par rapport à 0.
Exercice 4.3 (Loi de Student T ). Nous allons voir ci-dessous la loi de Student. Elle
est également symétrique par rapport à 0. Elle admet un paramètre d, qui est son nombre
de degrés de liberté. Déterminer le quantile à 2.5 % de la loi de Student à 9 degrés de
liberté. Préciser ensuite u tel que
P |T | 6 u = 60 %
où T suit une loi de Student à 17 degrés de liberté. Encadrer enfin la probabilité qu’une
variable aléatoire distribuée selon la loi de Student à 5 degrés de liberté soit supérieure ou
égale à 1.
Exercice 4.4 (Loi du χ2 ). Nous allons voir ci-dessous la loi du χ2 . Elle ne charge que
R+ ; elle admet elle aussi un paramètre d, qui est son nombre de degrés de liberté. Soit S
Gilles Stoltz
39
Eléments de statistique mathématique
une variable aléatoire distribuée selon la loi du χ2 à 7 degrés de liberté. Déterminer a et
b tels que
P{S > a} = 95 %
Déterminer ensuite
P
et
P{S 6 b} = 95 % .
S 2 [a, b] . Encadrer enfin P{S 6 2}.
Exercice 4.5 (Cas d’une variable discrète). Ici, les choses se passent moins bien. Soit
P une variable aléatoire distribuée selon une loi de Poisson de paramètre 5. Indiquer la
probabilité que P soit plus petite que 3. Déterminer l’ensemble des k tels que
P{P > k} 6 5 % .
Quel est le plus petit k qui convient ? On considère désormais les k tels que
P{P 6 k} 6 5 % .
Doit-on, selon vous, s’intéresser désormais au plus petit ou au plus grand des k pour qui
cette inégalité est vraie ? Enfin, construire différents intervalles [a, b] tels que
P P 2 [a, b] > 90 % .
2. Le minimum de vocabulaire pour commencer
Comme expliqué dans les chapitres précédents, on suppose qu’on a déjà modélisé les
valeurs observées x1 , . . . , xn comme étant la réalisation d’un n-échantillon X1 , . . . , Xn ,
de loi commune une loi appartenant à un certain ensemble Pθ , θ 2 Θ . La vraie loi Pθ0
est inconnue et on s’intéresse à l’estimation d’une quantité g(θ0 ) dérivée de cette loi (par
exemple, son espérance).
Définition 4.2. Un intervalle de confiance bIn pour g(θ0 ) est la donnée d’un couple
0 , soit
bn et g
bn
d’estimateurs g
i
h
0
b
bn , g
bn
.
In = g
bn
(On suppose qu’on a pris les estimateurs tels que g
6 gbn0 .)
Définition 4.3 (Niveau). Un intervalle de confiance bIn pour g(θ0 ) est dit de niveau
au moins égal à 1 − α (où α 2 [0, 1]) si
P g(θ0 ) 2 bIn > 1 − α .
Exemple 4.2. On a par exemple vu au paragraphe 2.2 du chapitre 1 que dans un
modèle de Bernoulli, l’intervalle
2.24
2.24
Xn − p , Xn + p
n
n
est un intervalle de confiance de niveau 95 %.
Définition 4.4 (Niveau asymptotique). Un intervalle de confiance bIn pour g(θ0 )
est dit de niveau asymptotique au moins égal à 1−α (où α 2 [0, 1]) si pour tout ε > 0,
il existe un rang N tel que pour tout n > N,
P g(θ0 ) 2 bIn > 1 − α − ε .
40
Gilles Stoltz
Eléments de statistique mathématique
Remarque 4.2. Il est beaucoup plus difficile de dire ce qu’est un « bon » intervalle
de confiance. Intuitivement, on veut qu’il soit de largeur la plus petite possible tout en
garantissant le niveau. Ainsi, si g(θ0 ) est un réel, on peut toujours trouver un intervalle
de confiance de niveau 1 − α, en prenant par exemple tout R. Mais ce n’est pas bien utile
de prendre un ensemble aussi gros : on n’exploite pas les données ! Ce qui suit va montrer
comment, justement, les exploiter intelligemment.
3. Intervalle de confiance asymptotique sur la moyenne, dans le cas général
On se place dans un modèle où toutes les lois possibles, et en particulier, la vraie loi
sous-jacente, admettent un moment d’ordre deux. On rappelle quelques notations issues
des chapitres précédents. Un estimateur sans biais de la variance σ2 (θ0 ) est défini par
2
1 X
Xj − Xn .
n−1
n
b 2n =
σ
j=1
Théorème 4.1. Pour un n-échantillon X1 , . . . , Xn de loi commune admettant un
moment d’ordre deux et d’espérance notée µ = µ(θ0 ), on a
s
n X
−
µ
n
b 2n
σ
N (0, 1) .
Nous donnons des éléments de preuve ci-dessous, pour la culture. La démonstration
du théorème ne sera pas à retenir, mais simplement son énoncé. En revanche, il faudra
comprendre la preuve du corollaire suivant à partir du théorème, et même savoir la retrouver.
Corollaire 4.1. On note zβ le β-quantile de la loi N (0, 1). Alors les intervalles
suivants sont des intervalles de confiance asymptotiques de la moyenne µ de niveau
1 − α,
2
s
4Xn − z1−α/2
3
s
5 −∞, Xn + z1−α
2
b 2n
σ
5
n
2
s
not. 4
= Xn
z1−α/2
3
b 2n
σ
5 ;
n
3
b 2n
σ
5 ;
n
2
s
4Xn + z1−α
et
3
s
b 2n
σ
, Xn − z1−α/2
n
b 2n
σ
, +∞ 4 .
n
Démonstration. On ne fait le raisonnement que pour un des trois intervalles, les
arguments étant similaires pour les deux autres. On a
2
µ2
not.
b
In = 4Xn
3
s
z1−α/2
b 2n
σ
5 ⇐⇒ −z1−α/2
n
de sorte que par le théorème 4.1,
P µ 2 bIn −→
−z1−α/2
P
6
s
n X
−
µ
6 z1−α/2 ,
n
b 2n
σ
6 Z 6 z1−α/2
=1−α ,
où Z suit une loi normale N (0, 1). L’égalité de la dernière probabilité à 1 − α procède des
mêmes techniques que celles que nous avons employées à l’exercice 4.2 : la loi normale est
Gilles Stoltz
41
Eléments de statistique mathématique
symétrique par rapport à 0, ainsi,
zα/2 = −z1−α/2 ;
puis, par inclusion d’événements,
P zα/2 6 Z 6 z1−α/2 = P Z 6 z1−α/2 − P Z < zα/2 = 1 − α/2 − α/2 = 1 − α .
Remarque 4.3 (Application concrète des formules). Face à des données obtenues
comme la réalisation d’un échantillon, et pour encadrer la valeur de l’espérance de la loi
commune (inconnue), il faut 1. se fixer un niveau de confiance 1 − α et 2. déterminer la
forme de l’intervalle de confiance. Pour le point 1., le niveau standard de confiance est de
95 %, sauf indication contraire. Pour 2., cela dépend du problème posé : il faut utiliser son
bon sens. Le corollaire 4.1 propose trois intervalles de confiance, l’un symétrique autour de
la moyenne empirique, et les deux autres majorent et minorent respectivement l’espérance
de la loi sous-jacente. Le premier intervalle est dit bilatère, les deuxième et troisième sont
unilatères.
Exemple 4.3. On veut connaître le budget moyen consacré par les Français pour
leurs vacances. On tire 1 500 personnes au hasard dans l’annuaire, et on note les réponses
x1 , . . . , x978 des 978 sondés qui acceptent de participer à l’enquête (en faisant attention
à obtenir quand même un échantillon représentatif de la population, et en négligeant le
fait que ce sont peut-être ceux qui ont le plus de temps pour répondre au téléphone qui
ont le plus de temps tout court et partent le plus souvent en vacances, ou le fait que
ceux qui n’ont pas d’argent pour se payer le téléphone n’en ont sans doute pas non plus
pour prendre des congés). Toujours est-il qu’on obtient un budget moyen de 945 euros par
membre du foyer, avec un écart-type de 213 euros. Quelle est alors une fourchette sur le
véritable montant moyen consacré par l’ensemble des Français aux vacances ?
On modélise tout d’abord les données comme la réalisation d’un échantillon X1 , . . . , X978
de loi commune une loi admettant un moment d’ordre deux (et même bornée !). On peut
appliquer le résultat du corollaire 4.1.
b 2n sont xn = 945 et
Ici, les valeurs réalisées de Xn et σ
b 2n (x1 , . . . , x978 ) = 2132 .
σ
On n’a pas de raison de ne pas prendre un intervalle bilatère. On prend un niveau de 95 %
et il faut déterminer z97.5 % = 1.96. La taille valant n = 978 (et non pas 1 500 !), il vient
donc l’intervalle de confiance asymptotique au niveau 95 %
2
4945
s
1.96
3
2132 5
= [931, 959] .
978
(Remarquez que vu la taille de l’intervalle, il serait ridicule de préciser des centimes. On
arrondit donc vers les extrémités : la borne supérieure de 958.34 passe simplement à 959
euros.)
Exercice 4.6. Répondez à la question 1. de l’exercice II de l’examen de rattrapage
de 2007.
42
Gilles Stoltz
Eléments de statistique mathématique
3.1. Cas de l’estimation d’une proportion. On se place ici dans le cas d’un modèle de Bernoulli, dans lequel on sait que X1 , . . . , Xn sont i.i.d. selon une loi appartenant
à la famille B (p), p 2 [0, 1] . Le vrai paramètre p0 est inconnu et on cherche à l’estimer
par un intervalle.
On a vu à l’exemple 3.2 que dans le cas d’un modèle de Bernoulli, l’estimateur biaisé
de la variance prenait une expression simple,
n
2
1X
Xj − Xn = Xn 1 − Xn .
n
j=1
Or, la preuve ci-dessous du théorème 4.1 montre que la seule propriété que l’on utilise de
l’estimateur de la variance est son caractère consistant. Ainsi, dans le cas d’une proportion,
b 2n par Xn 1 − Xn , qui a une expression plus simple à calculer et
on tend à remplacer σ
plus agréable à l’œil. Comme µ = p0 , il vient
s
n
Xn − p0
Xn 1 − Xn
N (0, 1)
et les mêmes techniques que dans la preuve du corollaire 4.1 permettent de tirer des
intervalles de confiance asymptotiques à partir de cette convergence en loi.
Exemple 4.4. Une banque se demande si elle n’aurait pas accordé trop de prêts
immobilier à des clients pas assez solvables. Pour se rassurer, elle voudrait avoir une
majoration du taux de défaillance des prêts en cours et imagine la procédure suivante :
sélectionner des clients ayant un prêt en cours, regarder le montant de leur échéance,
leur salaire moyen (puisqu’il est domicilié à la banque, c’était une condition nécessaire
pour l’obtention du prêt), la valeur actuelle de leur bien immobilier (moins une décote de
20 % pour se prémunir contre une mévente), et déterminer si le client pourra continuer
à rembourser son prêt jusqu’à l’échéance, et sinon, le cas échéant, si saisir son bien en
cours de prêt et le revendre couvrirait la dette. Elle sélectionne alors au hasard des clients
dans son portefeuille et fait analyser leur situation. L’analyse durant une heure environ
par client et deux analystes étant mobilisés pendant deux semaines, 140 cas peuvent être
traités. (On voit ici qu’il serait déraisonnablement coûteux d’étudier l’ensemble des milliers
de prêts en cours !) Sur ces 140 cas, seuls 6 présentent un risque sérieux de défaillance.
Quel est alors son verdict quant au taux maximum de défaillance attendu ?
On note x1 , . . . , x140 les résultats de l’analyse : xj vaut 0 si la dette du client est
solvable et 1 s’il est atteint par un risque sérieux de défaillance. Les clients étant tirés au
hasard dans le fichier de la banque, qui en comporte beaucoup, on peut bien modéliser le
résultat de l’expérience comme la réalisation d’un 140–échantillon X1 , . . . , X140 distribué
selon une loi de Bernoulli. Le paramètre inconnu p0 de cette loi est justement le taux de
défaillance de l’ensemble des prêts en cours. Il s’agit ici de le majorer pour se rassurer :
on propose pour cela un intervalle de confiance unilatère.
La théorie (la convergence en loi rappelée ci-dessus) nous dit que,
s
n
Xn − p0 > z5 %
−→ 95 % ,
P
Xn 1 − Xn
soit, avec probabilité asymptotiquement de 95 %,
s
p0
6 X n − z5 %
Xn 1 − Xn
n
⇐⇒ p0
s
2
2 40,
Gilles Stoltz
Xn + z95 %
3
Xn 1 − Xn
5
n
43
Eléments de statistique mathématique
(où l’on a utilisé, pour la dernière équivalence, la symétrie de la loi normale et sa traduction
z5 % = −z95 % ).
Le calcul pratique, avec les réalisations n = 140, xn = 6/140 et z95 % = 1.65, donne
l’intervalle [0, 7.2 %]. La majoration du taux dont on soit sûr (asymptotiquement) à 95 %
est donc de 7.2 %. Ici l’asymptotique est respectée, comme on le verra ci-dessous ; elle l’est
usuellement en pratique lorsque n > 30.
Exercice 4.7 (Marge d’erreur des sondages). Pour un sondage d’opinion, on interroge
typiquement 1 000 personnes. Quelle est la marge d’erreur que l’on obtient sur le résultat ?
Vous avez peut-être déjà entendu qu’elle était autour de 3 % : retrouvez ce résultat par
l’analyse mathématique.
3.2. Preuve du théorème 4.1 et remarques sur la démarche. Ce paragraphe
n’est essentiellement mis que pour votre culture. La preuve repose sur le lemme suivant,
que nous ne prouverons pas. Si nous voulions le faire, il faudrait que vous ayez d’abord une
meilleure caractérisation (équivalente) de la convergence en loi, via la convergence simple
des fonctions caractéristiques (transformées de Fourier) des lois. Vous sentez bien que cela
nous prendrait trop de temps, alors je vous propose d’admettre ce qui suit.
Lemme 4.1 (de Slutzky). Si on deux suites de variables aléatoires (Xn ) et (Yn ),
une variable aléatoire X et une constante y telles que
Xn X
P
Yn −→ y ,
et
alors
X n + Yn X + y
Xn Yn yX .
et
Démonstration (du théorème 4.1). Le théorème de la limite centrale s’applique
et donne
r
n 0
X
−
µ
X 0 ∼ N (0, 1) .
Xn =
n
σ2
Par ailleurs, on a vu à l’exercice 3.6 (voir aussi le paragraphe 3.1 du chapitre 3) que
s
b 2n
σ
P
2
−→ σ ,
d’où
0
Yn =
σ2 P
−→ 1
b 2n
σ
(on a utilisé ici le passage de la convergence en probabilité aux fonctions continues, voir
la proposition 3.1). Le lemme de Slutzky conclut alors la preuve.
Remarque 4.4 (Quand l’asymptotique est-elle vraie ?). On voit que la preuve repose
en particulier sur le théorème de la limite centrale ; à partir de quel rang la variable
aléatoire Xn0 introduite dans la preuve a-t-elle une loi proche de celle de la loi normale
standard ? Cela dépend évidemment du modèle sous-jacent, mais pour simplifier les choses,
on pensera que c’est le cas lorsque n > 30. Dans ce cas, la probabilité de l’intervalle de
confiance exhibé est raisonnablement proche de sa probabilité asymptotique.
Remarque 4.5 (De l’importance d’estimer la variance...). D’aucuns pourraient vouloir
tirer de la convergence en loi Xn0 X 0 garantie par le théorème de la limite centrale, que,
par exemple, l’intervalle
2
3
s
In = 4Xn z1−α/2
44
Gilles Stoltz
σ2 5
n
Eléments de statistique mathématique
est un intervalle de confiance asymptotiquement de niveau 95 %. En fait, le niveau est
bien celui annoncé, mais In n’est pas un un intervalle de confiance ! Il dépend en effet de
σ2 = σ2 (θ0 ), qui elle-même dépend de la loi sous-jacente et est un paramètre inconnu.
(Remarque : c’est pour cela que je n’ai pas mis de petit chapeau à In !)
Il faut estimer cette variance inconnue. En substituant à σ2 son estimateur dans l’expression de In , on retrouve l’intervalle du corollaire 4.1. Attention, c’est une erreur fréquemment commise par les étudiants que de proposer des intervalles qui ne sont pas des
intervalles de confiance. Demandez-vous toujours si l’expression que vous proposez est intégralement calculable étant donnée des observations ; si c’est le cas, et alors seulement, il
s’agit bien d’un intervalle de confiance. Le truc habituel est d’estimer de manière consistante les paramètres inconnus, comme ici la variance.
4. Planification d’expériences (et exercices !)
Jusqu’à présent, on partait des observations, on se fixait un niveau de confiance 1 − α,
et on en déduisait un intervalle de confiance. La taille de ce dernier dépendait de n, α, et
de l’estimée de la variance ; lorsque ce dernier était bilatère, sa demie-largeur indiquait la
précision ε de l’estimation.
On se pose désormais le problème inverse. Si, avant de commencer l’expérience statistique, on se fixe une précision ε et un niveau de confiance α, combien d’éléments n
recueillir dans l’échantillon ? La banque de l’exercice 4.4 ne s’était pas posé ce problème,
elle avait recueilli autant d’observations qu’elle le pouvait, mais dans d’autres cas, et notamment ceux où il est encore plus coûteux d’en obtenir, il vaut mieux réfléchir à leur
nombre à l’avance.
4.1. Cas de l’estimation d’une fréquence. On reprend les notations du paragraphe 3.1. Dans ce cas, on a vu que les intervalles de confiance (bilatères) sont de la
forme
s
2
3
X
1
−
X
n
n 5
b
.
In = 4Xn z1−α/2
n
La précision dépend donc des observations à venir via Xn ! On va majorer cette précision
et on choisira n tel que ce majorant soit plus petit que ε. On écrit, en utilisant, comme
au chapitre 1, que x(1 − x) 6 1/4,
b
I
n
not.
b
Jn = Xn
z1−α/2 2p1 n
.
b
J
est également un intervalle de confiance, asymptotiquement à 95 % ; il est plus large
que bIn , mais sa précision (sa demie-largeur) est indépendante des observations. Il suffit de
prendre, à α et ε fixés, n suffisamment grand pour que
n
1
z1−α/2 p 6 ε ,
2 n
soit
n>
z1−α/2
2ε
2
.
Remarque 4.6 (Planification vs. exploitation d’une expérience). Evidemment, après
avoir conduit l’expérience, on peut délaisser l’intervalle bJn pour bIn : la précision sera
alors d’autant meilleure que Xn est éloigné de 1/2. On retiendra pour la suite que pour
planifier, on considère des intervalles du type de bJn , mais que si l’on dispose des données,
on se tourne vers ceux du type de bIn . L’exercice suivant illustre cela.
Gilles Stoltz
45
Eléments de statistique mathématique
Exercice 4.8 (Les communes qui veulent avoir des raisons de ne pas investir). Des élus
de l’opposition requièrent la construction d’un nouvel équipement public, par exemple, un
cinéma. La majorité diligente une étude de faisabilité : elle veut tout d’abord déterminer le
taux de fréquentation attendu et commandite pour ce faire un sondage. Elle aimerait une
estimation de ce taux à 2 % : de combien de foyers n les services municipaux doivent-ils
récupérer une opinion ? (Attention, cela suppose évidemment un nombre plus grand n 0 de
coups de fil !) Le directeur des services aurait besoin de ce nombre pour établir le planning
de travail jusqu’au prochain conseil municipal.
Trois semaines plus tard, le sondage a été effectué. On suppose que la moyenne des
promesses de fréquentation se situe à 14.2 %. Que peut-on dire de la moyene qu’on aurait
eue si on avait pu interroger tous les habitants un par un ?
Exercice 4.9 (Les communes qui veulent investir à raison). Dans une autre ville, la
majorité municipale veut construire un nouvel équipement public, et sait à l’avance (grâce
à l’expérience de villes voisines) que pour qu’il soit rentable, il faut qu’au moins 10 % de la
population le fréquente. Peut-on ici faire mieux et interroger moins de gens qu’à l’exercice
précédent, étant donné l’objectif chiffré ?
Exercice 4.10 (Video killed the radio star). Une radio généraliste s’inquiète de sa
perte d’audience. Une enquête faite auprès de 1 186 Français choisis au hasard dans l’annuaire et ayant accepté de répondre montre que 239 d’entre eux ont déclaré écouter au
moins de temps en temps la station. Pour assurer son avenir, elle voudrait améliorer sa
connaissance des habitudes de ses plus jeunes auditeurs : parmi les sondés, 102 étaient
étudiants, et 30 l’écoutaient au moins de temps en temps. La direction de la prospective
va diligenter un nouveau sondage destiné uniquement aux étudiants.
1. Modéliser le problème (pour chacun des deux sondages), en précisant la population,
les observations et de le modèle ; indiquer en particulier les paramètres d’intérêt
respectifs.
2. Déduire du premier sondage une précision et un intervalle de confiance pour le
paramètre d’intérêt du second sondage.
3. Combien de personnes faut-il interroger au cours de la seconde enquête, si le degré
de confiance retenu est de 95 % et la précision désirée, 3 % ?
4. A l’issue du second sondage, il a été constaté 338 auditeurs. Donner une estimation
et un intervalle de confiance du paramètre faisant l’objet de l’étude (avec un degré
de confiance de 95 %).
5. Peut-on affirmer que l’audience du segment étudiant a augmenté d’une enquête à
l’autre ? (Les deux enquêtes sont séparées de six mois et la station a revu entretemps sa grille de programmes.)
4.2. Cas général. Ici, contrairement au cas des fréquences, on n’a pas de majoration
a priori de la variance. Dans le cas précédent, le terme de variance dans la précision de
l’intervalle était majoré par 1/4, grâce à l’inégalité x(1 − x) 6 1/4, et on pouvait majorer
la précision indépendamment des observations,
s
z1−α/2
46
Xn 1 − Xn
n
6 z1−α/2 2p1 n .
Gilles Stoltz
Eléments de statistique mathématique
Dans le cas général, il s’agirait de majorer, à l’avance, avant de conduire l’expérience,
s
z1−α/2
b 2n
σ
,
n
b 2n ! Pas même son ordre de
or, on n’a aucune idée de la valeur qui va être réalisée pour σ
grandeur. Il faut ici réaliser une première estimation sur un petit échantillon de taille n,
b 2n (x1 , . . . , xn ) de la variance et résoudre en N, à α
en déduire une première estimée s2 = σ
et ε fixés,
s
s2
6ε.
N
N donne alors la taille du nouvel échantillon de données à recueillir, notées xn+1 , . . . , xn+N .
On exploite alors ces N nouvelles données uniquement ou l’ensemble des n + N, selon qu’il
y a indépendance ou non entre le nouvel et l’ancien échantillon. Remarquez bien qu’il n’est
pas du tout garanti que la nouvelle estimée de la variance soit proche de l’ancienne :
z1−α/2
b 2n (x1 , . . . , xn )
σ
b 2N (xn+1 , . . . , xn+N ) .
σ
vs.
Cela l’est cependant si n avait déjà été pris suffisamment grand, par consistance de l’estimateur de la variance. De toute façon ici, on fait ce qu’on peut et il faut s’en satisfaire...
Exercice 4.11. Les gérants d’un marché couvert se demandent quel est le montant
moyen des achats par client ; ce sera une partie de leur argumentation montrant aux
commerçants installés dans la halle que le montant de la redevance à verser est tout à
fait raisonnable, vu le chiffre d’achat. Chaque client volontaire présente aux enquêteurs
l’ensemble de ses tickets et ils en font la somme ; ce n’est pas évident, certains tickets se
perdent dans les poussettes de marché, les allées sont étroites et le flot des clients ne se
prêtent à de longs palabres. Alors, pour planifier les choses le week-end suivant, au bout
de 30 clients (ayant dépensé en moyenne 47.32 euros, avec un écart-type sur les données de
12.05 euros) inconfortablement interrogés, le gérant se demande quel nombre n de clients
il lui faudrait au total pour avoir une précision de ce montant moyen à 1 euro près. Il
réalise alors le sondage de n − 30 clients supplémentaires en dégageant un espace plus
calme dans le marché et en embauchant sept enquêteurs pendant une demie-journée, et
obtient une moyenne de 48.51 euros, avec un écart-type observé de 9.37 euros.
Modéliser la situation en donnant le paramètre d’intérêt, ainsi que les estimations qui
lui sont fournies par chacun des deux sondages successifs.
5. Comment estimer la moyenne lorsque la taille d’échantillon est petite ?
Les résultats précédents sont asymptotiques et reposent sur le théorème de la limite
centrale. On n’en croit les résultats en pratique que lorsque la taille d’échantillon n est
suffisamment grande, disons n > 30. Lorsque ce n’est pas le cas, on a une solution, mais
uniquement dans le cas du modèle gaussien (qui est cependant très répandu, comme nous
l’avons vu au chapitre 2) ; en particulier, cela ne vaut pas dans le cas d’un modèle de
Bernoulli, où il s’agit d’estimer une proportion ou une fréquence. Cette solution repose
sur la loi de Student.
Lorsque les observations X1 , . . . , Xn sont i.i.d. selon une loi normale de paramètres µ
et σ2 , alors Xn ∼ N (µ, σ2 /n) et donc
Xn − µ
q
σ2 /n
∼
N (0, 1) .
Gilles Stoltz
47
Eléments de statistique mathématique
On ne peut déduire de cette assertion un intervalle de confiance sur µ, car il faut encore
se débarrasser de la dépendance en σ2 . On l’estime ici encore. Et estimer la variance σ2
b 2n conduit à la loi de Student.
par l’estimateur non biaisé σ
Définition–Théorème 4.2. Soit X1 , . . . , Xn i.i.d. selon une loi normale de paramètres µ et σ2 . Alors la loi de
Xn − µ
q
b 2n /n
σ
est indépendante de µ et σ2 ; on l’appelle la loi de Student à n − 1 degrés de liberté,
et on la note Tn−1 .
Exercice 4.12 (facultatif, proposé uniquement pour la culture). Prouver le théorème
ci-dessus (i.e., prouver que la loi de la variable aléatoire considérée est indépendante de µ
et σ2 ).
Corollaire 4.2. On note tn−1,β le β-quantile de la loi Tn−1 . Alors, sous les
hypothèses de la définition–théorème précédente, les intervalles suivants sont des
intervalles de confiance de la moyenne µ, exactement de niveau 1 − α,
2
s
4Xn − tn−1,1−α/2
n
, Xn − tn−1,1−α/2
3
2
4Xn + tn−1,1−α
s
b 2n
σ
n
5
2
not. 4
= Xn
3
s
tn−1,1−α/2
b 2n
σ
n
5 ;
3
s
5 −∞, Xn + tn−1,1−α
et
3
s
b 2n
σ
b 2n
σ
5
n
;
2
b 2n
σ
, +∞ 4 .
n
La preuve du corollaire est totalement similaire à celle du corollaire 4.1, au remplacement des lois normales et de leurs quantiles par ceux de la loi de Student.
Remarque 4.7. Les intervalles proposés sont non-asymptotiques, dans ce cadre de
modèle gaussien. Ce n’est cependant pas la panacée, parce qu’en pratique, bien malin qui
a affaire à des données exactement gausiennes... En revanche, la distribution des valeurs
observées est souvent raisonnablement proche d’une loi normale, de sorte que les intervalles
de confiance ci-dessus sont d’un niveau raisonnablement proche de 1 − α.
Exercice 4.13. Dans l’exercice sur les somnifères de l’examen de l’an dernier, calculez
un intervalle de confiance sur ∆ à 95 %. (Demandez-vous bien au préalable s’il vaut mieux
le prendre bilatère ou unilatère.)
Remarque 4.8. On peut voir (par exemple sur les tables) que, à β > 0.5 fixé, tk,β est
une suite décroissante avec k, de limite zβ . Les intervalles de confiance construits à partir
de la loi de Student sont donc plus gros que ceux construits sur la loi gaussienne. Cela
se comprend bien intuitivement : si la taille d’échantillon est petite, il y a des chances
pour que l’estimation de la variance ne soit pas tout à fait bonne, et on compense cela en
augmentant la taille de l’intervalle de confiance.
48
Gilles Stoltz
Eléments de statistique mathématique
6. Deux compléments utiles
6.1. Intervalles de confiance simultanés (méthode de Bonferroni). On suppose ici que l’on a affaire à des couples de données (x1 , y1 ), . . . , (xn , yn ). Chaque couple
(xj , yj ) correspond à un client. Selon le cadre, si l’on peut prouver que les couples (Xj , Yj )
sont i.i.d., alors en particulier les X1 , . . . , Xn sont i.i.d. selon une certaine loi et on peut estimer leur espérance commune µX par un intervalle de confiance bIn , disons de niveau, éventuellement asymptotique, 1 − α. De même pour les Y1 , . . . , Yn : leur espérance commune
µY est estimée par un intervalle de confiance bJn de niveau, éventuellement asymptotique,
1 − α.
On veut donner une région de confiance sur le couple (µX , µY ). On propose tout naturellement le produit cartésien
b =b
R
In bJn = (m1 , m2 ), m1 2 bIn , m2 2 bJn .
n
b ? Il faut bien prendre garde au fait que ce niveau est 1 − 2α.
Mais quel est le niveau de R
n
On peut le voir ainsi.
P (µX , µY ) 2 Rb n = 1 − P µX 62 bIn ou µY 62 bJn > 1 − P µX 62 bIn + P µY 62 bJn
> 1 − 2α
ou
→ 1 − 2α
selon que les intervalles sont de niveau exactement ou asymptotiquement 1 − α.
b soit de niveau 97.5 %, il faut que b
En particulier, si l’on veut que R
In et bJn soient de
n
niveau 97.5 %.
Exercice 4.14. Répondez aux questions 2., 4., 5., 6. de l’exercice de vente par correspondance de l’examen de 2007. (La question 1 a déjà été traitée, cf. exercice 2.2 de
ce polycopié). Ce qui précède vous sera utile pour déterminer le niveau de confiance de
l’intervalle de confiance que vous exhiberez à la question 5.
Exercice 4.15 (Les infirmières). Une étude plus fine des salaires des infirmières américaines semble montrer que les salaires dépendent du type de poste (à l’hôpital ou en cabinet). Parmi les 3 000 salaires horaires, 2 000 concernent des infirmières travaillant à l’hôpital : on les note x1 , . . . , x1945 ; et 1 000 des infirmières en cabinet : on note leurs salaires
y1 , . . . , y966 . (Dans les deux cas, il y a des données inexploitables.) Avec SPPS (Analyze /
Descriptive Statistics / Explore), construire des intervalles de confiance (de niveau
asymptotique 99.5 %) sur les salaires de chacun des deux types de poste. En déduire un
intervalle de confiance à au moins 99 % de la différence de salaire. Que conclure ? Peut-on
dire que les salaires sont significativement différents ? Remarque : la méthode de Bonferroni nous permet de parvenir au niveau 1 − α = 99 %. Mais ici, l’indépendance permet de
prendre α légèrement inférieur à cette valeur de 1 % : comment ?
On donne à la figure 1 la représentation graphique obtenue avec Graphs / Chart
Builder, de même que le tableau des intervalles de confiance auquel on a fait allusion
quelques lignes plus haut et qu’il vous faut retrouver par des clics de souris bien effectués.
6.2. Intervalle de confiance sur la variance. On peut calculer des intervalles de
confiance sur autre chose que la moyenne, par exemple sur la variance dans le cas du
modèle gaussien.
Définition 4.5. Si Z1 , . . . , Zk sont i.i.d. selon une loi N (0, 1), alors on appelle la
loi de Z21 + . . . + Z2k la loi du χ2 à k degrés de liberté, et on la note χ2k .
Gilles Stoltz
49
Eléments de statistique mathématique
Fig. 1. Intervalles de confiance à 99.5 % sur le salaire horaire moyen des
infirmières selon qu’elles travaillent à l’hôpital ou en cabinet.
En particulier, l’espérance d’une variable aléatoire distribuée selon une loi χ2k est k.
La loi du χ2 est tabulée, comme on l’a vu au début de ce chapitre.
Exercice 4.16. Montrer que si X1 , . . . , Xn sont i.i.d. selon une loi normale de paramètres µ et σ2 , alors
n
1 X
(Xj − µ)2 ∼ χ2n .
σ2
j=1
On note également cela, de manière équivalente,
n
X
(Xj − µ)2 ∼ σ2 χ2n .
j=1
En pratique, on ne connaît pas µ, et lorsqu’on l’estime, on perd un degré de liberté,
comme le montre la proposition suivante (admise).
Proposition 4.1. Lorsque X1 , . . . , Xn sont i.i.d. selon une loi normale de paramètres µ et σ2 , alors
n
X
2
Xj − Xn
∼ χ2n−1 .
j=1
On note également cela, de manière équivalente,
b 2n ∼
σ
σ2
χ2
n − 1 n−1
b 2n est l’estimateur sans biais de la variance.
où σ
Corollaire 4.3. On note χ2n−1,β le β-quantile de la loi χ2n−1 . Alors, si les observations sont i.i.d. selon une loi gaussien, les intervalles suivants sont des intervalles
de confiance de la variance σ2 , exactement de niveau 1 − α,
"
50
b 2n (n − 1) σ
b 2n
(n − 1) σ
,
χ2n−1,1−α/2 χ2n−1,α/2
#
"
;
b 2n
(n − 1) σ
0,
χ2n−1,α
#
Gilles Stoltz
"
;
et
b 2n
(n − 1) σ
, +∞
χ2n−1,1−α
"
.
Eléments de statistique mathématique
Exercice 4.17. Prouver ce corollaire à partir de la proposition. (C’est facile, c’est
une simple question d’écriture de la définition des quantiles et de quelques manipulations
algébriques.)
On utilise le second intervalle de confiance quand on soupçonne que la loi commune des
données admet une dispersion plutôt faible, et que l’on veut quantifier cette impression. A
l’inverse, le troisième intervalle sert pour quantifier les impressions de grande dispersion
des données.
Dans ce cours, nous ne discuterons que peu de l’estimation de la variance. Cela arrivera
juste un peu lors des tests sur données appariées plus loin (quand on devra faire un pré-test
d’égalité des variances).
Gilles Stoltz
51

Documents pareils