polycopié - Studies2

Transcription

polycopié - Studies2
Première partie
La démarche statistique : la représentation
et la modélisation d’observations
La statistique vue par ...
Edwards Deming (universitaire américain et consultant pour l’industrie, 1900–1993)
In God we trust, all others bring data.
Winston Churchill (homme politique britannique, 1874–1965)
Je ne crois aux statistiques que lorsque je les ai falsifiées moi-même.
Georges Elgozy (économiste français, 1909–1989)
Dans toute statistique, l’inexactitude du nombre est compensée par la précision des décimales.
Lord Thorneycroft (homme politique britannique, 1909–1994)
Il ne faut pas utiliser les statistiques commes les ivrognes utilisent les réverbères : pour
s’appuyer et non pour s’éclairer.
Arthur Koestler (écrivain, journaliste et essayiste hongrois, 1905–1983)
La statistique est un bikini. Ce qu’elle révèle est suggestif, ce qu’elle cache est vital.
Gilles Stoltz (mathématicien français, 1979–présent)
La statistique, c’est estimer – encadrer – tester.
CHAPITRE 1
Panorama de la démarche statistique
Le but de ce chapitre est d’illustrer quelques concepts fondamentaux sur des exemples
ne mettant en jeu que les lois les plus simples, essentiellement celles de Bernoulli.
1. Des données à une modélisation
En statistique, comme dans la vraie vie, on se pose des questions, et on essaie d’y
répondre. On considère deux situations différentes conduisant à une modélisation similaire,
– la répétition d’une expérience (on lance une pièce plusieurs fois pour déterminer si
elle est équilibrée),
– la considération d’un échantillon au sein d’une population (on interroge un certain
nombre de personnes prises au hasard pour déterminer le sentiment général, par
exemple lors d’un sondage électoral).
1.1. Telle pièce est-elle équilibrée ? On lance n fois une pièce et on inscrit les
résultats dans un tableau. On code pile par 1 et face par 0.
Lancer numéro
1
2
3
4
5
6
7
8
...
Résultat
0
0
1
0
1
1
1
0
...
On note x1 , x2 , x3 , . . . les résultats successifs. Par exemple, x3 = 1. Ces résultats sont
obtenus de manière aléatoire en lançant la pièce : on note X1 , X2 , . . . les variables aléatoires
correspondantes. Les xt sont les réalisations des Xt , on les appelle les valeurs observées.
Les Xt sont elles-mêmes appelées, par extension, les observations.
S’il s’agit de la même pièce et qu’on ne modifie pas la manière dont on lance, alors on
peut dire que les Xt sont indépendantes et identiquement distribuées. Leur loi commune
est une loi de Bernoulli, de paramètre inconnu noté θ0 .
Remarque 1.1. On connaît donc la forme de la loi commune des observations (une
loi de Bernoulli), mais on ignore son paramètre. L’objet de la statistique est de dire des
choses sur ce paramètre.
Ici, se poser la question de savoir si la pièce est équilibrée revient à se demander si
θ0 = 1/2.
Le traitement mathématique commence donc par considérer le modèle statistique
formé par l’ensemble des lois de Bernoulli : B (θ), où θ 2 [0, 1]. La vraie loi régissant les
observations se trouve bien dans ce modèle. On dispose d’un nombre fini n d’observations
X1 , X2 , . . . , Xn .
1.2. Jean Tibéri vs. Lyne Cohen-Solal. A 20h45, le soir des élections municipales
de 2008, les médias annoncent la victoire de Lyne Cohen-Solal à la mairie du cinquième
Eléments de statistique mathématique
arrondissement. A 21h15, ils font marche arrière et annoncent celle de Jean Tibéri. Nous
verrons dans ce cours pourquoi et comment cela est possible. En gros, sur 100 résultats
d’élections annoncés avant la fin du dépouillement total des voix, quelques-uns, de l’ordre
de 5, sont faux.
Il y avait 25 043 suffrages exprimés, comme on s’en est rendu compte après dépouillement total à 22h. A 20h45, les statisticiens avaient utilisé des premiers résultats partiels
(les feuilles de centaine). Admettons qu’ils aient eu connaissance de 10 telles feuilles. Trois
candidats étant en lice, ils avaient donc, bulletins nuls ou blancs déduits, des observations x1 , . . . , x978 disons. Par exemple, 463 voix pour Lyne Cohen-Solal, 409 voix pour
Jean Tibéri et 106 voix pour Philippe Meyer. Lors du dépouillement final, on a en trouvé
respectivement 11 044, 11 269 et 2 730.
Pour faire leur prédiction à 20h45, les statisticiens modélisent les valeurs observées
comme étant les réalisations de variables aléatoires X1 , . . . , X978 indépendantes et identiquement distribuées selon la distribution finale, celle de 22h, que l’on peut représenter
comme un triplet (pCS , pT , pM ) = (0.45, 0.441, 0.109).
En effet, on tire un petit nombre de valeurs dans un grand ensemble, c’est comme si
l’on tirait successivement avec remise et que chaque tirage donnait des résultats selon la
proportion générale. On appelle ces Xt un échantillon tiré dans la population.
La distribution finale est inconnue, et l’objet de la statistique est de l’inférer à partir
de la connaissance des Xt , pour t = 1, . . . , 978. Dit autrement, on part de l’échantillon
pour en déduire une meilleure connaissance de la population. Le modèle statistique est
formé par l’ensemble des probabilités sur trois éléments,
3
(p1 , p2 , p3 ) 2 R+ : p1 + p2 + p3 = 1 .
Remarque 1.2. Ici, on ne s’intéresse pas tant aux valeurs de p1 et p2 qu’à savoir si
p1 > p2 ou p1 < p2 .
2. Un exemple du travail du mathématicien : construction de fourchettes
Le mathématicien développe des méthodes théoriques mettant en jeu les Xt et étudie
comment les utiliser au mieux pour construire des fourchettes (appelées intervalles de
confiance en statistique) autour des paramètres inconnus des lois sous-jacentes. Ensuite,
on remplace les Xt par leurs réalisations xt et on en déduit un résultat.
2.1. Deux outils bien connus pour commencer. Vous avez vu en classes préparatoires la loi des grands nombres. Elle modélise le fait que lorsque l’on lance un grand
nombre de fois une pièce équilibrée, on a à-peu-près pile la moitié du temps.
Théorème 1.1 (Loi des grands nombres). Soient X1 , . . . , Xn des variables aléatoires indépendantes et identiquement distribuées admettant une espérance µ. Alors
la moyenne empirique converge vers l’espérance,
P
not. 1
Xn =
X1 + . . . + Xn −→ µ .
n
La convergence dans le théorème est en probabilité. On en rappelle la définition formelle ci-dessous pour mémoire, mais vous pourrez l’oublier, car elle tue toute intuition.
On utilisera davantage le fait que Xn doit être proche de µ à partir d’un certain rang. Tout
à fait précisément, on a que pour tout ε > 0,
P Xn − µ > ε −→ 0 .
6
Gilles Stoltz
Eléments de statistique mathématique
Définition 1.1. Lorsqu’une variable aléatoire X admet un moment d’ordre deux,
i.e., E X2 < +∞, elle admet également une espérance et on définit sa variance comme
σ2 (X) = E
h
2 i
X − EX
= E X2 −
EX
2
.
Son écart-type est σ(X), la racine carrée de la variance.
Remarque 1.3. Vous aurez remarqué que nous notons désormais l’espérance µ et la
variance σ2 , et non plus, comme vous l’avez peut-être fait en classes préparatoires, m et
v. C’est une question d’habitude...
Lorsque X1 , . . . , Xn forment un n-échantillon, i.e., lorsqu’elles sont indépendantes et
identiquement distribuées, et que leur loi commune admet un moment d’ordre deux, un
calcul simple montre que la variance de Xn vaut
1 2
σ X1 .
n
(Pour vous entraîner, vous referez le calcul menant à ce résultat chez vous...) On a alors,
en appliquant l’inégalité de Chebychev-Markov, le contrôle suivant des écarts de Xn par
rapport à son espérance µ.
σ2 Xn =
Proposition 1.1 (Inégalité de Chebychev-Markov pour un n-échantillon). Soit un
n-échantillon X1 , . . . , Xn de loi commune admettant une espérance µ et une variance
σ2 . Alors
σ2
P Xn − µ > ε 6 2 .
nε
Remarque 1.4. L’inégalité de Chebychev-Markov entraîne donc la loi des grands
nombres pour des variables aléatoires admettant un moment d’ordre deux.
2.2. Application : construction d’intervalles de confiance. Repartons de l’exemple
de la pièce et supposons qu’en 100 lancers, on ait eu 42 piles et 58 faces, soit une valeur
observée xn = 0.42. On pense donc avec raison que le vrai paramètre θ0 se situe sans doute
autour de 0.42 mais on voudrait quantifier les incertitudes. Un nombre seul ne suffit pas !
Est-ce 42 % plus ou moins 0.1 % ou plus ou moins 10 % ? Dans le premier cas, on peut
conclure que la pièce est biaisée, on ne peut en revanche être formel dans le second cas.
On fait donc appel à la théorie, en passant, dans un premier temps, par les Xt . Celles-ci
sont de loi commune une loi de Bernoulli de paramètre θ0 , soit µ = θ0 et σ2 = θ0 (1 − θ0 ).
La proposition précédente implique donc que
θ (1 − θ )
P Xn − θ0 > ε 6 0 2 0 ,
nε
soit qu’avec probabilité au moins 95 % (un niveau standard de confiance), on a
θ0
2 Xn − εn,
Xn + εn ,
où εn est tel que
θ0 (1 − θ0 )
6 5% .
nε2n
On voudrait calculer εn , or tel qu’écrit ci-dessus, il dépend de θ0 , que l’on ne connaît. Se
rappelant que x(1 − x) 6 1/4, il suffit donc de choisir εn tel que
s
1
= 5% ,
4nε2n
soit
εn =
Gilles Stoltz
1
4n 5 %
=
2.24
pn .
7
Eléments de statistique mathématique
On conclut donc de cette étude théorique qu’avec probabilité au moins 95 %, le vrai
paramètre θ0 se situe dans l’intervalle, construit uniquement sur les observations,
2.24
2.24
Xn − p , Xn + p
n
n
.
L’aléa (le fait qu’on ne soit sûr qu’à 95 % et pas 100 %) est causé par les événements
atypiques, comme par exemple, obtenir au moins 90 fois pile sur 100 lancers, alors que
la pièce est équilibrée. Cet événement a une probabilité faible mais non nulle, et quand
on somme les probabilités de tous ces événements atypiques, que l’on exclut, on arrive à
5 %. Une autre remarque est qu’en grossissant l’intervalle, on peut en proposer un qui soit
valide, à 99 % par exemple ; il suffit de remplacer les 5 % par 1 % dans la détermination de
εn . Enfin, pour être sûr à 100 % de son assertion, il est nécessaire de proposer l’intervalle
[0, 100 %], mais c’est ridicule : c’est comme si l’expérience statistique n’avait pas servi !
La morale, c’est qu’en statistique, pour avancer, il faut prendre des risques, accepter de
ne pas avoir toujours raison. L’intervalle que l’on propose peut être faux si par malchance
on a subi un événement atypique lors de la création de l’échantillon. Ainsi va la vie...
Application : Le paramètre θ0 pour le lancer de la pièce est donc, avec probabilité
95 %, dans l’intervalle
2.24
2.24
= 19.6 %, 64.4 %
xn − p , xn + p
n
n
(on rappelle qu’on avait xn = 0.42 et n = 100). Pour l’instant, on ne peut pas encore
conclure que la pièce est biaisée, même si on pourrait avoir tendance à le croire. Il faut
continuer à lancer !
Exercice 1.1. Calculer avec cette méthode, les intervalles de précision autour des
scores prédits pour Lyne Cohen-Solal et Jean Tibéri. Etes-vous en mesure de prédire le
gagnant ? Que pouvez-vous dire de Philippe Meyer ?
Les intervalles obtenus ici sont un peu plus grands que nécessaires. Cela vient de deux
choses. D’une part, par la majoration de la variance θ0 (1−θ0 ) par 1/4 : c’est d’autant plus
grave que θ0 est proche de 0 ou de 1. D’autre part, par l’inégalité de Chebychev-Markov
elle-même, qui est assez grossière. Une solution souvent plus efficace, quoiqu’asymptotique,
est de recourir au théorème de la limite centrale.
2.3. Théorème de la limite centrale, énoncé et commentaires.
Théorème 1.2 (Théorème de la limite centrale). Soit un n-échantillon X1 , . . . , Xn
de loi commune admettant un moment d’ordre deux, d’espérance et de variance
communes notées µ et σ2 . Alors, on a la convergence en loi
pn
σ
Xn − µ N (0, 1) .
Rappelons tout d’abord la définition de la convergence en loi (vers une loi à densité :
ce qui suit ne vaut pas en l’état pour la convergence vers une loi chargeant des points).
C’est la convergence simple des fonctions de répartition. Ainsi, on a dans le théorème que
pour tout réel x,
p
Zx
n
1
2
not.
not.
P
Xn − µ 6 x = Fn (x) −→ P {Z 6 x} = p
e−z /2 dz = Φ(x) ,
σ
2π 0
8
Gilles Stoltz
Eléments de statistique mathématique
où Z suit une loi normale standard N (0, 1). Il s’en déduit évidemment, par soustraction,
que pour tout intervalle [a, b], on a également
pn
Zb
1
2
e−x /2 dx .
P a6
Xn − µ 6 b −→ P{a 6 Z 6 b} = p
σ
2π a
C’est cette seconde formulation que vous avez dû voir en classes préparatoires.
P
Remarque 1.5. Distinguez bien les symboles → (convergence “déterministe”), −→
(convergence en probabilité) et (convergence en loi).
Remarque 1.6. Avant d’intégrer cette noble école, vous aviez sans doute noté Xn la
variable aléatoire intervenant dans le théorème de la limite centrale ; or, dans la version
ci-dessus, on a
pn
Xn − µ ;
Xn =
σ
certes, vous aviez probablement utilisé la définition
X1 + . . . + Xn − nµ
p
Xn =
σ n
ou par toute autre formulation similaire, mais persuadez-vous bien que ces définitions
sont toutes équivalentes, cela procède d’un simple calcul. Je vous demanderais d’oublier
désormais toutes ces notations Xn , etc. Pour des raisons qui vous apparaîtront claires et
limpides plus tard, il vaut mieux s’intéresser à la moyenne empirique Xn , recentrée, et
p
la multiplier par le facteur n/σ. Efforcez-vous donc d’énoncer le théorème de la limite
centrale comme je l’ai fait plus haut.
On rappelle quelques règles de manipulations des lois normales. (On les reverra plus
en détails dans le chapitre suivant.) Si X suit une loi normale N (µ, σ2 ) alors aX + b suit
une loi normale N (b + µ, a2 σ2 ). Le théorème de la limite centrale indique donc que Xn
suit (approximativement) une loi normale de moyenne µ et de variance σ2 /n,
Xn
N
(d)
σ2
µ,
n
!
.
(Evidemment, on a une égalité en distribution pour tout n lorsque les Xt sont elles-mêmes
gaussiennes.) Autrement dit, la loi de Xn admet un pic gaussien en µ de plus en plus
prononcé.
2.4. Construction de fourchettes à l’aide du théorème de la limite centrale.
Si l’on repart de l’exemple des lancers de la pièce, alors le théorème donne
p
pn
θ0 (1 − θ0 )
Xn − θ0 N (0, 1)
d’où, en prenant a = u et b = −u pour u bien choisi,
pn p
P
Xn − θ0 6 u −→ P |Z| 6 u = 95 % ,
θ0 (1 − θ0 )
où Z suit une loi N (0, 1). On appelle u un quantile de la loi normale ; nous verrons
ultérieurement comment en trouver la valeur. Ici, on admet pour l’instant que u = 1.96.
Comme
pn
θ0 (1 − θ0 )
Xn − θ0 6 1.96
Gilles Stoltz
9
Eléments de statistique mathématique
⇐⇒ θ0
2 In
"
not.
=
Xn −
1.96
p
θ0 (1 − θ0 )
1.96
pn
, Xn +
p
θ0 (1 − θ0 )
pn
#
,
on pourrait en déduire (dans un instant d’égarement) que l’intervalle de confiance contenant, asymptotiquement, le vrai paramètre θ0 est In . Mais In dépend lui-même de θ0 ! On
va donc proposer un intervalle bIn le contenant et ne dépendant plus de θ0 , par exemple,
p
en utilisant que 1.96 x(1 − x) 6 1.96/2 6 1,
In
1
1
not.
b
In = Xn −
, Xn +
.
pn
pn
Remarque 1.7. Une convention utile pour la suite : on mettra un petit chapeau b à
toutes les quantités qui ne dépendent que des observations. Notez bien la différence entre
In , qui ne nous sert que d’un point du vue théorique, et bIn , dans lequel on peut injecter
les valeurs observées et calculer entièrement.
Application : La précision d’une fréquence empirique est donc (pour un niveau de
p
confiance asymptotiquement à 95 %) de 1/ n. Pour l’exemple de la pièce, le vrai paramètre
est donc de 42 % 10 %. On ne peut donc pas encore exclure le cas où elle serait biaisée.
Remarquez cependant que l’intervalle calculé est plus petit que celui précédemment obtenu
par l’inégalité de Chebychev-Markov (mais il n’a une garantie théorique qu’asymptotique).
Exercice 1.2. Reprenez les questions de l’exercice 1.1 avec cette nouvelle méthode.
Les résultats en sont-ils changés ?
Remarque 1.8 (A propos des sondages d’opinion). On les mène souvent par téléphone, en essayant d’interroger un échantillon “représentatif” (i.e., dont les éléments sont
tirés au hasard dans la population mais en se fixant par avance une répartition géographie et socio-professionnelle). L’échantillon
p est généralement composé de 1 000 personnes.
Quelle est la précision attendue ? 1/ 1 000, soit 3 %. Peut-être 2 % puisque l’échantillon
se veut représentatif. Mais dans tous les cas, que penser de ces unes de journaux télévisés
annonçant, en 2007, que taux de projets de vote en faveur de tel ou tel candidat à la
présidentielle ont évolué de 1 % depuis le dernier sondage ? Rien de bon : une si petite
variation est sans doute uniquement causée par l’aléa de tirage de l’échantillon !
3. Tests d’hypothèses :
Pourquoi deux résultats contradictoires peuvent être simultanément vrais !
Les tests illustrent combien le traitement statistique est politique. Un même jeu de
données peut amener à des conclusions (ou plutôt, des absences de conclusion) radicalement opposées, selon le préjugé que l’on chercher à infirmer.
Un test part de deux hypothèses H0 et H1 . H0 est l’hypothèse de laquelle on ne veut se
départir que si on a une excellente raison de le faire ; c’est par exemple une hypothèse de
prudence (le caractère dangereux de tel médicament, telle théorie scientifique actuellement
tenue pour vraie). H1 est l’hypothèse alternative, celle vers laquelle on se tournerait si H0
était révélée fausse par le test.
Exemple 1.1. Considérons un nouvel exemple. On se demande s’il est opportun de
changer le nom d’une enseigne (par exemple, “Camaïeu Homme” vers “Jules”, cela est
arrivé en l’an 2000). Bien sûr, un tel changement a un coût non négligeable (il faut refaire
de nombreuses en-têtes et faire une campagne de communication), mais si le changement
plaît aux consommateurs, cela pourra avoir un impact positif sur les ventes. On interroge
10
Gilles Stoltz
Eléments de statistique mathématique
un panel de consommateurs ; chacun indique s’il préfère la nouvelle (1) ou l’ancienne (0)
dénomination. On note x1 , . . . , x293 les 293 réponses exploitables (autres que “je n’ai pas
d’avis”) obtenues en interrogeant des clients aux caisses des magasins pendant un samedi
partout en France. Parmi elles, il y a eu 156 réponses en faveur du nouveau nom.
Ici encore, et pour les mêmes raisons que plus haut, on peut modéliser le problème en
partant de ce que l’on a affaire à des observations X1 , . . . , X293 indépendantes et identiquement distribuées, selon une loi de Bernoulli de paramètre noté θ0 .
Un directeur du marketing prudent partira de H0 : θ0 6 1/2 (qui correspond à H0 : “les
clients préfèrent l’ancienne dénomination”), à cause du coût au changement. L’hypothèse
alternative serait H1 : θ0 > 1/2. On peut calculer comme précédemment un intervalle
de confiance symétrique autour de xn = 156/293 = 53.2 % ; on obtient, par exemple par
théorème de la limite centrale et avec un niveau de confiance asymptotique à 95 %, l’intervalle [47.4 %, 59.0 %]. (Refaites le calcul pour vous entraîner !) Les données, exploitées
via la construction de l’intervalle de confiance, ne contredisant pas gravement H0 , on la
conserve.
Notez cependant qu’ici, au vu de H1 , il vaudrait mieux procéder différemment (et c’est
là que l’on voit mieux que la théorie des tests a sa propre logique, qui ne se confond pas
avec celle des intervalles de confiance). On a envie de rejeter H0 lorsque la statistique Xn
dépasse un certain seuil, à préciser. Si H0 est vraie, alors dans le pire des cas, θ0 = 1/2 et il
s’agit de déterminer le seuil maximal que Xn atteint à cause de ses fluctuations aléatoires
autour de 1/2. Le théorème de la limite centrale indique que, Z suivant une loi normale
N (0, 1),
p n
1
P p
Xn −
6
u −→ P Z 6 u = 95 %
2
1/4
pour u = 1.65 (là encore, on admet pour l’instant la détermination de cette valeur). Cela
veut dire qu’avec probabilité asymptotique de 95 %, on a
Xn
pn ,
6 12 + 21.65
soit, pour n = 293, Xn
6 54.8 % .
Puisque xn = 53.2 %, on est encore dans la limite des observations typiques lorsque θ0 =
1/2 et on ne rejette pas H0 .
Exercice 1.3. Un directeur du marketing manipulateur aurait pris H00 : θ0 > 1/2 et
H10 : θ0 6 1/2. Il aurait rejeté H00 si Xn était descendu en-dessous d’un certain seuil. Montrez, par un calcul similaire à celui qui précède, que ce seuil vaut 45.2 %. En conséquence
de quoi, il aurait lui aussi conservé son hypothèse H00 .
Remarque 1.9. Notez donc que les tests conservent à la fois H0 et H00 , et ce, sur le
même jeu de données, alors que ces deux hypothèses sont la négation l’une de l’autre !
Le choix de l’hypothèse de départ est donc hautement politique, puisqu’un test tend à la
conserver et à ne s’en départir que pour d’excellentes raisons, lorsque les données la contredisent gravement. Les tests traitent H0 et H1 de manière dissymétrique. Cela vous explique
pourquoi association de consommateurs et industriels peuvent tirer des conclusions radicalement différentes à partir des mêmes observations. En vérité, tant qu’on conserve l’hypothèse de départ, on n’a pas vraiment progressé. Comme le montre l’exercice suivant,
c’est peut-être qu’on la conserve faute de mieux. En revanche, rejeter une hypothèse de
départ et passer à l’hypothèse alternative est signe que l’on a appris quelque chose sur
Gilles Stoltz
11
Eléments de statistique mathématique
les données. A retenir : en statistiques, une hypothèse est vraie tant qu’elle n’a pas été
gravement contredite ! C’était la minute citoyenne...
Exercice 1.4. Montrez, avec les techniques précédentes, que, dans le premier test,
H0 est en revanche rejetée lorsque l’on interroge 2 930 clients et que 1 560 d’entre eux se
prononcent en faveur du nouveau nom. Notez que la proportion de réponses positives est
pourtant toujours de 53.2 % ! Cela illustre le fait qu’un test est d’autant plus informatif
que l’échantillon est grand.
On verra dans le cours à venir sur les tests qu’en réalité, plutôt que de dire simplement
qu’on garde ou non H0 , on pourra quantifier notre attachement à elle. (Souvenez-vous
toujours que l’objet de la statistique mathématique est la quantification des impressions.)
En sorte, à partir d’observations contenant un certain aléa, on arrive à dire combien on
est confiant qu’une certaine assertion déterministe (formée par H0 ) est vraie ou non.
12
Gilles Stoltz