polycopié
Transcription
polycopié
CHAPITRE 4 Estimation par intervalles Résumé : Le chapitre précédent, beaucoup plus théorique que la moyenne des chapitres de ce cours, a introduit le concept de l’estimation et a étudié quelques propriétés qu’il est désirable pour un estimateur d’avoir. Vous avez remarqué au passage que pour un objectif donné, on peut proposer plusieurs estimateurs, et que la théorie nous aide souvent à trouver lequel est le meilleur. Vous avez vu peu d’exemples concrets, mais avez entraperçu l’objet de la recherche en statistique mathématique. Parmi toutes les qualités citées précédemment, la normalité asymptotique, et également, dans une certaine mesure, la consistance, seront constamment utilisées dans ce chapitre. Objectif : Ici, nous allons retrouver des vraies données et nous intéresser à l’estimation en pratique. (Adieu l’abstraction et les contre-exemples vicieux !) On veut donner une idée de la valeur d’un paramètre d’intérêt, par exemple, l’espérance de la loi commune des observations. Mais si, comme en estimation ponctuelle, on ne donne qu’une valeur, il n’y a aucune chance que l’on propose la vraie valeur, même si l’on est en sans doute proche. Il vaut donc mieux indiquer une fourchette de valeurs possibles, tout un intervalle : ni trop gros, pour qu’il soit assez informatif, ni trop petit, pour qu’on soit raisonnablement sûr p qu’il contiennent la vraie valeur. Nous allons voir que typiquement, un 1/ n voisinage d’un estimateur réalise ce compromis (où n est, comme toujours, la taille d’échantillon). Je vais expliquer comment on construit ces voisinages, mais pour la suite, je ne vous demanderai que d’apprendre leur expression, pas de savoir refaire les preuves. Motivation Ce chapitre va vous aider à comprendre la remarque très ironique de Georges Elgozy : « Dans toute statistique, l’inexactitude du nombre est compensé par la précision des décimales. » Vous ne présenterez plus vos résultats comme avant, et verrez qu’il est souvent ridicule de présenter des pourcentages avec de nombreuses décimales, que cela marque un manque de recul profond et vous décrédibiliserait face à vos orateurs. (Inversement, vous pourrez bientôt vous moquer de tous ceux qui annoncent des chiffres trop précis !) Il faut en effet toujours préciser une marge d’erreur, l’analyse des données ne donne qu’une idée plus ou moins vague de la vérité, pas la vérité en elle-même. Exemple 4.1 (Chirac, Le Pen et Jospin, ou du non-usage des intervalles de confiance). Les sondeurs généralement omettent toute indication des marges d’erreur (ou alors, les journalistes ne la reprennent pas). A une exception notable près : à 20h, les soirs d’élection, de plus en plus de pincettes sont prises pour présenter les estimations des résultats. Parfois, même un peu trop : le 21 avril 2002, pas à 20h pile, mais quelques minutes plus tard, il est précisé quelque chose comme 17.0 % 0.5 % de votes en faveur de Jean-Marie Le Pen et 16.5 % 0.5 % pour Lionel Jospin, une annonce pas encore tout à fait claire du second candidat du second tour. Dans l’analyse détaillée des résultats, mais pas dans l’estimation à 20h, les journalistes, surpris par un résultat que les sondages ne prévoyaient pas, prennent Eléments de statistique mathématique le maximum de précautions et proposent des intervalles avec une intersection non-vide. Ce n’est évidemment pas la même chose que d’annoncer 17.0 % 0.1 % et 16.5 % 0.1 %, car là, le classement est clair. On vient bien que des estimées sans intervalles de confiance associés sont quasiment inutiles ! (Au final, les scores seront de 16.86 % et 16.18 %.) Les journalistes n’avaient en revanche pris aucune sorte de précautions lors de la campagne de 2002, lorsqu’ils commentaient les sondages d’opinion. Depuis cet événement, qui a jeté le doute sur ces sondages, plutôt que de parler de marges d’erreur (à 2 % au mieux), ils accompagnent chaque résultat de sondage de la formule : « Nous vous rappelons que ce sondage ne reflète qu’un instantané de l’opinion et ne préjuge pas du résultat de l’élection. » Peut mieux faire... Quand le grand public aura-t-il le droit à une information complète avec marges d’erreur ? A retenir de ce chapitre : La taille des intervalles de confiance mesure la précision de l’estimation. Elle est fonction de l’écart-type et de la taille d’échantillon : plus précisép menent, elle est typiquement proportionnelle à σ/ n. C’est pour cela que la variance est une statistique si importante et qu’on dit qu’elle mesure la dispersion des données. 1. Quantiles d’une loi 1.1. Définition théorique. Dans la suite, nous n’aurons presque toujours qu’à calculer les quantiles de lois admettant une densité f strictement positive sur R ou R+ . Les définitions suivantes ne considèrent donc que ce cadre, et seul un exercice s’intéresse à la définition des quantiles pour les lois discrètes. Définition 4.1 (Fonction de répartition). Etant donnée une variable aléatoire X, de loi admettant une densité f, on définit leur fonction de répartition F comme, pour tout x 2 R, Z not. F(x) = P{X 6 x} = x f(t) dt . −∞ Définition–Théorème 4.1 (Fonction quantile). Avec les notations précédentes, lorsque la loi charge tout R, i.e f > 0 sur R, la fonction de répartition F réalise une bijection croissante R → ]0, 1[. On appelle fonction quantile son inverse F−1 . Pour tout β 2 ]0, 1[, on définit le β-quantile comme F−1 (β). En particulier, si X suit la loi de densité f, on a P X 6 F−1 (β) = β . Remarque 4.1. Certaines lois ne chargent que R+ , comme par exemple la loi exponentielle (ou les lois du χ2 , que nous allons voir bientôt). Pour elles, on adapte la définition suivante de la sorte. Soit une loi telle que f > 0 sur R+ et f = 0 sur R− (la valeur en 0 est sans objet). La fonction de répartition associée F réalise ici une bijection R+ → [0, 1[ ; on appelle fonction quantile son inverse F−1 , et pour tout β 2 ]0, 1[, on définit le β-quantile comme F−1 (β). La différence essentielle par rapport au cas précédent concerne le traitement du cas β = 0. On a en effet de nombreuses valeurs x telles que P{X 6 x} = 0 ; parmi elles, on ne retient que x = F−1 (0) = 0. Exercice 4.1 (Médiane). Montrer que la médiane d’une loi peut être définie comme un certain quantile. 38 Gilles Stoltz Eléments de statistique mathématique 1.2. Calcul pratique. En pratique, et selon les outils à disposition, on exploite un logiciel sur ordinateur (par exemple SPSS – c’est la méthode moderne) ; ou on lit une table de quantiles (c’est la méthode ancienne, qui date du temps où les calculs sur ordinateur n’étaient pas accessibles à tous). Calcul informatique. La minute SPPS 4.1. Les fonctions quantiles sont de la forme IDF.xxx, où xxx est le nom de la loi. Ainsi, on peut lire par exemple dans l’aide : IDF.EXP(p, scale). Numeric. Returns the value of an exponentially decaying variable, with rate of decay scale, for which the cumulative probability is p. ... IDF.NORMAL(prob, mean, stddev). Numeric. Returns the value from the normal distribution, with specified mean and standard deviation stddev, for which the cumulative probability is prob. ... IDF.T(prob, df). Numeric. Returns the value from Student’s t distribution, with specified degrees of freedom df, for which the cumulative probability is prob. Pour calculer des quantiles, il suffit de démarrer une nouvelle page, de taper les valeurs désirées pour β dans la première colonne, puis cliquer sur Transform / Compute Variable, afin de définir une nouvelle variable, qui sera stockée dans la deuxième colonne. Il faudra choisir le groupe de fonctions Inverse DF. Recours à des tables. Lorsque l’on lit une table, il faut bien vérifier si c’est la fonction quantile ou la fonction de répartition qui est tabulée. Il est aisé de passer de l’une à l’autre, encore faut-il un peu de pratique, que je vous propose ci-dessous. Les tables pour les lois considérées sont sur le site web du cours et je vous les ai également distribuées. Exercice 4.2 (Loi normale N (0, 1)). Lire sur la table les quantiles à 60 % et à 40 %. Lire ensuite les quantiles à 98.2 % et à 27.6 %. Indiquer les probabilités qu’une variable aléatoire distribuée selon une loi normale soit : plus petite que 1.82, plus grande que −0.63, et comprise entre −2.13 et 1.98. Enfin, calculer u tel que P |Z| 6 u = 80 % où Z suit une loi N (0, 1). Indication : dans tout l’exercice, utiliser la symétrie de la loi normale par rapport à 0. Exercice 4.3 (Loi de Student T ). Nous allons voir ci-dessous la loi de Student. Elle est également symétrique par rapport à 0. Elle admet un paramètre d, qui est son nombre de degrés de liberté. Déterminer le quantile à 2.5 % de la loi de Student à 9 degrés de liberté. Préciser ensuite u tel que P |T | 6 u = 60 % où T suit une loi de Student à 17 degrés de liberté. Encadrer enfin la probabilité qu’une variable aléatoire distribuée selon la loi de Student à 5 degrés de liberté soit supérieure ou égale à 1. Exercice 4.4 (Loi du χ2 ). Nous allons voir ci-dessous la loi du χ2 . Elle ne charge que R+ ; elle admet elle aussi un paramètre d, qui est son nombre de degrés de liberté. Soit S Gilles Stoltz 39 Eléments de statistique mathématique une variable aléatoire distribuée selon la loi du χ2 à 7 degrés de liberté. Déterminer a et b tels que P{S > a} = 95 % Déterminer ensuite P et P{S 6 b} = 95 % . S 2 [a, b] . Encadrer enfin P{S 6 2}. Exercice 4.5 (Cas d’une variable discrète). Ici, les choses se passent moins bien. Soit P une variable aléatoire distribuée selon une loi de Poisson de paramètre 5. Indiquer la probabilité que P soit plus petite que 3. Déterminer l’ensemble des k tels que P{P > k} 6 5 % . Quel est le plus petit k qui convient ? On considère désormais les k tels que P{P 6 k} 6 5 % . Doit-on, selon vous, s’intéresser désormais au plus petit ou au plus grand des k pour qui cette inégalité est vraie ? Enfin, construire différents intervalles [a, b] tels que P P 2 [a, b] > 90 % . 2. Le minimum de vocabulaire pour commencer Comme expliqué dans les chapitres précédents, on suppose qu’on a déjà modélisé les valeurs observées x1 , . . . , xn comme étant la réalisation d’un n-échantillon X1 , . . . , Xn , de loi commune une loi appartenant à un certain ensemble Pθ , θ 2 Θ . La vraie loi Pθ0 est inconnue et on s’intéresse à l’estimation d’une quantité g(θ0 ) dérivée de cette loi (par exemple, son espérance). Définition 4.2. Un intervalle de confiance bIn pour g(θ0 ) est la donnée d’un couple 0 , soit bn et g bn d’estimateurs g i h 0 b bn , g bn . In = g bn (On suppose qu’on a pris les estimateurs tels que g 6 gbn0 .) Définition 4.3 (Niveau). Un intervalle de confiance bIn pour g(θ0 ) est dit de niveau au moins égal à 1 − α (où α 2 [0, 1]) si P g(θ0 ) 2 bIn > 1 − α . Exemple 4.2. On a par exemple vu au paragraphe 2.2 du chapitre 1 que dans un modèle de Bernoulli, l’intervalle 2.24 2.24 Xn − p , Xn + p n n est un intervalle de confiance de niveau 95 %. Définition 4.4 (Niveau asymptotique). Un intervalle de confiance bIn pour g(θ0 ) est dit de niveau asymptotique au moins égal à 1−α (où α 2 [0, 1]) si pour tout ε > 0, il existe un rang N tel que pour tout n > N, P g(θ0 ) 2 bIn > 1 − α − ε . 40 Gilles Stoltz Eléments de statistique mathématique Remarque 4.2. Il est beaucoup plus difficile de dire ce qu’est un « bon » intervalle de confiance. Intuitivement, on veut qu’il soit de largeur la plus petite possible tout en garantissant le niveau. Ainsi, si g(θ0 ) est un réel, on peut toujours trouver un intervalle de confiance de niveau 1 − α, en prenant par exemple tout R. Mais ce n’est pas bien utile de prendre un ensemble aussi gros : on n’exploite pas les données ! Ce qui suit va montrer comment, justement, les exploiter intelligemment. 3. Intervalle de confiance asymptotique sur la moyenne, dans le cas général On se place dans un modèle où toutes les lois possibles, et en particulier, la vraie loi sous-jacente, admettent un moment d’ordre deux. On rappelle quelques notations issues des chapitres précédents. Un estimateur sans biais de la variance σ2 (θ0 ) est défini par 2 1 X Xj − Xn . n−1 n b 2n = σ j=1 Théorème 4.1. Pour un n-échantillon X1 , . . . , Xn de loi commune admettant un moment d’ordre deux et d’espérance notée µ = µ(θ0 ), on a s n X − µ n b 2n σ N (0, 1) . Nous donnons des éléments de preuve ci-dessous, pour la culture. La démonstration du théorème ne sera pas à retenir, mais simplement son énoncé. En revanche, il faudra comprendre la preuve du corollaire suivant à partir du théorème, et même savoir la retrouver. Corollaire 4.1. On note zβ le β-quantile de la loi N (0, 1). Alors les intervalles suivants sont des intervalles de confiance asymptotiques de la moyenne µ de niveau 1 − α, 2 s 4Xn − z1−α/2 3 s 5 −∞, Xn + z1−α 2 b 2n σ 5 n 2 s not. 4 = Xn z1−α/2 3 b 2n σ 5 ; n 3 b 2n σ 5 ; n 2 s 4Xn + z1−α et 3 s b 2n σ , Xn − z1−α/2 n b 2n σ , +∞ 4 . n Démonstration. On ne fait le raisonnement que pour un des trois intervalles, les arguments étant similaires pour les deux autres. On a 2 µ2 not. b In = 4Xn 3 s z1−α/2 b 2n σ 5 ⇐⇒ −z1−α/2 n de sorte que par le théorème 4.1, P µ 2 bIn −→ −z1−α/2 P 6 s n X − µ 6 z1−α/2 , n b 2n σ 6 Z 6 z1−α/2 =1−α , où Z suit une loi normale N (0, 1). L’égalité de la dernière probabilité à 1 − α procède des mêmes techniques que celles que nous avons employées à l’exercice 4.2 : la loi normale est Gilles Stoltz 41 Eléments de statistique mathématique symétrique par rapport à 0, ainsi, zα/2 = −z1−α/2 ; puis, par inclusion d’événements, P zα/2 6 Z 6 z1−α/2 = P Z 6 z1−α/2 − P Z < zα/2 = 1 − α/2 − α/2 = 1 − α . Remarque 4.3 (Application concrète des formules). Face à des données obtenues comme la réalisation d’un échantillon, et pour encadrer la valeur de l’espérance de la loi commune (inconnue), il faut 1. se fixer un niveau de confiance 1 − α et 2. déterminer la forme de l’intervalle de confiance. Pour le point 1., le niveau standard de confiance est de 95 %, sauf indication contraire. Pour 2., cela dépend du problème posé : il faut utiliser son bon sens. Le corollaire 4.1 propose trois intervalles de confiance, l’un symétrique autour de la moyenne empirique, et les deux autres majorent et minorent respectivement l’espérance de la loi sous-jacente. Le premier intervalle est dit bilatère, les deuxième et troisième sont unilatères. Exemple 4.3. On veut connaître le budget moyen consacré par les Français pour leurs vacances. On tire 1 500 personnes au hasard dans l’annuaire, et on note les réponses x1 , . . . , x978 des 978 sondés qui acceptent de participer à l’enquête (en faisant attention à obtenir quand même un échantillon représentatif de la population, et en négligeant le fait que ce sont peut-être ceux qui ont le plus de temps pour répondre au téléphone qui ont le plus de temps tout court et partent le plus souvent en vacances, ou le fait que ceux qui n’ont pas d’argent pour se payer le téléphone n’en ont sans doute pas non plus pour prendre des congés). Toujours est-il qu’on obtient un budget moyen de 945 euros par membre du foyer, avec un écart-type de 213 euros. Quelle est alors une fourchette sur le véritable montant moyen consacré par l’ensemble des Français aux vacances ? On modélise tout d’abord les données comme la réalisation d’un échantillon X1 , . . . , X978 de loi commune une loi admettant un moment d’ordre deux (et même bornée !). On peut appliquer le résultat du corollaire 4.1. b 2n sont xn = 945 et Ici, les valeurs réalisées de Xn et σ b 2n (x1 , . . . , x978 ) = 2132 . σ On n’a pas de raison de ne pas prendre un intervalle bilatère. On prend un niveau de 95 % et il faut déterminer z97.5 % = 1.96. La taille valant n = 978 (et non pas 1 500 !), il vient donc l’intervalle de confiance asymptotique au niveau 95 % 2 4945 s 1.96 3 2132 5 = [931, 959] . 978 (Remarquez que vu la taille de l’intervalle, il serait ridicule de préciser des centimes. On arrondit donc vers les extrémités : la borne supérieure de 958.34 passe simplement à 959 euros.) Exercice 4.6. Répondez à la question 1. de l’exercice II de l’examen de rattrapage de 2007. 42 Gilles Stoltz Eléments de statistique mathématique 3.1. Cas de l’estimation d’une proportion. On se place ici dans le cas d’un modèle de Bernoulli, dans lequel on sait que X1 , . . . , Xn sont i.i.d. selon une loi appartenant à la famille B (p), p 2 [0, 1] . Le vrai paramètre p0 est inconnu et on cherche à l’estimer par un intervalle. On a vu à l’exemple 3.2 que dans le cas d’un modèle de Bernoulli, l’estimateur biaisé de la variance prenait une expression simple, n 2 1X Xj − Xn = Xn 1 − Xn . n j=1 Or, la preuve ci-dessous du théorème 4.1 montre que la seule propriété que l’on utilise de l’estimateur de la variance est son caractère consistant. Ainsi, dans le cas d’une proportion, b 2n par Xn 1 − Xn , qui a une expression plus simple à calculer et on tend à remplacer σ plus agréable à l’œil. Comme µ = p0 , il vient s n Xn − p0 Xn 1 − Xn N (0, 1) et les mêmes techniques que dans la preuve du corollaire 4.1 permettent de tirer des intervalles de confiance asymptotiques à partir de cette convergence en loi. Exemple 4.4. Une banque se demande si elle n’aurait pas accordé trop de prêts immobilier à des clients pas assez solvables. Pour se rassurer, elle voudrait avoir une majoration du taux de défaillance des prêts en cours et imagine la procédure suivante : sélectionner des clients ayant un prêt en cours, regarder le montant de leur échéance, leur salaire moyen (puisqu’il est domicilié à la banque, c’était une condition nécessaire pour l’obtention du prêt), la valeur actuelle de leur bien immobilier (moins une décote de 20 % pour se prémunir contre une mévente), et déterminer si le client pourra continuer à rembourser son prêt jusqu’à l’échéance, et sinon, le cas échéant, si saisir son bien en cours de prêt et le revendre couvrirait la dette. Elle sélectionne alors au hasard des clients dans son portefeuille et fait analyser leur situation. L’analyse durant une heure environ par client et deux analystes étant mobilisés pendant deux semaines, 140 cas peuvent être traités. (On voit ici qu’il serait déraisonnablement coûteux d’étudier l’ensemble des milliers de prêts en cours !) Sur ces 140 cas, seuls 6 présentent un risque sérieux de défaillance. Quel est alors son verdict quant au taux maximum de défaillance attendu ? On note x1 , . . . , x140 les résultats de l’analyse : xj vaut 0 si la dette du client est solvable et 1 s’il est atteint par un risque sérieux de défaillance. Les clients étant tirés au hasard dans le fichier de la banque, qui en comporte beaucoup, on peut bien modéliser le résultat de l’expérience comme la réalisation d’un 140–échantillon X1 , . . . , X140 distribué selon une loi de Bernoulli. Le paramètre inconnu p0 de cette loi est justement le taux de défaillance de l’ensemble des prêts en cours. Il s’agit ici de le majorer pour se rassurer : on propose pour cela un intervalle de confiance unilatère. La théorie (la convergence en loi rappelée ci-dessus) nous dit que, s n Xn − p0 > z5 % −→ 95 % , P Xn 1 − Xn soit, avec probabilité asymptotiquement de 95 %, s p0 6 X n − z5 % Xn 1 − Xn n ⇐⇒ p0 s 2 2 40, Gilles Stoltz Xn + z95 % 3 Xn 1 − Xn 5 n 43 Eléments de statistique mathématique (où l’on a utilisé, pour la dernière équivalence, la symétrie de la loi normale et sa traduction z5 % = −z95 % ). Le calcul pratique, avec les réalisations n = 140, xn = 6/140 et z95 % = 1.65, donne l’intervalle [0, 7.2 %]. La majoration du taux dont on soit sûr (asymptotiquement) à 95 % est donc de 7.2 %. Ici l’asymptotique est respectée, comme on le verra ci-dessous ; elle l’est usuellement en pratique lorsque n > 30. Exercice 4.7 (Marge d’erreur des sondages). Pour un sondage d’opinion, on interroge typiquement 1 000 personnes. Quelle est la marge d’erreur que l’on obtient sur le résultat ? Vous avez peut-être déjà entendu qu’elle était autour de 3 % : retrouvez ce résultat par l’analyse mathématique. 3.2. Preuve du théorème 4.1 et remarques sur la démarche. Ce paragraphe n’est essentiellement mis que pour votre culture. La preuve repose sur le lemme suivant, que nous ne prouverons pas. Si nous voulions le faire, il faudrait que vous ayez d’abord une meilleure caractérisation (équivalente) de la convergence en loi, via la convergence simple des fonctions caractéristiques (transformées de Fourier) des lois. Vous sentez bien que cela nous prendrait trop de temps, alors je vous propose d’admettre ce qui suit. Lemme 4.1 (de Slutzky). Si on deux suites de variables aléatoires (Xn ) et (Yn ), une variable aléatoire X et une constante y telles que Xn X P Yn −→ y , et alors X n + Yn X + y Xn Yn yX . et Démonstration (du théorème 4.1). Le théorème de la limite centrale s’applique et donne r n 0 X − µ X 0 ∼ N (0, 1) . Xn = n σ2 Par ailleurs, on a vu à l’exercice 3.6 (voir aussi le paragraphe 3.1 du chapitre 3) que s b 2n σ P 2 −→ σ , d’où 0 Yn = σ2 P −→ 1 b 2n σ (on a utilisé ici le passage de la convergence en probabilité aux fonctions continues, voir la proposition 3.1). Le lemme de Slutzky conclut alors la preuve. Remarque 4.4 (Quand l’asymptotique est-elle vraie ?). On voit que la preuve repose en particulier sur le théorème de la limite centrale ; à partir de quel rang la variable aléatoire Xn0 introduite dans la preuve a-t-elle une loi proche de celle de la loi normale standard ? Cela dépend évidemment du modèle sous-jacent, mais pour simplifier les choses, on pensera que c’est le cas lorsque n > 30. Dans ce cas, la probabilité de l’intervalle de confiance exhibé est raisonnablement proche de sa probabilité asymptotique. Remarque 4.5 (De l’importance d’estimer la variance...). D’aucuns pourraient vouloir tirer de la convergence en loi Xn0 X 0 garantie par le théorème de la limite centrale, que, par exemple, l’intervalle 2 3 s In = 4Xn z1−α/2 44 Gilles Stoltz σ2 5 n Eléments de statistique mathématique est un intervalle de confiance asymptotiquement de niveau 95 %. En fait, le niveau est bien celui annoncé, mais In n’est pas un un intervalle de confiance ! Il dépend en effet de σ2 = σ2 (θ0 ), qui elle-même dépend de la loi sous-jacente et est un paramètre inconnu. (Remarque : c’est pour cela que je n’ai pas mis de petit chapeau à In !) Il faut estimer cette variance inconnue. En substituant à σ2 son estimateur dans l’expression de In , on retrouve l’intervalle du corollaire 4.1. Attention, c’est une erreur fréquemment commise par les étudiants que de proposer des intervalles qui ne sont pas des intervalles de confiance. Demandez-vous toujours si l’expression que vous proposez est intégralement calculable étant donnée des observations ; si c’est le cas, et alors seulement, il s’agit bien d’un intervalle de confiance. Le truc habituel est d’estimer de manière consistante les paramètres inconnus, comme ici la variance. 4. Planification d’expériences (et exercices !) Jusqu’à présent, on partait des observations, on se fixait un niveau de confiance 1 − α, et on en déduisait un intervalle de confiance. La taille de ce dernier dépendait de n, α, et de l’estimée de la variance ; lorsque ce dernier était bilatère, sa demie-largeur indiquait la précision ε de l’estimation. On se pose désormais le problème inverse. Si, avant de commencer l’expérience statistique, on se fixe une précision ε et un niveau de confiance α, combien d’éléments n recueillir dans l’échantillon ? La banque de l’exercice 4.4 ne s’était pas posé ce problème, elle avait recueilli autant d’observations qu’elle le pouvait, mais dans d’autres cas, et notamment ceux où il est encore plus coûteux d’en obtenir, il vaut mieux réfléchir à leur nombre à l’avance. 4.1. Cas de l’estimation d’une fréquence. On reprend les notations du paragraphe 3.1. Dans ce cas, on a vu que les intervalles de confiance (bilatères) sont de la forme s 2 3 X 1 − X n n 5 b . In = 4Xn z1−α/2 n La précision dépend donc des observations à venir via Xn ! On va majorer cette précision et on choisira n tel que ce majorant soit plus petit que ε. On écrit, en utilisant, comme au chapitre 1, que x(1 − x) 6 1/4, b I n not. b Jn = Xn z1−α/2 2p1 n . b J est également un intervalle de confiance, asymptotiquement à 95 % ; il est plus large que bIn , mais sa précision (sa demie-largeur) est indépendante des observations. Il suffit de prendre, à α et ε fixés, n suffisamment grand pour que n 1 z1−α/2 p 6 ε , 2 n soit n> z1−α/2 2ε 2 . Remarque 4.6 (Planification vs. exploitation d’une expérience). Evidemment, après avoir conduit l’expérience, on peut délaisser l’intervalle bJn pour bIn : la précision sera alors d’autant meilleure que Xn est éloigné de 1/2. On retiendra pour la suite que pour planifier, on considère des intervalles du type de bJn , mais que si l’on dispose des données, on se tourne vers ceux du type de bIn . L’exercice suivant illustre cela. Gilles Stoltz 45 Eléments de statistique mathématique Exercice 4.8 (Les communes qui veulent avoir des raisons de ne pas investir). Des élus de l’opposition requièrent la construction d’un nouvel équipement public, par exemple, un cinéma. La majorité diligente une étude de faisabilité : elle veut tout d’abord déterminer le taux de fréquentation attendu et commandite pour ce faire un sondage. Elle aimerait une estimation de ce taux à 2 % : de combien de foyers n les services municipaux doivent-ils récupérer une opinion ? (Attention, cela suppose évidemment un nombre plus grand n 0 de coups de fil !) Le directeur des services aurait besoin de ce nombre pour établir le planning de travail jusqu’au prochain conseil municipal. Trois semaines plus tard, le sondage a été effectué. On suppose que la moyenne des promesses de fréquentation se situe à 14.2 %. Que peut-on dire de la moyene qu’on aurait eue si on avait pu interroger tous les habitants un par un ? Exercice 4.9 (Les communes qui veulent investir à raison). Dans une autre ville, la majorité municipale veut construire un nouvel équipement public, et sait à l’avance (grâce à l’expérience de villes voisines) que pour qu’il soit rentable, il faut qu’au moins 10 % de la population le fréquente. Peut-on ici faire mieux et interroger moins de gens qu’à l’exercice précédent, étant donné l’objectif chiffré ? Exercice 4.10 (Video killed the radio star). Une radio généraliste s’inquiète de sa perte d’audience. Une enquête faite auprès de 1 186 Français choisis au hasard dans l’annuaire et ayant accepté de répondre montre que 239 d’entre eux ont déclaré écouter au moins de temps en temps la station. Pour assurer son avenir, elle voudrait améliorer sa connaissance des habitudes de ses plus jeunes auditeurs : parmi les sondés, 102 étaient étudiants, et 30 l’écoutaient au moins de temps en temps. La direction de la prospective va diligenter un nouveau sondage destiné uniquement aux étudiants. 1. Modéliser le problème (pour chacun des deux sondages), en précisant la population, les observations et de le modèle ; indiquer en particulier les paramètres d’intérêt respectifs. 2. Déduire du premier sondage une précision et un intervalle de confiance pour le paramètre d’intérêt du second sondage. 3. Combien de personnes faut-il interroger au cours de la seconde enquête, si le degré de confiance retenu est de 95 % et la précision désirée, 3 % ? 4. A l’issue du second sondage, il a été constaté 338 auditeurs. Donner une estimation et un intervalle de confiance du paramètre faisant l’objet de l’étude (avec un degré de confiance de 95 %). 5. Peut-on affirmer que l’audience du segment étudiant a augmenté d’une enquête à l’autre ? (Les deux enquêtes sont séparées de six mois et la station a revu entretemps sa grille de programmes.) 4.2. Cas général. Ici, contrairement au cas des fréquences, on n’a pas de majoration a priori de la variance. Dans le cas précédent, le terme de variance dans la précision de l’intervalle était majoré par 1/4, grâce à l’inégalité x(1 − x) 6 1/4, et on pouvait majorer la précision indépendamment des observations, s z1−α/2 46 Xn 1 − Xn n 6 z1−α/2 2p1 n . Gilles Stoltz Eléments de statistique mathématique Dans le cas général, il s’agirait de majorer, à l’avance, avant de conduire l’expérience, s z1−α/2 b 2n σ , n b 2n ! Pas même son ordre de or, on n’a aucune idée de la valeur qui va être réalisée pour σ grandeur. Il faut ici réaliser une première estimation sur un petit échantillon de taille n, b 2n (x1 , . . . , xn ) de la variance et résoudre en N, à α en déduire une première estimée s2 = σ et ε fixés, s s2 6ε. N N donne alors la taille du nouvel échantillon de données à recueillir, notées xn+1 , . . . , xn+N . On exploite alors ces N nouvelles données uniquement ou l’ensemble des n + N, selon qu’il y a indépendance ou non entre le nouvel et l’ancien échantillon. Remarquez bien qu’il n’est pas du tout garanti que la nouvelle estimée de la variance soit proche de l’ancienne : z1−α/2 b 2n (x1 , . . . , xn ) σ b 2N (xn+1 , . . . , xn+N ) . σ vs. Cela l’est cependant si n avait déjà été pris suffisamment grand, par consistance de l’estimateur de la variance. De toute façon ici, on fait ce qu’on peut et il faut s’en satisfaire... Exercice 4.11. Les gérants d’un marché couvert se demandent quel est le montant moyen des achats par client ; ce sera une partie de leur argumentation montrant aux commerçants installés dans la halle que le montant de la redevance à verser est tout à fait raisonnable, vu le chiffre d’achat. Chaque client volontaire présente aux enquêteurs l’ensemble de ses tickets et ils en font la somme ; ce n’est pas évident, certains tickets se perdent dans les poussettes de marché, les allées sont étroites et le flot des clients ne se prêtent à de longs palabres. Alors, pour planifier les choses le week-end suivant, au bout de 30 clients (ayant dépensé en moyenne 47.32 euros, avec un écart-type sur les données de 12.05 euros) inconfortablement interrogés, le gérant se demande quel nombre n de clients il lui faudrait au total pour avoir une précision de ce montant moyen à 1 euro près. Il réalise alors le sondage de n − 30 clients supplémentaires en dégageant un espace plus calme dans le marché et en embauchant sept enquêteurs pendant une demie-journée, et obtient une moyenne de 48.51 euros, avec un écart-type observé de 9.37 euros. Modéliser la situation en donnant le paramètre d’intérêt, ainsi que les estimations qui lui sont fournies par chacun des deux sondages successifs. 5. Comment estimer la moyenne lorsque la taille d’échantillon est petite ? Les résultats précédents sont asymptotiques et reposent sur le théorème de la limite centrale. On n’en croit les résultats en pratique que lorsque la taille d’échantillon n est suffisamment grande, disons n > 30. Lorsque ce n’est pas le cas, on a une solution, mais uniquement dans le cas du modèle gaussien (qui est cependant très répandu, comme nous l’avons vu au chapitre 2) ; en particulier, cela ne vaut pas dans le cas d’un modèle de Bernoulli, où il s’agit d’estimer une proportion ou une fréquence. Cette solution repose sur la loi de Student. Lorsque les observations X1 , . . . , Xn sont i.i.d. selon une loi normale de paramètres µ et σ2 , alors Xn ∼ N (µ, σ2 /n) et donc Xn − µ q σ2 /n ∼ N (0, 1) . Gilles Stoltz 47 Eléments de statistique mathématique On ne peut déduire de cette assertion un intervalle de confiance sur µ, car il faut encore se débarrasser de la dépendance en σ2 . On l’estime ici encore. Et estimer la variance σ2 b 2n conduit à la loi de Student. par l’estimateur non biaisé σ Définition–Théorème 4.2. Soit X1 , . . . , Xn i.i.d. selon une loi normale de paramètres µ et σ2 . Alors la loi de Xn − µ q b 2n /n σ est indépendante de µ et σ2 ; on l’appelle la loi de Student à n − 1 degrés de liberté, et on la note Tn−1 . Exercice 4.12 (facultatif, proposé uniquement pour la culture). Prouver le théorème ci-dessus (i.e., prouver que la loi de la variable aléatoire considérée est indépendante de µ et σ2 ). Corollaire 4.2. On note tn−1,β le β-quantile de la loi Tn−1 . Alors, sous les hypothèses de la définition–théorème précédente, les intervalles suivants sont des intervalles de confiance de la moyenne µ, exactement de niveau 1 − α, 2 s 4Xn − tn−1,1−α/2 n , Xn − tn−1,1−α/2 3 2 4Xn + tn−1,1−α s b 2n σ n 5 2 not. 4 = Xn 3 s tn−1,1−α/2 b 2n σ n 5 ; 3 s 5 −∞, Xn + tn−1,1−α et 3 s b 2n σ b 2n σ 5 n ; 2 b 2n σ , +∞ 4 . n La preuve du corollaire est totalement similaire à celle du corollaire 4.1, au remplacement des lois normales et de leurs quantiles par ceux de la loi de Student. Remarque 4.7. Les intervalles proposés sont non-asymptotiques, dans ce cadre de modèle gaussien. Ce n’est cependant pas la panacée, parce qu’en pratique, bien malin qui a affaire à des données exactement gausiennes... En revanche, la distribution des valeurs observées est souvent raisonnablement proche d’une loi normale, de sorte que les intervalles de confiance ci-dessus sont d’un niveau raisonnablement proche de 1 − α. Exercice 4.13. Dans l’exercice sur les somnifères de l’examen de l’an dernier, calculez un intervalle de confiance sur ∆ à 95 %. (Demandez-vous bien au préalable s’il vaut mieux le prendre bilatère ou unilatère.) Remarque 4.8. On peut voir (par exemple sur les tables) que, à β > 0.5 fixé, tk,β est une suite décroissante avec k, de limite zβ . Les intervalles de confiance construits à partir de la loi de Student sont donc plus gros que ceux construits sur la loi gaussienne. Cela se comprend bien intuitivement : si la taille d’échantillon est petite, il y a des chances pour que l’estimation de la variance ne soit pas tout à fait bonne, et on compense cela en augmentant la taille de l’intervalle de confiance. 48 Gilles Stoltz Eléments de statistique mathématique 6. Deux compléments utiles 6.1. Intervalles de confiance simultanés (méthode de Bonferroni). On suppose ici que l’on a affaire à des couples de données (x1 , y1 ), . . . , (xn , yn ). Chaque couple (xj , yj ) correspond à un client. Selon le cadre, si l’on peut prouver que les couples (Xj , Yj ) sont i.i.d., alors en particulier les X1 , . . . , Xn sont i.i.d. selon une certaine loi et on peut estimer leur espérance commune µX par un intervalle de confiance bIn , disons de niveau, éventuellement asymptotique, 1 − α. De même pour les Y1 , . . . , Yn : leur espérance commune µY est estimée par un intervalle de confiance bJn de niveau, éventuellement asymptotique, 1 − α. On veut donner une région de confiance sur le couple (µX , µY ). On propose tout naturellement le produit cartésien b =b R In bJn = (m1 , m2 ), m1 2 bIn , m2 2 bJn . n b ? Il faut bien prendre garde au fait que ce niveau est 1 − 2α. Mais quel est le niveau de R n On peut le voir ainsi. P (µX , µY ) 2 Rb n = 1 − P µX 62 bIn ou µY 62 bJn > 1 − P µX 62 bIn + P µY 62 bJn > 1 − 2α ou → 1 − 2α selon que les intervalles sont de niveau exactement ou asymptotiquement 1 − α. b soit de niveau 97.5 %, il faut que b En particulier, si l’on veut que R In et bJn soient de n niveau 97.5 %. Exercice 4.14. Répondez aux questions 2., 4., 5., 6. de l’exercice de vente par correspondance de l’examen de 2007. (La question 1 a déjà été traitée, cf. exercice 2.2 de ce polycopié). Ce qui précède vous sera utile pour déterminer le niveau de confiance de l’intervalle de confiance que vous exhiberez à la question 5. Exercice 4.15 (Les infirmières). Une étude plus fine des salaires des infirmières américaines semble montrer que les salaires dépendent du type de poste (à l’hôpital ou en cabinet). Parmi les 3 000 salaires horaires, 2 000 concernent des infirmières travaillant à l’hôpital : on les note x1 , . . . , x1945 ; et 1 000 des infirmières en cabinet : on note leurs salaires y1 , . . . , y966 . (Dans les deux cas, il y a des données inexploitables.) Avec SPPS (Analyze / Descriptive Statistics / Explore), construire des intervalles de confiance (de niveau asymptotique 99.5 %) sur les salaires de chacun des deux types de poste. En déduire un intervalle de confiance à au moins 99 % de la différence de salaire. Que conclure ? Peut-on dire que les salaires sont significativement différents ? Remarque : la méthode de Bonferroni nous permet de parvenir au niveau 1 − α = 99 %. Mais ici, l’indépendance permet de prendre α légèrement inférieur à cette valeur de 1 % : comment ? On donne à la figure 1 la représentation graphique obtenue avec Graphs / Chart Builder, de même que le tableau des intervalles de confiance auquel on a fait allusion quelques lignes plus haut et qu’il vous faut retrouver par des clics de souris bien effectués. 6.2. Intervalle de confiance sur la variance. On peut calculer des intervalles de confiance sur autre chose que la moyenne, par exemple sur la variance dans le cas du modèle gaussien. Définition 4.5. Si Z1 , . . . , Zk sont i.i.d. selon une loi N (0, 1), alors on appelle la loi de Z21 + . . . + Z2k la loi du χ2 à k degrés de liberté, et on la note χ2k . Gilles Stoltz 49 Eléments de statistique mathématique Fig. 1. Intervalles de confiance à 99.5 % sur le salaire horaire moyen des infirmières selon qu’elles travaillent à l’hôpital ou en cabinet. En particulier, l’espérance d’une variable aléatoire distribuée selon une loi χ2k est k. La loi du χ2 est tabulée, comme on l’a vu au début de ce chapitre. Exercice 4.16. Montrer que si X1 , . . . , Xn sont i.i.d. selon une loi normale de paramètres µ et σ2 , alors n 1 X (Xj − µ)2 ∼ χ2n . σ2 j=1 On note également cela, de manière équivalente, n X (Xj − µ)2 ∼ σ2 χ2n . j=1 En pratique, on ne connaît pas µ, et lorsqu’on l’estime, on perd un degré de liberté, comme le montre la proposition suivante (admise). Proposition 4.1. Lorsque X1 , . . . , Xn sont i.i.d. selon une loi normale de paramètres µ et σ2 , alors n X 2 Xj − Xn ∼ χ2n−1 . j=1 On note également cela, de manière équivalente, b 2n ∼ σ σ2 χ2 n − 1 n−1 b 2n est l’estimateur sans biais de la variance. où σ Corollaire 4.3. On note χ2n−1,β le β-quantile de la loi χ2n−1 . Alors, si les observations sont i.i.d. selon une loi gaussien, les intervalles suivants sont des intervalles de confiance de la variance σ2 , exactement de niveau 1 − α, " 50 b 2n (n − 1) σ b 2n (n − 1) σ , χ2n−1,1−α/2 χ2n−1,α/2 # " ; b 2n (n − 1) σ 0, χ2n−1,α # Gilles Stoltz " ; et b 2n (n − 1) σ , +∞ χ2n−1,1−α " . Eléments de statistique mathématique Exercice 4.17. Prouver ce corollaire à partir de la proposition. (C’est facile, c’est une simple question d’écriture de la définition des quantiles et de quelques manipulations algébriques.) On utilise le second intervalle de confiance quand on soupçonne que la loi commune des données admet une dispersion plutôt faible, et que l’on veut quantifier cette impression. A l’inverse, le troisième intervalle sert pour quantifier les impressions de grande dispersion des données. Dans ce cours, nous ne discuterons que peu de l’estimation de la variance. Cela arrivera juste un peu lors des tests sur données appariées plus loin (quand on devra faire un pré-test d’égalité des variances). Gilles Stoltz 51