Intervalles de fluctuation
Transcription
Intervalles de fluctuation
Séquence 9 Intervalles de fluctuation, estimation Objectifs de la séquence Dans le chapitre 2, on étudie des intervalles de fluctuation des variables aléatoires Xn Fn = , fréquences des variables aléatoires binomiales X n de paramètres n et p. On n étudie quelques exemples de prise de décision. Dans le chapitre 3, on aborde l’estimation d’une proportion inconnue à partir de celle d’un échantillon. Sommaire 1. Pré-requis 2. Intervalles de fluctuation 3. Estimation 4. Synthèse de la séquence 5. Exercices de synthèse Séquence 9– MA01 1 © Cned - Académie en ligne 1 Pré-requis Échantillonnage En statistiques, un échantillon de taille n est la liste des n résultats obtenus par n répétitions indépendantes de la même expérience aléatoire. Ici l’expérience répétée est une épreuve de Bernoulli, c’est-à-dire qu’elle ne prend que deux valeurs : échec / réussite, oui / non, homme / femme, 0 / 1… Par exemple, un échantillon de taille 100 du lancer d’une pièce dans lequel on compte le nombre de fois où on obtient Pile est la liste des résultats obtenus en lançant effectivement 100 fois la pièce. Le nombre de réussites dans un échantillon de taille n suit la loi binomiale Ꮾ(n ; p ). On appelle f la fréquence du nombre de réussites dans l’échantillon. Définition Un intervalle de fluctuation au seuil de 95 %, relatif aux échantillons de taille n, est un intervalle où se situe la fréquence f observée dans un échantillon de taille n avec une probabilité supérieure à 0,95. On a vu en Seconde que : L’intervalle p − 1 ; p + 1 est un intervalle de fluctuation approché au n n seuil de 95 %, relatif aux échantillons de taille n. Commentaire : dans certains cas, la probabilité que la fréquence appartienne à l’intervalle 1 1 est très proche de 0,95 mais en étant inférieure, c’est ;p+ p − n n pourquoi on dit que ce sont des intervalles de fluctuation « approchés ». 1 1 Dans la pratique, on utilise l’intervalle p − ;p+ pour des probabilités p n n comprises entre 0,2 et 0,8 et des échantillons de taille n supérieure ou égale à 25. Séquence 9– MA01 3 © Cned - Académie en ligne Remarque Tout intervalle qui contient un intervalle de fluctuation au seuil de 95 %, est lui aussi un intervalle de fluctuation à ce même seuil. L’intervalle [ 0 ; 1] contient toutes les fréquences, il vérifie la condition de la définition précédente, mais il est sans intérêt. On cherchera des intervalles de fluctuation correspondant à des probabilités supérieures à 0,95 et aussi très proches de 0,95 en particulier dans les prises de décision. Remarque Il y a plusieurs sortes d’intervalle de fluctuation. On peut choisir des intervalles de fluctuation centrés en p comme ceux vus en Seconde, où pour lesquels la probabilité que la fréquence soit à l’extérieur de l’intervalle à gauche soit égale à la probabilité que la fréquence soit à l’extérieur de l’intervalle à droite comme ceux vus en Première, ou… Par exemple, pour p = 0,2 et n = 100, l’intervalle de fluctuation vu en Seconde est [ 0,1; 0,3] et celui obtenu en Première est [ 0,12 ; 0,28 ]. Exercice On utilisera ici les intervalles de fluctuation au seuil de 95 % de la forme 1 1 ;p+ p − . n n On dispose d’un dé bien équilibré, on gagne quand on obtient 1 ou 6. Déter- miner un intervalle de fluctuation au seuil de 95 %, de la fréquence des lancers gagnants dans les échantillons de taille 100. On sait qu’en moyenne 51% des nouveau-nés sont des garçons. Détermi- ner un intervalle de fluctuation au seuil de 95% de la fréquence des garçons nouveau-nés dans des échantillons de taille 25. Que peut-on en déduire pour le nombre de garçons parmi 25 nouveau-nés ? Utilisation Prise de décision On a découvert une pièce ancienne et on se demande si elle est bien équilibrée. Comment faire ? On lance n fois la pièce et on note la fréquence f d’apparition de Pile. On détermine un intervalle de fluctuation I n au seuil de 95 %, de la fréquence d’apparition de Pile dans des échantillons de taille n. 4 © Cned - Académie en ligne Séquence 9– MA01 Règle de décision : si f appartient à l’intervalle I n , on décide que la pièce est équilibrée, si f n’appartient pas à l’intervalle I n on décide que la pièce n’est pas équilibrée. Dans chacun des deux cas suivants, quelle est la décision prise ? n = 100 et f = 0,56 n = 1000 et f = 0,560. Séquence 9– MA01 5 © Cned - Académie en ligne 2 Intervalles de fluctuation A Objectifs du chapitre Quand on réalise une expérience aléatoire, on observe bien sûr que les résultats obtenus ne sont pas toujours les mêmes, c’est la fluctuation d’échantillonnage. Mais on observe aussi que, plus on répète une expérience un grand nombre de fois, plus la régularité de la fréquence des résultats est grande. On définit les intervalles de fluctuation asymptotique et on en donne un exemple. On peut alors décider si on considère que des résultats obtenus lors d’une expérience sont dus au hasard (c’est-à-dire à la fluctuation d’échantillonnage), ou si on considère qu’ils sont statistiquement significatifs d’une différence avec le modèle choisi. B Activité 1 Pour débuter Sur le tableur Open Office, on a simulé 100 échantillons de n lancers d’un dé tétraédrique bien équilibré. On a déterminé les fréquences où la face marquée 1 est la face cachée ( p = 0,25), elles sont indiquées en ordonnées sur le graphique. Dans chacun des trois cas, déterminer : Le pourcentage des fréquences appartenant à l’intervalle p − 1 ; p + 1 , Le pourcentage des fréquences appartenant à p (1− p ) p (1− p ) ; p + 1,96 p − 1,96 . n n 6 © Cned - Académie en ligne Séquence 9– MA01 n n Premier cas Fluctuation 100 échantillons 0,4 n = 50 p = 0,25 40 60 0,35 fréquence 0,3 0,25 0,2 0,15 0,1 0,05 0 0 20 80 100 Deuxième cas Fluctuation 100 échantillons n = 100 fréquence 0,4 p = 0,25 0,35 0,3 0,25 0,2 0,15 0,1 0,05 0 0 20 40 60 80 100 Séquence 9– MA01 7 © Cned - Académie en ligne Troisième cas Fluctuation 100 échantillons n = 200 fréquence 0,35 p = 0,25 0,3 0,25 0,2 0,15 0,1 0,05 0 0 20 C 40 60 80 100 Cours 1. Intervalles de fluctuation asymptotique Dans ce qui suit, on considère des variables aléatoires X n suivant chacune une loi binomiale Ꮾ(n ; p ). (exemple : on lance n fois une pièce équilibrée, X n est le nombre de Pile obtenus, X n suit la loi Ꮾ(n ; 0,5)). X La variable aléatoire Fn = n donne donc la fréquence du nombre de « sucn cès » (attention : il s’agit d’une utilisation du mot fréquence différente de ce qui est fait en statistique lorsqu’on parle de fréquence d’un caractère, ici la fréquence est une variable aléatoire). 8 © Cned - Académie en ligne Séquence 9– MA01 Propriété 1 X La variable aléatoire Fn = n : n n 1 2 prend n + 1 valeurs : 0, , , ..., ; n n n X a pour espérance le nombre p : E n = p . n Démonstration La variable aléatoire X n prenant les n + 1 valeurs : 0, 1, 2, …, n, on en déduit celles de Fn . On sait que E ( X n ) = np , et, d’après la linéarité de l’espérance, quand on divise la variable aléatoire par n, l’espérance est aussi divisée par n. On obtient donc X E n = p. n Les fréquences Fn ont donc pour espérance le nombre p qui ne dépend pas de n. Les résultats observés ont tendance à se resserrer autour de l’espérance p quand n augmente. C’est cette concentration des valeurs les plus probables autour de p qui permet d’améliorer la prise de décision à partir des observations. Définition 1 X Un intervalle de fluctuation asymptotique de la variable aléatoire Fn = n n au seuil de 95 % , est un intervalle déterminé à partir de p et de n et qui contient Fn avec une probabilité d’autant plus proche de 95 % que n est grand. Exemple 1 1 1 On montrera plus loin que l’intervalle p − ;p+ est un intervalle de n n X fluctuation asymptotique de la variable aléatoire Fn = n au seuil de 95%. En n classe de seconde, ceci a été énoncé sous forme simplifiée, le caractère asymptotique ne pouvant pas être introduit. Des exemples d’utilisation ont été donnés dans les pré-requis. Séquence 9– MA01 9 © Cned - Académie en ligne Résultat admis à savoir p (1− p ) p (1− p ) L’intervalle I n = p − 1,96 ; p + 1,96 est un intervalle n n X de fluctuation asymptotique de la variable aléatoire Fn = n au seuil de n 95%. Dans l’activité 1, on a pu faire des observations cohérentes avec ces résultats. Mais, la définition d’un intervalle de fluctuation est exprimée avec une probabilité. Si vous faites d’autres simulations avec le fichier qui est sur le site, il se peut que quelques observations donnent des pourcentages éventuellement inférieurs à 95%. Remarque Les intervalles I n sont des intervalles de fluctuation asymptotique car il y a la condition « d’autant plus proche de … que n est grand ». On peut considérer que les I n sont des intervalles de fluctuation « approchés », la probabilité que les Fn appartienne à I n n’est pas forcément supérieure à 0,95 (condition de la définition d’un intervalle de fluctuation au seuil de 95%) mais si elle n’est pas supérieure à cette valeur, elle en est proche. En pratique dans les exercices, la taille n de l’échantillon est fixée, l’intervalle de fluctuation asymptotique I n correspondant sera l’intervalle de fluctuation utilisé. Remarque Conditions d’utilisation Les exigences habituelles de précision pour utiliser cette approximation sont : n ≥ 30, np ≥ 5 et n (1− p ) ≥ 5. Exemple 2 Déterminer un intervalle de fluctuation asymptotique au seuil de 95% lorsque n = 100 et p = 0,5. Solution On a np = 50 et n (1− p ) = 50 donc les trois conditions sont réalisées et on peut utiliser l’intervalle I n . On obtient : 10 © Cned - Académie en ligne Séquence 9– MA01 0,5 × 0,5 0,5 × 0,5 I100 = 0,5 − 1,96 ; 0,5 + 1,96 soit [ 0,402 ; 0,598 ]. 100 100 Cet exemple modélise 100 lancers d’une pièce équilibrée. On peut donc dire que, pour environ 95 % des séries de 100 lancers, la fréquence du nombre de Pile obtenus se situe dans l’intervalle [ 0,402 ; 0,598 ]. Remarque Ces intervalles de fluctuation asymptotique sont plus faciles à déterminer que ceux du cours de Première qui nécessitaient l’utilisation d’algorithmes ou de tableurs, certains tableurs d’ailleurs ne pouvant pas dépasser certaines valeurs pour n. 2. Exemple d’utilisation : prise de décision On utilise un intervalle de fluctuation lorsque l’on veut déterminer si la proportion f observée dans un échantillon est compatible ou non avec un modèle de Bernoulli, c’est-à-dire si elle peut être un résultat obtenu par une variable X aléatoire Fn = n , où X n suit une loi binomiale de paramètres n et p, la valeur n p étant connue ou supposée connue dans la population. Quand X n suit une loi binomiale de paramètres n et p, un intervalle de fluctuation asymptotique I n au seuil de 95% est un intervalle où se situe la fréquence X Fn = n avec une probabilité d’autant plus proche de 0,95 que n est grand. n L’intervalle I n contient donc environ 95% des fréquences observées dans les échantillons de taille n suffisamment grande. Des fréquences (environ 5%) de certains échantillons ne sont pas dans I n , c’est la fluctuation d’échantillonnage. En fonction de l’appartenance ou non de la fréquence observée f à l’intervalle I n , on décide si l’échantillon est conforme ou non au modèle. La règle de décision adoptée est la suivante : si la fréquence observée f dans un échantillon appartient à un intervalle de fluctuation asymptotique au seuil de 95 % on considère que l’échantillon est compatible avec le modèle ; sinon, on considère que l’échantillon n’est pas compatible avec le modèle. Séquence 9– MA01 11 © Cned - Académie en ligne Remarque Avec cette règle, la fluctuation d’échantillonnage amène à rejeter, à tort, les 5 % (environ) d’échantillons qui suivent le modèle de Bernoulli et qui ne sont pas dans I n . Dans les exemples, les tirages sont effectués sans remise. La taille des échantillons considérés étant faible par rapport à la taille de la population totale, on assimile les tirages réalisés à des tirages avec remise et on peut alors appliquer les résultats précédents. Exemple 3 Le responsable de la maintenance des machines à sous d’un casino doit vérifier qu’un certain type de machines est bien réglé sur une fréquence de succès de 0,06. Il décide de régler chaque machine pour laquelle il aura observé, dans l’historique des jeux, une fréquence de succès se situant en dehors d’un intervalle de fluctuation au seuil de 95 %. Lors du contrôle d’une machine, le technicien constate qu’elle a fourni 9 succès sur 85 jeux. Déterminer la fréquence observée f de succès de cette machine. Déterminer d’après le cours un intervalle de fluctuation asymptotique au seuil de 95 %. Le technicien va-t-il modifier le réglage de la machine ? Quelle aurait été sa décision s’il y avait eu 21 succès sur 200 jeux ? Solution On a f = 9 ≈ 0,106. 85 On a n = 85, p = 0,06, np = 5,1 et n (1− p ) = 79,9, donc les conditions sont remplies pour utiliser l’intervalle de fluctuation asymptotique du cours 0,06 × 0,94 0,06 × 0,94 Comme 0,009 est une ; p + 1,96 0,06 − 1,96 . 85 85 valeur approchée par défaut de 0,06 − 1,96 0,06 × 0,94 et 0,111 est une 85 0,06 × 0,94 , alors [ 0,009 ; 0,111] 85 0,06 × 0,94 0,06 × 0,94 ; 0,06 + 1,96 et [ 0,009 ; 0,111] contient 0,06 − 1,96 85 85 valeur approchée par excès de 0,06 + 1,96 est donc un intervalle de fluctuation légèrement plus large que celui du cours. 12 © Cned - Académie en ligne Séquence 9– MA01 La fréquence observée f se situe dans l’intervalle de fluctuation donc le réglage de la machine n’est pas modifié. Dans ce deuxième cas, la fréquence observée est f = 21 = 0,105 et l’inter- 200 valle de fluctuation est environ égal à [ 0,027 ; 0,093]. La fréquence f du nombre de succès observée n’est pas dans l’intervalle car elle est trop grande, donc le technicien va modifier le réglage de la machine. On remarque que, dans les deux cas, les fréquences f sont presque les mêmes mais les décisions prises sont différentes car les intervalles de fluctuation sont différents. Remarque L’amplitude de l’intervalle de fluctuation asymptotique au seuil de 95 % du cours est égale à 2 × 1,96 p (1− p ) n . Pour une valeur de p donnée, cette amplitude diminue quand la taille n de l’échantillon augmente. 3. Complément sur les intervalles 1 1 ;p+ p − n n On peut retrouver l’intervalle de fluctuation qui a été donné en classe de Seconde. 1 1 On montre pour cela que l’intervalle p − ;p+ contient l’intervalle n n p (1− p ) p (1− p ) I n = p − 1,96 ; p + 1,96 . n n Pour tout p dans ]0 ; 1[ , l’inégalité p (1− p ) ≤ 1 est vérifiée (la fonction poly4 2 nôme du second degré p p (1− p ) = − p + p admet un maximum car le coef- ficient de p 2 est négatif, ce maximum est atteint pour p = 1 et il vaut donc 2 1 1 1 1− = ). 2 2 4 On en déduit que 1,96 p (1− p ) ≤ 1,96 × 1 ≤ 1. 4 Séquence 9– MA01 13 © Cned - Académie en ligne On obtient : p− p (1− p ) p (1− p ) 1 1 . ≤ p − 1,96 ≤ p + 1,96 ≤p+ n n n n 1 1 Donc l’intervalle I n est inclus dans l’intervalle p − ;p+ ce qui n n X 1 1 X entraîne que P n ∈I n ≤ P p − . ≤ n ≤p+ n n n n 1 1 ;p+ Donc l’intervalle p − contient Fn avec une probabilité supén n rieure à celle obtenue avec I n . 1 1 ;p+ Donc l’intervalle p − contient Fn avec une probabilité d’autant n n plus sûre de dépasser 95 % que n est grand. Conclusion 1 1 L’intervalle p − ;p+ est bien un intervalle de fluctuation asymptotique n n de X n à un seuil au moins égal à celui de I n , c’est-à-dire 95%. n D Exercice 1 Exercices d’apprentissage (d’après ressources Education nationale) Les enfants sont dits prématurés lorsque la durée gestationnelle est inférieure ou égale à 259 jours. La proportion de ces naissances est de 6%. Des chercheurs suggèrent que les femmes ayant eu un travail pénible pendant leur grossesse sont plus susceptibles d’avoir un enfant prématuré que les autres. Il est décidé de réaliser une enquête auprès d’un échantillon aléatoire de 400 naissances correspondant à des femmes ayant eu pendant leur grossesse un travail pénible. Les chercheurs décident a priori que si la proportion d’enfants nés prématurés dans cet échantillon est supérieure à la borne supérieure d’un intervalle de fluctuation asymptotique au seuil de 0,95 alors leur hypothèse sera acceptée. Finalement le nombre d’enfants prématurés est de 50. Quelle est donc la conclusion ? 14 © Cned - Académie en ligne Séquence 9– MA01 Exercice 2 Dans le monde, la proportion de gauchers est 12 %. Dans un club de tennis, il y a 21 gauchers parmi les 103 licenciés. Déterminer la fréquence de gauchers dans ce club. Déterminer un intervalle de fluctuation asymptotique au seuil de 95 %. Peut-on dire que ce club est « représentatif » de la proportion de gauchers dans le monde ? Exercice 3 On souhaite utiliser l’intervalle de fluctuation asymptotique p (1− p ) p (1− p ) I n = p − 1,96 ; p + 1,96 . n n Pour p = 0,02, déterminer la plus petite valeur de n vérifiant les conditions d’utilisation : n ≥ 30, np ≥ 5 et n (1− p ) ≥ 5. Déterminer ensuite la plus petite valeur de n pour laquelle l’amplitude de l’intervalle de fluctuation est inférieure à 0,1. Séquence 9– MA01 15 © Cned - Académie en ligne 3 Estimation A Objectifs du chapitre On souhaite connaître dans une population, la valeur d’une proportion p (proportion des pièces défectueuses parmi les pièces fabriquées par une usine, proportion des gauchers en France, intentions de vote pour un référendum, …) Pour des raisons matérielles, financières ou autres (par exemple, on ne peut pas tester le bon fonctionnement de toutes les allumettes d’une production car dans ce cas tester une allumette amène à la détruire !), on ne peut pas toujours réunir les données concernant la population tout entière. On va donc estimer la proportion p que l’on cherche à partir de la fréquence f observée dans un échantillon. Mais on sait que cette fréquence observée va varier d’un échantillon à l’autre, c’est la fluctuation d’échantillonnage autour de p. Il est donc nécessaire de tenir compte de cette fluctuation en donnant un résultat sous forme d’un intervalle, appelé intervalle de confiance en précisant aussi le niveau de confiance que l’on accorde à cette réponse. Dans ce chapitre, on montre comment on peut déterminer un intervalle de confiance au niveau 0,95. Cet intervalle dépendant de la taille de l’échantillon, on détermine la taille de l’échantillon qui est suffisante pour obtenir une précision donnée (qui dépend de l’amplitude de l’intervalle de confiance), le niveau de confiance étant toujours 0,95. B Pour débuter Dans ce chapitre, on montrera comment répondre à des questions analogues à celles qui suivent. On considère une urne contenant un très grand nombre de petites billes de couleur blanche ou noire, la proportion p de billes noires est inconnue. On cherche à estimer p à partir d’un échantillon de taille n. On effectue 100 tirages successifs avec remise et on obtient 71 billes noires et 29 billes blanches, à combien peut-on estimer p ? Même question sachant qu’on a effectué 1000 tirages et obtenu 693 billes noires et 307 billes blanches. 16 © Cned - Académie en ligne Séquence 9– MA01 C Cours 1. Résultat préliminaire Démontrer que, pour tous réels x et y et pour tout réel r positif, on a : x −r ≤ y ≤ x +r ⇔ y −r ≤ x ≤ y +r . Solution x − r ≤ y x ≤ y + r x −r ≤ y ≤ x +r ⇔ ⇔ ⇔ y −r ≤ x ≤ y +r . y ≤ x + r y − r ≤ x Remarque La double inégalité x − r ≤ y ≤ x + r équivaut à −r ≤ y − x ≤ r qui signifie que l’écart entre les deux nombres x et y est compris entre −r et r, les deux nombres x et y jouant le même rôle. 2. Exemple de référence Avant d’aborder les définitions et les propriétés bien mises en forme mais un peu difficiles au premier abord, nous allons étudier un exemple. On considère une urne contenant un très grand nombre de petites billes de couleur blanche ou noire, la proportion p de billes noires est inconnue. On cherche à estimer p à partir d’un échantillon de taille n. La probabilité d’obtenir une bille noire quand on fait un tirage au hasard est égale à la proportion p. On sait donc que, parmi tous les échantillons de taille n qu’on peut obtenir, environ 95% d’entre eux ont une fréquence f qui appartient à l’intervalle de fluctuation p − 1 ; p + 1 . Le résultat préliminaire du prouve que : n n 1 1 1 1 ce qui permet de déduire que : ≤f ≤ p + ⇔f − ≤ p ≤f + p− n n n n 1 1 1 1 est équivalent à " p ∈ f − ;f + "f ∈ p − ;p+ " n n n n ". Donc, parmi tous les échantillons de taille n qu’on peut obtenir, environ 95% 1 1 ;f + sont tels que l’intervalle associé f − contient le nombre p que n n l’on cherche à estimer. Séquence 9– MA01 17 © Cned - Académie en ligne On réalise donc un échantillon de taille n en effectuant n tirages indépendants (tirages au hasard avec remise). On calcule la fréquence f de billes noires dans l’échantillon obtenu et on détermine l’intervalle 1 1 ;f + f − . n n 1 1 On dit alors que p appartient à f − ;f + avec un niveau de confiance n n 1 1 de 95% et que l’intervalle f − ;f + est un intervalle de confiance au n n niveau 0,95. Exemple 4 On effectue 100 tirages indépendants et on obtient 71 billes noires et 29 billes blanches. Donner un intervalle de confiance au niveau 95% pour la proportion p de billes noires. Même question sachant qu’on a effectué 1000 tirages et obtenu 693 billes noires. Solution On trouve f = 0,71. Comme n = 100, l’intervalle f − 1 1 l’intervalle 0,71− ; 0,71+ , soit [ 0,61; 0,81]. 100 100 1 1 ;f + est n n La proportion p de billes noires appartient à [ 0,61; 0,81] avec un niveau de confiance de 95%. On dit aussi que la proportion de billes noires est estimée à 0,71 avec l’intervalle de confiance de [ 0,61; 0,81] au niveau 0,95. On a ici f = 0,693. Un intervalle de confiance au niveau 95% est donc 1 1 ; 0,693 + 0,693 − . 1000 1000 Pour donner un intervalle dont les bornes sont des nombres décimaux ayant trois chiffres après la virgule, on détermine une valeur approchée par excès de la borne de droite et une valeur approchée par défaut de la borne de gauche : on obtient [0,661; 0,725]. La proportion de billes noires est estimée à 0,693 avec l’intervalle de confiance de [ 0,661; 0,725] au niveau 0,95. 1 1 ;f + Une fois l’échantillon réalisé, l’intervalle f − est déterminé et il n n n’y a alors que deux possibilités : p appartient ou n’appartient pas à cet intervalle 18 © Cned - Académie en ligne Séquence 9– MA01 (de même quand on a lancé une pièce, on a obtenu Pile ou on a obtenu Face). C’est pourquoi on ne s’exprime plus en termes de probabilité. Pour exprimer l’idée qu’on a obtenu un intervalle et qu’environ 95% des intervalles qu’on peut obtenir ainsi contiennent la proportion cherchée, on a choisi le mot « confiance ». 3. Définition Comme dans le chapitre précédent, on considère une suite de variables aléatoires ( X n ) où chaque variable aléatoire X n suit la loi binomiale Ꮾ(n ; p ) (exemple : on lance n fois une pièce et X n est le nombre de Pile obtenus). La variable aléaX toire Fn = n donne donc la fréquence du nombre de « succès ». n On dit qu’un intervalle est aléatoire lorsque ses bornes sont définies par des variables aléatoires. La réalisation d’un intervalle aléatoire est l’intervalle obtenu après avoir réalisé l’expérience aléatoire (après avoir lancé 500 fois une pièce, interrogé 1000 personnes…). Définition 2 Un intervalle de confiance pour une proportion p à un niveau de confiance 95% est la réalisation, à partir d’un échantillon, d’un intervalle aléatoire contenant la proportion p avec une probabilité supérieure ou égale à 95%. Propriété 2 admise 1 1 ; Fn + Pour une valeur de p fixée, l’intervalle aléatoire Fn − n n contient, pour n assez grand, la proportion p avec une probabilité au moins égale à 0,95. Conséquence La proportion p dans une population est élément de l’intervalle 1 1 ;f + f − avec un niveau de confiance d’au moins 0,95, où f désigne n n la fréquence observée dans un échantillon de taille n. Séquence 9– MA01 19 © Cned - Académie en ligne A savoir On se place dans le cas où l’échantillon contient au moins 30 éléments, n ≥ 30. Si la fréquence f observée est telle que nf ≥ 5 et n (1− f ) ≥ 5, on convient que f est une estimation de p et que l’inter1 1 ;f + valle f − est un intervalle de confiance au niveau 0,95 n n pour la proportion p. Cet intervalle est aussi appelé « fourchette de sondage ». 4. Taille de l’échantillon pour obtenir une précision donnée au niveau de confiance 0,95 La précision de l’estimation est donnée par l’amplitude de l’intervalle 1 1 qui est égale à ;f + f − n n l’échantillon. 2 et dépend donc de la taille n de n On observe que cette amplitude ne dépend pas de la taille de la population totale, ce qui peut étonner. Mais pour goûter un plat, il suffit d’en goûter une petite quantité, cette quantité ne dépend pas de la taille du récipient (mais il faut néanmoins avoir bien mélangé) ! (Explication donnée d’après une idée de JeanLouis Boursin dans son livre « Les structures du hasard ».) On peut donc choisir la taille n de l’échantillon pour obtenir la précision souhai2 tée. En notant a la précision souhaitée, on cherche un entier n tel que ≤ a, n 4 soit n ≥ 2 . a 20 © Cned - Académie en ligne Précision a 0,06 0,04 0,02 0,01 Taille minimale de l’échantillon n 1112 2500 10000 40000 Séquence 9– MA01 Les sondages sont souvent faits avec des échantillons d’environ 1000 personnes, la précision obtenue est donc d’environ 0,06. Ainsi, questionner 1112 personnes suffit pour avoir une fourchette de sondage d’amplitude 0,06, qu’il s’agisse d’un sondage pour un référendum local concernant 100000 électeurs ou pour le deuxième tour d’une élection présidentielle concernant 35 millions d’électeurs. Il faut bien sûr savoir cela quand on reçoit des informations où les sondages sont un élément important. 5. Exemple : sondages et élections Exemple 5 Dans cet exercice, la population est suffisamment grande pour que les sondages soient assimilés à des tirages avec remise. On ne tient compte que des réponses exprimées, c’est-à-dire qu’on ne tient pas compte des prévisions d’abstentions ou des intentions de vote nul. Les sondages sont faits auprès de 1112 personnes. Au deuxième tour de l’élection présidentielle, le dernier sondage de l’institut A indique 52,5% d’intentions de vote pour le candidat X et 47,5% pour le candidat Y. L’institut B indique 50,5% d’intentions de vote pour le candidat X et 49,5% pour le candidat Y. Y-a-t-il une contradiction entre les résultats de ces deux instituts de sondage ? Le candidat X peut-il être totalement rassuré ? Solution L’intervalle de confiance – la fourchette de sondage – f − 1 1 ;f + n n obtenu à partir des résultats de l’institut A qui donne f = 0,525 pour le candidat X est environ égal à [ 0,495 ; 0,555]. En utilisant les résultats de l’institut B qui donne f = 0,505, on obtient environ [ 0,475 ; 0,535]. Les deux fourchettes de sondage ont une partie commune, donc les résultats de ces deux instituts de sondage ne sont pas en contradiction. Le candidat X ne peut pas être totalement rassuré car les deux fourchettes de sondage contiennent des nombres inférieurs à 0,5, correspondants à un échec de sa candidature. 6. Simulation Pour mieux voir ce qu’est un intervalle de confiance, une fourchette de sondage, on a réalisé 20 séries de 200 tirages de 0 et de 1 au hasard. Séquence 9– MA01 21 © Cned - Académie en ligne Pour chaque série, on obtient un intervalle de confiance. Dans les 200 colonnes de A à GR on a écrit les résultats des tirages. Dans la colonne GS, on a déterminé pour chaque ligne la fréquence avec laquelle on a obtenu 1. Dans les colonnes GT et GU sont calculées les bornes de l’intervalle de confiance du cours au niveau 0,95. La sélection des colonnes GT et GU et le choix de « XY dispersion » dans type de diagramme dans Open Office donne un diagramme analogue à celui-ci. On constate ici que 19 d’entre eux contiennent p = 0,5 qui est la proportion réelle dans cet exemple de tirage au hasard. Un seul intervalle ne contient pas p = 0,5. Dans d’autres simulations, on peut bien sûr trouver plusieurs intervalles de confiance qui ne contiennent pas p ou aucun. Quand on veut estimer une proportion, on utilise un seul intervalle de confiance. La simulation permet de voir qu’environ 95% des intervalles de confiance contiennent p. 7. Autre intervalle de confiance Comme il existe différents intervalles de fluctuation, il existe différents intervalles de confiance. 22 © Cned - Académie en ligne Séquence 9– MA01 Par exemple, l’intervalle f − 1,96 f (1− f ) ; f + 1,96 f (1− f ) est aussi un n n intervalle de confiance qui est utilisé dans certains cas. On ne le justifiera pas ici. D Exercice 4 Exercices d’apprentissage Une usine vient d’installer une chaîne de fabrication pour fabriquer une nou- velle pièce. Après un bref temps de fonctionnement, on prélève 100 pièces. La fabrication est assez importante pour que ce prélèvement soit assimilé à un tirage avec remise. On trouve 23 pièces défectueuses. Déterminer un intervalle de confiance de la proportion de pièces sans défaut avec un niveau de confiance 0,95. Des modifications ont été apportées. On prélève de nouveau 100 pièces et on en trouve 9 défectueuses. Déterminer l’intervalle de confiance correspondant. Conclure. Exercice 5 Dans une grande ville, un nouveau cinéma va être construit. La municipalité propose un terrain à proximité du centre ancien. Un premier sondage est effectué auprès de 100 personnes choisies de façon aléatoire et indique 53 avis favorables. Peut-on dire que la majorité de la population est favorable à cet emplacement ? Un deuxième sondage effectué auprès de 500 personnes indique la même proportion d’avis favorables. La conclusion est-elle différente ? Un sondage effectué auprès de n personnes indique la même proportion d’avis favorables. A partir de quelle valeur de n peut-on estimer, au seuil de confiance 0,95, que la majorité de la population est favorable à cet emplacement ? Séquence 9– MA01 23 © Cned - Académie en ligne 4 Synthèse de la séquence Intervalle de fluctuation asymptotique Définition Un intervalle de fluctuation asymptotique de la variable aléatoire X Fn = n au seuil de 95% est un intervalle déterminé à partir de p et de n n et qui contient Fn avec une probabilité d’autant plus proche de 95% que n est grand. p (1− p ) p (1− p ) I n = p − 1,96 ; p + 1,96 est un intervalle de n n fluctuation asymptotique au seuil de 95 %. L’intervalle Conditions d’utilisation Les exigences habituelles de précision pour utiliser cette approximation sont : n ≥ 30, np ≥ 5 et n (1− p ) ≥ 5. faut savoir utiliser un intervalle de fluctuation pour prendre une décision. La règle de décision adoptée étant la suivante : Il dans un échantillon, la fréquence observée f appartient à un intervalle de fluctuation asymptotique au seuil de 95 % on considère que l’échantillon est compatible avec le modèle ; si, sinon, on considère que l’échantillon n’est pas compatible avec le modèle. Intervalle de confiance Définition Un intervalle de confiance pour une proportion p à un niveau de confiance 0,95 est la réalisation, à partir d’un échantillon, d’un intervalle aléatoire contenant la proportion p avec une probabilité supérieure ou égale à 95%. 24 © Cned - Académie en ligne Séquence 9– MA01 faut savoir estimer une proportion inconnue p grâce à un échantillon : la proportion p est estimée par la fréquence f, l’intervalle f − 1 ; f + 1 étant n n un intervalle de confiance au niveau 0,95. Il Conditions d’utilisation On se place dans le cas où l’échantillon contient au moins 30 éléments et où la fréquence f observée est telle que nf ≥ 5 et n (1− f ) ≥ 5. z La précision de l’estimation est donnée par l’amplitude de l’intervalle 1 1 qui est égale à 2 et dépend donc de la taille n de ;f + f − n n n l’échantillon. Séquence 9– MA01 25 © Cned - Académie en ligne 5 Exercices de synthèse Exercice I Intervalle de fluctuation (d’après ressources Education nationale) Les personnes qui achètent un billet pour un voyage en avion ne se présentent pas toutes à l’embarquement. Les compagnies aériennes cherchent donc à optimiser le remplissage d’un avion en vendant éventuellement un nombre de billets supérieur à la capacité de l’avion (on dit que les places sont vendues en surréservation ou en surbooking). Les compagnies aériennes veulent bien sûr maitriser le risque dû à cette pratique. On considère un avion de 300 places, soit n le nombre de billets vendus, soit p la probabilité qu’un client ayant acheté un billet se présente à l’embarquement et soit X n la variable aléatoire désignant le nombre d’acheteurs d’un billet se présentant à l’embarquement. On cherche à évaluer n, n > 300, tel que P ( X n > 300) ≈ 0,05, c’est-à-dire tel que la probabilité que le nombre de passagers se présentant à l’embarquement soit supérieur à 300 soit environ de 0,05. Pour modéliser cette situation on suppose que les comportements des clients sont indépendants les uns des autres. Déterminer la loi de X n . On suppose que p = 0,85. Écrire l’intervalle de fluctuation asymptotique I n du cours pour X n au seuil de 95 %. n 300 Montrer que si I n 0 ; , alors la probabilité que le nombre de pas n sagers se présentant à l’embarquement excède 300 est inférieur à une valeur proche de 0,05. On cherche à déterminer la valeur de n maximale permettant de satisfaire la 300 condition I n 0 ; . n 300 a) Montrer que, si I n 0 ; , alors 0,85n + 1,96 0,1275 n − 300 ≤ 0. n b) On définit sur [1; + ∞[ la fonction f par f ( x ) = 0,85x + 1,96 0,1275 x − 300. 26 © Cned - Académie en ligne Séquence 9– MA01 Montrer que la fonction f est strictement croissante sur [1; + ∞[ et déterminer le plus grand entier n0 pour lequel la fonction f prend une valeur négative. 300 c) Vérifier que, pour cette valeur n0 , on a bien I n 0 ; . Conclure. 0 n0 Appliquer la même démarche lorsque p = 0,9 puis lorsque p = 0,95. Commenter. Exercice II Intervalle de confiance Pour estimer dans une population la proportion p des individus possédant le caractère A, on interroge au hasard 80 éléments de cette population. On observe que 18 individus possèdent le caractère A. Donner pour p un intervalle de confiance au niveau 0,95. Donner une condition sur le nombre n d’individus interrogés, pour que la précision obtenue par l’intervalle de confiance au niveau 0,95 soit inférieure à 0,05. Donner une condition sur le nombre n d’individus interrogés, pour qu’avec la même fréquence observée l’intervalle de confiance au niveau 0,95 soit inclus dans [ 0 ; 0,25]. Déterminer un entier n vérifiant les deux conditions. Quel serait alors, avec la même fréquence observée, l’intervalle de confiance au niveau 0,95 ? Séquence 9– MA01 27 © Cned - Académie en ligne