Échantillonnage

Transcription

Échantillonnage
9
Échantillonnage
Pour reprendre contact
Les réponses exactes sont :
1 Réponse c.
2 Réponse a. Réponse c.
3 Réponse a.
4 Réponse b. Réponse c.
Activité 1
1. La population étudiée est la production d’automobiles. Le caractère est le défaut de peinture. On a p = 0,2.
4
2. a. On a f 0,08.
50
On complète le schéma avec p = 0,2 et n = 50.
b. On a :
Échantillon n°
1
2
3
4
5
6
7
8
Nombre de défauts
Fréquence du défaut
11
9
16
9
11
11
10
4
0,22
0,18
0,32
0,18
0,22
0,22
0,2
0,08
On ne retrouve pas nécessairement la valeur de p. Cela est dû à l’effet du hasard. C’est la fluctuation d’échantillonnage.
3. Non, la fluctuation d’échantillonnage observée sur des échantillons de taille 50 est telle (voir fréquences calculées à la question 2.b.) que ce résultat de 24 % ne permet aucune interprétation de ce genre.
Activité 2
1. a. Cela dépend de vos lancers. Par exemple, 15 « pile » et 10 « face » donne une fréquence de « pile » égale à 15
0,6.
25
b. Cela dépend des lancers, mais la très grande majorité des fréquences obtenues dans la classe (de l’ordre de 95 %) est comprise entre 0,3 et 0,7.
f
2. Sur l’image d’écran suivante, on a 6 points sur 100 situés en dehors de l’intervalle [0,3 ; 0,7], soit 94 % à l’intérieur de l’intervalle.
1
5230_09_Chap_09.indd 1
29/06/10 13:33
3. a. On a I = [0,3 ; 0,7].
b. On peut estimer le pourcentage des échantillons fournissant une fréquence de « pile » à l’intérieur de l’intervalle I à
environ 95 %.
20
4. a. La fréquence des garçons nés dans le village chinois est f 0,8.
25
b. La valeur 0,8 n’est pas dans I. On peut penser qu’il existe une autre explication que le hasard pour la différence observée entre f = 0,8 et p = 0,5.
Activité 3
1. C’est votre avis…
2. a. Les bornes de l’intervalle I1 sont environ 0,33 et 0,67. Il y a 5 fréquences en dehors de l’intervalle I1. Donc, ici, pour
95 % des échantillons, la fréquence de « pile » appartient à I1.
b. Les bornes de l’intervalle I2 sont environ 0,48 et 0,52. Il y a 4 fréquences en dehors de l’intervalle I2. Donc, pour 96 %
des échantillons, la fréquence de « pile » appartient à I2.
3. Pour l’entreprise A, 0,4 appartient à I1. Pour la société B, 0,46 n’appartient pas à I2. C’est donc la société B qui respecte
le moins bien la parité hommes/femmes, alors que pour l’entreprise A, le hasard peut très bien expliquer le résultat
observé.
TP 1
A. 1. a. L’affichage 0 correspond à non afro-américain et 1 correspond à afro-américain.
b. La liste des 405 « 0 ou 1 » correspond à un échantillon de 405 professeurs.
c. Le contenu de la cellule A408 correspond à la fréquence des professeurs afro-américains sur l’échantillon de taille
405.
d. On a simulé 100 échantillons aléatoires de taille 405 et calculé les fréquences de professeurs afro-américains pour
chaque échantillon.
2. Lorsqu’on fait F9, il y a fluctuation des fréquences, mais celles-ci demeurent, en très grande majorité, dans une
bande entre 0,1 et 0,2.
2
5230_09_Chap_09.indd 2
29/06/10 13:33
3. a. En E1 et G1 figurent les bornes de l’intervalle de fluctuation au seuil de 95 %.
b. Avec la fonction NB.SI, on teste si la fréquence obtenue sur un échantillon est comprise entre les bornes de l’intervalle
de fluctuation à 95 %. Le nombre obtenu en I1 est le nombre des échantillons qui, parmi les 100 simulés, fournissent une
fréquence appartenant à l’intervalle de fluctuation. En appuyant sur F9, on constate que ce nombre est de l’ordre de 99.
15
4. On a f ª 0,037. Cette valeur est très éloignée de celles obtenues par simulation.
405
B. 1. Lorsque p = 0,057, les bornes de l’intervalle de fluctuation au seuil 0,95 sont environ 0,007 et 0,107.
2. La fréquence f appartient à l’intervalle précédent. En prenant cette valeur de p, le hasard peut expliquer la fréquence
de professeurs afro-américains observée à Hazelwood, d’où la décision des juges.
TP 2
Sur le site.
TP 3
A. 1. Les écarts les plus grands entre f et p sont 0,068 en 1936 (Roosevelt 1) et 0,057 en 1992 (Clinton 1).
2. La moyenne des écarts de 1952 à 2008 est environ 0,02, celle des écarts de 1936 à 1948 est environ 0,04.
Il semble que la méthode aléatoire soit plus performante que celle par quotas (écart en moyenne inférieur). Cependant,
le nombre de données n’est pas le même.
Chapitre 9. Échantillonnage
5230_09_Chap_09.indd 3
3
29/06/10 13:33
B. 1.On a les équivalences :
1
1
1
1
pf p
lorsque - f - p-f ou encore, en multipliant par – 1, 1000
1000
1000
1000
1
1
f pf .
1000
1000
2. a.La fréquence p = 0,55 n’est pas toujours comprise dans l’intervalle de confiance.
b. Le pourcentage d’intervalles J contenant le résultat de l’élection est supérieur à 95 %.
3. Deux intervalles de confiance peuvent être disjoints (c’est le cas des sondages n° 44 et n° 45 sur l’image d’écran du manuel).
Exercices
ENTRAÎNEMENT
1
a. 100 32 10 000 9 600 10 609.
b. 100 - 22 10 000 4 - 400 9 604 .
3. La probabilité de tirer une boule verte dans l’urne est 10 1
p
. Elle est différente de la fréquence précédente.
30 3
19 1. Par exemple :
2 1/4 de 420 donne 105 et donc 3/4 de 420 donne 315.
Échantillon 1
2
1
4
2
1
6
5
6
Échantillon 2
1
1
1
4
3
5
1
6
3
Échantillon 3
3
6
1
6
6
6
1
5
4
40 € d’augmentation sur 200 € représente 20 %.
a. 9 t 2 - 4 . b.4 x 2 - 20 x 25 .
5 27 a 6 - 8 a 6 19 a 6 .
6
-8
0,8.
- 10
7
x -14.
8
9
3. Les trois fréquences ne sont pas égales. Cette fluctuation d’échantillonnage est due au hasard.
20 1. On lance un dé supposé équilibré.
2. Exemple d’un échantillon de taille 7 :
a. x 1,5 ou x – 1,5 b. x 0 ou x 1,5.
Oui car 2. Les fréquences de sortie du n° 6 sont : 2/8 0,25 ; 1/8 0,125 ; 4/8 0,5.
1 1 3 1
- .
2 2 4 2
4
2
6
1
4
4
1
Ordonnée à l’origine : 10 Ordonnée à l’origine : b = 4 et coefficient directeur : 4
4
a - , d’où y - x 4.
3
3
2
4
11 y x - .
3
3
21 1.a.Puisqu’on tire la carte au hasard, chaque carte a la même probabilité d’être tirée et la probabilité de 4
tirer un as (de gagner) est 0,125.
32
b. L’instruction =ENT(ALEA()+0,125) affiche 1 (sortie d’un as) avec la probabilité 0,125 et 0 sinon.
12 K(1 ; 0,5)
2. a. Un échantillon de taille 25 :
13 La parabole coupe l’axe des abscisses en 0 et 4 ; le minimum a donc pour abscisse 2.
Expérience n°
1 2 3 4 5 6 7 8 9 10 11
Issue
0 0 1 0 0 0 0 0 0 0 0
14 97 %.
Expérience n°
12 13 14 15 16 17 18 19 20 21 22
15 0,16.
Issue
0 1 1 0 0 0 1 0 0 0 0
Non car 0,7 0,75.
16 Non car Expérience n°
23 24 25
Fréquence f
Issue
0 0 0
0,16
17 1. Par exemple P, F, P, P, F, P, F, P, P, P.
2. Dans l’échantillon précédent, la fréquence de « pile » est 0,7.
18 1. Par exemple N, R, V, N, N, V, V, V, N, R, R, V.
2. La fréquence de « vert » dans l’échantillon précédent 5
est ª 0,42.
12
b. En appuyant sur F9, la fréquence f fluctue.
22 1. L’instruction affiche, au hasard, un nombre de l’intervalle [1 ; 4[. Ce nombre a des chances identiques d’avoir avant la virgule un 1, un 2 ou un 3. Lilian choisit la réponse correspondant au nombre devant la virgule.
4
5230_09_Chap_09.indd 4
29/06/10 13:33
2. La probabilité d’avoir un 1 devant la virgule est 1/3, celle d’avoir un 0 est 2/3. On peut considérer que 1 correspond à une réponse exacte et 0 à une réponse fausse.
Sur l’image d’écran, l’élève a obtenu 2 réponses exactes.
À partir de cet échantillon de taille 400, on peut penser que le dé est peut-être pipé.
On n’est pas sûr de la réponse.
23 1. L’instruction permet de simuler une personne infectée (affichage de 1) avec la probabilité 0,009 ou non infectée.
2. Les bornes de l’intervalle de fluctuation à 95 % sont, à 10 – 2 près, 0,36 et 0,44.
2. Pour le premier échantillon, il y a 70 personnes infectées sur 8 197 personnes simulées.
3. a.Sur l’image d’écran, on a obtenu 0 fois N 51 sur 100 échantillons.
b. « Statistiquement significatif » signifie que l’écart observé a peu de chances d’être dû au hasard.
24 1. Les fréquences obtenues sur les 10 échantillons de taille 10 sont :
0,3 ; 0,3 ; 0 ; 0,2 ; 0,1 ; 0,1 ; 0 ; 0,4 ; 0,1 ; 0.
L’étendue est : 0,4 – 0 = 0,4.
2. a. L’étendue des fréquences pour les 10 échantillons de taille 1 000 est beaucoup plus réduite.
b. La fréquence d’apparition du zéro fluctue autour de 0,1. Ce n’est pas étonnant, puisque le 0 a une chance sur 10 d’apparaître comme premier chiffre après la virgule.
25 1. a. Les bornes de I sont 0,02 et 0,22. Dans au moins 95 % des cas, la fréquence des gauchers sur un échantillon de taille 100 est comprise entre 0,02 et 0,22.
b. Il y a 5 points en dehors des traits rouges ; il y a
donc 195 échantillons, c’est-à-dire 97,5 % des échantillons, qui fournissent une fréquence dans I.
2. Dans la formule de I, remplacer p par 0,12 et n par le nombre d’élèves dans la classe (on suppose que n est au moins égal à 25). Pour obtenir les bornes (au seuil de 95 %) du nombre de gauchers dans la classe, multiplier par n.
1
26 1.Si le dé est parfaitement équilibré, p ª 0,167.
6
2. Les bornes de I sont, à 10 – 2 près, 0,10 et 0,24.
Pour un dé supposé équilibré, et pour une face donnée, 95 % des échantillons de taille 100 fournissent une fréquence de sortie comprise entre 0,10 et 0,24.
3. D’après la question précédente, les écarts entre les fréquences, comprises dans I, peuvent être dues au hasard.
On n’est pas sûr d’avoir raison.
Les bornes de I sont, à 10 - 2 près, 0,12 et 0,22.
27 Les bornes de Pour un dé supposé équilibré, et pour une face donnée, 95 % des échantillons de taille 100 fournissent une fréquence de sortie comprise entre 0,12 et 0,22.
La fréquence de sortie de la face n° 2 n’appartient pas à l’intervalle précédent.
28 1. On a p 0,4 ; n 500 et f 0,38.
3. Puisque f est compris entre les bornes précédentes, on peut considérer comme exacte l’affirmation du groupe de citoyens (au seuil de 95 %).
105
ª 0,512.
205
2. a. Les bornes de I sont, à 10 – 2 près, 0,45 et 0,58.
91
ª 0,40. Cette valeur n’appartient pas à b. On a f 227
l’intervalle I. La différence observée à Ufa est « significative », c’est-à-dire qu’elle ne tient vraisemblablement pas du seul hasard.
29 1. On a p 3. Les bornes de I sont, à 10 – 2 près, 0,43 et 0,60.
46
On a f ª 0,35. Cette valeur n’appartient pas à 132
l’intervalle I. La différence observée à Aamjiwnaag est « significative ».
78
0,195.
400
b. On ne peut pas affirmer que p f car le hasard intervient lors du sondage.
30 1.a.On a f 2. a.Dans plus de 95 % des cas, la distance entre f et p 1
est inférieure à 0,05.
400
b. Fourchette : 0,145 ; 0,245.
On peut raisonnablement penser que p appartient à l’intervalle précédent.
1300
0,52.
2500
b. On ne peut pas affirmer que p f car le hasard intervient lors du sondage.
31 1.a.On a f 2. a. Intervalle de fluctuation de f au seuil de 95 % : p - 0,02 ; p 0,02.
b. On a les équivalences : p - 0,02 f p 0,02 lorsque - f - 0,02 - p - f 0,02 ou encore, en multipliant par – 1, f - 0,02 p f 0,02 .
Donc, ici, au niveau de confiance 0,95, on a 0,50 p 0,54 .
c. On peut en déduire que Léon a de très bonnes chances d’être élu.
3. Pour un sondage de taille 1 000, on aurait au niveau de confiance 0,95 :
Chapitre9. Échantillonnage
5230_09_Chap_09.indd 5
5
29/06/10 13:33
1
1
p 0,52 c’est-à-dire, 1000
1000
0,52 -
approximativement, 0,49 p 0,55.
Dans ce cas, la situation est moins assurée pour Léon.
32 1. Le programme fournit la fréquence du caractère « désire acheter le produit » sur un échantillon de taille 100 dans une population où la fréquence du caractère est 0,45.
Cette simulation est répétée 50 fois et les 50 fréquences obtenues viennent se ranger dans une liste.
2. Le graphique donne les 50 fréquences du caractère fournies par les 50 échantillons de taille 100. Les droites ont pour équations : y 0,35 et y 0,55.
3. Il suffit de remplacer 100 par 10 dans la troisième ligne et dans l’avant dernière ligne de chaque programme.
33 1.Pour Jacques CHIRAC, J1 0,158 ; 0,222, pour Lionel JOSPIN, J2 0,148 ; 0,212, pour Jean-Marie LE PEN, J3 0,108 ; 0,172.
Parmi les sondages de taille 1 000 fournissant une fréquence f en faveur d’un candidat, l’intervalle J associé contient le pourcentage p des intentions de vote pour ce candidat dans 95 % des cas. Ces trois intervalles contiennent donc les pourcentages d’intentions de vote respectifs des trois candidats, au niveau de confiance 0,95.
2. Le point de vue réaliste est celui du statisticien : la plage commune à J2 et J3 rend possible, au niveau de confiance 0,95, que le pourcentage d’intentions de vote en faveur de LE PEN soit supérieur à celui en faveur de JOSPIN.
Travail personnel
QCM
34
Réponses b. et c.
36
a.
37
35
b. et c.
38
a. et c.
a.
39
b.
VRAI/FAUX
40
a. Faux b.Faux
42
Faux
46
Vrai
43
Faux
41
a. Vrai b.Faux
44
Faux
45
Vrai
47 1.a. La population étudiée est l’ensemble des clients ayant utilisé une certaine Hot-Line.
D’après ce prestataire, la proportion p des clients non totalement satisfaits est 20 %.
b. L’échantillon interrogé a pour taille n  300 ; la fréquence de « NTS » sur cet échantillon est égale à 93
f
0,31.
300
2. a. Les bornes de I, sont à 10 - 2 près : 0,14 et 0,26.
b. I est l’intervalle de fluctuation de la fréquence f de « NTS » fournie par un échantillon de taille 300, au seuil de 95 %. Lorsqu’on prend au hasard un échantillon de taille 300 dans la population étudiée, la fréquence f de « NTS » fournie par cet échantillon est dans I, avec une probabilité au moins égale à 0,95.
3. La fréquence de « NTS » observée sur l’échantillon prélevé est égale à 0,31 ; elle n’appartient pas à l’intervalle I. Au risque 5 % de se tromper, on peut considérer que cet important écart entre f 0,31 et p 0,20 n’est pas dû au seul hasard. On peut douter de l’exactitude de la proportion p annoncée par le prestataire.
48 1.Pour au moins 95 % des échantillons de taille n prélevés dans cette population où la fréquence du 1
1
caractère est p, on sait que p f p
, soit n
n
1
1
1
f et f p , soit p f et encore p n
n
n
È
1
1
1 ˘
f p qui équivaut à Íf ;f ˙ contient p.
Î
n
n
n˚
2. a. Si on suppose que p 0,25, alors l’intervalle de fluctuation de f au seuil de 95 % est :
È
1
1 ˘
I Í0,25 ; 0,25 ˙ 0,125 ; 0,375.
Î
64
64 ˚
Comme la fréquence du caractère observé, qui est égale à 1/3 sur l’échantillon prélevé, appartient à l’intervalle I, il n’y a pas lieu de considérer, au seuil 0,95, que cet échantillon est « anormal ».
b. L’échantillon des 625 lancers de deux pièces fournit 150
une fréquence de « 2 pile » égale à f 0,24.
625
L’intervalle de confiance de p au niveau 0,95 associé à cet échantillon est
È
1
1 ˘
; 0,24 ÍÎ0,24 ˙ 0,2 ; 0,28.
625
625 ˚
On peut dire, au niveau de confiance 0,95 que la probabilité p d’obtenir « 2 pile » en lançant une fois cette pièce est comprise entre 0,2 et 0,28.
Remarque : on a vu dans le chapitre précédent que l’on a p 0,25 dans le cas d’une pièce supposée bien équilibrée.
Approfondissement
49 1.a.f 0,54.
b. Non, car cette fréquence fournie par un échantillon de taille 100 fluctue au hasard d’un échantillon à l’autre ; 6
5230_09_Chap_09.indd 6
29/06/10 13:33
elle ne peut être retenue comme fréquence d’avis favorables sur la population toute entière.
2. a. Si p est la proportion d’avis favorables dans la population, l’intervalle de fluctuation de f sur un échantillon de taille n au seuil de 95 % est l’intervalle È
1
1 ˘
I Íp ; p
˙.
Î
n
n˚
b. D’après le a., parmi les échantillons de taille n fournissant chacun une fréquence f d’avis favorables, on a È
1
1 ˘
; p
dans 95 % des cas : f Œ Í p ˙ Cela signifie Î
n
n˚
que dans 95 % des cas, l’écart entre f et p reste inférieur È
1
1
1 ˘
;f ou égal à , ce qui s’écrit encore : p Œ Íf ˙.
Î
n
n˚
n
Disposant ici d’une fréquence f 0,54 sur un échantillon de taille n, on en déduit que p appartient à l’intervalle È
1
1 ˘
J Í0,54 ; 0,54 ˙ au niveau de confiance 0,95.
Î
n
n˚
3. a.Au niveau de confiance 0,95, pour avoir p 0,5, il 1
1
0,5, soit encore 0,04.
suffit d’avoir 0,54 n
n
1
0,04 lorsque b. Le graphique indique que l’on a x
x 600.
En résolvant l’inéquation, on a successivement : 1
0,0016 ou encore x 625.
x
c. Si la taille du sondage était n 650 avec f 0,54, on 1
0,04 et p appartiendrait à l’intervalle aurait n
J 0,50 ; 0,58, au niveau de confiance de 95 %. Le stade serait donc construit.
50 1.Les intervalles de fluctuation au seuil de 95 % de la fréquence d’infections nosocomiales pour les hôpitaux A et B, sont respectivement : I 0,006 ; 0,093 et I ¢ 0,037 ; 0,062.
2. Comme p = 0,0497, cela est vérifié pour l’intervalle I mais pas pour l’intervalle I′.
Au risque de se tromper de 5 %, on peut donc considérer que la situation observée dans l’hôpital B est « anormale ».
51 1. p1 0,5 ; p2 0,25 ; p3 0,1.
2. I1 0,4 ; 0,6; I2 0,15 ; 0,35;
I3 0 ; 0,2.
3. La probabilité que la fréquence de gain observée sur 100 lancers appartienne à l’intervalle de fluctuation peut être évaluée à : 0,960 pour la roue 1, 0,987 pour la roue 2 et 0,998 pour la roue 3.
Cela est en accord avec la théorie qui annonce que cette probabilité est supérieure ou égale à 0,95.
52 1.a.f 555
0,53 à 10 - 2 près.
1048
b. Si p est la fréquence des intentions de vote en faveur du maire sortant dans la population, on sait par propriété que, parmi les échantillons de taille n fournissant une fréquence f d’opinions favorables au maire sortant, 95 % au È
1
1 ˘
moins se trouvent dans l’intervalle I Í p ; p
˙.
Î
n
n˚
Cela signifie que dans 95 % des cas, l’écart entre f et p 1
, ce qui s’écrit encore : reste inférieur ou égal à n
È
1
1 ˘
p Œ Íf ;f .
˙
Î
n
n˚
c. Ici, avec n 1048 et f 0,53, l’intervalle de confiance de p (ou fourchette de sondage de p) au niveau 0,95 est :
È
1
1 ˘
J Í0,53 ; 0,53 ˙ 0,499 ; 0,561.
Î
1048
1048 ˚
Le maire a des chances d’être élu, mais la prudence est de mise !
2. a.Les intervalles de confiance donnant le maire sortant gagnant sont ceux qui sont entièrement situés audessus de la droite d’équation y 0,5. Le graphique en montre 2.
b. Sur cette simulation, le pourcentage des intervalles de confiance contenant p 0,495 est aussi 98 % (conforme à la théorie : au moins 95 %…).
26
0,40625.
64
À partir de cette fréquence f, certes inférieure à 0,5, Arthur ne peut affirmer qu’il a raison, car d’un échantillon de taille 64 à un autre, la fréquence fluctue.
53 1.f 2. a.Si p est la probabilité de l’événement A lorsqu’on réalise le tirage des cinq cartes au hasard, on sait par propriété, que sur des échantillons de 64 répétitions de cette expérience, la fréquence f de A appartient, dans 95 % des cas au moins, à l’intervalle
È
1
1 ˘
I Íp ; p
˙ p - 0,125 ; p 0,125.
Î
64
64 ˚
Il reste à établir (algébriquement ou graphiquement) que f ŒI équivaut à p ŒJ avec J f - 0,125 ; f 0,125.
b. Sur l’échantillon d’Arthur, on a f 0,40625et donc, on peut dire, au niveau de confiance de 95 %, que p est dans l’intervalle 0,28125 ; 0,53125. Cet intervalle de confiance, ne permet pas de dire si, au niveau 0,95, si p est inférieure ou supérieure à 0,5.
c. La valeur exacte de p est 0,52 ; on peut vérifier qu’elle appartient bien à l’intervalle J.
De plus, c’est Zoé qui avait raison !
Chapitre9. Échantillonnage
5230_09_Chap_09.indd 7
7
29/06/10 13:33
54 2. Les trois premières lignes (Pour… FinPour) permettent de remplir la liste L de 30 nombres entiers tirés aléatoirement entre 1 et 365, chacun repérant un jour de l’année (supposée non bissextile).
La variable Doubl est ensuite initialisée à 0.
La structure itérative principale Tantque… FinTantque teste si deux nombres de la liste L sont égaux. Dans ce cas, Doubl prend la valeur Doubl +1.
À la fin de l’algorithme, est affiché le contenu de la variable Doubl qui peut être donc 0 ou 1 : l’affichage de 0 correspond au cas où il n’y a pas deux nombres égaux dans la liste L et 1 au cas où il y a (au moins) deux nombres égaux dans la liste L.
3. a. Analyse : l’algorithme précédent correspond au tirage d’un échantillon de taille 30 et renvoie dans la variable Doubl la valeur 1 si deux personnes (au moins) ont leur anniversaire le même jour et 0 sinon.
Pour simuler 100 fois le tirage d’un tel échantillon, il faut donc ajouter une structure itérative. On connaît le nombre de répétitions, 100, il s’agit donc d’une structure
Pour… FinPour.
Il faut de plus incrémenter la variable Doubl de 1 à chaque échantillon présentant deux personnes (au moins) ayant leur anniversaire le même jour. Il suffit pour cela de ne pas réinitialiser Doubl à 0 à chaque échantillon mais de l’initialiser seulement au début de l’algorithme. On obtient donc l’algorithme suivant :
VARIABLES : INITIALISATION : TRAITEMENT :  
 
 
 
Doubl, i, j, k nombres, L liste
Doubl prend la valeur 0
Pour k allant de 1 à 100 Faire
Pour i allant de 1 à 30 Faire
L(i) prend la valeur EntAlea(1 ; 365)
FinPour
i prend la valeur 1
j prend la valeur 1
Tantque i j et i 30 Faire
3. b. Programmes (voir aussi les programmes et les aides sur le site) :
AlgoBox
Xcas
Remarque : i étant réservé pour les nombres complexes, il a été remplacé par n.
Scratch (pour 100 échantillons, l’exécution du programme prend près de 15 minutes)
i prend la valeur i + 1
j prend la valeur 1
Tantque L j L i Faire
j prend la valeur j 1
FinTantque
FinTantque
Si j i Alors Doubl prend la
valeur Doubl 1
SORTIE : FinSi
FinPour
Afficher Doubl
8
5230_09_Chap_09.indd 8
29/06/10 13:33
Calculatrices
Pour raccourcir le temps d’exécution du programme, on a programmé ci-dessous le tirage de 10 échantillons seulement. Il suffira de regrouper plusieurs résultats dans la classe.
TI
Casio
Remarque : le choix a été fait dans cet algorithme de ne pas utiliser des algorithmes de tri de listes déjà implantés dans les calculatrices.
Résultat : sur 100 échantillons, on obtient très souvent des fréquences voisines de 0,70.
c. L’intervalle de fluctuation au seuil 95 % est p - 0,1; p 0,1.
Si p 0,5, on a p 1 0,6 donc cet intervalle ne peut contenir des fréquences supérieures à 0,6.
On peut considérer, avec un risque d’erreur de 5 % que si la fréquence observée est 0,70, elle n’est pas compatible avec une fréquence p inférieure à 0,5. On pourra reconsidérer éventuellement le choix fait intuitivement à la question 1.
55 1.Une seule canalisation sur les cinq contenant de l’eau, lorsque le sourcier en choisit une au hasard, la 1
probabilité de la désigner est p 0,2.
5
2. L’intervalle de fluctuation au seuil de 95 % de la fréquence f de bonnes réponses sur un échantillon de taille 30 est :
È
1
1 ˘
I Í0,2 ; 0,2+
˙ ª 0,02 ; 0,38.
Î
30
30 ˚
Sur un échantillon de taille 30, dire que f est compris entre 0,02 et 0,38, c’est dire que le nombre de bonnes réponses est compris entre 30 ¥ 0,2 6 et 30 ¥ 0,38 11,4, c’est-àdire entre 6 et 11.
On pourra donc considérer que le sourcier à un don s’il donne au moins 12 bonnes réponses.
56 Dans la population du comté, la fréquence du caractère « origine mexicaine » est p 0,8.
Sur l’échantillon de taille 870 des personnes précédemment convoquées dans des jurys, la fréquence de ce caractère 339
est f ª 0,39.
870
Il faut étudier si cet important écart entre f  et p  peut s’expliquer par la fluctuation au hasard de la fréquence sur des échantillons de taille 870.
Par propriété, on sait que parmi les échantillons de taille 870 de cette population, 95 % au moins amènent une fréquence du caractère dans l’intervalle
È
1
1 ˘
I Í0,8 ; 0,8+
˙ ª 0,77 ; 0,83.
Î
870
870 ˚
Or, dans l’échantillon contesté, f 0,39 est loin d’appartenir à cet intervalle.
Et la probabilité que le hasard « réussisse » cela est inférieure à 5 % !
On peut donc sérieusement penser, à un risque inférieur à 5 % de se tromper, que le recrutement des jurés dans ce comté du sud du Texas est discriminant à l’égard des américains d’origine mexicaine.
57 Sur le sondage de taille 1 320 réalisé par le journal, les fréquences d’intentions de vote en faveur des candidats sont : f1 0,27 pour X, f2 0,385 pour Y et f3 0,345 pour Z.
Au niveau de confiance 0,95, les fourchettes de sondage associées sont :
È
1
1 ˘
J1 Í0,27 ; 0,27+
˙ , soit environ Î
1320
1320 ˚
0,24 ; 0,30,
È
1
1 ˘
J2 Í0,385 ; 0,385+
˙ , soit environ Î
1320
1320 ˚
0,36 ; 0,41,
È
1
1 ˘
J3 Í0,345 ; 0,345+
˙ , soit environ Î
1320
1320 ˚
0,32 ; 0,37.
Ces intervalles permettent d’estimer, au niveau de confiance 0,95, les fréquences p1, p2, p3, d’intentions favorables dans la population pour X, Y et Z, respectivement.
Au vu de ces intervalles :
affirmer que Y a de très fortes chances de faire le meilleur score lors de l’élection est très imprudent : il n’est pas exclu d’avoir p3 p2 .
Par contre, affirmer que Z a de très fortes chances d’être dernier paraît statistiquement fondé.
2. Avec les mêmes résultats sur un sondage de taille n, on peut écrire, au niveau de confiance 0,95 :
1
1
0,27 p1 0,27 ,
n
n
Chapitre9. Échantillonnage
5230_09_Chap_09.indd 9
9
29/06/10 13:33
1
1
p2 0,385 et
n
n
1
1
0,345 p1 0,345 .
n
n
Pour que les deux affirmations soient statistiquement fondées, il suffit d’avoir :
1
1
0,27 0,345 et
n
n
1
1
0,345 0,385 , c’est-à-dire
n
n
0,385 -
2
2
0,075 et 0,040.
n
n
2
0,040 qui équivaut à Il suffit de conserver n
4 0,04 2 n et donc à n 2 500.
Avec ces mêmes résultats sur un sondage de taille supérieure à 2 500, une estimation serait donc possible, conduisant au classement : Y, Z, X.
58 EnglishCorner
10
5230_09_Chap_09.indd 10
29/06/10 13:33