Intervalles de fluctuation

Transcription

Séquence 9
Intervalles de fluctuation, estimation
Objectifs de la séquence
Dans
le chapitre 2, on étudie des intervalles de fluctuation des variables aléatoires
Xn
Fn =
, fréquences des variables aléatoires binomiales X n de paramètres n et p. On
n
étudie quelques exemples de prise de décision.
Dans
le chapitre 3, on aborde l’estimation d’une proportion inconnue à partir de celle
d’un échantillon.
Sommaire
1. Pré-requis
2. Intervalles de fluctuation
3. Estimation
4. Synthèse de la séquence
5. Exercices de synthèse
Séquence 9– MA01
1
© Cned - Académie en ligne
1 Pré-requis
Échantillonnage
En statistiques, un échantillon de taille n est la liste des n résultats obtenus par
n répétitions indépendantes de la même expérience aléatoire. Ici l’expérience
répétée est une épreuve de Bernoulli, c’est-à-dire qu’elle ne prend que deux
valeurs : échec / réussite, oui / non, homme / femme, 0 / 1…
Par exemple, un échantillon de taille 100 du lancer d’une pièce dans lequel on
compte le nombre de fois où on obtient Pile est la liste des résultats obtenus en
lançant effectivement 100 fois la pièce.
Le nombre de réussites dans un échantillon de taille n suit la loi binomiale
Ꮾ(n ; p ).
On appelle f la fréquence du nombre de réussites dans l’échantillon.
Définition
Un intervalle de fluctuation au seuil de 95 %, relatif aux échantillons de taille
n, est un intervalle où se situe la fréquence f observée dans un échantillon
de taille n avec une probabilité supérieure à 0,95.
On a vu en Seconde que :
L’intervalle  p − 1 ; p + 1  est un intervalle de fluctuation approché au


n
n

seuil de 95 %, relatif aux échantillons de taille n.
Commentaire :
dans certains cas, la probabilité que la fréquence appartienne à l’intervalle
1
1  est très proche de 0,95 mais en étant inférieure, c’est

;p+
p −

n
n

pourquoi on dit que ce sont des intervalles de fluctuation « approchés ».
1
1 

Dans la pratique, on utilise l’intervalle  p −
;p+
 pour des probabilités p
n
n

comprises entre 0,2 et 0,8 et des échantillons de taille n supérieure ou égale à 25.
Séquence 9– MA01
3
Remarque
Tout intervalle qui contient un intervalle de fluctuation au seuil de 95 %, est
lui aussi un intervalle de fluctuation à ce même seuil.
L’intervalle [ 0 ; 1] contient toutes les fréquences, il vérifie la condition de la
définition précédente, mais il est sans intérêt. On cherchera des intervalles
de fluctuation correspondant à des probabilités supérieures à 0,95 et aussi
très proches de 0,95 en particulier dans les prises de décision.
Remarque
Il y a plusieurs sortes d’intervalle de fluctuation. On peut choisir des
intervalles de fluctuation centrés en p comme ceux vus en Seconde, où pour
lesquels la probabilité que la fréquence soit à l’extérieur de l’intervalle à
gauche soit égale à la probabilité que la fréquence soit à l’extérieur de
l’intervalle à droite comme ceux vus en Première, ou…
Par exemple, pour p = 0,2 et n = 100, l’intervalle de fluctuation vu en
Seconde est [ 0,1; 0,3] et celui obtenu en Première est [ 0,12 ; 0,28 ].
Exercice
On utilisera ici les intervalles de fluctuation au seuil de 95 % de la forme
1
1 

;p+
p −
.
n
n

On dispose d’un dé bien équilibré, on gagne quand on obtient 1 ou 6. Déter-
miner un intervalle de fluctuation au seuil de 95 %, de la fréquence des lancers
gagnants dans les échantillons de taille 100.
On sait qu’en moyenne 51% des nouveau-nés sont des garçons. Détermi-
ner un intervalle de fluctuation au seuil de 95% de la fréquence des garçons
nouveau-nés dans des échantillons de taille 25. Que peut-on en déduire pour le
nombre de garçons parmi 25 nouveau-nés ?
Utilisation
Prise de décision
On a découvert une pièce ancienne et on se demande si elle est bien équilibrée.
Comment faire ?
On lance n fois la pièce et on note la fréquence f d’apparition de Pile.
On détermine un intervalle de fluctuation I n au seuil de 95 %, de la fréquence
d’apparition de Pile dans des échantillons de taille n.
4
Séquence 9– MA01
Règle de décision : si f appartient à l’intervalle I n , on décide que la pièce est équilibrée, si f n’appartient pas à l’intervalle I n on décide que la pièce n’est pas équilibrée.
Dans chacun des deux cas suivants, quelle est la décision prise ?
n = 100 et f = 0,56
n = 1000 et f = 0,560.
Séquence 9– MA01
5
2 Intervalles de fluctuation
A
Objectifs du chapitre
Quand on réalise une expérience aléatoire, on observe bien sûr que les résultats
obtenus ne sont pas toujours les mêmes, c’est la fluctuation d’échantillonnage.
Mais on observe aussi que, plus on répète une expérience un grand nombre de
fois, plus la régularité de la fréquence des résultats est grande.
On définit les intervalles de fluctuation asymptotique et on en donne un exemple.
On peut alors décider si on considère que des résultats obtenus lors d’une expérience sont dus au hasard (c’est-à-dire à la fluctuation d’échantillonnage), ou
si on considère qu’ils sont statistiquement significatifs d’une différence avec le
modèle choisi.
B
Activité 1
Pour débuter
Sur le tableur Open Office, on a simulé 100 échantillons de n lancers d’un dé
tétraédrique bien équilibré.
On a déterminé les fréquences où la face marquée 1 est la face cachée ( p = 0,25),
elles sont indiquées en ordonnées sur le graphique.
Dans chacun des trois cas, déterminer :
Le pourcentage des fréquences appartenant à l’intervalle  p − 1 ; p + 1  ,



Le pourcentage des fréquences appartenant à

p (1− p )
p (1− p ) 
; p + 1,96
 p − 1,96
.
n
n 

6
Séquence 9– MA01
n
n
Premier cas
Fluctuation 100 échantillons
0,4
n = 50
p = 0,25
40
60
0,35
fréquence
0,3
0,25
0,2
0,15
0,1
0,05
0
0
20
80
100
Deuxième cas
n = 100
fréquence
0,4
p = 0,25
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
0
20
40
60
80
100
Séquence 9– MA01
7
Troisième cas
n = 200
fréquence
0,35
p = 0,25
0,3
0,25
0,2
0,15
0,1
0,05
0
0
20
C
40
60
80
100
Cours
1. Intervalles de fluctuation asymptotique
Dans ce qui suit, on considère des variables aléatoires X n suivant chacune une
loi binomiale Ꮾ(n ; p ).
(exemple : on lance n fois une pièce équilibrée, X n est le nombre de Pile obtenus, X n suit la loi Ꮾ(n ; 0,5)).
X
La variable aléatoire Fn = n donne donc la fréquence du nombre de « sucn
cès » (attention : il s’agit d’une utilisation du mot fréquence différente de ce qui
est fait en statistique lorsqu’on parle de fréquence d’un caractère, ici la fréquence
est une variable aléatoire).
8
Séquence 9– MA01
Propriété 1
X
La variable aléatoire Fn = n :
n
n
1
2
prend n + 1 valeurs : 0, , , ...,
;
n n
n
X 
a pour espérance le nombre p : E  n  = p .
 n 
Démonstration
La variable aléatoire X n prenant les n + 1 valeurs : 0, 1, 2, …, n, on en déduit
celles de Fn .
On sait que E ( X n ) = np , et, d’après la linéarité de l’espérance, quand on divise
la variable aléatoire par n, l’espérance est aussi divisée par n. On obtient donc
X 
E  n  = p.
 n 
Les fréquences Fn ont donc pour espérance le nombre p qui ne dépend pas de n.
Les résultats observés ont tendance à se resserrer autour de l’espérance p quand
n augmente. C’est cette concentration des valeurs les plus probables autour de p
qui permet d’améliorer la prise de décision à partir des observations.
Définition 1
X
Un intervalle de fluctuation asymptotique de la variable aléatoire Fn = n
n
au seuil de 95 % , est un intervalle déterminé à partir de p et de n et qui
contient Fn avec une probabilité d’autant plus proche de 95 % que n est
grand.
Exemple 1
1
1 

On montrera plus loin que l’intervalle  p −
;p+
 est un intervalle de
n
n

X
fluctuation asymptotique de la variable aléatoire Fn = n au seuil de 95%. En
n
classe de seconde, ceci a été énoncé sous forme simplifiée, le caractère asymptotique ne pouvant pas être introduit. Des exemples d’utilisation ont été donnés
dans les pré-requis.
Séquence 9– MA01
9
Résultat admis à savoir

p (1− p )
p (1− p ) 
L’intervalle I n =  p − 1,96
; p + 1,96
 est un intervalle
n
n 

X
de fluctuation asymptotique de la variable aléatoire Fn = n au seuil de
n
95%.
Dans l’activité 1, on a pu faire des observations cohérentes avec ces résultats. Mais, la définition d’un intervalle de fluctuation est exprimée avec une
probabilité. Si vous faites d’autres simulations avec le fichier qui est sur le
site, il se peut que quelques observations donnent des pourcentages éventuellement inférieurs à 95%.
Remarque
Les intervalles I n sont des intervalles de fluctuation asymptotique car il
y a la condition « d’autant plus proche de … que n est grand ». On peut
considérer que les I n sont des intervalles de fluctuation « approchés », la
probabilité que les Fn appartienne à I n n’est pas forcément supérieure à
0,95 (condition de la définition d’un intervalle de fluctuation au seuil de
95%) mais si elle n’est pas supérieure à cette valeur, elle en est proche.
En pratique dans les exercices, la taille n de l’échantillon est fixée,
l’intervalle de fluctuation asymptotique I n correspondant sera l’intervalle
de fluctuation utilisé.
Remarque
Conditions d’utilisation
Les exigences habituelles de précision pour utiliser cette approximation
sont : n ≥ 30, np ≥ 5 et n (1− p ) ≥ 5.
Exemple 2
Déterminer un intervalle de fluctuation asymptotique au seuil de 95% lorsque
n = 100 et p = 0,5.
Solution
On a np = 50 et n (1− p ) = 50 donc les trois conditions sont réalisées et on peut
utiliser l’intervalle I n . On obtient :
10
Séquence 9– MA01

0,5 × 0,5
0,5 × 0,5 
I100 = 0,5 − 1,96
; 0,5 + 1,96
 soit [ 0,402 ; 0,598 ].
100
100


Cet exemple modélise 100 lancers d’une pièce équilibrée. On peut donc dire que,
pour environ 95 % des séries de 100 lancers, la fréquence du nombre de Pile
obtenus se situe dans l’intervalle [ 0,402 ; 0,598 ].
Remarque
Ces intervalles de fluctuation asymptotique sont plus faciles à déterminer
que ceux du cours de Première qui nécessitaient l’utilisation d’algorithmes
ou de tableurs, certains tableurs d’ailleurs ne pouvant pas dépasser certaines
valeurs pour n.
2. Exemple d’utilisation : prise de décision
On utilise un intervalle de fluctuation lorsque l’on veut déterminer si la
proportion f observée dans un échantillon est compatible ou non avec un modèle
de Bernoulli, c’est-à-dire si elle peut être un résultat obtenu par une variable
X
aléatoire Fn = n , où X n suit une loi binomiale de paramètres n et p, la valeur
n
p étant connue ou supposée connue dans la population.
Quand X n suit une loi binomiale de paramètres n et p, un intervalle de fluctuation
asymptotique I n au seuil de 95% est un intervalle où se situe la fréquence
X
Fn = n avec une probabilité d’autant plus proche de 0,95 que n est grand.
n
L’intervalle I n contient donc environ 95% des fréquences observées dans les
échantillons de taille n suffisamment grande. Des fréquences (environ 5%) de
certains échantillons ne sont pas dans I n , c’est la fluctuation d’échantillonnage.
En fonction de l’appartenance ou non de la fréquence observée f à l’intervalle
I n , on décide si l’échantillon est conforme ou non au modèle.
La règle de décision adoptée est la suivante :
si la fréquence observée f dans un échantillon appartient à un intervalle de
fluctuation asymptotique au seuil de 95 % on considère que l’échantillon
est compatible avec le modèle ;
sinon, on
considère que l’échantillon n’est pas compatible avec le modèle.
Séquence 9– MA01
11
Remarque
Avec cette règle, la fluctuation d’échantillonnage amène à rejeter, à tort, les
5 % (environ) d’échantillons qui suivent le modèle de Bernoulli et qui ne
sont pas dans I n .
Dans les exemples, les tirages sont effectués sans remise. La taille des échantillons considérés étant faible par rapport à la taille de la population totale, on
assimile les tirages réalisés à des tirages avec remise et on peut alors appliquer
les résultats précédents.
Exemple 3
Le responsable de la maintenance des machines à sous d’un casino doit vérifier
qu’un certain type de machines est bien réglé sur une fréquence de succès de 0,06.
Il décide de régler chaque machine pour laquelle il aura observé, dans l’historique
des jeux, une fréquence de succès se situant en dehors d’un intervalle de fluctuation au seuil de 95 %.
Lors du contrôle d’une machine, le technicien constate qu’elle a fourni 9 succès
sur 85 jeux.
Déterminer la fréquence observée f de succès de cette machine.
Déterminer d’après le cours un intervalle de fluctuation asymptotique au seuil
de 95 %.
Le technicien va-t-il modifier le réglage de la machine ?
Quelle aurait été sa décision s’il y avait eu 21 succès sur 200 jeux ?
Solution
On a f =
9
≈ 0,106.
85
On a n = 85, p = 0,06, np = 5,1 et n (1− p ) = 79,9, donc les conditions
sont remplies pour utiliser l’intervalle de fluctuation asymptotique du cours

0,06 × 0,94
0,06 × 0,94  Comme 0,009 est une
; p + 1,96
0,06 − 1,96
.
85
85


valeur approchée par défaut de 0,06 − 1,96
0,06 × 0,94
et 0,111 est une
85
0,06 × 0,94
, alors [ 0,009 ; 0,111]
85

0,06 × 0,94 
0,06 × 0,94
; 0,06 + 1,96
et [ 0,009 ; 0,111]
contient 0,06 − 1,96

85
85

valeur approchée par excès de 0,06 + 1,96
est donc un intervalle de fluctuation légèrement plus large que celui du cours.
12
Séquence 9– MA01
La fréquence observée f se situe dans l’intervalle de fluctuation donc le réglage
de la machine n’est pas modifié.
Dans ce deuxième cas, la fréquence observée est f = 21 = 0,105 et l’inter-
200
valle de fluctuation est environ égal à [ 0,027 ; 0,093]. La fréquence f du nombre
de succès observée n’est pas dans l’intervalle car elle est trop grande, donc le
technicien va modifier le réglage de la machine. On remarque que, dans les deux
cas, les fréquences f sont presque les mêmes mais les décisions prises sont différentes car les intervalles de fluctuation sont différents.
Remarque
L’amplitude de l’intervalle de fluctuation asymptotique au seuil de 95 % du
cours est égale à 2 × 1,96
p (1− p )
n
. Pour une valeur de p donnée, cette
amplitude diminue quand la taille n de l’échantillon augmente.
3. Complément sur les intervalles
1
1 

;p+
p −

n
n

On peut retrouver l’intervalle de fluctuation qui a été donné en classe de Seconde.
1
1 

On montre pour cela que l’intervalle  p −
;p+
 contient l’intervalle
n
n


p (1− p )
p (1− p ) 
I n =  p − 1,96
; p + 1,96
.
n
n 

Pour tout p dans ]0 ; 1[ , l’inégalité p (1− p ) ≤
1
est vérifiée (la fonction poly4
2
nôme du second degré p p (1− p ) = − p + p admet un maximum car le coef-
ficient de p 2 est négatif, ce maximum est atteint pour p =
1
et il vaut donc
2
1  1 1
 1−  = ).
2  2 4
On en déduit que 1,96 p (1− p ) ≤ 1,96 ×
1
≤ 1.
4
Séquence 9– MA01
13
On obtient :
p−
p (1− p )
p (1− p )
1
1
.
≤ p − 1,96
≤ p + 1,96
≤p+
n
n
n
n
1
1 

Donc l’intervalle I n est inclus dans l’intervalle  p −
;p+
 ce qui
n
n


X
1
1 
X

entraîne que P  n ∈I n  ≤ P  p −
.
≤ n ≤p+
 n


n
n 
n
1
1 

;p+
Donc l’intervalle  p −
 contient Fn avec une probabilité supén
n

rieure à celle obtenue avec I n .
1
1 

;p+
Donc l’intervalle  p −
 contient Fn avec une probabilité d’autant
n
n

plus sûre de dépasser 95 % que n est grand.
Conclusion
1
1 

L’intervalle  p −
;p+
 est bien un intervalle de fluctuation asymptotique
n
n

de X n à un seuil au moins égal à celui de I n , c’est-à-dire 95%.
n
D
Exercice 1
Exercices d’apprentissage
(d’après ressources Education nationale)
Les enfants sont dits prématurés lorsque la durée gestationnelle est inférieure
ou égale à 259 jours. La proportion de ces naissances est de 6%. Des chercheurs
suggèrent que les femmes ayant eu un travail pénible pendant leur grossesse
sont plus susceptibles d’avoir un enfant prématuré que les autres. Il est décidé
de réaliser une enquête auprès d’un échantillon aléatoire de 400 naissances correspondant à des femmes ayant eu pendant leur grossesse un travail pénible. Les
chercheurs décident a priori que si la proportion d’enfants nés prématurés dans
cet échantillon est supérieure à la borne supérieure d’un intervalle de fluctuation
asymptotique au seuil de 0,95 alors leur hypothèse sera acceptée. Finalement le
nombre d’enfants prématurés est de 50. Quelle est donc la conclusion ?
14
Séquence 9– MA01
Exercice 2
Dans le monde, la proportion de gauchers est 12 %.
Dans un club de tennis, il y a 21 gauchers parmi les 103 licenciés.
Déterminer la fréquence de gauchers dans ce club.
Déterminer un intervalle de fluctuation asymptotique au seuil de 95 %.
Peut-on dire que ce club est « représentatif » de la proportion de gauchers
dans le monde ?
Exercice 3
On
souhaite
utiliser
l’intervalle
de
fluctuation
asymptotique

p (1− p )
p (1− p ) 
I n =  p − 1,96
; p + 1,96
.
n
n 

Pour p = 0,02, déterminer la plus petite valeur de n vérifiant les conditions
d’utilisation : n ≥ 30, np ≥ 5 et n (1− p ) ≥ 5.
Déterminer ensuite la plus petite valeur de n pour laquelle l’amplitude de
l’intervalle de fluctuation est inférieure à 0,1.
Séquence 9– MA01
15
3 Estimation
A
Objectifs du chapitre
On souhaite connaître dans une population, la valeur d’une proportion p (proportion des pièces défectueuses parmi les pièces fabriquées par une usine, proportion des gauchers en France, intentions de vote pour un référendum, …)
Pour des raisons matérielles, financières ou autres (par exemple, on ne peut pas
tester le bon fonctionnement de toutes les allumettes d’une production car dans
ce cas tester une allumette amène à la détruire !), on ne peut pas toujours réunir
les données concernant la population tout entière.
On va donc estimer la proportion p que l’on cherche à partir de la fréquence f
observée dans un échantillon.
Mais on sait que cette fréquence observée va varier d’un échantillon à l’autre,
c’est la fluctuation d’échantillonnage autour de p.
Il est donc nécessaire de tenir compte de cette fluctuation en donnant un résultat
sous forme d’un intervalle, appelé intervalle de confiance en précisant aussi le
niveau de confiance que l’on accorde à cette réponse.
Dans ce chapitre, on montre comment on peut déterminer un intervalle de
confiance au niveau 0,95.
Cet intervalle dépendant de la taille de l’échantillon, on détermine la taille de
l’échantillon qui est suffisante pour obtenir une précision donnée (qui dépend
de l’amplitude de l’intervalle de confiance), le niveau de confiance étant toujours
0,95.
B
Pour débuter
Dans ce chapitre, on montrera comment répondre à des questions analogues à
celles qui suivent.
On considère une urne contenant un très grand nombre de petites billes de couleur blanche ou noire, la proportion p de billes noires est inconnue. On cherche à
estimer p à partir d’un échantillon de taille n.
On effectue 100 tirages successifs avec remise et on obtient 71 billes noires et
29 billes blanches, à combien peut-on estimer p ?
Même question sachant qu’on a effectué 1000 tirages et obtenu 693 billes
noires et 307 billes blanches.
16
Séquence 9– MA01
C
Cours
1. Résultat préliminaire
Démontrer que, pour tous réels x et y et pour tout réel r positif, on a :
x −r ≤ y ≤ x +r ⇔ y −r ≤ x ≤ y +r .
Solution
x − r ≤ y x ≤ y + r
x −r ≤ y ≤ x +r ⇔ 
⇔
⇔ y −r ≤ x ≤ y +r .
y ≤ x + r
y − r ≤ x
Remarque
La double inégalité x − r ≤ y ≤ x + r équivaut à −r ≤ y − x ≤ r qui signifie que l’écart entre les deux nombres x et y est compris entre −r et r, les
deux nombres x et y jouant le même rôle.
2. Exemple de référence
Avant d’aborder les définitions et les propriétés bien mises en forme mais un peu
difficiles au premier abord, nous allons étudier un exemple.
On considère une urne contenant un très grand nombre de petites billes de couleur blanche ou noire, la proportion p de billes noires est inconnue. On cherche à
estimer p à partir d’un échantillon de taille n.
La probabilité d’obtenir une bille noire quand on fait un tirage au hasard est
égale à la proportion p.
On sait donc que, parmi tous les échantillons de taille n qu’on peut obtenir, environ 95% d’entre eux ont une fréquence f qui appartient à l’intervalle de fluctuation  p − 1 ; p + 1  . Le résultat préliminaire du prouve que :


n
n

1
1
1
1
ce qui permet de déduire que :
≤f ≤ p +
⇔f −
≤ p ≤f +
p−
n
n
n
n
1
1

1
1  est équivalent à

" p ∈ f −
;f +
"f ∈  p −
;p+
"
n
n
n
n



".

Donc, parmi tous les échantillons de taille n qu’on peut obtenir, environ 95%
1
1 

;f +
sont tels que l’intervalle associé f −
 contient le nombre p que
n
n

l’on cherche à estimer.
Séquence 9– MA01
17
On réalise donc un échantillon de taille n en effectuant n tirages indépendants
(tirages au hasard avec remise). On calcule la fréquence f de billes noires dans
l’échantillon obtenu et on détermine l’intervalle
1
1 

;f +
f −
.
n
n

1
1 

On dit alors que p appartient à f −
;f +
 avec un niveau de confiance
n
n

1
1 

de 95% et que l’intervalle f −
;f +
 est un intervalle de confiance au
n
n

niveau 0,95.
Exemple 4
On effectue 100 tirages indépendants et on obtient 71 billes noires et 29 billes
blanches. Donner un intervalle de confiance au niveau 95% pour la proportion
p de billes noires.
Même question sachant qu’on a effectué 1000 tirages et obtenu 693 billes
noires.
Solution

On trouve f = 0,71. Comme n = 100, l’intervalle f −



1
1 
l’intervalle 0,71−
; 0,71+
 , soit [ 0,61; 0,81].
100
100 

1
1 
;f +
 est
n
n
La proportion p de billes noires appartient à [ 0,61; 0,81] avec un niveau de
confiance de 95%.
On dit aussi que la proportion de billes noires est estimée à 0,71 avec l’intervalle
de confiance de [ 0,61; 0,81] au niveau 0,95.
On a ici f = 0,693.
Un
intervalle
de
confiance
au
niveau
95%
est
donc

1
1 
; 0,693 +
0,693 −
.
1000
1000 

Pour donner un intervalle dont les bornes sont des nombres décimaux ayant trois
chiffres après la virgule, on détermine une valeur approchée par excès de la borne
de droite et une valeur approchée par défaut de la borne de gauche : on obtient
[0,661; 0,725].
La proportion de billes noires est estimée à 0,693 avec l’intervalle de confiance
de [ 0,661; 0,725] au niveau 0,95.
1
1 

;f +
Une fois l’échantillon réalisé, l’intervalle f −
 est déterminé et il
n
n

n’y a alors que deux possibilités : p appartient ou n’appartient pas à cet intervalle
18
Séquence 9– MA01
(de même quand on a lancé une pièce, on a obtenu Pile ou on a obtenu Face).
C’est pourquoi on ne s’exprime plus en termes de probabilité. Pour exprimer
l’idée qu’on a obtenu un intervalle et qu’environ 95% des intervalles qu’on peut
obtenir ainsi contiennent la proportion cherchée, on a choisi le mot « confiance ».
3. Définition
Comme dans le chapitre précédent, on considère une suite de variables aléatoires
( X n ) où chaque variable aléatoire X n
suit la loi binomiale Ꮾ(n ; p ) (exemple :
on lance n fois une pièce et X n est le nombre de Pile obtenus). La variable aléaX
toire Fn = n donne donc la fréquence du nombre de « succès ».
n
On dit qu’un intervalle est aléatoire lorsque ses bornes sont définies par des
variables aléatoires.
La réalisation d’un intervalle aléatoire est l’intervalle obtenu après avoir réalisé l’expérience aléatoire (après avoir lancé 500 fois une pièce, interrogé 1000 personnes…).
Définition 2
Un intervalle de confiance pour une proportion p à un niveau de
confiance 95% est la réalisation, à partir d’un échantillon, d’un intervalle aléatoire contenant la proportion p avec une probabilité supérieure
ou égale à 95%.
Propriété 2 admise
1
1 

; Fn +
Pour une valeur de p fixée, l’intervalle aléatoire Fn −

n
n

contient, pour n assez grand, la proportion p avec une probabilité au moins
égale à 0,95.
Conséquence
La proportion p dans une population est élément de l’intervalle
1
1 

;f +
f −
 avec un niveau de confiance d’au moins 0,95, où f désigne
n
n

la fréquence observée dans un échantillon de taille n.
Séquence 9– MA01
19
A savoir
On se place dans le cas où l’échantillon contient au moins 30 éléments, n ≥ 30. Si la fréquence f observée est telle que nf ≥ 5 et
n (1− f ) ≥ 5, on convient que f est une estimation de p et que l’inter1
1 

;f +
valle f −
 est un intervalle de confiance au niveau 0,95
n
n

pour la proportion p.
Cet intervalle est aussi appelé « fourchette de sondage ».
4. Taille de l’échantillon pour obtenir une précision donnée au niveau de confiance 0,95
La précision de l’estimation est donnée par l’amplitude de l’intervalle
1
1  qui est égale à

;f +
f −

n
n

l’échantillon.
2 et dépend donc de la taille n de
n
On observe que cette amplitude ne dépend pas de la taille de la population
totale, ce qui peut étonner. Mais pour goûter un plat, il suffit d’en goûter une
petite quantité, cette quantité ne dépend pas de la taille du récipient (mais il faut
néanmoins avoir bien mélangé) ! (Explication donnée d’après une idée de JeanLouis Boursin dans son livre « Les structures du hasard ».)
On peut donc choisir la taille n de l’échantillon pour obtenir la précision souhai2
tée. En notant a la précision souhaitée, on cherche un entier n tel que
≤ a,
n
4
soit n ≥ 2 .
a
20
Précision a
0,06
0,04
0,02
0,01
Taille minimale de l’échantillon n
1112
2500
10000
40000
Séquence 9– MA01
Les sondages sont souvent faits avec des échantillons d’environ 1000 personnes,
la précision obtenue est donc d’environ 0,06.
Ainsi, questionner 1112 personnes suffit pour avoir une fourchette de sondage
d’amplitude 0,06, qu’il s’agisse d’un sondage pour un référendum local concernant 100000 électeurs ou pour le deuxième tour d’une élection présidentielle
concernant 35 millions d’électeurs.
Il faut bien sûr savoir cela quand on reçoit des informations où les sondages sont
un élément important.
5. Exemple : sondages et élections
Exemple 5
Dans cet exercice, la population est suffisamment grande pour que les sondages
soient assimilés à des tirages avec remise. On ne tient compte que des réponses
exprimées, c’est-à-dire qu’on ne tient pas compte des prévisions d’abstentions
ou des intentions de vote nul. Les sondages sont faits auprès de 1112 personnes.
Au deuxième tour de l’élection présidentielle, le dernier sondage de l’institut A
indique 52,5% d’intentions de vote pour le candidat X et 47,5% pour le candidat Y.
L’institut B indique 50,5% d’intentions de vote pour le candidat X et 49,5%
pour le candidat Y.
Y-a-t-il une contradiction entre les résultats de ces deux instituts de sondage ?
Le candidat X peut-il être totalement rassuré ?
Solution

L’intervalle de confiance – la fourchette de sondage – f −

1
1 
;f +

n
n
obtenu à partir des résultats de l’institut A qui donne f = 0,525 pour le candidat
X est environ égal à [ 0,495 ; 0,555]. En utilisant les résultats de l’institut B qui
donne f = 0,505, on obtient environ [ 0,475 ; 0,535]. Les deux fourchettes de
sondage ont une partie commune, donc les résultats de ces deux instituts de
sondage ne sont pas en contradiction.
Le candidat X ne peut pas être totalement rassuré car les deux fourchettes de
sondage contiennent des nombres inférieurs à 0,5, correspondants à un échec de
sa candidature.
6. Simulation
Pour mieux voir ce qu’est un intervalle de confiance, une fourchette de sondage,
on a réalisé 20 séries de 200 tirages de 0 et de 1 au hasard.
Séquence 9– MA01
21
Pour chaque série, on obtient un intervalle de confiance.
Dans les 200 colonnes de A à GR on a écrit les résultats des tirages.
Dans la colonne GS, on a déterminé pour chaque ligne la fréquence avec laquelle
on a obtenu 1. Dans les colonnes GT et GU sont calculées les bornes de l’intervalle de confiance du cours au niveau 0,95. La sélection des colonnes GT et GU
et le choix de « XY dispersion » dans type de diagramme dans Open Office donne
un diagramme analogue à celui-ci.
On constate ici que 19 d’entre eux contiennent p = 0,5 qui est la proportion
réelle dans cet exemple de tirage au hasard. Un seul intervalle ne contient pas
p = 0,5.
Dans d’autres simulations, on peut bien sûr trouver plusieurs intervalles de
confiance qui ne contiennent pas p ou aucun.
Quand on veut estimer une proportion, on utilise un seul intervalle de confiance.
La simulation permet de voir qu’environ 95% des intervalles de confiance
contiennent p.
7. Autre intervalle de confiance
Comme il existe différents intervalles de fluctuation, il existe différents intervalles
de confiance.
22
Séquence 9– MA01


Par exemple, l’intervalle f − 1,96 f (1− f ) ; f + 1,96 f (1− f )  est aussi un
n 
n

intervalle de confiance qui est utilisé dans certains cas. On ne le justifiera pas ici.
D
Exercice 4
Exercices d’apprentissage
Une usine vient d’installer une chaîne de fabrication pour fabriquer une nou-
velle pièce. Après un bref temps de fonctionnement, on prélève 100 pièces. La
fabrication est assez importante pour que ce prélèvement soit assimilé à un
tirage avec remise. On trouve 23 pièces défectueuses. Déterminer un intervalle
de confiance de la proportion de pièces sans défaut avec un niveau de confiance
0,95.
Des modifications ont été apportées. On prélève de nouveau 100 pièces et on
en trouve 9 défectueuses.
Déterminer l’intervalle de confiance correspondant.
Conclure.
Exercice 5
Dans une grande ville, un nouveau cinéma va être construit. La municipalité propose un terrain à proximité du centre ancien.
Un premier sondage est effectué auprès de 100 personnes choisies de façon
aléatoire et indique 53 avis favorables. Peut-on dire que la majorité de la population est favorable à cet emplacement ?
Un deuxième sondage effectué auprès de 500 personnes indique la même
proportion d’avis favorables. La conclusion est-elle différente ?
Un sondage effectué auprès de n personnes indique la même proportion d’avis
favorables. A partir de quelle valeur de n peut-on estimer, au seuil de confiance
0,95, que la majorité de la population est favorable à cet emplacement ?
Séquence 9– MA01
23
4 Synthèse de la séquence
Intervalle de fluctuation asymptotique
Définition
Un intervalle de fluctuation asymptotique de la variable aléatoire
X
Fn = n au seuil de 95% est un intervalle déterminé à partir de p et de
n
n et qui contient Fn avec une probabilité d’autant plus proche de 95% que
n est grand.

p (1− p )
p (1− p ) 
I n =  p − 1,96
; p + 1,96
 est un intervalle de
n
n 

fluctuation asymptotique au seuil de 95 %.
L’intervalle
Les exigences habituelles de précision pour utiliser cette approximation sont :
n ≥ 30, np ≥ 5 et n (1− p ) ≥ 5.
faut savoir utiliser un intervalle de fluctuation pour prendre une décision.
La règle de décision adoptée étant la suivante :
Il
dans un échantillon, la fréquence observée f appartient à un intervalle de
fluctuation asymptotique au seuil de 95 % on considère que l’échantillon est
compatible avec le modèle ;
si,
sinon, on
considère que l’échantillon n’est pas compatible avec le modèle.
Intervalle de confiance
Définition
Un intervalle de confiance pour une proportion p à un niveau de confiance
0,95 est la réalisation, à partir d’un échantillon, d’un intervalle aléatoire
contenant la proportion p avec une probabilité supérieure ou égale à 95%.
24
Séquence 9– MA01
faut savoir estimer une proportion inconnue p grâce à un échantillon : la
proportion p est estimée par la fréquence f, l’intervalle f − 1 ; f + 1  étant


n
n

un intervalle de confiance au niveau 0,95.
Il
On se place dans le cas où l’échantillon contient au moins 30 éléments et où la
fréquence f observée est telle que nf ≥ 5 et n (1− f ) ≥ 5.
z La précision de l’estimation est donnée par l’amplitude de l’intervalle
1
1  qui est égale à 2 et dépend donc de la taille n de

;f +
f −

n
n
n

l’échantillon.
Séquence 9– MA01
25
5 Exercices de synthèse
Exercice I
Intervalle de fluctuation (d’après ressources Education nationale)
Les personnes qui achètent un billet pour un voyage en avion ne se présentent
pas toutes à l’embarquement. Les compagnies aériennes cherchent donc à optimiser le remplissage d’un avion en vendant éventuellement un nombre de billets
supérieur à la capacité de l’avion (on dit que les places sont vendues en surréservation ou en surbooking). Les compagnies aériennes veulent bien sûr maitriser le
risque dû à cette pratique.
On considère un avion de 300 places, soit n le nombre de billets vendus, soit p
la probabilité qu’un client ayant acheté un billet se présente à l’embarquement
et soit X n la variable aléatoire désignant le nombre d’acheteurs d’un billet se
présentant à l’embarquement.
On cherche à évaluer n, n > 300, tel que P ( X n > 300) ≈ 0,05, c’est-à-dire tel
que la probabilité que le nombre de passagers se présentant à l’embarquement
soit supérieur à 300 soit environ de 0,05.
Pour modéliser cette situation on suppose que les comportements des clients
sont indépendants les uns des autres.
Déterminer la loi de X n .
On suppose que p = 0,85. Écrire l’intervalle de fluctuation asymptotique I n
du cours pour X n au seuil de 95 %.
n
 300 
Montrer que si I n 0 ;
 , alors la probabilité que le nombre de pas
n 
sagers se présentant à l’embarquement excède 300 est inférieur à une valeur
proche de 0,05.
On cherche à déterminer la valeur de n maximale permettant de satisfaire la
 300 
condition I n 0 ;
.

n 
 300 
a) Montrer que, si I n 0 ;
 , alors 0,85n + 1,96 0,1275 n − 300 ≤ 0.

n 
b) On définit sur [1; + ∞[ la fonction f par f ( x ) = 0,85x + 1,96 0,1275 x − 300.
26
Séquence 9– MA01
Montrer que la fonction f est strictement croissante sur [1; + ∞[ et déterminer le
plus grand entier n0 pour lequel la fonction f prend une valeur négative.
 300 
c) Vérifier que, pour cette valeur n0 , on a bien I n 0 ;
. Conclure.
0
 n0 
Appliquer la même démarche lorsque p = 0,9 puis lorsque p = 0,95.
Commenter.
Exercice II
Intervalle de confiance
Pour estimer dans une population la proportion p des individus possédant le
caractère A, on interroge au hasard 80 éléments de cette population. On observe
que 18 individus possèdent le caractère A.
Donner pour p un intervalle de confiance au niveau 0,95.
Donner une condition sur le nombre n d’individus interrogés, pour que la précision obtenue par l’intervalle de confiance au niveau 0,95 soit inférieure à 0,05.
Donner une condition sur le nombre n d’individus interrogés, pour qu’avec
la même fréquence observée l’intervalle de confiance au niveau 0,95 soit inclus
dans [ 0 ; 0,25].
Déterminer un entier n vérifiant les deux conditions. Quel serait alors, avec la
même fréquence observée, l’intervalle de confiance au niveau 0,95 ?
Séquence 9– MA01
27

Intervalles de fluctuation

Transcription

Documents pareils

x x xxf + + - = 1 )1ln( )(

UNIVERSITE PAUL SABATIER Examen de Topologie, MAPES L3

Travaux Pratiques II -15.09.09- Initiation `a Scratch

Fiches de Données de Sécurité

1 - Math France

Solutions_TS_chapitre_12

Caméra Time Lapse BCC-100.pub

Évaluation fonctions ln sujet type bac

Échantillonnage Intervalle de fluctuation

Baccalauréat ES Liban juin 2001