∑ ∑

Transcription

∑ ∑
TS - Bilan chapitre 14 :
ECHANTILLONNAGE
Retour sur D E M OIVRE -L APLACE...
Dans une population, on s’intéresse à une certaine
caractéristique, disons C. On note :
• p = proportion réelle de C dans la pop. totale.
Notons que p est aussi la proba. qu’un individu (choisi au
hasard dans la population) possède la caractéristique C.
• f = fréquence observée dans un échantillon.
Echantillonage
(p connu)
On teste un échantillon.
Est-il représentatif ?
Estimation
(p inconnu)
On estime p avec f .
Quelle précision ?
En 2nde , on a admis que :
– Si n ≥ 30 et 0, 20 ≤ p ≤ 0, 80
alors pour au moins 95% des échantillons :
1
1
f ∈ p− √ ; p+ √
n
n
C’est l’intervalle de fluctuation au seuil de 95%.
Il permet de tester des échantillons.
– Si n ≥ 30 et 0, 20 ≤ f ≤ 0, 80
alors dans au moins 95% des cas :
1
1
p∈ f−√ ; f+√
n
n
C’est l’intervalle de confiance au seuil de 95%.
Il permet d’estimer p.
En 1ère, on a utilisé la loi binômiale
a = plus petit entier tel que P( X ≤ a) > 2, 5%
b = plus petit entier tel que P( X ≤ b) ≥ 97, 5%
I=
µn = E( Xn ) = np
σn = σ ( Xn ) =
q
np(1 − p)
D’après D E M OIVRE -L APLACE (chap. 13) :
Xn − µ n
lim P a ≤
≤b
n →+ ∞
σn
Si on pose :
=
Z b
a
ϕ(t) dt
(variable centrée réduite)
Yn =
Xn − µ n
σn
D E M OIVRE -L APLACE signifie simplement que
l’histogramme de Yn se rapproche de ϕ, densité
de la loi normale centrée réduite N (0; 1).
Intérêt : on lance n = 10000 fois une pièce équilibrée.
La variable aléatoire qui compte le nombre de
≪ pile ≫ est Xn ∼ B(10000; 1 ).
2
5100
P(4900 ≤ Xn ≤ 5100) =
5100
=
∑
k =4900
∑
P( X = k)
k =4900
10000 1 n
2
k
Ce calcul n’est pas faisable à la calculatrice car les (10000
k )
sont trop grands ; néanmoins, dans ce cas :
µn = 10000 × 21 = 5000
q
σn = 10000 × 21 × 21 = 50
et il est clair que :
Pour une grande population, le choix d’un échantillon
est assimilable à un schéma de Bernoulli.
La variable aléatoire qui comptabilise le nombre
de succès, c’est à dire le nombre d’individus
possèdant C dans l’échantillon, suit une loi
binômiale B(n; p).
n
P ( X = k) =
pk (1 − p) n − k
k
P( a ≤ X ≤ b) ≥ 95%
X
b
a
≤
≤
≥ 95%
P
n
n
n
Si Xn ∼ B(n; p) , alors Xn comptabilise le nombre
de succès dans un schéma de Bernoulli à n niveaux.
a b
;
n n
La loi binômiale nous a permis de construire un intervalle de fluctuation au seuil 95%.
En Terminale, nous allons utiliser les lois normales
pour faire de l’échantillonnage...
4900 ≤ Xn ≤ 5100 ⇐⇒ −2 ≤
Xn − 5000
≤2
50
Xn − 5000
≤2
P(4900 ≤ Xn ≤ 5100) = P −2 ≤
50
Si : n ≥ 30
np ≥ 5
on s’autorise à oublier le
D E M OIVRE -L APLACE :
P(4900 ≤ Xn ≤ 5100) ≃
≪
n ( 1 − p ) ≥ 5 ⋆,
lim ≫ dans la formule de
n →+ ∞
Z 2
−2
ϕ( x )dx = Φ(2) − Φ(−2)
Ce qui se calcule aisément à la calculatrice :
P(4900 ≤ Xn ≤ 5100) ≃ 0, 95449
Rappel
Si Z ∼ N (0; 1), pour tout α ∈]0; 1],
il existe un unique uα > 0 tel que :
P ( Z ∈ [−uα ; +uα ]) = 1 − α
Application
Une certaine machine industrielle notée M fonctionne correctement si le pourcentage de pièces
défectueuses est p = 1/1000. Sur un échantillon de
10000 pièces, on a observé 15 pièces défectueuses.
On désire savoir si M fonctionne correctement.
Pour ceci, on fait l’hypothèse suivante :
Théorème ROC
Xn
.
n
Fn est la var. aléatoire fréquence de succès.
Si Xn ∼ B(n; p), on note Fn =
Pour tout α ∈]0; 1[ ,
"
p
In = p − u α
lim P ( Fn ∈ In ) = 1 − α
n →+ ∞
p (1 − p )
√
; p + uα
n
p
p (1 − p )
√
n
#
H =≪ la prop. de pièces défectueuses est p = 0, 001 ≫
On dit que In est un intervalle de fluctuation
asymptotique au seuil de confiance 1 − α :
cet intervalle dépend de n et contient Fn avec une proba
d’autant plus proche de 1 − α que n grand.
Là encore, Si : n ≥ 30
np ≥ 5
n(1 − p ) ≥ 5
on s’autorise à oublier le ≪ lim ≫ et on écrit :
n →+ ∞
P( Fn ∈ In ) ≈ 1 − α
In = p − 1, 96
p (1 − p )
√
; p + 1, 96
n
p
p (1 − p )
√
n
#
lim P ( Fn ∈ In ) = 0, 95
Complément Si α = 0, 01 alors uα = 2, 58 ...
Propriété règle de décision
Dans une population on cherche à décider si on
peut accepter une certaine hypothèse :
≪
f =
10000 10000
15
= 0, 0015 ∈ I10000
10000
Comme les conditions ⋆ sont vérifiées :
n ≥ 30
np = 10000 × 1/1000 = 10 ≥ 5
P( F10000 ∈ I10000 ) ≃ 95%
n →+ ∞
H :
10000
on sait que :
Un intervalle de fluctuation
asymptotique au seuil de confiance 95% est :
p
1000
n(1 − p) = 10000 × 999/1000 = 9990 ≥ 5
Cas particulier Si α = 0, 05, alors uα = 1, 96.
Théorème seuil de 95%
"
⋆,
Avec H vraie, on calcule un intervalle de fluctuation asymptotique pour la fréquence au seuil de
95% pour les échantillons de taille n = 10000 ;
√
0, 001 · 0, 999
3
17
1
√
≃
± 1, 96
;
I10000 =
la proportion du caractère est p ≫
On prélève un échantillon de taille n et on calcule
la fréquence f du caractère dans l’échantillon.
on ne rejette donc pas H
( ce qui signifie que H est acceptable
(ou que M est bien réglée)
avec un niveau de confiance de 95%. )
Remarque
Dire que l’on ne rejette pas H ne signifie pas que l’on
doive l’accepter... On aura peut-être un jour des raisons
suffisantes de la rejetter, mais pour l’instant, non !
Remarque Si les conditions ⋆ ne sont PAS
vérifiées, il faudra utiliser le cours de 1ère :
a = plus petit entier tel que P( X ≤ a) > 2, 5%
b = plus petit entier tel que P( X ≤ b) ≥ 97, 5%
a
b
a b
P
≤ Fn ≤
;
≥ 95%
I=
n
n
n n
I est un intervalle de fluctuation de Fn au seuil 95%.
En supposant vraie l’hypothèse H, on calcule
un intervalle de fluctuation In au seuil 95%
(valable pour les échantillons de taille n).
– Si f 6∈ In , alors on rejette l’hypothèse H avec
un risque d’erreur de 5%.
– Si f ∈ In (ce qui doit arriver dans 95% des cas),
alors on ne rejette pas l’hypothèse H, qui est
acceptable au niveau de confiance de 95%.
D’où vient l’intervalle de fluctuation de 2nde ?
1
1
I0 = p − √ ; p + √
n
n
On avait supposé n ≥ 30 et 0, 2 ≤ p ≤ 0, 8.
Notons que ces conditions impliquent ⋆ :
np ≥ 30 × 0, 2 ≥ 5
n(1 − p) ≥ 30 × 0, 2 ≥ 5
Propriété
Si Xn ∼ B(n; p), alors il existe n0 tel que :
1
Xn
1
≤ p+ √
n ≥ n0 ⇒ P p − √ ≤
> 0, 95
n
n
n
Démonstration
Propriété ROC
Soit Fn la variable aléatoire fréquence, qui à tout
échantillon de taille n associe la fréquence.
Il existe n0 tel que :
1
1
n ≥ n0 ⇒ P p ∈ Fn − √ ; Fn + √
≥ 0, 95
n
n
Cette propriété signifie que pour
h n assez grand,i
au moins 95% des intervalles Fn − √1n ; Fn + √1n
contiennent p. On pose donc :
Définition
an = P(−2 ≤ Zn ≤ 2)
D’après D E M OIVRE -L APLACE :
L = lim an = P(−2 ≤ Z ≤ 2) où Z ∼ N (0; 1)
n →+ ∞
L = 2Φ(2) − 1 ≈ 0, 9544
Dès lors, L > 0, 954. Soit ε < 0, 004. Puisque la suite
( an ) converge vers L, il existe un rang n0 tel que :
n ≥ n0 ⇒ L − ε < an < L + ε
mais L > 0, 954 donc an > 0, 954 − 0, 004 = 0, 95
Xn
an = P(−2 ≤ Zn ≤ 2) = P
∈J
avec :
n
q
q
2
2
J = p− √
p(1 − p); p + √
p(1 − p)
n
n
Le maximum sur [0; 1] de ( x 7→ x − x2 ) est 1/4
donc la longueur de J est majorable :
q
Dans une population, on s’intéresse à une certaine
caractéristique C, et on suppose donc ici que p, la
proportion de C dans la pop. totale, est inconnue.
Posons :
Xn − np
Zn = p
np(1 − p)
4
√
n
Estimation
4 √
2
p(1 − p) ≤ √
1/4 ≤ √
n
n
I0 et J ont le même centre, et ℓ( J ) < ℓ( I0 ) donc
J ⊂ I0 . On en déduit que si n ≥ n0 :
Xn
Xn
P
∈ I0 ≥ P
∈ J = an > 0, 95
n
n
Soit f la fréquence dans un échant. de taille n.
1
1
If = f − √ ; f + √
n
n
I f est un intervalle de confiance pour
p au niveau de confiance 95%.
(utilisable pour n ≥ 30, n f ≥ 5 et n(1 − f ) ≥ 5).
Applic. 1 :
Trouver n suffisant pour estimer
p à 1%, càd pour que l’intervalle de confiance
contienne p à 1% près avec proba. > 0, 95 ;
on doit donc avoir :
1
| f − p| ≤ √ et | f − p| ≤ 0, 01
n
Pour assurer ceci, il suffit d’avoir :
1
√ ≤ 0, 01
n
n ≥ 10000
Applic. 2 : A et B se présentent à une élection ; un
sondage portant sur n ≥ 30 personnes donne 53%
pour A et 47% pour B. Les intervalles de confiance
au seuil de confiance 95% pour les proportions p A
et pB de votants respectivement pour A et pour B :
1
1
I A = 0, 53 − √ ; 0, 53 + √
n
n
1
1
IB = 0, 47 − √ ; 0, 47 + √
n
n
Trouver n pour pouvoir affirmer au niveau de
confiance 95% que A est réélu. Il faut avoir :
1
1
0, 53 − √ ≥ 0, 47 + √
n
n
n ≥ 1112