∑ ∑

Transcription

∑ ∑

TS - Bilan chapitre 14 :
ECHANTILLONNAGE
Retour sur D E M OIVRE -L APLACE...
Dans une population, on s’intéresse à une certaine
caractéristique, disons C. On note :
• p = proportion réelle de C dans la pop. totale.
Notons que p est aussi la proba. qu’un individu (choisi au
hasard dans la population) possède la caractéristique C.
• f = fréquence observée dans un échantillon.
Echantillonage
(p connu)
On teste un échantillon.
Est-il représentatif ?
Estimation
(p inconnu)
On estime p avec f .
Quelle précision ?
En 2nde , on a admis que :
– Si n ≥ 30 et 0, 20 ≤ p ≤ 0, 80
alors pour au moins 95% des échantillons :
1
1
f ∈ p− √ ; p+ √
n
n
C’est l’intervalle de fluctuation au seuil de 95%.
Il permet de tester des échantillons.
– Si n ≥ 30 et 0, 20 ≤ f ≤ 0, 80
alors dans au moins 95% des cas :
1
1
p∈ f−√ ; f+√
n
n
C’est l’intervalle de confiance au seuil de 95%.
Il permet d’estimer p.
En 1ère, on a utilisé la loi binômiale
a = plus petit entier tel que P( X ≤ a) > 2, 5%
b = plus petit entier tel que P( X ≤ b) ≥ 97, 5%
I=
µn = E( Xn ) = np
σn = σ ( Xn ) =
q
np(1 − p)
D’après D E M OIVRE -L APLACE (chap. 13) :
Xn − µ n
lim P a ≤
≤b
n →+ ∞
σn
Si on pose :
=
Z b
a
ϕ(t) dt
(variable centrée réduite)
Yn =
Xn − µ n
σn
D E M OIVRE -L APLACE signifie simplement que
l’histogramme de Yn se rapproche de ϕ, densité
de la loi normale centrée réduite N (0; 1).
Intérêt : on lance n = 10000 fois une pièce équilibrée.
La variable aléatoire qui compte le nombre de
≪ pile ≫ est Xn ∼ B(10000; 1 ).
2
5100
P(4900 ≤ Xn ≤ 5100) =
5100
=
∑
k =4900
∑
P( X = k)
k =4900
10000 1 n
2
k
Ce calcul n’est pas faisable à la calculatrice car les (10000
k )
sont trop grands ; néanmoins, dans ce cas :
µn = 10000 × 21 = 5000
q
σn = 10000 × 21 × 21 = 50
et il est clair que :
Pour une grande population, le choix d’un échantillon
est assimilable à un schéma de Bernoulli.
La variable aléatoire qui comptabilise le nombre
de succès, c’est à dire le nombre d’individus
possèdant C dans l’échantillon, suit une loi
binômiale B(n; p).
n
P ( X = k) =
pk (1 − p) n − k
k
P( a ≤ X ≤ b) ≥ 95%
X
b
a
≤
≤
≥ 95%
P
n
n
n
Si Xn ∼ B(n; p) , alors Xn comptabilise le nombre
de succès dans un schéma de Bernoulli à n niveaux.
a b
;
n n
La loi binômiale nous a permis de construire un intervalle de fluctuation au seuil 95%.
En Terminale, nous allons utiliser les lois normales
pour faire de l’échantillonnage...
4900 ≤ Xn ≤ 5100 ⇐⇒ −2 ≤
Xn − 5000
≤2
50
Xn − 5000
≤2
P(4900 ≤ Xn ≤ 5100) = P −2 ≤
50
Si : n ≥ 30
np ≥ 5
on s’autorise à oublier le
D E M OIVRE -L APLACE :
P(4900 ≤ Xn ≤ 5100) ≃
≪
n ( 1 − p ) ≥ 5 ⋆,
lim ≫ dans la formule de
n →+ ∞
Z 2
−2
ϕ( x )dx = Φ(2) − Φ(−2)
Ce qui se calcule aisément à la calculatrice :
P(4900 ≤ Xn ≤ 5100) ≃ 0, 95449
Rappel
Si Z ∼ N (0; 1), pour tout α ∈]0; 1],
il existe un unique uα > 0 tel que :
P ( Z ∈ [−uα ; +uα ]) = 1 − α
Application
Une certaine machine industrielle notée M fonctionne correctement si le pourcentage de pièces
défectueuses est p = 1/1000. Sur un échantillon de
10000 pièces, on a observé 15 pièces défectueuses.
On désire savoir si M fonctionne correctement.
Pour ceci, on fait l’hypothèse suivante :
Théorème ROC
Xn
.
n
Fn est la var. aléatoire fréquence de succès.
Si Xn ∼ B(n; p), on note Fn =
Pour tout α ∈]0; 1[ ,
"
p
In = p − u α
lim P ( Fn ∈ In ) = 1 − α
n →+ ∞
p (1 − p )
√
; p + uα
n
p
p (1 − p )
√
n
#
H =≪ la prop. de pièces défectueuses est p = 0, 001 ≫
On dit que In est un intervalle de fluctuation
asymptotique au seuil de confiance 1 − α :
cet intervalle dépend de n et contient Fn avec une proba
d’autant plus proche de 1 − α que n grand.
Là encore, Si : n ≥ 30
np ≥ 5
n(1 − p ) ≥ 5
on s’autorise à oublier le ≪ lim ≫ et on écrit :
n →+ ∞
P( Fn ∈ In ) ≈ 1 − α
In = p − 1, 96
p (1 − p )
√
; p + 1, 96
n
p
p (1 − p )
√
n
#
lim P ( Fn ∈ In ) = 0, 95
Complément Si α = 0, 01 alors uα = 2, 58 ...
Propriété règle de décision
Dans une population on cherche à décider si on
peut accepter une certaine hypothèse :
≪
f =
10000 10000
15
= 0, 0015 ∈ I10000
10000
Comme les conditions ⋆ sont vérifiées :
n ≥ 30
np = 10000 × 1/1000 = 10 ≥ 5
P( F10000 ∈ I10000 ) ≃ 95%
n →+ ∞
H :
10000
on sait que :
Un intervalle de fluctuation
asymptotique au seuil de confiance 95% est :
p
1000
n(1 − p) = 10000 × 999/1000 = 9990 ≥ 5
Cas particulier Si α = 0, 05, alors uα = 1, 96.
Théorème seuil de 95%
"
⋆,
Avec H vraie, on calcule un intervalle de fluctuation asymptotique pour la fréquence au seuil de
95% pour les échantillons de taille n = 10000 ;
√
0, 001 · 0, 999
3
17
1
√
≃
± 1, 96
;
I10000 =
la proportion du caractère est p ≫
On prélève un échantillon de taille n et on calcule
la fréquence f du caractère dans l’échantillon.
on ne rejette donc pas H
( ce qui signifie que H est acceptable
(ou que M est bien réglée)
avec un niveau de confiance de 95%. )
Remarque
Dire que l’on ne rejette pas H ne signifie pas que l’on
doive l’accepter... On aura peut-être un jour des raisons
suffisantes de la rejetter, mais pour l’instant, non !
Remarque Si les conditions ⋆ ne sont PAS
vérifiées, il faudra utiliser le cours de 1ère :
a = plus petit entier tel que P( X ≤ a) > 2, 5%
b = plus petit entier tel que P( X ≤ b) ≥ 97, 5%
a
b
a b
P
≤ Fn ≤
;
≥ 95%
I=
n
n
n n
I est un intervalle de fluctuation de Fn au seuil 95%.
En supposant vraie l’hypothèse H, on calcule
un intervalle de fluctuation In au seuil 95%
(valable pour les échantillons de taille n).
– Si f 6∈ In , alors on rejette l’hypothèse H avec
un risque d’erreur de 5%.
– Si f ∈ In (ce qui doit arriver dans 95% des cas),
alors on ne rejette pas l’hypothèse H, qui est
acceptable au niveau de confiance de 95%.
D’où vient l’intervalle de fluctuation de 2nde ?
1
1
I0 = p − √ ; p + √
n
n
On avait supposé n ≥ 30 et 0, 2 ≤ p ≤ 0, 8.
Notons que ces conditions impliquent ⋆ :
np ≥ 30 × 0, 2 ≥ 5
n(1 − p) ≥ 30 × 0, 2 ≥ 5
Propriété
Si Xn ∼ B(n; p), alors il existe n0 tel que :
1
Xn
1
≤ p+ √
n ≥ n0 ⇒ P p − √ ≤
> 0, 95
n
n
n
Démonstration
Propriété ROC
Soit Fn la variable aléatoire fréquence, qui à tout
échantillon de taille n associe la fréquence.
Il existe n0 tel que :
1
1
n ≥ n0 ⇒ P p ∈ Fn − √ ; Fn + √
≥ 0, 95
n
n
Cette propriété signifie que pour
h n assez grand,i
au moins 95% des intervalles Fn − √1n ; Fn + √1n
contiennent p. On pose donc :
Définition
an = P(−2 ≤ Zn ≤ 2)
D’après D E M OIVRE -L APLACE :
L = lim an = P(−2 ≤ Z ≤ 2) où Z ∼ N (0; 1)
n →+ ∞
L = 2Φ(2) − 1 ≈ 0, 9544
Dès lors, L > 0, 954. Soit ε < 0, 004. Puisque la suite
( an ) converge vers L, il existe un rang n0 tel que :
n ≥ n0 ⇒ L − ε < an < L + ε
mais L > 0, 954 donc an > 0, 954 − 0, 004 = 0, 95
Xn
an = P(−2 ≤ Zn ≤ 2) = P
∈J
avec :
n
q
q
2
2
J = p− √
p(1 − p); p + √
p(1 − p)
n
n
Le maximum sur [0; 1] de ( x 7→ x − x2 ) est 1/4
donc la longueur de J est majorable :
q
Dans une population, on s’intéresse à une certaine
caractéristique C, et on suppose donc ici que p, la
proportion de C dans la pop. totale, est inconnue.
Posons :
Xn − np
Zn = p
np(1 − p)
4
√
n
Estimation
4 √
2
p(1 − p) ≤ √
1/4 ≤ √
n
n
I0 et J ont le même centre, et ℓ( J ) < ℓ( I0 ) donc
J ⊂ I0 . On en déduit que si n ≥ n0 :
Xn
Xn
P
∈ I0 ≥ P
∈ J = an > 0, 95
n
n
Soit f la fréquence dans un échant. de taille n.
1
1
If = f − √ ; f + √
n
n
I f est un intervalle de confiance pour
p au niveau de confiance 95%.
(utilisable pour n ≥ 30, n f ≥ 5 et n(1 − f ) ≥ 5).
Applic. 1 :
Trouver n suffisant pour estimer
p à 1%, càd pour que l’intervalle de confiance
contienne p à 1% près avec proba. > 0, 95 ;
on doit donc avoir :
1
| f − p| ≤ √ et | f − p| ≤ 0, 01
n
Pour assurer ceci, il suffit d’avoir :
1
√ ≤ 0, 01
n
n ≥ 10000
Applic. 2 : A et B se présentent à une élection ; un
sondage portant sur n ≥ 30 personnes donne 53%
pour A et 47% pour B. Les intervalles de confiance
au seuil de confiance 95% pour les proportions p A
et pB de votants respectivement pour A et pour B :
1
1
I A = 0, 53 − √ ; 0, 53 + √
n
n
1
1
IB = 0, 47 − √ ; 0, 47 + √
n
n
Trouver n pour pouvoir affirmer au niveau de
confiance 95% que A est réélu. Il faut avoir :
1
1
0, 53 − √ ≥ 0, 47 + √
n
n
n ≥ 1112

∑ ∑

Transcription

Documents pareils

P14M - Examen TP (modélisation et analyse de données)

Tests d`hypothèse : fréquence d`un caractère dans une population

Approximation de la loi binômiale par la loi normale

Notions sur la théorie statistique de la décision

Naissance d`un tsunami

TP sur les test de Kolmogorov.

Exercice 1 Exercice 2 Exercice 3

Conduite de résonance

Reconnaissance vocale

le sujet - Verimag

Offres de Locations d`appartements Lyon | GrandLyon Habitat

Devoir en temps libre n 3

2 Tests parametriques pour un échantillon gaussien

L`essentiel sur les tests statistiques