∑ ∑
Transcription
∑ ∑
TS - Bilan chapitre 14 : ECHANTILLONNAGE Retour sur D E M OIVRE -L APLACE... Dans une population, on s’intéresse à une certaine caractéristique, disons C. On note : • p = proportion réelle de C dans la pop. totale. Notons que p est aussi la proba. qu’un individu (choisi au hasard dans la population) possède la caractéristique C. • f = fréquence observée dans un échantillon. Echantillonage (p connu) On teste un échantillon. Est-il représentatif ? Estimation (p inconnu) On estime p avec f . Quelle précision ? En 2nde , on a admis que : – Si n ≥ 30 et 0, 20 ≤ p ≤ 0, 80 alors pour au moins 95% des échantillons : 1 1 f ∈ p− √ ; p+ √ n n C’est l’intervalle de fluctuation au seuil de 95%. Il permet de tester des échantillons. – Si n ≥ 30 et 0, 20 ≤ f ≤ 0, 80 alors dans au moins 95% des cas : 1 1 p∈ f−√ ; f+√ n n C’est l’intervalle de confiance au seuil de 95%. Il permet d’estimer p. En 1ère, on a utilisé la loi binômiale a = plus petit entier tel que P( X ≤ a) > 2, 5% b = plus petit entier tel que P( X ≤ b) ≥ 97, 5% I= µn = E( Xn ) = np σn = σ ( Xn ) = q np(1 − p) D’après D E M OIVRE -L APLACE (chap. 13) : Xn − µ n lim P a ≤ ≤b n →+ ∞ σn Si on pose : = Z b a ϕ(t) dt (variable centrée réduite) Yn = Xn − µ n σn D E M OIVRE -L APLACE signifie simplement que l’histogramme de Yn se rapproche de ϕ, densité de la loi normale centrée réduite N (0; 1). Intérêt : on lance n = 10000 fois une pièce équilibrée. La variable aléatoire qui compte le nombre de ≪ pile ≫ est Xn ∼ B(10000; 1 ). 2 5100 P(4900 ≤ Xn ≤ 5100) = 5100 = ∑ k =4900 ∑ P( X = k) k =4900 10000 1 n 2 k Ce calcul n’est pas faisable à la calculatrice car les (10000 k ) sont trop grands ; néanmoins, dans ce cas : µn = 10000 × 21 = 5000 q σn = 10000 × 21 × 21 = 50 et il est clair que : Pour une grande population, le choix d’un échantillon est assimilable à un schéma de Bernoulli. La variable aléatoire qui comptabilise le nombre de succès, c’est à dire le nombre d’individus possèdant C dans l’échantillon, suit une loi binômiale B(n; p). n P ( X = k) = pk (1 − p) n − k k P( a ≤ X ≤ b) ≥ 95% X b a ≤ ≤ ≥ 95% P n n n Si Xn ∼ B(n; p) , alors Xn comptabilise le nombre de succès dans un schéma de Bernoulli à n niveaux. a b ; n n La loi binômiale nous a permis de construire un intervalle de fluctuation au seuil 95%. En Terminale, nous allons utiliser les lois normales pour faire de l’échantillonnage... 4900 ≤ Xn ≤ 5100 ⇐⇒ −2 ≤ Xn − 5000 ≤2 50 Xn − 5000 ≤2 P(4900 ≤ Xn ≤ 5100) = P −2 ≤ 50 Si : n ≥ 30 np ≥ 5 on s’autorise à oublier le D E M OIVRE -L APLACE : P(4900 ≤ Xn ≤ 5100) ≃ ≪ n ( 1 − p ) ≥ 5 ⋆, lim ≫ dans la formule de n →+ ∞ Z 2 −2 ϕ( x )dx = Φ(2) − Φ(−2) Ce qui se calcule aisément à la calculatrice : P(4900 ≤ Xn ≤ 5100) ≃ 0, 95449 Rappel Si Z ∼ N (0; 1), pour tout α ∈]0; 1], il existe un unique uα > 0 tel que : P ( Z ∈ [−uα ; +uα ]) = 1 − α Application Une certaine machine industrielle notée M fonctionne correctement si le pourcentage de pièces défectueuses est p = 1/1000. Sur un échantillon de 10000 pièces, on a observé 15 pièces défectueuses. On désire savoir si M fonctionne correctement. Pour ceci, on fait l’hypothèse suivante : Théorème ROC Xn . n Fn est la var. aléatoire fréquence de succès. Si Xn ∼ B(n; p), on note Fn = Pour tout α ∈]0; 1[ , " p In = p − u α lim P ( Fn ∈ In ) = 1 − α n →+ ∞ p (1 − p ) √ ; p + uα n p p (1 − p ) √ n # H =≪ la prop. de pièces défectueuses est p = 0, 001 ≫ On dit que In est un intervalle de fluctuation asymptotique au seuil de confiance 1 − α : cet intervalle dépend de n et contient Fn avec une proba d’autant plus proche de 1 − α que n grand. Là encore, Si : n ≥ 30 np ≥ 5 n(1 − p ) ≥ 5 on s’autorise à oublier le ≪ lim ≫ et on écrit : n →+ ∞ P( Fn ∈ In ) ≈ 1 − α In = p − 1, 96 p (1 − p ) √ ; p + 1, 96 n p p (1 − p ) √ n # lim P ( Fn ∈ In ) = 0, 95 Complément Si α = 0, 01 alors uα = 2, 58 ... Propriété règle de décision Dans une population on cherche à décider si on peut accepter une certaine hypothèse : ≪ f = 10000 10000 15 = 0, 0015 ∈ I10000 10000 Comme les conditions ⋆ sont vérifiées : n ≥ 30 np = 10000 × 1/1000 = 10 ≥ 5 P( F10000 ∈ I10000 ) ≃ 95% n →+ ∞ H : 10000 on sait que : Un intervalle de fluctuation asymptotique au seuil de confiance 95% est : p 1000 n(1 − p) = 10000 × 999/1000 = 9990 ≥ 5 Cas particulier Si α = 0, 05, alors uα = 1, 96. Théorème seuil de 95% " ⋆, Avec H vraie, on calcule un intervalle de fluctuation asymptotique pour la fréquence au seuil de 95% pour les échantillons de taille n = 10000 ; √ 0, 001 · 0, 999 3 17 1 √ ≃ ± 1, 96 ; I10000 = la proportion du caractère est p ≫ On prélève un échantillon de taille n et on calcule la fréquence f du caractère dans l’échantillon. on ne rejette donc pas H ( ce qui signifie que H est acceptable (ou que M est bien réglée) avec un niveau de confiance de 95%. ) Remarque Dire que l’on ne rejette pas H ne signifie pas que l’on doive l’accepter... On aura peut-être un jour des raisons suffisantes de la rejetter, mais pour l’instant, non ! Remarque Si les conditions ⋆ ne sont PAS vérifiées, il faudra utiliser le cours de 1ère : a = plus petit entier tel que P( X ≤ a) > 2, 5% b = plus petit entier tel que P( X ≤ b) ≥ 97, 5% a b a b P ≤ Fn ≤ ; ≥ 95% I= n n n n I est un intervalle de fluctuation de Fn au seuil 95%. En supposant vraie l’hypothèse H, on calcule un intervalle de fluctuation In au seuil 95% (valable pour les échantillons de taille n). – Si f 6∈ In , alors on rejette l’hypothèse H avec un risque d’erreur de 5%. – Si f ∈ In (ce qui doit arriver dans 95% des cas), alors on ne rejette pas l’hypothèse H, qui est acceptable au niveau de confiance de 95%. D’où vient l’intervalle de fluctuation de 2nde ? 1 1 I0 = p − √ ; p + √ n n On avait supposé n ≥ 30 et 0, 2 ≤ p ≤ 0, 8. Notons que ces conditions impliquent ⋆ : np ≥ 30 × 0, 2 ≥ 5 n(1 − p) ≥ 30 × 0, 2 ≥ 5 Propriété Si Xn ∼ B(n; p), alors il existe n0 tel que : 1 Xn 1 ≤ p+ √ n ≥ n0 ⇒ P p − √ ≤ > 0, 95 n n n Démonstration Propriété ROC Soit Fn la variable aléatoire fréquence, qui à tout échantillon de taille n associe la fréquence. Il existe n0 tel que : 1 1 n ≥ n0 ⇒ P p ∈ Fn − √ ; Fn + √ ≥ 0, 95 n n Cette propriété signifie que pour h n assez grand,i au moins 95% des intervalles Fn − √1n ; Fn + √1n contiennent p. On pose donc : Définition an = P(−2 ≤ Zn ≤ 2) D’après D E M OIVRE -L APLACE : L = lim an = P(−2 ≤ Z ≤ 2) où Z ∼ N (0; 1) n →+ ∞ L = 2Φ(2) − 1 ≈ 0, 9544 Dès lors, L > 0, 954. Soit ε < 0, 004. Puisque la suite ( an ) converge vers L, il existe un rang n0 tel que : n ≥ n0 ⇒ L − ε < an < L + ε mais L > 0, 954 donc an > 0, 954 − 0, 004 = 0, 95 Xn an = P(−2 ≤ Zn ≤ 2) = P ∈J avec : n q q 2 2 J = p− √ p(1 − p); p + √ p(1 − p) n n Le maximum sur [0; 1] de ( x 7→ x − x2 ) est 1/4 donc la longueur de J est majorable : q Dans une population, on s’intéresse à une certaine caractéristique C, et on suppose donc ici que p, la proportion de C dans la pop. totale, est inconnue. Posons : Xn − np Zn = p np(1 − p) 4 √ n Estimation 4 √ 2 p(1 − p) ≤ √ 1/4 ≤ √ n n I0 et J ont le même centre, et ℓ( J ) < ℓ( I0 ) donc J ⊂ I0 . On en déduit que si n ≥ n0 : Xn Xn P ∈ I0 ≥ P ∈ J = an > 0, 95 n n Soit f la fréquence dans un échant. de taille n. 1 1 If = f − √ ; f + √ n n I f est un intervalle de confiance pour p au niveau de confiance 95%. (utilisable pour n ≥ 30, n f ≥ 5 et n(1 − f ) ≥ 5). Applic. 1 : Trouver n suffisant pour estimer p à 1%, càd pour que l’intervalle de confiance contienne p à 1% près avec proba. > 0, 95 ; on doit donc avoir : 1 | f − p| ≤ √ et | f − p| ≤ 0, 01 n Pour assurer ceci, il suffit d’avoir : 1 √ ≤ 0, 01 n n ≥ 10000 Applic. 2 : A et B se présentent à une élection ; un sondage portant sur n ≥ 30 personnes donne 53% pour A et 47% pour B. Les intervalles de confiance au seuil de confiance 95% pour les proportions p A et pB de votants respectivement pour A et pour B : 1 1 I A = 0, 53 − √ ; 0, 53 + √ n n 1 1 IB = 0, 47 − √ ; 0, 47 + √ n n Trouver n pour pouvoir affirmer au niveau de confiance 95% que A est réélu. Il faut avoir : 1 1 0, 53 − √ ≥ 0, 47 + √ n n n ≥ 1112