1 Un peu de vocabulaire - Page personnelle de Julien Chenal
Transcription
1 Un peu de vocabulaire - Page personnelle de Julien Chenal
Statistiques - Échantillonnage Cours Objectifs du chapitre Passer d’un mode de représentation des données à un autre (données brutes, tableau d’effectifs, représentation graphique) Calculer la moyenne, la médiane, les quartiles d’une série statistique. Donner une interprétation de ces indicateurs. Calculer un intervalle de fluctuation ou de confiance à 95% et interpréter le résultat. 1 Un peu de vocabulaire Toute étude statistique s’appuie sur des données qui peuvent être de plusieurs types. Dans le cas où les données sont numériques i.e. des nombres, on distingue les données discrètes (par exemple, le nombre d’enfants par famille, les notes d’une classe à un contrôle) et les données continues (par exemple, un temps de parcours, la taille d’individus). Définition La population d’une série statistique est l’ensemble des individus sur lesquels porte l’étude statistique. Le caractère de la série est la propriété étudiée. Il est dit : • qualitatif si les valeurs que peut prendre ce caractère ne sont pas numériques (par exemple, la couleur des yeux d’une population). • quantitatif si les valeurs que peut prendre ce caractère sont des nombres. Et dans ce cas, il peut être discret ou continu. 1 On suppose que le caractère étudié peut prendre les valeurs x 1 , . . . , x p avec les effectifs n 1 , . . . , n p . On résume souvent la situation par un tableau : Valeurs Effectifs Fréquence Effectifs cumulés Fréquences cumulées x1 n1 f1 = n1 n n1 f1 x2 n2 f2 = n2 n n1 + n2 f1 + f2 ... ... ... ... ... xp np fp = n1 + · · · + n p = n f1 + · · · + f p = 1 Total n = n1 + · · · + n p np n 1 Définition L’effectif cumulé d’une valeur x i est égal à la somme des effectifs des valeurs inférieures ou égales à x i (de même pour les fréquences cumulées). Lorqu’un caractère quantitatif prend un grand nombre de valeurs, on peut les regrouper en classes a +b [a, b[ : b − a est appelé l’amplitude de la classe et le centre de la classe est . 2 Classes Effectifs [a, b[ n1 f1 = ... ... ... [u, v[ np fp = Total n = n1 + · · · + n p 2 Fréquences 1 n1 n np n 2 Représentations graphiques Pour représenter une série statistique, on peut utiliser plusieurs représentations sous forme de graphiques. Présentons en ici quelques unes. 2.1 Le diagramme en bâtons Il est formé de bâtons dont l’abscisse est la valeur x i et la hauteur est l’effectif correspondant n i . Exemple : le tableau suivant récapitule les notes obtenues à un devoir. Notes Effectifs 6 3 8 4 10 6 12 6 14 5 15 3 18 1 2.2 L’histogramme Lorsque les valeurs sont regroupées par classes, on représente la série par des rectangles de base chaque classe et d’aire proportionnelle à l’effectif. Exemple : le tableau suivant récapitule les heures de travail quotidien d’un groupe d’élèves. Heure de travail Effectifs [0; 1[ 40 [1; 2[ 95 3 [2; 3[ 86 [3; 4[ 24 [4; 5[ 5 2.3 Le diagramme des fréquences cumulées croissantes Reprenons l’exemple de la partie précédente : Heure de travail Effectifs Fréquences Fréquences cumulées [0; 1[ 40 16% 16% [1; 2[ 95 38% 54% [2; 3[ 86 34,4% 88,4% [3; 4[ 24 9,6% 98% [4; 5[ 5 2% 100% On a ajouté les deux lignes des fréquences et des fréquences cumulées. Le diagramme des fréquences cumulées croissantes est formé des segments reliant les points ayant pour abscisse l’extrémité d’une classe et comme ordonnée la fréquence cumulée correspondante : 2.4 Le diagramme circulaire Un disque est partagé en secteurs dont l’angle au centre est proportionnel à l’effectif. Exemple : on s’intéresse à la deuxième langue vivante choisie par les 500 élèves d’un lycée. Langues Effectifs Angle Anglais 225 162° Espagnol 150 108° Allemand 75 54° 4 Italien 25 18° Autres 25 18° Total 500 360° 3 Paramètres statistiques Une série statistique peut contenir de très nombreuses données. Il est donc impéritif de trouver des indicateurs de la série pour les résumer. 3.1 La moyenne La moyenne est l’indicateur le plus utilisé pour caractériser une série statistique. Définition On suppose que le caractère étudié peut prendre les valeurs x 1 , . . . , x p avec les effectifs n 1 , . . . , n p . Alors la moyenne de cette série, notée x, est donnée par x= n1 x1 + n2 x2 + · · · + n p x p n1 + n2 + · · · + n p . On peut également calculer la moyenne en utilisant les fréquences. Théorème Si on note f i la fréquence du caractère x i alors x = f 1 x1 + · · · + f p x p . Remarques importantes!! Lorsque la série est regroupée en classes, on calcule la moyenne en prenant pour valeurs x i le centre de chaque classe. 3.2 La médiane Définition La médiane d’une série statistique est le nombre Me tel que 50% au moins des individus ont une valeur du caractère inférieure ou égale à Me et 50% au moins des individus ont une valeur du caractère supérieure ou égale à Me. 5 Remarques importantes!! • Le médiane n’est pas nécessairement un nombre de la série. • C’est la valeur centrale de la série si l’effectif total n est impair et la demi-somme des deux valeurs centrales si n est pair. • Si le caractère est quantitatif continu, la médiane correspond à la valeur du caractère ayant une fréquence cumulée croissante de 0, 5. • Les valeurs de la moyenne et de la médiane peuvent être très différentes. 3.3 Les quartiles Définition Le premier quartile Q 1 est le plus petit nombre de la série tel qu’au moins 25% des données soient inférieures ou égales à Q 1 . Le troisième quartile Q 3 est le plus petit nombre de la série tel qu’au moins 75% des données soient inférieures ou égales à Q 3 . L’intervalle inter-quartiles est l’intervalle [Q 1 ,Q 3 ] et Q 3 −Q 1 est l’écart inter-quartiles 3.4 Les déciles Définition Le premier décile D 1 est le plus petit nombre de la série tel qu’au moins 10% des données soient inférieures ou égales à D 1 . On définit également le neuvième décile D 9 : c’est le plus petit nombre de la série tel qu’au moins 90% des données soient inférieures ou égales à D 9 . L’intervalle inter-déciles est l’intervalle [D 1 , D 9 ] et D 9 − D 1 est l’écart inter-déciles. 6 Exercice résolu Pour la série statistique 3; 5; 6; 6; 8; 10; 12; 20; 20; 21; 23; 25, on a n = 12 donc la moyenne vaut x= 3 + 5 + 6 + 6 + 8 + 10 + 12 + 20 + 20 + 21 + 23 + 25 53 = = 13, 25 12 4 et la médiane vaut Me = 10 + 12 = 11 12 12 = 3, Q 1 est le troisième nombre de la série donc Q 1 = 6. 4 12 × 3 On a = 9 donc Q 3 est le neuvième nombre de la série d’où Q 3 = 20. Donc [6; 20] est 4 l’intervalle inter-quartiles et l’écart inter-quartiles vaut 20 − 6 = 14. 12 = 1, 2, le premier décile est le deuxième nombre de la série donc Par ailleurs, comme 10 12 × 9 D 1 = 5 et comme = 10, 8, le neuvième décile est le onzième nombre de la série donc 10 D 9 = 23. On résume la situation à l’aide d’un diagramme en boites : et comme 4 Échantillonnage Il est parfois impossible de recueillir des données sur l’ensemble d’une population. On étudie alors un échantillon de cette population à l’aide d’un sondage. On étudie la caractère souhaité sur l’échantillon puis on essaie ensuite d’en déduire des estimations du caractère sur la population entière. Par exemple, lors d’un sondage d’opinion sur les intentions de vote, on interroge environ un millier de personnes et on en “déduit” les intentions de vote de toute la population. 4.1 Modélisation Définition En statistique, un échantillon de taille n est la liste des n résultats obtenus par n répétitions indépendantes de la même expérience. Exemple : On lance un dé équilibré à six faces et on relève le chiffre qu’on obtient. On répète ce lancer 100 fois et on obtient un échantillon de taille 100. On répète cette expérience pour obtenir un deuxième échantillon de taille 100. On a reporté les résultats dans le tableau suivant : Chiffre 1 2 3 4 5 6 Échantillon A 0, 14 0, 17 0, 19 0, 18 0, 17 0, 15 Échantillon B 0, 15 0, 16 0, 16 0, 18 0, 17 0, 18 7 On constate que les distributions de ces deux échantillons sont différentes : c’est ce qu’on appelle la fluctuation d’échantillonnage. La moyenne de l’échantillon A vaut 3, 52 et celle de B est 3, 6. 4.2 Intervalle de fluctuation, intervalle de confiance On note p la proportion de la population vérifiant le critère étudié et p̂ la proportion de l’échantillon de taille n vérifiant ce critère. Si on connait la proportion théorique p, on a le résultat suivant : Théorème (Théorème de l’intervalle de fluctuation) On suppose que p ∈ [0, 2; 0, 8] et que n ≥ 25. Alors dans ce cas, dans plus de 95% des cas, · ¸ 1 1 p̂ ∈ p − p ; p + p . n n En revanche, si on cherche à estimer p et qu’on ne connait que l’estimation p̂, on a le résultat suivant : Théorème (Théorème de l’intervalle de confiance) On suppose que p̂ ∈ [0, 2; 0, 8] et que n ≥ 25. Alors dans ce cas, dans plus de 95% des cas, ¸ · 1 1 p ∈ p̂ − p ; p̂ + p . n n Remarques importantes!! Pour les deux théorèmes précédents, on parle d’intervalle de fluctuation ou de confiance à 95%, ou au seuil 95%. 8 Exercice résolu On souhaite savoir si une entreprise exerce une discrimination à l’embauche vis-à-vis des femmes. S’il n’y a pas discrimination, la proportion de femmes dans cette entreprise devraient être représentative de la proportion de femmes dans la population active. On admet que la proportion de femmes dans la population active est 0, 5. 1) En utilisant l’intervalle de fluctuation au seuil 0, 95, déterminer si une entreprise contenant 1183 femmes sur 2540 salariés exerce une discrimination à l’égard des femmes. 2) Quel doit être le nombre minimal de femmes dans cette entreprise pour que la proportion p̂ de femmes appartienne à l’intervalle de fluctuation [0, 48; 0, 52] ? Solution : 1) La taille de l’échantillon est n = 2540. Dans cet exercice, on connait la proportion théorique p = 0, 5. Les conditions d’application du théorème étant respectées, on peut ¸ · 1 1 , soit [0, 48; 0, 52]. Or ici, donc conclure qu’au seuil 95%, p̂ ∈ 0, 5 − p ; 0, 5 + p 2540 2540 1183 p̂ = ≈ 0, 466. Donc p̂ ∉ [0, 48; 0, 52]. On en conclut que cette entreprise exerce très 2540 probablement une discrimination à l’égard des femmes. 2) Pour que p̂ ∈ [0, 48; 0, 52], il faut avoir au minimum 0.48 × 2540 = 1219.2, donc au moins 1220 femmes. Exercice résolu Lors du deuxième tour des élections présidentielles, un candidat souhaite connaitre les intentions de vote des français en sa faveur. Un premier sondage sur 250 personnes interrogées donne une intention de vote de 54%. Un second sondage sur 1900 personnes interrogées donne une intention de vote de 53%. Quel est le sondage qui est le plus favorable au candidat ? Solution : On ne connait pas la proportion théorique des français qui vont voter pour ce candidat. On ne connait que les proportions observées sur les deux sondages. Le premier sondage donne une proportion p̂ = 0, 54 sur un échantillon de taille n = 250. On peut donc déterminer l’intervalle de confiance à 95% : · ¸ 1 1 p ∈ 0, 54 − p ; 0, 54 + p , soit [0, 477; 0, 604]. 250 250 Le second sondage donne une proportion p̂ = 0, 53 sur un échantillon de taille n = 1900. On obtient donc un intervalle de confiance à 95% : ¸ · 1 1 p ∈ 0, 53 − p ; 0, 53 + p , soit [0, 507; 0, 553]. 1900 1900 Pour être élu, il faut au moins une proportion de 0, 5, or le premier sondage ne permet pas d’affirmer que p ≥ 0, 5, alors que le second sondage permet d’affirmer que dans 95% des cas, p ≥ 0, 5. C’est donc le second sondage qui est le plus favorable au candidat. 9