1 STG Statistiques
Transcription
1 STG Statistiques
Statistiques I. Vocabulaire Une étude statistique porte sur un ensemble ( de personnes, d’animaux, d’objets, … ) appelé population. Chaque élément de la population est un individu. L’aspect étudié est nommé caractère ou variable. Les résultats obtenus après observation donnent une série statistique. Il existe des séries à une ou plusieurs variables. Lorsque les variables prennent des valeurs numériques ( exemple : notes, tailles, âges, … ), les variables sont dites quantitatives ( si la variable prend n’importe quelle valeur dans un intervalle donné, la variable est dite continue , si elle prend des valeurs isolées, la variable est dite discrète ). Dans le cas contraire, les variables sont dites qualitatives (nationalité, couleurs, … ) ; les différentes possibilités du caractère sont appelées modalités ( la commune de résidence pour des élèves de première fréquentant un lycée). II. Représentations graphiques 1) Diagramme circulaire On l’utilise pour des séries à caractère qualitatif (les modalités ne sont pas des valeurs numériques) Dans un diagramme circulaire, l’angle au centre est proportionnel à l’effectif. Application 1 p 93 L’exemple ci-dessous n’est pas adapté, prendre un autre exemple Note effectif Angle 6 1 18° 7 2 36° 8 4 72° 9 6 108° 10 5 90° 11 1 18° 12 1 18° 2) Diagramme en barres, en bâtons On utilise le diagramme en barres pour des séries à caractères qualitatif, et le diagramme en bâtons pour des séries à caractère quantitatif discret (ex : nombre d’enfants dans un foyer, différentes notes obtenues dans une classe lots d’un devoir) Les valeurs du caractère sont classées dans l’ordre croissant, la hauteur des bâtons est proportionnelle à l’effectif. Rappel : mode de la série 3) Histogramme Il est utilisé pour des séries à caractère quantitatif continu (représentations d’intervalles) les valeurs du caractère étudié sont regroupées en classes. Exemple : n° 5 p 102 Dans tout histogramme, les effectifs des classes sont proportionnels aux aires des rectangles qui les représentent. Par conséquent, dans le cas particulier d’un histogramme à pas constant, les effectifs des classes sont proportionnels aux hauteurs des rectangles qui les représentent. Cela n’est plus le cas d’un histogramme à pas non constant. Exemple : Valeur du caractère X Fréquence en % [0 ; 4 [ 15 [4 ; 5 [ 25 [5 ; 6 [ 30 [6 ; 8 [ 20 [8 ; 10 [ 10 La première classe est représentée par un rectangle dont l’aire est 3 cm² ; comme sa largeur est de 4 cm, sa hauteur sera de 0,75 cm. Pour l’étude de séries statistiques, on dispose aussi de : III. Paramètres statistiques On considère la série suivante : Valeur xi 12 13 17 18 19 Effectif ni 4 7 2 9 3 1) La moyenne La moyenne est le nombre x tel que : x = n1x1+n2x2+…+npxp 1 = N N p n x . i 1 i i Dans l’exemple, la moyenne est 15,68 : 12 4 13 7 ... 19 3 392 x = 15,68 25 25 Exemple2 : Les classes de STG1 et STG2 comptent respectivement 28 et 33 élèves. Les élèves ont fait le même contrôle. La moyenne de STG1 est de 9,8, celle de STG2 est de 10,4. La moyenne des notes sur les deux classes est donc : 28 9,8 33 10,4 617,6 x 10,1 28 33 61 La moyenne est une caractéristique de position. 2) La médiane La médiane est la valeur qui sépare la population en deux sous-ensembles de même effectif. C’est la valeur qui correspond à la fréquence cumulée croissante égale à 50 %. Dans l’exemple, la médiane est 17 ( l’effectif total est 25 ; le 13ème élément a une valeur de 17 ) Déterminer la médiane de la série suivante : 8 ; 6 ; 9 ; 15 ; 11 ; 7 , 5 ,9 , 9 ; 8 < Point calculatrice : Entrée une liste : STAT 1(Edit) liste (L1, L2, ...) Ranger dans l’ordre croissant Paramètres stat : STAT CALC 1 (Stat 1 var) Q1 et Q3 sont le premier et troisième quartile 3) Quartiles et déciles a) Les quartiles Q1, Q2 et Q3 partagent la série en quatre parties. Le quartile Q1 est la plus petite valeur telle que au moins le quart de la série prend une valeur inférieure ou égale à Q1. Le quartile Q3 est la plus petite valeur telle que au moins les trois quarts de la série prend une valeur inférieure ou égale à Q3. Méthode de calcul des quartiles : on range les valeurs dans l’ordre croissant, on détermine la médiane M On extrait les deux séries partielles situées strictement de part et d’autre de la médiane Q1 est la médiane de la série partielle inférieure et Q3 celle de la série partielle supérieure L’intervalle [Q1 ; Q3] est l’intervalle interquartile. C’est une nouvelle caractéristique de dispersion qui permet l’étude de la série ; il vient s’ajouter à la moyenne et à la médiane qui sont des caractéristiques de position Q1 = 13 ; Q3 = 18 ; Remarques : Le deuxième quartile correspond à la médiane Exemple : Valeur du caractère effectif 50 45 30 60 61 2 3 2 2 2 Médiane ? Quartiles ? 30 ; 30 ; 45 ; 45 ; 45 ; 50 ; 50 ; 60 ; 60 ; 61 ; 61. M = 50. Q1 est la médiane de la série inférieure ( 30 ; 30 ; 45 ; 45 ; 45 ) donc Q1 = 45. Q3 est la médiane de la série supérieure ( 50 ; 60 ; 60 ; 61 ; 61 ) donc Q3 = 60. b) Décile De la même manière, les déciles partagent la série en 10 parties. Les déciles séparent une série en dix sous-ensembles ; la médiane est alors le cinquième décile. 4) Diagrammes en boîtes Définition : il résume par les quantiles la répartition des valeurs de la série Min Q1 Mé Q3 Max Un tel diagramme est appelé diagramme en boîtes ou boites à moustaches La position des valeurs est indiquée par la médiane ; la dispersion des valeurs est indiquée par l’écart interquartile Q3 – Q1 ou l’écart interdécile D9 – D1 entrée des listes, les trier, donner à la calculatrice les quantiles Faire le diagramme en boite : Graph Stat 1 enter, on enter, sélectionner le graphe, la liste à représenter, Zoom, 9 (zoom Stat) IV. Autre paramètres de dispersion 1) La variance Valeur x1 x2 xp Total effectif n1 n2 np N La variance, notée V, de la série statistique donnée par le tableau ci-dessus est définie par : p 1 [ n1 (x1 - x )²+ n2 (x2 - x )²+… +np (xp - x )²] = N où x est la moyenne de cette série. V= n (x x ) i 1 i i N 2 V est donc la moyenne des carrés des écarts entre les valeurs xi du caractère et la moyenne x . La variance peut donc permettre de mesurer la dispersion des valeurs autour de la moyenne. Une autre formule de la variance est : p ni xi2 1 V= [ n1 x1²+ n2x2²+… +npxp²] - x 2 = i1 x2 N N Variance = moyenne des carrés – carré de la moyenne Dans l’exemple, la variance est : Valeur xi 12 13 17 18 19 Total Effectif ni 4 7 2 9 3 25 xi2 144 169 289 324 361 ni xi2 576 1183 578 2916 1083 V= 6336 6336 –15,68² = 7,5776 25 2) L’écart type L’écart type, noté , est la racine carrée de la variance σ = V L’écart type est exprimé dans la même unité que la variable. Dans l’exemple, l’écart-type est : = V= 7,5776 2,75 Ex 3-4 p.97 V. Tableau à double entrée On s’intéresse à l’étude de deux caractères sur une même population. 1) Un exemple d’étude On se propose d’étudier la répartition de 25 élèves selon la distance, exprimée en kilomètres, de leur domicile au centre-ville et le nombre de séance de cinéma auxquelles ils ont assisté dans une salle du centre-ville pendant le mois précédant l’enquête. Les résultats de cette étude sont indiqués dans le tableau ci-dessous. Par convention un tiret dans une case indique que l’effectif correspondant est nul. Distances [0;5[ [ 5 ; 10 [ [ 10 ; 15 [ [ 15 ; 30 [ total 0 3 2 1 1 7 Nombre de séances 1 2 3 3 2 1 3 2 1 2 1 1 10 4 2 4 1 1 2 Total 10 6 4 5 25 Exemples de lecture : La case verte indique que deux élèves ont leur domicile dans la classe [0 ; 5 [ et sont allés deux fois au cinéma. La case rose indique que six élèves ont leur domicile dans la classe [5 ; 10 [. La case bleue indique que quatre élèves sont allés deux fois au cinéma pendant le mois précédant l’enquête. 2) Etude fréquentielle A partir du tableau précédent, on peut obtenir le tableau des fréquences ci-contre en divisant l’effectif qui figure dans chaque case par l’effectif total. Distances [0;5[ [ 5 ; 10 [ [ 10 ; 15 [ [ 15 ; 30 [ total 0 12 % 8% 4% 4% 28 % Nombre de séances 1 2 3 12 % 8% 4% 12 % 8% 4% 8% 4% 4% 40 % 16 % 8% 4 4% 4% 8% Total 40 % 24 % 16 % 20 % 100 % Exemples de lecture : La case jaune indique que 12 % des élèves ont leur domicile dans la classe [5 ; 10 [ et sont allés une fois au cinéma au centre-ville. 3 En effet, 3 élèves sur 25 sont dans cette catégorie. Or = 0,12, donc 12 % des élèves 25 sont dans cette catégorie. La case rose indique que 20 % des élèves ont leur domicile dans la classe [15 ; 30 [. La case bleue indique que 28 % des élèves ne sont pas allés au cinéma pendant le mois précédant l’enquête. Exercice : fréquence conditionnelle Dimathème p 22 Dans un lycée, un sondage concernant le rapport des élèves avec le tabaca donné les résultats suivants : 1. Compléter l’arbre ci-contre. 2. Interpréter fG(FU) 3. Ecrire toutes les fréquences conditionnelles (avec les notations)données par cet arbre. 4. Caculer la proportion des garçons fumeurs en fraction, puis la proportion des élèves fumeurs. 5. Calculer la fréquence conditionnelle des garçons chez les fumeurs. 6. Calculer fFu(F). 7. Quel autre arbre pourrait-on construire ? Remarque : Le total des fréquences qui figurent dans les 20 cases du tableau, marges exclues, est égal à 100 %. De même, le total des fréquences de la ligne « total » est égal à 100 %, ainsi que celui des fréquences de la colonne « total ». 3) Notion de fréquence de A sachant B On s’intéresse à l’ensemble des élèves habitant à moins de 5 kilomètres du centre-ville. Notons B cet ensemble. Sur 10 élèves de cet ensemble, 3, c'est-à-dire 30 % d’entre eux, sont allés une fois au cinéma. Notons A l’ensemble des élèves qui sont allés une fois au cinéma. Par définition, on dit que la fréquence de A sachant B est égale à 30 % ou encore 0,3. Cette fréquence est notée fB(A). Remarque : Dans le tableau précédant, on a vu que, parmi l’ensemble de tous les élèves, 12 % appartiennent à la fois aux ensembles A et B. Ainsi, ce pourcentage est différent de fB(A). 4)