STATISTIQUES 1. Définitions, vocabulaire et notations
Transcription
STATISTIQUES 1. Définitions, vocabulaire et notations
STATISTIQUES Faire des statistiques, c’est recueillir, organiser, synthétiser, représenter et exploiter des données numériques ou non, dans un but de comparaison, de prévision, de constat... Les plus gros « consommateurs » de statistiques sont les assureurs (risques d’accidents, de maladie des assurés), les médecins (épidémiologie), les démographes (pour l’étude des populations et de leur dynamique), les sociologues (étude des phénomènes sociaux humains), les économistes (emploi, conjoncture économique), les météorologues... 1. Définitions, vocabulaire et notations Définition 1 : i. On appelle population un ensemble de personnes ou d’objets étudiés. Un individu est un élément de la population. ii. La particularité de la population étudiée en statistique est appelée caractère ou variable. iii. Le caractère étudié peut être : - quantitatif discret quand il prend un nombre fini de valeurs numériques ; - quantitatif continu quand il prend une infinité de valeurs numériques. Les valeurs sont alors regroupées dans des intervalles appelés classes ; - qualitatif quand il ne prend pas que des valeurs numériques. Exemple : Valeurs prises par le caractère Type de caractère La couleur des yeux Bleu, vert, marron, etc. Qualitatif Les salariés d’Orange Le salaire Tous les nombres possibles ! Quantitatif continu Les candidats du Bac S La note obtenue en math 0 à 20 en points entiers Quantitatif discret (21 valeurs) Etude Population Couleur des yeux des habitants du Turkménistan Tous les Turkmènes Répartition des salaires chez Orange Notes de math au Bac S Caractère Définition 2 : i. On appelle effectif d’une valeur (ou classe) du caractère le nombre de fois où cette valeur apparaît dans la série. ii. A chaque valeur (ou classe), on associe une fréquence : c’est la proportion d’individus associés à cette valeur. La fréquence est un nombre compris entre 0 et 1 que l’on peut aussi exprimer en pourcentage. iii. Si N est l’effectif total et n l’effectif associé à une valeur alors la fréquence de celle-ci est égale à n n f = (ou f = × 100 si l’on exprime la fréquence en pourcentage). N N 2nde - Statistiques 1/7 H. Kerneïs Propriété 1 : La somme de toutes les fréquences est égale à 1. (ou 100 si l’on travaille en pourcentages.) Exemple : Après le recensement du nombre d’enfants dans chacun des foyers d’un village, on a : Nombre d’enfants xi Effectif ni 0 1 2 3 4 5 6 7 290 170 155 95 43 27 20 10 La fréquence de « 2 enfants » est : 155 ≈ 0,19 et la fréquence en pourcentage de « aucun enfant » est : 810 290 × 100 ≈ 35,8 %. 810 Définition 3 : La fréquence cumulée croissante (resp. décroissante) d’une valeur est égale à la somme des fréquences des valeurs qui lui sont inférieures (resp. supérieures) ou égales. Remarque : On a de la même manière la définition des effectifs cumulés croissants et décroissants. Exemple : Répartition des différentes tailles des élèves d’une classe de Seconde. On déterminera les effectifs cumulés croissants et les fréquences cumulées croissantes. On donnera en pourcentage la proportion des élèves qui mesurent moins de 1,65 m. ⎡⎣135;145 ⎡⎣ ⎡⎣145;155 ⎡⎣ ⎡⎣155;165 ⎡⎣ ⎡⎣165;175 ⎡⎣ ⎡⎣175;185 ⎡⎣ Effectif 3 5 6 4 3 ECC 3 3+5=8 8 + 6 = 14 14 + 4 = 18 18 + 3 = 21 FCC 3 1 = 21 7 8 21 14 2 = 21 3 18 6 = 21 7 21 =1 21 Taille La proportion des élèves qui mesurent moins de 1,65 m est de 2 × 100 ≈ 66,7 % à 0,1 près. 3 2. Représentations graphiques d’une série statistique Il existe différentes représentations graphiques en fonction du type de caractère étudié. Pour un caractère qualitatif, on peut représenter la série par un diagramme circulaire ou semi-circulaire (« camemberts ») : la mesure de chaque secteur angulaire est proportionnelle à l’effectif (ou à la fréquence) associé. Par exemple, voici un diagramme circulaire représentant la répartition des adhérents à un club sportif : 2nde - Statistiques 2/7 H. Kerneïs Tennis 25 % Football 58 % Handball 17 % Pour un caractère quantitatif discret, on peut utiliser un diagramme en bâtons ou un nuage de points : la hauteur de chaque bâton (ou l’ordonnée de chaque point du nuage) est alors proportionnelle à l’effectif (ou la fréquence) associé à chaque valeur. Par exemple, voici le diagramme en bâtons représentant la série des notes obtenues par une classe à un DST : 6 5 4 3 2 1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Pour un caractère quantitatif continu, et lorsque les valeurs sont regroupées en classes, on peut utiliser un histogramme. L’aire de chaque rectangle est alors proportionnelle à l’effectif (ou à la fréquence) associée à chaque classe. Lorsque les classes ont la même amplitude, c’est la hauteur qui est proportionnelle à l’effectif. Par exemple, voici un histogramme représentant la répartition des salaires dans une entreprise : 35 30 = 5 salariés 25 20 15 10 5 0 800 1000 2nde - Statistiques 1200 1400 1600 3/7 1800 2000 2200 2500 H. Kerneïs On complétera le tableau suivant : Salaires ⎡⎣900;1200 ⎤⎦ ⎡⎣1200;1400 ⎤⎦ ⎡⎣1400;1600 ⎤⎦ ⎡⎣1600;1800 ⎤⎦ ⎡⎣1800;1900 ⎤⎦ ⎡⎣1900; 2100 ⎤⎦ ⎡⎣ 2100; 2400 ⎤⎦ Effectif 30 30 60 40 10 10 15 Fréquence (%) ... La représentation graphique des fréquences cumulées croissantes s’appelle le polygone des fréquences cumulées croissantes (idem pour les effectifs cumulés croissants ou décroissants et les fréquences cumulées décroissantes). Par exemple, une enquête sur le temps de travail personnel quotidien des élèves en classe de Seconde a donné les résultats suivants : Temps de travail (en heures) Effectif Fréquence Fréquences cumulées croissantes ⎡⎣0;1⎡⎣ 40 0,16 0,16 ⎡⎣1; 2 ⎡⎣ 95 0,38 0,54 ⎡⎣ 2; 3 ⎡⎣ 86 0,344 0,884 ⎡⎣3; 4 ⎡⎣ 24 0,096 0,98 ⎡⎣ 4; 5 ⎡⎣ 5 0,02 1 On en déduit le polygone des fréquences cumulées croissantes : Fréquences cumulées croissantes 1 0,75 0,5 0,25 0 0 1 2 3 4 5 Temps de travail en heures 2nde - Statistiques 4/7 H. Kerneïs 3. Paramètres d’une série statistiques Aussi appelés indicateurs, ils permettent de résumer les très nombreuses données d’une série statistique. On distingue les paramètres de position et ceux de dispersion. 3.1. Paramètres de position Le plus courant est celui de la moyenne. Par exemple, on se compare aux autres élèves d’une classe à l’aide de la moyenne... Notation : La valeur du caractère étudié se note xi. L’effectif correspondant à cette valeur se note ni. p L’effectif total se note N. Et l’on a : ∑n i =1 i = n1 + n 2 + ... + n p = N . Attention : Lorsque les caractères sont définis sous forme d’intervalles (ie sous forme de classes), les calculs sont réalisés avec le centre des intervalles. Définition 4 : La moyenne d’une série statistique se note x et vaut x = n1 x 1 + n 2 x 2 + ... + n p x p N 1 = N p ∑n x i =1 i i . On l’appelle moyenne pondérée. Théorème 1 : p Si on note f i la fréquence de la valeur xi alors x = f 1 x 1 + f 2 x 2 + ... + f p x p = ∑ f i x i . i =1 Pour comparer deux séries statistiques ayant la même moyenne, on utilise souvent la médiane qui permet de partager la série en deux parties (presque) égales. Définition 5 : La médiane d’une série statistique est le nombre, noté Me, tel que : - 50 % au moins des individus ont une valeur du caractère inférieure ou égale à Me ; - 50 % au moins des individus ont une valeur du caractère supérieure ou égale à Me. On a parfois besoin d’affiner un peu plus ce paramètre de position, on utilise alors les quartiles. Définition 6 : Les quartiles sont les trois valeurs du caractère qui partagent les valeurs ordonnées du caractère en quatre sous-ensembles de même effectif. Le premier quartile, noté Q1, est la plus petite valeur de la série statistique telle qu’au moins 25 % des valeurs de celle-ci lui sont inférieures ou égales ; le deuxième est la médiane M et le troisième, noté Q3, est la plus petite valeur de la série statistique telle qu’au moins 75 % des valeurs de celle-ci lui sont inférieures ou égales. On peut représenter cette disposition de la manière suivante : 0LQ 4 1 4 0D[ HQYLURQ GHVGRQQpHV 2nde - Statistiques HQYLURQ GHVGRQQpHV 5/7 HQYLURQ GHVGRQQpHV H. Kerneïs Exemples pratiques : i. Dans le cas d’une série discrète, si liste occupe le rang Si N est un entier, le premier quartile Q1 est la valeur qui dans cette 4 N 3N et le troisième quartile Q3 est la valeur qui dans cette liste occupe le rang . 4 4 N n’est pas un entier, le premier quartile Q1 est la valeur qui dans cette liste occupe le rang immé4 diatement supérieur à N et le troisième quartile Q3 est la valeur qui dans cette liste occupe le rang im4 médiatement supérieur à élèves. Notes Effectif ECC N = 31 ; 5 1 1 3N . Par exemple : Le tableau suivant donne la répartition des notes de 31 4 8 2 3 9 6 9 10 7 16 11 5 21 12 4 25 14 3 28 16 2 30 18 1 31 N N 3N = 7,75 donc Q1 = 9 ; = 15,5 donc Me = 10 et = 23, 25 donc Q3 = 12. La médiane 4 2 4 est 10 et la moyenne vaut x = 1 × 5 + 2 × 8 + ... + 1 × 18 340 = 11 . 31 31 ii. Dans le cas d’une série continue (valeurs regroupées par classe), le premier quartile Q1 est la valeur correspondant à la fréquence cumulée croissante égale à 0,25. De la même manière, Q3 correspond à la fréquence cumulée croissante égale à 0,75. Par exemple : Une enquête est effectuée pour étudier le temps (en minutes) consacré au sport, chaque semaine, par les 1312 employés d’une usine. Les résultats, regroupés en classes, sont indiqués dans le tableau suivant : Temps (min) [0 ; 30[ [30 ; 60[ [60 ; 90[ [90 ; 120[ [120 ; 150[ [150 ; 180[ [180 ; 240[ Effectifs 175 392 267 127 168 120 63 Fréquence (%) 13 30 21 9 13 9 5 FCC (%) 13 43 64 73 86 95 100 On place, dans le repère orthogonal d’échelle 1 cm pour 30 minutes en abscisses et 1 cm pour 10 % en ordonnées, les points de coordonnées (0 ; 0), (30 ; 13), …, (240 , 100), puis on les relie. On trace les droites d’équations y = 50 pour trouver Me ≈ 70, y = 25 pour trouver Q1 ≈ 40 et y = 75 pour trouver Q3 ≈ 120. 2nde - Statistiques 6/7 H. Kerneïs 3.2. Paramètres de dispersion Ces paramètres permettent de mesurer l’étalement (ie la dispersion) de la série statistique autour de sa tendance centrale. Définition 7 : L’intervalle [Q1 ; Q3] est appelé intervalle interquartile. Définition 8 : Le réel Q3 – Q1 est appelé écart interquartile. Définition 9 : On appelle étendue la différence entre les deux valeurs extrêmes prises par le caractère étudié. Remarques : i. L’écart interquartile mesure la dispersion des valeurs autour de la médiane ; plus l’écart est petit, plus les valeurs de la série appartenant à l’intervalle interquartile sont concentrées autour de la médiane. ii. Contrairement à l’étendue qui mesure l’écart entre la plus grande et la plus petite valeur, l’écart interquartile élimine les valeurs extrêmes qui peuvent être douteuses, cependant il ne tient compte que de 50 % de l’effectif. iii. On peut correctement résumer une série statistique par le couple (médiane ; intervalle interquartile) car il est peu sensible aux variations des valeurs extrêmes de la série, contrairement au couple (moyenne ; écart type) vu plus tard… Exemple : Suite du i. précédent… L’intervalle interquartile est [9 ; 12] ; l’écart interquartile est 12 – 9 = 3. 3.3. Résumé Définition 10 : Le diagramme en boîtes (ou à pattes ou boîte à moustaches ou diagramme de Tukey) permet de visualiser l’étendue, la médiane et les quartiles d’une série statistique. Méthode : Pour l’obtenir, on trace un axe horizontal (ou vertical) sur lequel on place les valeurs de Q1, Me et Q3. L’un des côtés du rectangle a pour longueur l’écart interquartile, l’autre est quelconque. On complète ce diagramme en traçant deux traits horizontaux (ou verticaux) : l’un joignant Q1 au minimum de la série et l’autre joignant Q3 au maximum de la série. Exemple : Suite de l’exemple i. de paragraphe 3.1. 2nde - Statistiques 0LQ 4 0 4 0D[ 7/7 H. Kerneïs