Séquence 04 : Statistique descriptive Analyse de données
Transcription
Séquence 04 : Statistique descriptive Analyse de données
Séquence 04 : Statistique descriptive Analyse de données I. Présentation d’une série statistique 1. Effectifs cumulés, fréquences cumulées : Définitions : La population d’une série statistique est l’ensemble des éléments appelés « individus » sur lesquels porte l’étude statistique. Le caractère d’une série statistique est la propriété étudiée sur chaque individu. Il est dit : - qualitatif lorsqu’il ne prend pas que des valeurs numériques ; - quantitatif discret lorsqu’il ne peut prendre qu’un nombre fini de valeurs numériques ; - quantitatif continu lorsqu’il peut prendre une infinité de valeurs numériques. Remarque : Pour un caractère quantitatif continu, les valeurs sont regroupées dans des intervalles appelés « classes » Exemples : Situation étudiée Population Caractère Valeurs possibles du caractère Type du caractère Les notes du devoir de seconde 1 Tous les élèves de Seconde 1 La note obtenue au devoir 0 ; 0,5 ; 1 ; 1,5 ;……. Jusqu’à 20 Quantitatif discret La couleur des yeux des Norvégiens Tous les Norvégiens La couleur des yeux Bleu, Vert, Marron, etc. Qualitatif Les salaires des cadres en Martinique Tous les cadres de Martinique Le salaire Tous les nombres sont possibles Quantitatif continu Définitions : L’effectif d’une valeur du caractère est le nombre d’individus de la population prenant cette valeur (nombre de fois où cette valeur apparaît dans la série.). La fréquence d’une valeur du caractère est le quotient de l’effectif de cette valeur par l’effectif total. Définitions : on note une valeur prise par un caractère quantitatif : ses valeurs sont numériques. L’effectif cumulé croissant (resp. décroissant) de est la somme des effectifs des valeurs inférieures (resp. supérieures) ou égales à . La fréquence cumulée croissante (resp. décroissante) de est la somme des fréquences des valeurs inférieures (resp. supérieures) ou égales à . Propriété : La somme de toutes les fréquences est toujours égale à 1. Exemple 1 : ce tableau donne la répartition des notes obtenues au cours d’un devoir. Note Effectif Effectifs cumulés croissants Fréquence 8 2 9 1 12 3 2 2 2 0 11 1 02 0 13 2 15 1 2 0 0 02 0 (somme des effectifs) 0 Remarque : on peut lire que 7 élèves ont une note inférieure ou égale à 12 et que 10% des élèves ont eu la note de 9. Exemple 2 : ce tableau donne la répartition des salaires dans une entreprise. Salaires (en euros) 0; 000 Fréquence 0 22 Fréquences cumulées croissantes Fréquences cumulés décroissantes 000; 00; 2 00 0 2 0,22 0 00 0 22 2 00; 000 0 00 0 22 0 2 0 0 0 0 2 0 0 2 0 00 0 0 0 2 00 somme des fréquences 00 Remarque : on peut lire que 54% des employés de cette entreprise gagne moins de 1500 euros et que 78% des employés gagne plus de 1000 euros. 2. Représentations graphiques Selon le type du caractère, on utilise différentes représentations graphiques Diagramme en barres (Caractères quantitatif discret ou qualitatif): retour sur exemple 1 Histogramme (caractères quantitatif continu): retour sur exemple 2 Diagramme circulaire (Tout type de caractère) : exemple avec la couleur des yeux) On pourrait également utiliser le diagramme en bâtons pour représenter cette série ou encore le nuage de points (moins visuel) les classes sont d’amplitudes non nécessairement égales. On s’intéresse donc à l’aire. Une fois les fréquences calculées, utiliser la proportion pour calculer l’angle correspondant sachant que la somme de tous les angles doit faire 360° Effectif 4 3 7% 9% 2 Couleurs des yeux Norvégiens bleu 1 0 84% 8 9 11 12 13 15 vert marron Note II. Indicateurs d’une série statistique Une série statistique peut contenir de très nombreuses données (parfois plusieurs milliers). Il est donc nécessaire de trouver une façon de résumer ces données 1. Les indicateurs de position La moyenne La moyenne est l’indicateur le plus répandu. Lorsqu’on reçoit une note on peut la comparer à la moyenne de la classe, pour se positionner par rapport aux autres élèves. Définition : Valeur Effectif n n … … n Effectif total : La moyenne pondérée de cette série statistique est le réel, noté , tel que : Exemple : retour sur l’e emple Calculons la moyenne de la série : La moyenne de la classe à ce devoir surveillé est de 11,3. Remarque : pour une série regroupée en classes c'est-à-dire à caractère continu on obtient une valeur approchée de la moyenne de la série en prenant pour les centres des classes. Ce centre est obtenu en faisant la moyenne des deux extrémités de chaque classe. Propriété : On peut calculer la moyenne à partir de la distribution des fréquences : Valeur … Fréquence f f … f La médiane La médiane correspond à une valeur qui partage en deux parties (presque) égales la série statistique. Définition : La médiane d’une série statistique est le nombre noté Me, tel que : 50% au moins des individus ont une valeur du caractère inférieure ou égale à Me et 50% au moins des individus ont une valeur supérieur ou égale à Me. Pour la déterminer : on range la liste des N données par ordre croissant. si la série est de taille impaire ( 2n ), la médiane est la donnée de rang n . si la série est de taille paire ( 2n , la médiane est la demi-somme des données de rang n et n . Exemple : retour sur l’e emple : Me = 12 Remarque : Pour une série regroupée en classes c'est-à-dire à caractère continu, la médiane correspond à la valeur du caractère ayant une fréquence cumulée croissante de 0,5. De plus la classe à laquelle appartient la médiane est appelée classe médiane. Exemple : retour sur l’exemple 2 : Polygone des fréquences cumulées décroissantes : Prendre 1 cm pour 0,1 unité en ordonnée Prendre 1 cm pour 1 unité en abscisse Prendre 1 cm pour 0,1 unité en ordonnée Prendre 2 cm pour 0,5 unité en abscisse 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 Fréquence Fréquence Polygone des fréquences cumulées croissantes : 0 1000 1500 Salaires 2500 3000 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 1000 1500 2500 3000 Salaires Grâce à la courbe des fréquences cumulées croissantes (ou décroissantes) on en déduit que la médiane de cette série est : e 00. Il suffit de lire l’abscisse du point du polygone qui a pour ordonnée 0 . Les quartiles Définition : La liste des N données est rangées par ordre croissant. Le premier quartile est la plus petite donnée de la série telle qu’au moins un quart des données (25%) de la série soit inférieure ou égale à . Le troisième quartile est la plus petite donnée de la série telle qu’au moins les trois quarts des données (75%) de la série sont inférieures ou égales à . Remarque : calcul pratique des quartiles pour une série à caractère discret : - Pour , on calcule , puis on détermine le premier entier p supérieur ou égal à Cet entier p est le rang de que l’on peut alors déterminer. - Pour , on fait de même en remplaçant par . ; Remarque : Pour le calcul des quartiles d’une série à caractère continu on utilisera le polygone des fréquences cumulées. - Dans le cas du polygone des fréquences cumulées croissantes le premier quartile est l’abscisse du point du polygone qui a pour ordonnée 0 2 et le troisième quartile est l’abscisse du point du polygone qui a pour ordonnée 0,75. - Dans le cas du polygone des fréquences cumulées décroissantes le premier quartile est l’abscisse du point du polygone qui a pour ordonnée 0,7 et le troisième quartile est l’abscisse du point du polygone qui a pour ordonnée 0,25. Exemple : Retour exemple 1 : Q1 est ici la 3ème valeur et Q3 est la 8ème valeur donc Q1 = 9 et Q3 = 13 Retour exemple 2 : d’après le polygone 0 0 et 2000 2. Les indicateurs de dispersion Définition : La différence entre : la plus grande et la plus petite données d’une série est l’étendue de la série. le troisième quartile et le premier quartile est l’écart interquartile de la série. On notera [Q1 ; Q3] l’intervalle interquartile. Remarque : Pour résumer une série statistique sous forme de schéma on utilisera ce que l’on appelle un diagramme en boîte (ou boîte à moustaches) représenté ci-contre :