Séquence 04 : Statistique descriptive Analyse de données

Transcription

Séquence 04 : Statistique descriptive Analyse de données
Séquence 04 : Statistique descriptive
Analyse de données
I.
Présentation d’une série statistique
1. Effectifs cumulés, fréquences cumulées :
Définitions :
 La population d’une série statistique est l’ensemble des éléments appelés « individus » sur lesquels
porte l’étude statistique.
 Le caractère d’une série statistique est la propriété étudiée sur chaque individu. Il est dit :
- qualitatif lorsqu’il ne prend pas que des valeurs numériques ;
- quantitatif discret lorsqu’il ne peut prendre qu’un nombre fini de valeurs numériques ;
- quantitatif continu lorsqu’il peut prendre une infinité de valeurs numériques.
Remarque : Pour un caractère quantitatif continu, les valeurs sont regroupées dans des intervalles
appelés « classes »
Exemples :
Situation étudiée
Population
Caractère
Valeurs possibles
du caractère
Type du caractère
Les notes du devoir
de seconde 1
Tous les élèves de
Seconde 1
La note obtenue au
devoir
0 ; 0,5 ; 1 ; 1,5 ;…….
Jusqu’à 20
Quantitatif discret
La couleur des yeux
des Norvégiens
Tous les
Norvégiens
La couleur des
yeux
Bleu, Vert, Marron,
etc.
Qualitatif
Les salaires des
cadres en
Martinique
Tous les cadres
de Martinique
Le salaire
Tous les nombres
sont possibles
Quantitatif continu
Définitions :
 L’effectif d’une valeur du caractère est le nombre d’individus de la population prenant cette valeur
(nombre de fois où cette valeur apparaît dans la série.).
 La fréquence d’une valeur du caractère est le quotient de l’effectif de cette valeur par l’effectif total.
Définitions : on note une valeur prise par un caractère quantitatif : ses valeurs sont numériques.
 L’effectif cumulé croissant (resp. décroissant) de
est la somme des effectifs des valeurs
inférieures (resp. supérieures) ou égales à .
 La fréquence cumulée croissante (resp. décroissante) de
est la somme des fréquences des
valeurs inférieures (resp. supérieures) ou égales à .
Propriété :
La somme de toutes les fréquences est toujours égale à 1.
Exemple 1 : ce tableau donne la répartition des notes obtenues au cours d’un devoir.
Note
Effectif
Effectifs
cumulés
croissants
Fréquence
8
2
9
1
12
3
2
2
2
0
11
1
02
0
13
2
15
1
2
0
0
02
0
(somme des
effectifs)
0
Remarque : on peut lire que 7 élèves ont une note inférieure ou égale à 12 et que 10% des élèves ont eu la
note de 9.
Exemple 2 : ce tableau donne la répartition des salaires dans une entreprise.
Salaires
(en euros)
0; 000
Fréquence
0 22
Fréquences
cumulées
croissantes
Fréquences
cumulés
décroissantes
000;
00; 2 00
0 2
0,22
0
00
0 22
2 00; 000
0
00
0 22
0 2
0
0
0
0 2
0
0 2
0
00
0
0
0 2 00
somme des fréquences
00
Remarque : on peut lire que 54% des employés de cette entreprise gagne moins de 1500 euros et que
78% des employés gagne plus de 1000 euros.
2. Représentations graphiques
Selon le type du caractère, on utilise différentes représentations graphiques
Diagramme en barres (Caractères
quantitatif discret ou qualitatif):
retour sur exemple 1
Histogramme (caractères
quantitatif continu): retour sur
exemple 2
Diagramme circulaire (Tout type
de caractère) : exemple avec la
couleur des yeux)
On pourrait également utiliser le
diagramme en bâtons pour représenter
cette série ou encore le nuage de points
(moins visuel)
les classes sont d’amplitudes non
nécessairement égales. On
s’intéresse donc à l’aire.
Une fois les fréquences calculées,
utiliser la proportion pour calculer
l’angle correspondant sachant que la
somme de tous les angles doit faire
360°
Effectif
4
3
7%
9%
2
Couleurs des yeux
Norvégiens
bleu
1
0
84%
8
9
11 12 13 15
vert
marron
Note
II.
Indicateurs d’une série statistique
Une série statistique peut contenir de très nombreuses données (parfois plusieurs milliers). Il est donc
nécessaire de trouver une façon de résumer ces données
1. Les indicateurs de position
 La moyenne
La moyenne est l’indicateur le plus répandu. Lorsqu’on reçoit une note on peut la comparer à la moyenne
de la classe, pour se positionner par rapport aux autres élèves.
Définition :
Valeur
Effectif
n
n
…
…
n
Effectif total :
La moyenne pondérée de cette série statistique est le réel, noté , tel que :
Exemple : retour sur l’e emple
Calculons la moyenne de la série :
La moyenne de la classe à ce devoir surveillé est de 11,3.
Remarque : pour une série regroupée en classes c'est-à-dire à caractère continu on obtient une valeur
approchée de la moyenne de la série en prenant pour les centres des classes. Ce centre est obtenu en
faisant la moyenne des deux extrémités de chaque classe.
Propriété : On peut calculer la moyenne à
partir de la distribution des fréquences :
Valeur
…
Fréquence
f
f
…
f
 La médiane
La médiane correspond à une valeur qui partage en deux parties (presque) égales la série statistique.
Définition : La médiane d’une série statistique est le nombre noté Me, tel que :
50% au moins des individus ont une valeur du caractère inférieure ou égale à Me et 50% au moins des
individus ont une valeur supérieur ou égale à Me.
Pour la déterminer : on range la liste des N données par ordre croissant.
 si la série est de taille impaire (
2n
), la médiane est la donnée de rang n
.
 si la série est de taille paire (
2n , la médiane est la demi-somme des données de rang n et n
.
Exemple : retour sur l’e emple : Me = 12
Remarque :
Pour une série regroupée en classes c'est-à-dire à caractère continu, la médiane correspond à la valeur du
caractère ayant une fréquence cumulée croissante de 0,5. De plus la classe à laquelle appartient la
médiane est appelée classe médiane.
Exemple : retour sur l’exemple 2 :
Polygone des fréquences cumulées décroissantes :
Prendre 1 cm pour 0,1 unité en ordonnée
Prendre 1 cm pour 1 unité en abscisse
Prendre 1 cm pour 0,1 unité en ordonnée
Prendre 2 cm pour 0,5 unité en abscisse
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
Fréquence
Fréquence
Polygone des fréquences cumulées croissantes :
0
1000
1500
Salaires
2500
3000
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
0
1000
1500
2500
3000
Salaires
Grâce à la courbe des fréquences cumulées croissantes (ou décroissantes) on en déduit que la médiane de
cette série est : e
00. Il suffit de lire l’abscisse du point du polygone qui a pour ordonnée 0 .
 Les quartiles
Définition : La liste des N données est rangées par ordre croissant.
 Le premier quartile est la plus petite donnée
de la série telle qu’au moins un quart des données
(25%) de la série soit inférieure ou égale à .
 Le troisième quartile est la plus petite donnée
de la série telle qu’au moins les trois quarts des
données (75%) de la série sont inférieures ou égales à .
Remarque : calcul pratique des quartiles pour une série à caractère discret :
- Pour , on calcule , puis on détermine le premier entier p supérieur ou égal à
Cet entier p est le rang de
que l’on peut alors déterminer.
- Pour , on fait de même en remplaçant par .
;
Remarque : Pour le calcul des quartiles d’une série à caractère continu on utilisera le polygone des
fréquences cumulées.
- Dans le cas du polygone des fréquences cumulées croissantes le premier quartile est l’abscisse du
point du polygone qui a pour ordonnée 0 2 et le troisième quartile est l’abscisse du point du
polygone qui a pour ordonnée 0,75.
- Dans le cas du polygone des fréquences cumulées décroissantes le premier quartile est l’abscisse
du point du polygone qui a pour ordonnée 0,7 et le troisième quartile est l’abscisse du point du
polygone qui a pour ordonnée 0,25.
Exemple :
Retour exemple 1 : Q1 est ici la 3ème valeur et Q3 est la 8ème valeur donc Q1 = 9 et Q3 = 13
Retour exemple 2 : d’après le polygone
0 0 et
2000
2. Les indicateurs de dispersion
Définition : La différence entre :
 la plus grande et la plus petite données d’une série est l’étendue de la série.
 le troisième quartile et le premier quartile
est l’écart interquartile de la série.
On notera [Q1 ; Q3] l’intervalle interquartile.
Remarque : Pour résumer une série statistique sous forme de schéma on utilisera ce que l’on appelle un
diagramme en boîte (ou boîte à moustaches) représenté ci-contre :