STATISTIQUES 1. Définitions, vocabulaire et notations

Transcription

STATISTIQUES 1. Définitions, vocabulaire et notations
STATISTIQUES
Faire des statistiques, c’est recueillir, organiser, synthétiser, représenter et exploiter des données numériques ou non, dans
un but de comparaison, de prévision, de constat... Les plus gros « consommateurs » de statistiques sont les assureurs (risques d’accidents, de maladie des assurés), les médecins (épidémiologie), les démographes (pour l’étude des populations et de
leur dynamique), les sociologues (étude des phénomènes sociaux humains), les économistes (emploi, conjoncture économique), les météorologues...
1. Définitions, vocabulaire et notations
Définition 1 :
i. On appelle population un ensemble de personnes ou d’objets étudiés. Un individu est un élément
de la population.
ii. La particularité de la population étudiée en statistique est appelée caractère ou variable.
iii. Le caractère étudié peut être :
- quantitatif discret quand il prend un nombre fini de valeurs numériques ;
- quantitatif continu quand il prend une infinité de valeurs numériques. Les valeurs sont alors
regroupées dans des intervalles appelés classes ;
- qualitatif quand il ne prend pas que des valeurs numériques.
Exemple :
Valeurs prises par
le caractère
Type de caractère
La couleur des
yeux
Bleu, vert, marron, etc.
Qualitatif
Les salariés
d’Orange
Le salaire
Tous les nombres
possibles !
Quantitatif continu
Les candidats du
Bac S
La note obtenue
en math
0 à 20 en points
entiers
Quantitatif discret (21 valeurs)
Etude
Population
Couleur des yeux
des habitants du
Turkménistan
Tous les Turkmènes
Répartition des
salaires chez
Orange
Notes de math au
Bac S
Caractère
Définition 2 :
i. On appelle effectif d’une valeur (ou classe) du caractère le nombre de fois où cette valeur apparaît
dans la série.
ii. A chaque valeur (ou classe), on associe une fréquence : c’est la proportion d’individus associés à
cette valeur. La fréquence est un nombre compris entre 0 et 1 que l’on peut aussi exprimer en pourcentage.
iii. Si N est l’effectif total et n l’effectif associé à une valeur alors la fréquence de celle-ci est égale à
n
n
f =
(ou f =
× 100 si l’on exprime la fréquence en pourcentage).
N
N
2nde - Statistiques
1/7
H. Kerneïs
Propriété 1 :
La somme de toutes les fréquences est égale à 1. (ou 100 si l’on travaille en pourcentages.)
Exemple : Après le recensement du nombre d’enfants dans chacun des foyers d’un village, on a :
Nombre d’enfants xi
Effectif ni
0
1
2
3
4
5
6
7
290
170
155
95
43
27
20
10
La fréquence de « 2 enfants » est :
155
≈ 0,19 et la fréquence en pourcentage de « aucun enfant » est :
810
290
× 100 ≈ 35,8 %.
810
Définition 3 :
La fréquence cumulée croissante (resp. décroissante) d’une valeur est égale à la somme des fréquences des valeurs qui lui sont inférieures (resp. supérieures) ou égales.
Remarque : On a de la même manière la définition des effectifs cumulés croissants et décroissants.
Exemple : Répartition des différentes tailles des élèves d’une classe de Seconde. On déterminera les
effectifs cumulés croissants et les fréquences cumulées croissantes. On donnera en pourcentage la proportion des élèves qui mesurent moins de 1,65 m.
⎡⎣135;145 ⎡⎣
⎡⎣145;155 ⎡⎣
⎡⎣155;165 ⎡⎣
⎡⎣165;175 ⎡⎣
⎡⎣175;185 ⎡⎣
Effectif
3
5
6
4
3
ECC
3
3+5=8
8 + 6 = 14
14 + 4 = 18
18 + 3 = 21
FCC
3 1
=
21 7
8
21
14 2
=
21 3
18 6
=
21 7
21
=1
21
Taille
La proportion des élèves qui mesurent moins de 1,65 m est de
2
× 100 ≈ 66,7 % à 0,1 près.
3
2. Représentations graphiques d’une série statistique
Il existe différentes représentations graphiques en fonction du type de caractère étudié.
Pour un caractère qualitatif, on peut représenter la série par un diagramme circulaire ou semi-circulaire (« camemberts ») : la mesure de chaque secteur angulaire est proportionnelle à l’effectif (ou à la
fréquence) associé. Par exemple, voici un diagramme circulaire représentant la répartition des adhérents
à un club sportif :
2nde - Statistiques
2/7
H. Kerneïs
Tennis
25 %
Football
58 %
Handball
17 %
Pour un caractère quantitatif discret, on peut utiliser un diagramme en bâtons ou un nuage de
points : la hauteur de chaque bâton (ou l’ordonnée de chaque point du nuage) est alors proportionnelle
à l’effectif (ou la fréquence) associé à chaque valeur. Par exemple, voici le diagramme en bâtons représentant la série des notes obtenues par une classe à un DST :
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
Pour un caractère quantitatif continu, et lorsque les valeurs sont regroupées en classes, on peut utiliser un histogramme. L’aire de chaque rectangle est alors proportionnelle à l’effectif (ou à la fréquence)
associée à chaque classe. Lorsque les classes ont la même amplitude, c’est la hauteur qui est proportionnelle à l’effectif. Par exemple, voici un histogramme représentant la répartition des salaires dans une
entreprise :
35
30
= 5 salariés
25
20
15
10
5
0
800
1000
2nde - Statistiques
1200
1400
1600
3/7
1800
2000
2200
2500
H. Kerneïs
On complétera le tableau suivant :
Salaires
⎡⎣900;1200 ⎤⎦
⎡⎣1200;1400 ⎤⎦
⎡⎣1400;1600 ⎤⎦
⎡⎣1600;1800 ⎤⎦
⎡⎣1800;1900 ⎤⎦
⎡⎣1900; 2100 ⎤⎦
⎡⎣ 2100; 2400 ⎤⎦
Effectif
30
30
60
40
10
10
15
Fréquence
(%)
...
La représentation graphique des fréquences cumulées croissantes s’appelle le polygone des fréquences cumulées croissantes (idem pour les effectifs cumulés croissants ou décroissants et les fréquences
cumulées décroissantes). Par exemple, une enquête sur le temps de travail personnel quotidien des élèves en classe de Seconde a donné les résultats suivants :
Temps de travail (en
heures)
Effectif
Fréquence
Fréquences cumulées
croissantes
⎡⎣0;1⎡⎣
40
0,16
0,16
⎡⎣1; 2 ⎡⎣
95
0,38
0,54
⎡⎣ 2; 3 ⎡⎣
86
0,344
0,884
⎡⎣3; 4 ⎡⎣
24
0,096
0,98
⎡⎣ 4; 5 ⎡⎣
5
0,02
1
On en déduit le polygone des fréquences cumulées croissantes :
Fréquences cumulées croissantes
1
0,75
0,5
0,25
0
0
1
2
3
4
5
Temps de travail en heures
2nde - Statistiques
4/7
H. Kerneïs
3. Paramètres d’une série statistiques
Aussi appelés indicateurs, ils permettent de résumer les très nombreuses données d’une série statistique.
On distingue les paramètres de position et ceux de dispersion.
3.1. Paramètres de position
Le plus courant est celui de la moyenne. Par exemple, on se compare aux autres élèves d’une classe à
l’aide de la moyenne...
Notation : La valeur du caractère étudié se note xi. L’effectif correspondant à cette valeur se note ni.
p
L’effectif total se note N. Et l’on a :
∑n
i =1
i
= n1 + n 2 + ... + n p = N .
Attention : Lorsque les caractères sont définis sous forme d’intervalles (ie sous forme de classes), les
calculs sont réalisés avec le centre des intervalles.
Définition 4 :
La moyenne d’une série statistique se note x et vaut x =
n1 x 1 + n 2 x 2 + ... + n p x p
N
1
=
N
p
∑n x
i =1
i
i
.
On l’appelle moyenne pondérée.
Théorème 1 :
p
Si on note f i la fréquence de la valeur xi alors x = f 1 x 1 + f 2 x 2 + ... + f p x p = ∑ f i x i .
i =1
Pour comparer deux séries statistiques ayant la même moyenne, on utilise souvent la médiane qui permet de partager la série en deux parties (presque) égales.
Définition 5 :
La médiane d’une série statistique est le nombre, noté Me, tel que :
- 50 % au moins des individus ont une valeur du caractère inférieure ou égale à Me ;
- 50 % au moins des individus ont une valeur du caractère supérieure ou égale à Me.
On a parfois besoin d’affiner un peu plus ce paramètre de position, on utilise alors les quartiles.
Définition 6 :
Les quartiles sont les trois valeurs du caractère qui partagent les valeurs ordonnées du caractère en
quatre sous-ensembles de même effectif. Le premier quartile, noté Q1, est la plus petite valeur de la
série statistique telle qu’au moins 25 % des valeurs de celle-ci lui sont inférieures ou égales ; le deuxième
est la médiane M et le troisième, noté Q3, est la plus petite valeur de la série statistique telle qu’au
moins 75 % des valeurs de celle-ci lui sont inférieures ou égales. On peut représenter cette disposition
de la manière suivante :
0LQ
4
1
4
0D[
HQYLURQ
GHVGRQQpHV
2nde - Statistiques
HQYLURQ
GHVGRQQpHV
5/7
HQYLURQ
GHVGRQQpHV
H. Kerneïs
Exemples pratiques :
i. Dans le cas d’une série discrète, si
liste occupe le rang
Si
N
est un entier, le premier quartile Q1 est la valeur qui dans cette
4
N
3N
et le troisième quartile Q3 est la valeur qui dans cette liste occupe le rang
.
4
4
N
n’est pas un entier, le premier quartile Q1 est la valeur qui dans cette liste occupe le rang immé4
diatement supérieur à
N
et le troisième quartile Q3 est la valeur qui dans cette liste occupe le rang im4
médiatement supérieur à
élèves.
Notes
Effectif
ECC
N = 31 ;
5
1
1
3N
. Par exemple : Le tableau suivant donne la répartition des notes de 31
4
8
2
3
9
6
9
10
7
16
11
5
21
12
4
25
14
3
28
16
2
30
18
1
31
N
N
3N
= 7,75 donc Q1 = 9 ;
= 15,5 donc Me = 10 et
= 23, 25 donc Q3 = 12. La médiane
4
2
4
est 10 et la moyenne vaut x =
1 × 5 + 2 × 8 + ... + 1 × 18 340
=
 11 .
31
31
ii. Dans le cas d’une série continue (valeurs regroupées par classe), le premier quartile Q1 est la valeur
correspondant à la fréquence cumulée croissante égale à 0,25. De la même manière, Q3 correspond à la
fréquence cumulée croissante égale à 0,75. Par exemple : Une enquête est effectuée pour étudier le
temps (en minutes) consacré au sport, chaque semaine, par les 1312 employés d’une usine. Les résultats,
regroupés en classes, sont indiqués dans le tableau suivant :
Temps (min)
[0 ; 30[
[30 ; 60[
[60 ; 90[
[90 ; 120[
[120 ; 150[
[150 ; 180[
[180 ; 240[
Effectifs
175
392
267
127
168
120
63
Fréquence (%)
13
30
21
9
13
9
5
FCC (%)
13
43
64
73
86
95
100
On place, dans le repère orthogonal d’échelle 1 cm pour 30 minutes en abscisses et 1 cm pour 10 % en
ordonnées, les points de coordonnées (0 ; 0), (30 ; 13), …, (240 , 100), puis on les relie. On trace les
droites d’équations y = 50 pour trouver Me ≈ 70, y = 25 pour trouver Q1 ≈ 40 et y = 75 pour trouver
Q3 ≈ 120.
2nde - Statistiques
6/7
H. Kerneïs
3.2. Paramètres de dispersion
Ces paramètres permettent de mesurer l’étalement (ie la dispersion) de la série statistique autour de sa
tendance centrale.
Définition 7 :
L’intervalle [Q1 ; Q3] est appelé intervalle interquartile.
Définition 8 :
Le réel Q3 – Q1 est appelé écart interquartile.
Définition 9 :
On appelle étendue la différence entre les deux valeurs extrêmes prises par le caractère étudié.
Remarques :
i. L’écart interquartile mesure la dispersion des valeurs autour de la médiane ; plus l’écart est petit, plus
les valeurs de la série appartenant à l’intervalle interquartile sont concentrées autour de la médiane.
ii. Contrairement à l’étendue qui mesure l’écart entre la plus grande et la plus petite valeur, l’écart interquartile élimine les valeurs extrêmes qui peuvent être douteuses, cependant il ne tient compte que de 50
% de l’effectif.
iii. On peut correctement résumer une série statistique par le couple (médiane ; intervalle interquartile)
car il est peu sensible aux variations des valeurs extrêmes de la série, contrairement au couple (moyenne ; écart type) vu plus tard…
Exemple : Suite du i. précédent… L’intervalle interquartile est [9 ; 12] ; l’écart interquartile est 12 – 9 =
3.
3.3. Résumé
Définition 10 : Le diagramme en boîtes (ou à pattes ou boîte à moustaches ou diagramme de Tukey)
permet de visualiser l’étendue, la médiane et les quartiles d’une série statistique.
Méthode : Pour l’obtenir, on trace un axe horizontal (ou vertical) sur lequel on place les valeurs de Q1,
Me et Q3. L’un des côtés du rectangle a pour longueur l’écart interquartile, l’autre est quelconque. On
complète ce diagramme en traçant deux traits horizontaux (ou verticaux) : l’un joignant Q1 au minimum
de la série et l’autre joignant Q3 au maximum de la série.
Exemple : Suite de l’exemple i. de paragraphe 3.1.
2nde - Statistiques
0LQ
4 0
4
0D[
7/7
H. Kerneïs