STATISTIQUES I) Nature des données – description graphique

Transcription

STATISTIQUES I) Nature des données – description graphique
STATISTIQUES
I) Nature des données – description graphique
Dans ce chapitre, on étudie des séries de données liées à des variables quantitatives, c’est-à-dire quand les valeurs sont
numériques (mesures physiques, physiologiques, économiques).
1) Différents types de séries
Les variables étudiées sont de deux types :
• ces variables sont discrètes si les valeurs prises sont isolées (nombre de personnes par ménage, nombre de défauts
observés...) ;
• ces variables sont continues si les valeurs prises sont dans un intervalle (taille d'une personne, salaire, temps d'écoute
de la télévision, prix d'un article, production...)
Les valeurs ou données sont de différents types : effectifs, fréquences, taux, indices, moyennes…
25
Exemples :
• Une série de taux.
L’histogramme ci-contre représente la répartition
des taux de fécondité de 48 pays d’Europe pour la
période 1995-1999.
La variable étudiée est le taux de fécondité (nombre
moyen d’enfants pour 1000 hab) : cette variable est
quantitative continue, car elle peut prendre toutes les
valeurs de l’intervalle [1 ; 4,5].
Effectif
20
15
10
5
0
1
1.5
2
2.5
3
3.5
4
4.5
5
Taux de fécondité
‚ Des séries d’effectifs (discrets).
Le tableau ci-contre donne le nombre de ménages
selon leurs tailles pour quelques pays européens en
1995 (en milliers).
La variable étudiée est la taille des ménages et
cette variable est discrète puisqu’elle prend 5
valeurs (1, 2, 3, 4 et « 5 et plus »).
Nombre de personnes
2
3
4
2967
2640
2907
689
320
264
2185
861
1022
865
809
747
1
1538
831
1966
449
Espagne
Finlande
Pays-bas
Portugal
5 et plus
2059
118
398
406
3500
Les 4 séries sont représentées ci-contre.
Nombre de ménages
3000
2500
Espagne
2000
Finlande
1500
Pays-bas
1000
Portugal
500
0
1
2
3
4
5 et plus
Taille des ménages
2) Histogramme à pas non constant
Pour représenter une variable quantitative continue dont les valeurs sont regroupées par classe, on trace des rectangles
dont les aires sont proportionnelles aux effectifs des classes.
Exemple :
Classe [100 ;120[ [120 ;160[ [160 ;180[ [180 ;260[
Effectif
20
30
10
10
100
120
140
160
180
200
220
240
260
Statistiques 1/3
280
3) Séries chronologiques
Exemple : le graphique ci-contre représente les variations de la
température moyenne (les valeurs sont des moyennes) annuelle à Paris
entre 1960 et 1979.
12.5
Température en °C
Définition : Une série chronologique est une série de valeurs provenant
d’une même variable observée à des instants régulièrement espacés dans
le temps (jour, mois, année).
12
11.5
11
10.5
10
1960
1964
1968
1972
1976
Année
Lissage d’une série chronologique
Définition : Lisser une série chronologique par les moyennes mobiles d’ordre 3, consiste à créer une nouvelle série où
les xi sont remplacés par la moyenne des 3 valeurs x i, la précédente x i.1 , la suivante x i+1 .
Remarque : on perd une valeur au début et une à la fin de la série.
Température en °C
Exemple : la nouvelle courbe correspond au lissage de la série
précédente. Cette série commence par :
1960 1961 1962 1963 1964
11.8 12.4 10.6 10.1 11.9
et sera remplacée par :
1960 1961 1962 1963 1964
11.6 11 10.9 …
12.5
12
11.5
11
10.5
10
1960
1964
1968
1972
1976
Année
II) Résumé d’une série par le couple (médiane ; écart interquartile)
1) La médiane (vue en 2 nde) : mesure de tendance centrale
Définition : La médiane Me d'une série ordonnée par ordre croissant partage cette série en deux parties telles que la
moitié au moins prend des valeurs inférieures ou égales à la médiane.
• Si le nombre de données est pair, N = 2p : la médiane est la moyenne des pième et (p + 1)ième valeurs.
• Si le nombre de données est impair, N = 2 p+ 1 : la médiane est la (p + 1)ième valeur.
2) les quartiles
Définition : Les valeurs d’une série d’effectif N sont rangées par ordre croissant.
N
.
4
3N
• Le troisième quartile Q3 de la série est la valeur xj dont l’indice j est le plus petit entier supérieur à
.
4
• Le premier quartile Q1 de la série est la valeur xi dont l’indice i est le plus petit entier supérieur à
Exemples :
3) L’écart interquartile : mesure de dispersion
Définition : • L’intervalle interquartile est l’intervalle [Q1 ; Q3].
• L’écart interquartile est la différence Q3 . Q1 .
Remarques : • Le couple (médiane ; écart interquartile) est robuste par rapport aux valeurs extrêmes, mais sa
détermination (les quartiles) n’est pas très pratique.
‚ Plus l’écart interquartile est grand, plus la dispersion est importante.
Statistiques 2/3
4) Diagramme en boîte
Ces diagrammes s’utilisent pour représenter une série de taille importante où les valeurs extrêmes ne sont pas
essentielles. Les diagrammes en boîte mettent en valeur la dispersion d’une répartition.
Exemple :
Q3 = 14
Q1 = 9
3
9
12
14
18
xmin ou D1
Q1
Me
Q3
xmax ou D9
xmin = 3
xmax = 18
Me = 12
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
III) Résumé d’une série par le couple (moyenne ; écart-type)
1) La moyenne (vue en 2 nde) : mesure de tendance centrale
Définition : Soit une série de valeurs x i.
• Sans les effectifs avec un effectif total N: x =
∑n x
∑n
• Avec les effectifs n i : x =
i i
∑x
i
.
N
.
i
• Avec les fréquences fi =
ni
: x = ∑ f i xi .
∑ ni
2) La variance
Définition : Soit une série de valeurs x i.
• Sans les effectifs avec un effectif total N: V =
• Avec les effectifs n i : V =
∑n (x − x)
∑n
i
i
∑(x
i
− x)
N
2
.
2
.
i
Remarque : L’utilisation des listes sur la calculatrice est efficace pour calculer la variance. On calcule successivement
les carrés des écarts puis leurs produits par les effectifs. Enfin, la somme de ces produits divisés par le nombre de
données donne la Variance.
3) L’écart type: mesure de dispersion
Définition : L’écart type noté s est la racine carrée de la variance V : s = V .
Remarques : • Le couple (moyenne ; écart-type) est très sensible aux valeurs extrêmes, mais sa détermination par les
formules précédentes est aisée.
‚ Plus l’écart type est grand, plus la dispersion est importante.
Statistiques 3/3