Les notions de base

Transcription

Les notions de base
Chapitre 1 :
Les notions de base
Introduction
I – Comparer des grandeurs
A) Les pourcentages
B) Taux de variation, coefficient multiplicateur, indice
C) Importance du sens de la comparaison
1) Raisonnement sur les taux de variation
2) Raisonnement sur coefficients multiplicateurs et indices
D) Des taux de variation successifs au taux de variation global
E) Taux annuel moyen de variation
II – Résumer l’information : les moyennes
A) La moyenne arithmétique
1) Moyenne “simple”, moyenne pondérée
2) Propriétés de la moyenne arithmétique
B) La moyenne géométrique
C) La moyenne harmonique
D) Relation entre les moyennes
3
Introduction
La statistique vise à décrire la réalité sous forme chiffrée. Elle s’appuie sur un ensemble de
techniques qui permettent de donner du sens à l'information collectée. En effet, l'information chiffrée
brute est en général peu parlante (“ trop d’informations tue l’information ”). Il faut la traiter, ce qui
consiste à la trier, la résumer, la synthétiser. Ce faisant, on perd en précision, mais on gagne en
signification.
Il y a 2 types de traitement de base : synthétiser et comparer.
Outils de base pour les comparaisons : le coefficient multiplicateur, l’indice, le taux de
variation ; qui seront examinés dans le I ;
Outil de base permettant de résumer l’info : le calcul de moyennes ; ce sera l’objet du II.
I – Comparer des grandeurs
Le tableau 1.1.a donne les résultats d'une enquête sur la situation professionnelle des jeunes
sortis du système éducatif en 1998, 3 ans après la sortie.
Tableau 1.1.a
Répartition des jeunes sortis du système éducatif en 1998 selon le niveau d’études et la situation
professionnelle, 3 ans après la sortie
Emploi
Chômage
Autres*
Total
niveau inférieur au bac
201 810
42 706
29 050
273 566
Bac
157 465
13 101
20 960
191 526
Études supérieures
251 889
12 170
12 394
276 453
Total
611 164
67 977
62 404
741 545
* Inactifs, reprise d'études...
Source : enquête "Génération 98", Céreq, 2003
Ce sont des données brutes qui ne sont pas très « lisibles ». Pour pouvoir les interpréter, on va
comparer entre elles certaines de ces grandeurs.
Comparer des grandeurs, c’est :
– en langage courant, les mettre en rapport ;
– en langage « mathématique », faire le rapport de ces grandeurs, c’est-à-dire calculer une
fraction.
Ce rapport, cette fraction, on l’exprimera en pourcentage.
A) Les pourcentages
On utilise donc les pourcentages pour exprimer un rapport de 2 grandeurs. Exprimer en
pourcentage revient à transformer ce rapport de sorte que son dénominateur soit égal à 100.
4
Statistique descriptive
Transformation en pourcentage des données du tableau 1.1a
Il y a 2 possibilités :
1 · On examine, pour chacune des 3 situations considérées (avoir un emploi, être au chômage,
n'exercer ni ne rechercher de profession), la répartition des individus selon leur niveau d’études.
Pour chaque colonne du tableau, on rapporte le nombre indiqué dans chaque ligne au total de la
colonne, rapport que l’on exprime en pourcentage.
Remarque : formule Excel $ devant le chiffre de la cellule du dénominateur
Tableau 1.1.b
Niveau d’études de la génération 98 selon la situation professionnelle en 2001
Emploi
Chômage
Autre
Total
Niveau inférieur au bac
33,0
62,8
46,6
36,9
Bac
25,8
19,3
33,6
25,8
Études supérieures
41,2
17,9
19,9
37,3
Total
100
100
100
100
en %
Les pourcentages globaux de la dernière colonne indiquent la répartition, selon leur niveau d’études,
des sortants du système éducatif de 1998.
2 · Pour mieux mettre en évidence cette relation, il est préférable de calculer, pour chaque niveau
d’études, le pourcentage de ceux qui ont un emploi, qui sont au chômage… ; ainsi, pour chaque
ligne du tableau 1.1.a, on rapporte le nombre indiqué dans chaque colonne au total de la ligne et
l’on exprime le résultat en pourcentage.
Remarque : formule Excel $ devant la lettre de la cellule du dénominateur
Tableau 1.1.c
Situation professionnelle en 2001 de la génération 98 selon le niveau d’études
Emploi
Chômage
Autre
Total
Niveau inférieur au bac
73,8
15,6
10,6
100
Bac
82,2
6,8
10,9
100
Études supérieures
91,1
4,4
4,5
100
Total
82,4
9,2
8,4
100
en %
Les pourcentages de la dernière ligne du tableau indiquent la répartition des jeunes selon leur situation
professionnelle 3 ans après la fin de leurs études (tous niveaux d’études confondus).
1) Caractéristiques des pourcentages
Un pourcentage exprime un rapport entre 2 grandeurs (évidemment exprimées dans la même unité).
Cela implique 3 choses :
– Un nombre sans dimension.
– Le pourcentage indique une valeur relative ; il n’a de sens que par rapport à l’ensemble
considéré.
Chapitre 1 − Les notions de base
5
– Il gomme l’effet de taille.
En éliminant l’effet de taille, le calcul de pourcentages permet d'interpréter les données. Mais il peut
également conduire à des interprétations absurdes.
2) Utilisation des pourcentages
Il y a 3 grands types d’utilisation :
– Pour exprimer une proportion, indiquer quelle part de l’ensemble total représente la
grandeur considérée. Dans ce cas, le pourcentage est nécessairement supérieur à 0 et
inférieur à 100 (0 < % < 100).
– Pour mesurer une grandeur par rapport à une autre qui lui est extérieure.
– Pour exprimer une variation relative ; cela revient à mesurer l’écart entre 2 valeurs d’une
même grandeur par rapport à une situation de référence. On fait alors le calcul d’un taux
de variation.
B) Taux de variation, coefficient multiplicateur, indice
Il s’agit ici de comparer les valeurs prises par une même grandeur dans des situations différentes, à
des dates différentes ou dans des lieux différents.
1) Écarts absolus, écarts relatifs
Considérons les deux séries de données suivantes correspondant à chacun de ces 2 cas :
– grandeur observée à des dates différentes (PIB en valeur et population de l’Île-de-France de
95 à 2001) ;
– grandeur observée en des lieux différents (PIB par habitant des régions françaises).
Tableau 1.2.a
PIB en valeur et population de l’Île-de-France
1995
1996
1997
1998
1999
2000
2001
PIB, Milliards d’euros
334,2
344,6
355,8
367,7
383,7
402,9
413,7
Pop°, Millions d’hab.
10,87
10,89
10,9
10,93
10,96
11
11,04
PIB/hab., milliers d’euros
30,75
31,64
32,64
33,64
35,01
36,63
37,47
Source : INSEE
Tableau 1.3
PIB régionaux en valeur par habitant en 2006
Alsace
Aquitaine
Auvergne
Basse-Normandie
Bourgogne
Bretagne
Centre
Champagne-Ardenne
6
en euros
Base 100
métropole
Base 100
Île-de-France
Base 100
Nord-Pas-de-Calais
26 532
25 693
23 699
23 491
24 932
25 249
25 296
26 381
92,4
89,5
82,5
81,8
86,8
87,9
88,1
91,9
61,2
59,2
54,6
54,2
57,5
58,2
58,3
60,8
118,1
114,4
105,5
104,6
111,0
112,4
112,6
117,5
Statistique descriptive
Corse
Franche-Comté
Haute-Normandie
Île-de-France
Languedoc- Roussillon
Limousin
Lorraine
Midi-Pyrénées
22 660
24 467
25 834
43 370
22 616
23 580
23 596
25 772
78,9
85,2
89,9
151,0
52,2
56,4
59,6
100,0
78,7
82,1
82,2
89,7
78,2
52,1
54,4
54,4
59,4
Nord-Pas-de-Calais
Pays de la Loire
Picardie
Poitou-Charentes
Provence-Alpes-Côte d’Azur
Rhône-Alpes
22 458
26 041
22 660
23 881
27 095
28 792
90,7
78,9
83,1
94,3
100,2
51,8
60,0
52,2
55,1
62,5
66,4
Métropole
28 721
100,0
66,2
100,9
108,9
115,0
193,1
100,7
105,0
105,1
114,8
100,0
116,0
100,9
106,3
120,6
128,2
127,9
Source : INSEE
Pour comparer entre elles les valeurs de chaque tableau, on peut les soustraire les unes aux autres et
calculer les écarts absolus (entre 2 dates dans le premier cas, entre 2 régions dans le second).
Entre 95 et 2001, le PIB par habitant de l’Île-de-France a augmenté d'un peu plus de 6 700 euros.
En 2001, le PIB par habitant de l’Alsace est supérieur d’environ 6 200 euros à celui du LanguedocRoussillon, mais inférieur de près de 13 000 euros à celui de l’Île-de-France.
Mais le recours aux écarts absolus n’est pas très satisfaisant pour 2 raisons :
La mesure de l’écart obtenue dépend de l’unité dans laquelle les grandeurs sont exprimées.
Par ailleurs, l’écart absolu ne tient pas compte du niveau de la valeur de départ, ce qui limite les
possibilités d’interprétation.
Par exemple, l’augmentation de 6 700 euros du PIB par habitant en Île-de-France de 1995 à 2001
n’aurait pas la même signification si le PIB de 1995 était de 70 000 euros au lieu de 30 750.
Pour contourner ces inconvénients, on raisonne sur les écarts relatifs, c’est-à-dire l’écart absolu divisé
par la valeur de départ. Cet écart relatif correspond au taux de variation, et on l’exprime
généralement en pourcentage.
Soit X une variable statistique ayant x0 comme valeur de départ et xt comme valeur d’arrivée, le taux
de variation entre la valeur de départ et la valeur d’arrivée s’écrit :
vt / 0 =
(xt − x0) xt
= −1
x0
x0
On multipliera le taux de variation par 100 pour obtenir un pourcentage.
Entre 1995 et 2001, le PIB/hab. de l’Île-de-France a crû de :
valeur 2001
37,47
6,72
−1=
−1=
= 0,219 = 21,9 %
valeur 1995
30,75
30,75
L’écart relatif de PIB/hab. entre l’Alsace et le Languedoc-Roussillon, en prenant le PIB/hab. du
Languedoc-Roussillon comme valeur de référence, est de :
valeur Alsace
26 532
3 916
−1=
−1=
= 0,173 = 17,3 %
22 616
valeur Languedoc-Roussillon
22 616
Chapitre 1 − Les notions de base
7
Le PIB/hab. alsacien est supérieur de 17,3 % au PIB/hab. du Languedoc-Roussillon.
L’écart relatif de PIB/hab. entre l’Alsace et l’Île-de-France, en prenant l’Île-de-France comme
référence, est de :
valeur Alsance
26 532
− 16 838
−1=
−1=
= − 0,388 = − 38,8 %
valeur Île-de-France
43 370
43 370
Le PIB/hab. alsacien est inférieur de 38,8% au PIB/hab. francilien.
Comme le taux de variation est obtenu en divisant des valeurs exprimées dans la même unité, c’est
évidemment un nombre sans dimension.
2) Taux de variation et coefficient multiplicateur
Pour exprimer ces variations relatives, on aurait pu tout aussi bien faire le rapport entre les 2
valeurs considérées, diviser la valeur d’arrivée par la valeur de départ. On obtient alors le coefficient
multiplicateur qui indique le nombre par lequel la grandeur considérée a été multipliée entre la
situation de départ et la situation d’arrivée :
mt / 0 =
xt
x0
Remarques
1) Valeur du coefficient multiplicateur :
– Quand la valeur d'arrivée est supérieure à la valeur de départ (croissance dans le cas où on suit
l'évolution d’une valeur dans le temps), le coefficient multiplicateur est supérieur à 1.
– Quand la valeur d'arrivée est inférieure à la valeur de départ (baisse), le coefficient multiplicateur est
inférieur à 1.
2) Relation entre taux de variation et coefficient multiplicateur :
Taux de variation = Coefficient multiplicateur − 1
= 100 × (coefficient multiplicateur − 1) %
Ce qui implique évidemment que :
Coefficient multiplicateur = 1 + taux de variation
=1+
taux de variation en %
100
Un coefficient multiplicateur supérieur à 1 correspond à un taux de variation supérieur à 0, et un
coefficient multiplicateur inférieur à 1 correspond à un taux de variation inférieur à 0.
PIB régionaux
Coeff., multiplicateur
Taux de variation
Alsace par rapport au Languedoc-R.
1,173
17,3 %
Alsace par rapport à l’IdF
0,612
− 38,8 %
3) Pour calculer un taux de variation, il est plus simple de passer par le multiplicateur que de rapporter
l’écart absolu à la valeur de départ.
3) Expression sous forme d’indices
C’est la troisième façon d’exprimer une variation relative. L’indice correspondant à la valeur
d’arrivée est obtenu en multipliant par 100 le coefficient multiplicateur.
8
Statistique descriptive
On appelle indice le nombre sans dimension résultant du rapport de deux valeurs prises par une
même grandeur, soit à deux dates différentes, soit sur deux espaces différents.
Il est bon de remarquer qu’un indice ne peut suivre l’évolution que d’une seule variable : soit
l’évolution de la variable dans le temps, c’est alors un indice temporel, soit l’évolution des différences
entre plusieurs variables à un moment donné, c’est alors un indice spatial.
Soient xt la valeur de la variable à la date courante « t » (ou situation courante), et x0 la valeur de la
variable à la date de base « 0 » (ou situation de base), l’indice de la variable entre la situation « 0 » et
la situation « t » est :
x
It / 0 = 100 × t
x0
37,47
= 121, 9 en 2001.
30,75
35,01
En 1999, cet indice vaut : I99 / 95 = 100 × valeur 99/valeur 95 = 100 ×
= 113,9
30,75
L’indice du PIB/hab. de l’Île-de-France, base 100 en 95, vaut 100 ×
On peut ainsi retracer l’évolution du PIB/hab. de l’Île-de-France en transformant les données brutes en
indices base 100 en 95.
Tableau 1.2b
Indices du PIB en valeur et de la population de l’Île-de-France, base 100 en 1995
1995
1996
1997
1998
1999
2000
2001
PIB en valeur
100,0
103,0
106,4
110,0
114,8
120,6
123,8
Population
100,0
100,2
100,3
100,5
100,8
101,2
101,6
PIB/hab.
100,0
102,9
106,1
109,4
113,9
119,1
121,9
De la même façon, on peut exprimer les disparités de PIB régionaux en choisissant l’une des régions
comme base. Cf. 3 dernières colonnes du tableau 1.3.
Remarques
1) Un indice se calcule à partir d’une donnée de base ou de référence qui sert de base aux calculs.
L’indice correspondant à cette donnée initiale est 100.
2) Dans le cas d’un indice temporel, cette donnée de base s’appelle « date de base » ou « date de
référence » ; dans celui d’un indice spatial, cette donnée s’appelle « situation de base » ou « situation
de référence ».
3) La valeur d'un indice n'a de sens que relativement à la base dans laquelle il s'exprime. La base 100
indique le point de départ de la comparaison. Le choix de la base permet de faire ressortir certaines
évolutions.
Toujours indiquer à quoi correspond la base 100 (quelle date, quel endroit).
Cf. tableau 1.3.
4) Exprimer une variation en indice revient à ramener à 100 la valeur de départ, et l'indice associé à la
valeur d'arrivée vaudra plus de 100 en cas de variation supérieure à 0, moins de 100 en cas de variation
inférieure à 0.
5) Les indices considérés ici, appelés indices élémentaires, sont transitifs. Ainsi, nous avons :
Chapitre 1 − Les notions de base
9
I2 / 0
I2 / 0 = I2 / 1 × I1 / 0 x 1 ce qui est équivalent à I2 / 1 = 100 ×
I
1/0
100
Cette propriété de transitivité se déduit immédiatement de la définition des indices :
x
x
I
x
I2 / 0 = 100 × 2 = 100 × 2 × 1 = I2 / 1 × 1 / 0
x0
x1 x0
100
x
x
x
I2 / 1 = 100 × 2 = 100 × 2 × 0 =
x1
x0 x1
100 ×
x2
x0
x1
x0
I2 / 0
I
= 100 × 2 / 0
I1 / 0
I1 / 0
100
=
PIB/hab. Île-de-France
On vérifiera ainsi que I01 / 99 × I99 / 95 = 100 × I01 / 95
I01 / 99 = 107,0
107,0 × 113,9 = 100 × 121,9 CQFD
Interprétation : le PIB/hab. d’Île-de-France a augmenté de 13,9 % entre 1995 et 1999, puis de 7 % entre
1999 et 2001. Il a donc augmenté de 21,9 % entre 1995 et 2001.
On reviendra sur les indices au chapitre suivant.
6) Relation entre indice et taux de variation
Indice en 1, base 100 en 0 = 100 × coefficient multplicateur entre 0 et 1
= 100 + taux de variation entre 0 et 1 en %
Quelques équivalences chiffrées :
Une grandeur qui
A augmenté de …
⇔
5%
40 %
100 %
300 %
A diminué de …
5%
50 %
100 %
A été multipliée par…
⇔
1,05
1,4
2
4
⇔
A été multipliée par…
L’indice, base 100 en 0, est passé à…
105
140
200
400
⇔
0,95
0,5 (divisé par 2)
0 (disparation)
L’indice, base 100 en 0, est passé à…
95
50
0
Attention au passage des indices aux taux de variation. Là encore, importance de la base.
Cf. tableau 1.2b : le PIB/hab. d’IdF a augmenté de 13,9 % entre 1995 et 1999 et de 21,9 % entre 1995 et
2001. Cela ne signifie pas qu’il a augmenté de 8 % entre 1999 et 2001. En fait, comme on l’a vu, il a
I
augmenté de 7 % Cf. transitivité des indices élémentaires : I01 / 99 = 01 / 95 × 100
I99 / 95


C) Importance du sens de la comparaison
Comparer la situation en 1 à la situation en 0 ne donne pas les mêmes résultats que la comparaison
inverse (situation en 0 par rapport à la situation en 1). Si l'écart absolu est, au signe près, identique
dans les 2 cas, l'écart relatif est lui nécessairement différent puisque le dénominateur n'est pas le
même.
1) Raisonnement sur les taux de variation
Le PIB/hab. est, en Île-de-France, supérieur de 191,8 % à ce qu’il est en Languedoc-Roussillon. Ça
ne veut évidemment pas dire que le PIB/hab. du Languedoc-Roussillon est inférieur de 191,8 % au
PIB/hab. francilien (le PIB/hab. du Languedoc-Roussillon serait alors négatif !).
10
Statistique descriptive
Comparaison IdF / Lang-R.
Valeur de départ de la comparaison = celle observée au Lang-R.
Écart absolu = valeur IdF − valeur Lang-R. = 20 754 euros.
On rapporte cet écart absolu à la valeur du PIB/hab. du Lang-R. (= 22 616).
Comparaison Lang-R. / IdF
Valeur de départ de la comparaison = celle observée en IdF
Écart absolu = valeur Lang-R. − valeur IdF = − 20 754 euros.
On rapporte cet écart absolu à la valeur du PIB/hab. en IdF (= 43 370).
Le dénominateur est beaucoup plus élevé dans le 2ème cas que dans le 1er.
Le taux de variation sera nécessairement beaucoup plus faible (en valeur absolue).
Il vaudra − 47,9 %, ce qui veut dire que le PIB/hab. du Languedoc-Roussillon est inférieur de 47,9 % à
ce qu’il est en Île-de-France (autrement dit, il représente 52,1 % du PIB/hab. francilien, cf. tableau
1.3).
Généralisation
On montre que : si le taux de variation entre 0 et 1 vaut a,
alors le taux de variation entre 1 et 0 vaut
−a
1+a
Une baisse de 20 % entre 0 et 1 correspond ainsi à une hausse de 0,2 / 0,8 = 25 % entre 1 et 0.
Si, par exemple, les salaires baissent de 20 % au cours d’une période, puis augmentent de 25 % à la
période suivante, ils reviennent à leur niveau de départ.
Quelques équivalences chiffrées :
− 20 % entre 0 et 1 ⇔ + 25 % entre 1 et 0
− 50 % entre 0 et 1 ⇔ + 100 % entre 1 et 0
− 80 % entre 0 et 1 ⇔ + 400 % entre 1 et 0
+ 20 % entre 0 et 1 ⇔ − 16,67 % entre 1 et 0
+ 50 % entre 0 et 1 ⇔ − 33,33 % entre 1 et 0
+ 80 % entre 0 et 1 ⇔ − 44,44 % entre 1 et 0
Illustration : Un commerçant pratique une marge d’un-tiers (vend ses produits 33,33 % de plus qu’il
ne les achète). Au moment des soldes, quelle réduction maximum sur les prix marqués peut-il accorder
pour ne pas vendre à perte ?
Réponse : 25 %
2) Raisonnement sur coefficients multiplicateurs et indices
Le coefficient multiplicateur entre 1 et 0 est égal à l'inverse du coefficient multiplicateur entre 0 et
1.
m0 / 1 =
x0
1
=
x1 m 1 / 0
On en déduit que
I0 / 1 =
1
I1 / 0
× 100²
(propriété de réversibilité des indices élémentaires).
Tableau 1.3 : IL-R / IdF = 48,9 ⇒ IIdF / L-R =
Chapitre 1 − Les notions de base
1
1
× 100² =
× 100² = 0,02045 × 100² = 204,5
IL-R / IdF
48,9
11
D) Des taux de variation successifs au taux de variation global
Question : comment, à partir de taux de variation successifs, déterminer le taux de variation global ?
Supposons qu’au lieu de disposer des valeurs du PIB/hab. de l’Île-de-France, on ne connaisse que les
taux annuels de variation.
Tableau 1.2c
Taux de variation annuels
1995
1996
1997
1998
1999
2000
2001
PIB en valeur
-
3,1
3,3
3,4
4,4
5
2,7
Population
-
0,2
0,1
0,2
0,3
0,3
0,4
PIB par hab.
-
2,9
3,1
3,1
4
4,6
2,3
Comment mesurer le taux global de variation entre 95 et 01 ?
La mauvaise réponse est “en additionnant les pourcentages”. Ce faisant, on sous-estimerait le taux de
variation global puisque additionner les pourcentages revient à tous les appliquer à une même valeur
(la valeur de départ), alors qu’en fait, ils s’appliquent à une valeur qui croît d'une date à l’autre.
Si les variations étaient toutes inférieures à 0 (baisse continue), alors l’addition des pourcentages
surestimerait la baisse globale.
Pour calculer le taux de variation global, il faut passer par les coefficients multiplicateurs, il faut
multiplier les multiplicateurs.
Le multiplicateur global entre 95 et 01 vaut
m01 / 95 = 1,029 × 1,031 × 1,031 × 1,04 × 1,046 × 1,023 = 1,217
Soit un taux de variation global de 21,7 % (résultat un peu différent de celui obtenu sur les données
brutes en raison des arrondis). La somme des pourcentages vaut quant à elle 20.
Généralisation
Soit une variable X observée en 0, 1, 2 jusqu’à n.
Le multiplicateur global entre 0 et n vaut :
mn / 0 = mn / n − 1 · mn − 1 / n − 2 ·…· m2 / 1 · m1 / 0
D’après le lien entre multiplicateur et taux de variation, on peut dire que le taux global de variation
entre 0 et n vaut alors :
vn / 0 = mn / 0 − 1 = 100 · (mn / 0 − 1) %
De même, pour les indices, l’indice global vaut alors :
In / 0 = In / n − 1 · In − 1 / n − 2 ·…· I2 / 1 · I1 / 0 · 
1 
100
n−1
Dans le cas où la date (ou la situation) de base est p, les indices sont multipliés par 
n − (p + 1)
1 
100
.
Application : Calcul de taux de variation globaux à partir d’une évolution exprimée en indices.
Supposons que les variations annuelles du PIB/hab. d’Île-de-France soient exprimées en indices. Il
s’agirait alors d’indice base 100 l’année précédente.
12
Statistique descriptive
Tableau 1.2d
Indices base 100 l’année précédente
1995
1996
1997
1998
1999
2000
2001
PIB en valeur
-
103,1
103,3
103,4
104,4
105
102,7
Population
-
100,2
100,1
100,2
100,3
100,3
100,4
PIB par hab.
-
102,9
103,1
103,1
104
104,6
102,3
→ Combien vaut le taux de variation global entre 95 et 99 du PIB/hab. ?
Il s’agit de calculer la valeur en 99 de l’indice base 100 en 95. On utilise la propriété de transitivité des
indices élémentaires.
1
I99 / 95 = I99 / 98 · I98 / 97 · I97 / 96 · I96 / 95 ·
1003
1
= 113,8
= 104 × 103,1 × 103,1 × 102,9 ×
1003
I99 / 95
D’après le rapport entre indice et taux de variation, on a : v99 / 95 =
100
Donc, v99 / 95 = 0,138
→ Combien vaut le taux de variation global entre 99 et 2001 du PIB/hab. ?
Il s’agit de calculer la valeur en 2001 de l’indice base 100 en 1999.
1
I01 / 99 = I01 / 00 · I00 / 99 ·
100
1
= 102,3 × 104,6 ×
= 107,0
100
Donc, v01 / 99 = 0,07
→ Combien vaut le taux de variation global entre 95 et 2001 ?
La valeur en 2001 de l’indice base 100 en 1995 se déduit des 2 indices précédents :
1
I01 / 95 = I01 / 99 · I99 / 95 ·
100
1
= 107,0 × 113,8 ×
= 127,8
100
D’où : v01 / 95 = 0,278
Illustration : En France, pour calculer le revenu imposable (base de l’IR), on applique une 1ère
déduction de 10 % sur le revenu déclaré (pour frais professionnels). On pratique ensuite un abattement
de 20 %. Quelle est la déduction globale accordée ? Quelle serait-elle si l’on pratiquait d’abord
l’abattement de 20 %, puis la déduction de 10 % ?
Réponse : Même déduction de 28 % dans les 2 cas.
E) Taux annuel moyen de variation
Question posée : À quel taux le PIB/hab. d’Île-de-France a-t-il crû, en moyenne, par an sur l’ensemble
de la période considérée ?
La mauvaise réponse est “pour le savoir, il suffit de diviser le taux de variation global par le nombre
d’années considérées” ; calcul qui n’a aucun sens.
Pour répondre à la question, il faut partir de la définition du TAMV (Taux Annuel Moyen de
Variation).
Chapitre 1 − Les notions de base
13
Le TAMV correspond au taux annuel constant auquel la grandeur considérée aurait dû varier
pour connaître la même variation globale que celle effectivement enregistrée.
Raisonnons sur les multiplicateurs.
Entre 1995 et 2001, le PIB/hab. d’Île-de-France a été multiplié par 1,219.
Par quel nombre constant aurait-il dû être multiplié tous les ans pour que la multiplication globale soit
toujours de 1,219 ?
On cherche donc m̄ tel que : m̄ × m̄ × m̄ × m̄ × m̄ × m̄ = m̄6 = 1,219
⇒ m̄ = 6 1,219 = 1,2191/6 = 1,034
Donc, TAMV = 0,034 = 3,4 %
Entre 1995 et 2001, le PIB/hab. francilien a crû en moyenne de 3,4 % par an.
Généralisation
Le TAMV entre l’année t et l’année n est tel que : (1 + TAMVentre t et n)n − t = 1 + vn / t
⇒ 1 + TAMVentre t et n = n − t 1 + vn / t ⇒ TAMVentre t et n = n − t 1 + vn / t − 1
Autrement dit,
TAMV entre t et n = (multiplicateur global entre t et n)1/n − t − 1
Et on multiplie le résultat par 100 pour l’exprimer en pourcentage.
Application : Le PIB/hab. d’Île-de-France a-t-il crû au même rythme annuel moyen entre 1995 et
1999, et entre 1999 et 2001 ?
TAMV95-99 = 1,138¼ − 1 = 0,033 = 3,3 %
TAMV99-01 = 1,070½ − 1 = 0,034 = 3,4 %
Il y a une croissance annuelle moyenne du même ordre sur les 2 sous-périodes.
Remarque : On s’est concentré sur le taux annuel moyen de variation. Cependant, on peut tout aussi bien
calculer des taux de variation mensuels moyens, trimestriels moyens, etc.
II – Résumer l’information : les moyennes
Le calcul d’une moyenne permet de résumer l’information chiffrée dont on dispose, ce qui
signifie évidemment que l’on perd en même temps de l’information (notamment sur la dispersion des
valeurs de la variable considérée).
La moyenne la plus communément utilisée est la moyenne arithmétique.
A) La moyenne arithmétique
La moyenne arithmétique des valeurs que prend une variable est égale à la somme de ces valeurs
divisée par leur nombre.
Remarque évidente : Pour calculer la moyenne d'une variable, il faut que ses valeurs soient sommables.
14
Statistique descriptive
1) Moyenne “simple”, moyenne pondérée
Exemple : Un magasin vend 3 types d’ordinateurs portables à 1 300 €, à 2 000 € et à 2 700 €.
Quel est le prix moyen des ordinateurs en vente dans ce magasin ?
1 300 + 2 000 + 2 700
Réponse :
= 2 000 €
3
Généralisation
Soit une variable qui prend n valeurs différentes, {x1, x2, …, xn}, la moyenne arithmétique de ces
valeurs s'écrit :
n
∑x
i
i=1
x̄ = x1 + x2 + … + xn =
n
n
C’est la moyenne “simple”, égale à la somme des valeurs observées divisée par leur nombre.
Exemple : Au cours du mois écoulé, le magasin considéré plus haut a vendu 200 ordinateurs :
→ 120 ordinateurs à 1 300 €,
→ 60 ordinateurs à 2 000 €,
→ 20 ordinateurs à 2 700 €.
Quelle recette réalise-t-il, en moyenne, par ordinateur ?
r̄ = 120 × 1300 + 60 × 2000 + 20 × 2700 = 330 000 = 1650 €
200
200
Généralisation
La moyenne arithmétique pondérée est obtenue en multipliant chaque valeur considérée par un
coefficient de pondération.
Soit une série statistique {x1, x2, …, xn} dans laquelle les xi sont affectés d’une pondération différente
λ1, λ2, …, λn, la moyenne arithmétique pondérée de cette série est :
n
∑λ x
i
i
i=1
x̄ = λ1 x1 + λ2 x2 + … + λn xn =
λ1 + λ2 + … + λn
n
∑λ
i
i=1
Cette moyenne est égale à la somme pondérée des valeurs divisée par la somme des pondérations.
3 remarques sur les pondérations :
1) Ce qui compte, ce sont les poids relatifs.
a) Si on multiplie tous les poids par un même nombre, la valeur de la moyenne pondérée n’est pas
modifiée.
b) Si les pondérations sont toutes identiques, alors toutes les valeurs ont le même poids relatif. Les
pondérations ne jouent aucun rôle ; on peut donc les supprimer. On obtient alors une moyenne
Chapitre 1 − Les notions de base
15
“simple”. ⇒ Une moyenne “simple” est donc en fait une moyenne pondérée pour laquelle les
pondérations sont toutes identiques.
2) Les pondérations peuvent représenter, comme dans l’exemple précédent, l’effectif de chaque valeur
considérée.
n
∑λ représente alors l’effectif global (le nombre total d’individus de la population considérée).
i
i=1
n
λi
représente la fréquence de la valeur xi. On la notera fi et on a
n
∑λ
∑f = 1.
i
i=1
i
i=1
La moyenne pondérée se réécrit alors :
x̄ =
λ1
∑λ
· x1 +
i
λ2
∑λ
· x2 + … +
i
n
λn
∑λ
· xn = f1x1 + f2x2 + … + fnxn =
i
∑f x
i
i
i=1
120
= 60 % des ventes,
200
60
à 2 000 €
= 30 %
200
20
à 2 700 €
= 10 %
200
La recette moyenne par ordinateur peut se calculer de la façon suivante :
¯r = 0,6 × 1300 + 0,3 × 2000 + 0,1 × 2700
Dans l’exemple, les ordinateurs à 1 300 € représentent
3) Les pondérations peuvent également refléter le fait que les différentes valeurs de la série considérée
n'ont pas toutes la même importance.
Exemples :
- Indice des prix à la consommation (IPC) servant à mesurer l’inflation = moyenne pondérée des prix
d'un panier de biens de référence, pondération par le poids de chaque type de bien dans la
consommation totale des ménages (par coefficient budgétaires, cf. ch. 2).
- Moyenne des notes obtenues par un étudiant dans des matières affectées de coefficients différents.
2) Propriétés de la moyenne arithmétique
1 · La moyenne arithmétique d’une série de valeurs conserve la somme des valeurs.
x̄ est le nombre tel que :
n
λ1x̄ + λ2x̄ + … + λnx̄ = λ1x1 + λ2x2 + … + λnxn ⇔ x̄ ·
n
∑ ∑λ x
λi =
i=1
i i
i=1
Plutôt qu’une “propriété” de la moyenne arithmétique, c’en est en fait la définition. La moyenne
arithmétique d’une série est en effet le nombre tel que, si l’on remplace chaque valeur particulière de
la série par cette moyenne, la somme des valeurs est inchangée.
2 · Toutes les valeurs de la variable sont situées de part et d’autre de la moyenne (moyenne
nécessairement comprise entre la plus petite et la plus grande valeur).
La moyenne est une caractéristique de tendance centrale, on s'attend à ce qu’elle se trouve quelque
part “vers le milieu” de la série.
Cette formule est toutefois ambiguë : le “milieu” est mieux défini par la médiane et la moyenne se
trouve plus ou moins proche du “milieu” (de la médiane) selon la dispersion de la série (Cf. Chap. 4).
16
Statistique descriptive
3 · Si l’on ajoute (ou retranche) un même nombre à chaque valeur de la série, la moyenne
arithmétique se trouve augmentée (diminuée) de ce nombre.
λ1(x1 + a) + λ2(x2 + a) + … + λn(xn + a)
=
λ1 + λ2 + … + λn
∑λ x + a · ∑λ = x̄ + a
∑λ ∑λ
i i
i
i
i
(avec a > 0 ou < 0)
C’est une propriété qui permet de simplifier les calculs numériques, quand les valeurs de la variable
sont élevées ; on retranche alors un même nombre de toutes les valeurs.
On peut retrancher de chaque valeur la moyenne arithmétique de la série. Cette opération s’appelle le
centrage de la série (on centre la série sur sa moyenne). La somme pondérée des valeurs de la variable
centrée est nulle. La série centrée a une moyenne arithmétique nulle.
λ1(x1 − x̄ ) + λ2(x2 − x̄ ) + … + λn(xn − x̄ )
=
λ1 + λ2 + … + λn
∑λ x − x̄ · ∑λ = x̄ − x̄ = 0
∑λ ∑λ
i i
i
i
i
4 · Si l’on multiplie par un même nombre chaque valeur de la série, la moyenne arithmétique est
multipliée par ce nombre.
λ1(ax1) + λ2(ax2) + … + λn(axn)
= a·
λ1 + λ2 + … + λn
∑λ x = a · x̄
∑λ
i i
i
C’est une propriété qui implique que la valeur de la moyenne arithmétique est indépendante du choix
de l’unité de mesure (la moyenne d’une variable exprimée en € vaut autant de $ que la moyenne de la
même variable exprimée en $).
5 · Propriété d’associativité (ou d’agrégation) : la moyenne arithmétique des moyennes arithmétiques
calculées sur des sous-ensembles d’une série est égale à la moyenne arithmétique générale de la
série.
L’intérêt de cette propriété est qu’elle permet de simplifier les calculs numériques.
B) La moyenne géométrique
La moyenne géométrique des valeurs prises par une variable est le nombre qui conserve le produit
de ces valeurs.
1) La moyenne géométrique simple
La moyenne géométrique, notée gx, de la série de valeurs (x1, x2,…, xn) est telle que :
n
gx × gx × … × gx = x1 × x2 × … × xn ⇔ gxn = ∏ xi
i=1
n fois
⇒ gx =
n
 n  1/ n
1
/
∏ xi = ∏ xi = (x1 × x2 × … × xn) n
i=1
i = 1 
n
Il est bon de noter que n est le nombre de termes de la série.
NB : Cette formule ne peut s’appliquer qu’à des séries de valeurs strictement positives.
Chapitre 1 − Les notions de base
17
L’utilisation la plus courante de la moyenne géométrique est pour le calcul de taux de variation
moyens (le TMV s’obtient à partir de la moyenne géométrique des multiplicateurs).
On peut donner une autre expression de la moyenne géométrique (calcul par les logarithmes) :
gx est tel que gxn = x1 × x2 × … × xn ⇒ ln(gxn) = ln(x1 × x2 × … × xn)
n
⇔ n·ln(gx) =
∑
ln(xi) ⇒ ln(gx) =
i=1
1
n
n
∑ ln(x )
i
i=1
Le logarithme de la moyenne géométrique est égal à la moyenne arithmétique simple des logarithmes
des valeurs xi.
2) La moyenne géométrique pondérée
Soit une série statistique {x1, …, xn} dans laquelle les xi sont affectés d’une pondération différente,
la moyenne géométrique pondérée de cette série est :
gxα1 × gxα2 × … × gxαn = x1α1 × x2α2 × … × xnαn ⇔
⇔
⇔
⇔
gx∑αi = x1α1 × x2α2 × … × xnαn
gx = (x1α1 × x2α2 × … × xnαn)1 / ∑αi
gx = x1α1 / ∑αi × x2α2 / ∑αi × … × xnαn / ∑αi
gx = x1f1 × x2f2 × … × xnfn
n
⇒ gx = ∏ xifi
avec fi =
i=1
αi
∑αi
Expression en log :
Le logarithme de la moyenne géométrique pondérée est égal à la moyenne arithmétique pondérée des
logs des valeurs xi.
n
∑ λ ·ln(x )
i
n
ln(gx) =
∑ f ·ln(x ) =
i
i
i=1
i
n
∑λ
i=1
i
i=1
C) La moyenne harmonique
La moyenne harmonique d’une série de valeurs est le nombre qui conserve la somme des inverses
de ces valeurs.
1) La moyenne harmonique simple
La moyenne harmonique, notée hx, de la série de valeurs {x1, x2, …, xn} est telle que :
n
1 1
1 1 1
1
1
+ +…+ = + +…+
⇔ n× =
hx hx
hx x 1 x 2
xn
hx
∑
i=1
n
1
1 1
⇔
=
xi
hx n
∑ x1
i
i=1
Il est bon de noter que n est le nombre de termes de la série.
L'inverse de la moyenne harmonique est égal à la moyenne arithmétique des inverses des valeurs xi.
18
Statistique descriptive
n
De l’expression précédente on tire : hx =
n
∑ x1
i
i=1
2) La moyenne harmonique pondérée
L’inverse de la moyenne harmonique pondérée est égal à la moyenne arithmétique pondérée des
inverses des valeurs xi.
n
∑α × x1
i
i
1
=
hx
n
i=1
=
n
∑λ
∑
fi ×
1
⇒ hx =
xi
i=1
i
i=1
1
n
∑ xf
i
i
i=1
La moyenne harmonique possède la propriété d’associativité. La moyenne harmonique des moyennes
harmoniques calculées sur des sous-ensembles d’une série est égale à la moyenne harmonique
générale de la série.
Soit une série de valeurs divisée en deux sous-ensembles, sous-ensemble de valeurs xi (N valeurs) et
sous-ensembles de valeurs yi (M valeurs) ; on a :
N
1 1
=
hx N
∑
M
1
1 1
et
=
xi
hy M
i=1
∑ y1
j
j=1
La moyenne harmonique générale h de la série est telle que :
1
1 N M 
=
+
h N + M hx hy 
D) Relation entre les moyennes
Les différentes moyennes (arithmétique, géométrique, harmonique) d’une série de valeurs ne sont
égales que si la série est formée de valeurs toutes identiques. Dans tous les autres cas, la relation
d’ordre suivante est vérifiée :
hx < gx < x̄
Exemple : Moyennes de la série statistique {100 ; 60}
· Moyenne harmonique = 75
· Moyenne géométrique = 100 × 60 ≈ 77,5
· Moyenne arithmétique = 80
Cette relation n’a d’intérêt que mathématique car les cas dans lesquels le calcul de ces moyennes a un
sens sont extrêmement rares !
Chapitre 1 − Les notions de base
19