Séance 05

Transcription

Séance 05
UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE
U.F.R. SEGMI
Année universitaire 2016 – 2017
L1 Économie
Cours de B. Desgraupes
Statistiques Descriptives
Séance 05:
Indicateurs de forme et de concentration
Table des matières
1 Introduction
1
2 Moments d’ordre p
2.1 Moments simples . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Moments centrés . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2
3
3 Comparaison des indicateurs de tendance centrale
4
4 Indicateurs de forme
4.1 Coefficients d’asymétrie . . . . . . . . . . . . . . . . . . . . . . .
4.2 Coefficients d’aplatissement . . . . . . . . . . . . . . . . . . . . .
6
6
8
5 Indicateurs de concentration
5.1 Médiane et médiale . . . . .
5.2 Écart à la médiale . . . . .
5.3 Courbe de Lorenz . . . . . .
5.4 Coefficient de Gini . . . . .
.
.
.
.
.
.
.
.
6 Exercices
1
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
12
12
14
15
17
20
Introduction
Dans cette séance, nous allons étudier des indicateurs de forme et des indicateurs
de concentration.
Les indicateurs de forme permettent de décrire et de mesurer les caractéristiques de la courbe de fréquences d’une distribution. L’allure de cette courbe
renseigne sur la manière dont les densités sont réparties.
Les caractéristiques principales sont le degré d’asymétrie et le degré d’aplatissement.
Les indicateurs de concentration concernent la manière dont sont réparties
les masses par rapport aux effectifs. On les utilise beaucoup en économie dans
les analyses de répartition de ressources ou de richesses.
1
Moments d’ordre p
2
Les moments sont des quantités qui étendent la notion de moyenne et celle de
variance.
La moyenne est essentiellement une quantité linéaire (c’est-à-dire de degré
1) et la variance une quantité quadratique (c’est-à-dire de degré 2).
Les moments constituent une généralisation aux degrés supérieurs. Ils ont
une grande importance théorique en probabilités et fournissent des informations
très utiles dans l’exploration des données statistiques.
On distingue :
1. les moments simples ;
2. les moments centrés.
On les définit pour un ordre particulier p où p est un nombre entier positif.
2.1
Moments simples
Les moments simples d’ordre p correspondent à une moyenne des puissances p.
Définition 2.1. Le moment simple d’ordre p d’une variable statistique x est la
moyenne (arithmétique !) des puissances p-ièmes des valeurs observées.
Si les données sont écrites sous forme exhaustive, la formule mathématique
du moment simple d’ordre p est :
Mp =
N
1 X p
x
N i=1 i
Si les données sont regoupées sous forme de tableau d’effectifs de la forme :
Valeurs
Effectifs
v1
n1
v2
n2
v3
n3
···
···
vk
nk
La formule s’écrit :
Mp =
k
n1 × v1p + n2 × v2p + · · · + nk × vkp
1 X
=
ni vip
N
N i=1
avec N = n1 + n2 + · · · + nk .
Avec un tableau de fréquences, la formule s’écrit :
Mp =
k
X
i=1
2
fi vip
Les moments d’ordre p sont exprimés dans l’unité des données élevée à la
puissance p : par exemple, si les x sont des quantités en mètres, le moment
d’ordre 3 sera en mètres cubes.
Remarque : les moments simples d’ordre p ne doivent donc pas être confondus avec des moyennes d’ordre p : dans ces dernières, on prend la puissance 1/p
du tout pour se retrouver dans la même unité que les données.
Dans le cas particulier où p = 1, on retrouve la moyenne arithmétique. Donc
M1 = x̄.
Dans le cas particulier où p = 2, on obtient le carré de la moyenne quadratique. Donc M2 = m22 .
La formule développée de la variance (moyenne des carrés moins carré de la
moyenne) peut s’écrire avec les moments de la manière suivante :
Var(x) = M2 − M12
2.2
Moments centrés
Les moments centrés sont les moments simples appliqués aux écarts par rapport
à la moyenne. Autrement dit, on remplace les valeurs xi par xi − x̄ dans les
formules précédentes. On les note au moyen de la lettre grecque µ (qui se lit
mu).
Les formules mathématiques sont donc (selon que les données sont exhaustives ou regroupées) :
µp =
N
1 X
(xi − x̄)p
N i=1
k
k
X
1 X
p
ni (vi − x̄) =
fi (vi − x̄)p
µp =
N i=1
i=1
PN
PN
PN
où x̄ = N1 i=1 xi = N1 i=1 ni vi = i=1 fi vi .
• Cas particulier où p = 1
On calcule :
µ1 =
=
N
1 X
(xi − x̄)
N i=1
N
N
1 X
1 X
xi −
x̄
N i=1
N i=1
1
× N × x̄
N
= x̄ − x̄ = 0
= x̄ −
Donc le moment centré d’ordre 1 est toujours nul !
3
On interprète ce résultat en disant que les écarts à gauche de la moyenne
(écarts par défaut) compensent exactement les écarts à droite (écarts par excès).
• Cas particulier où p = 2
µ2 =
N
1 X
(xi − x̄)2
N i=1
Donc le moment centré d’ordre 2 n’est autre que la variance !
On a donc : µ2 = Var(x).
La formule développée de la variance conduit à la relation :
µ2 = M2 − M12
Il existe des formules (rapidement compliquées !) qui relient les moments
centrés d’ordre p et les moments simples d’ordre inférieur ou égal à p.
Exercice
Trouver une formule exprimant µ3 en fonction de M1 , M2 et M3 .
Solution : µ3 = M3 − 3M1 M2 + 2M13 .
• Exemple
On considère les données suivantes concernant une variable discrète V pouvant prendre les valeurs 0, 1, 2, 3, 4 :
Valeurs
Effectifs
0
16
1
19
2
28
3
22
4
15
Calculer les moments simples et les moments centrés d’ordres 1, 2, 3 et 4.
Résultats de l’exemple précédent :
p
1
2
3
4
3
Moments simples
2.01
5.69
17.97
60.89
Moments centrés
0
1.65
-0.10
5.37
Comparaison des indicateurs de tendance centrale
On a vu trois indicateurs de tendance centrale : le mode, la médiane et la
moyenne.
La comparaison de ces indicateurs entre eux donne des renseignements sur
la façon dont les données observées sont réparties.
Dans une distribution parfaitement symétrique et concentrée autour de sa
valeur centrale, les trois indicateurs coïncident :
mode = médiane = moyenne
4
Dans ce cas, tout est réparti autour du mode (c’est-à-dire de la valeur de
plus forte densité ou de plus fort effectif) et, par symétrie, la médiane et la
moyenne sont égales à cette quantité : il y a autant de valeurs à gauche qu’à
droite et les valeurs à gauche compensent exactement les valeurs à droite.
Cette situation idéale sert de référence mais dans la pratique le mode, la
médiane et la moyenne peuvent différer et leurs positions relatives indiquent
une asymétrie dans la répartition des données.
On dit que la courbe de fréquences est oblique du côté où la décroissance est
la plus forte.
On distingue essentiellement deux situations :
1. lorsque mode < médiane < moyenne, on dit que la distribution est oblique
à gauche (ou de manière synonyme qu’elle est étalée à droite).
2. lorsque mode > médiane > moyenne, on dit que la distribution est oblique
à droite (ou de manière synonyme qu’elle est étalée à gauche).
Dans une distribution symétrique, le mode, la médiane et la moyenne coïncident.
0.0
0.1
0.2
0.3
0.4
Distribution symétrique
−3
−2
−1
0
1
2
3
Mo = M = m
La distribution ci-dessous est dite étalée vers la gauche (ou oblique à droite).
On a
mode > médiane > moyenne
5
0.0
0.1
0.2
0.3
0.4
Distribution étalée à gauche
−6
−4
−2
0
2
Mo > M > m
La distribution ci-dessous est dite étalée vers la droite (ou oblique à gauche).
On a
mode < médiane < moyenne
0.0
0.1
0.2
0.3
0.4
Distribution étalée à droite
−2
0
2
4
6
Mo < M < m
Les cas de figure qui viennent d’être examinés ne recouvrent pas toutes les
situations possibles. Il y a des distributions qui présentent plusieurs modes...
Les sections qui suivent définissent des indicateurs, appelés aussi coefficients,
qui permettent de mesurer quantitativement le degré d’asymétrie d’une distribution et de sa courbe de fréquences.
Certains coefficients d’asymétrie sont définis à partir des quartiles, d’autres
sont liés au moments d’ordre 3.
6
4
Indicateurs de forme
4.1
Coefficients d’asymétrie
Le coefficient de Yule (statisticien écossais, 1871-1951) est calculé à partir de la
position des quartiles Q1 , Q2 et Q3 . Il s’écrit :
s=
Q1 + Q3 − 2Q2
(Q3 − Q2 ) − (Q2 − Q1 )
=
(Q3 − Q2 ) + (Q2 − Q1 )
Q3 − Q1
• si s = 0, il y a symétrie ;
• si s > 0, il y a étalement à droite (oblique à gauche) ;
• si s < 0, il y a étalement à gauche (oblique à droite).
Le choix de la lettre s vient de skewness qui est le terme anglais pour désigner
l’asymétrie.
Rappelons que Q2 n’est autre que la médiane.
Il existe deux coefficients d’asymétrie dûs à Pearson (mathématicien britannique, 1857-1936).
Le premier se base sur la moyenne x̄ et le mode MO . Il est défini par :
s=
x̄ − MO
σ
Il s’interprète comme le coefficient de Yule :
• si s = 0, il y a symétrie ;
• si s > 0, il y a étalement à droite (oblique à gauche) ;
• si s < 0, il y a étalement à gauche (oblique à droite).
Le deuxième coefficient d’asymétrie de Pearson, noté β1 , est plus utilisé. Il
est défini à partir des moments centrés d’ordre 2 et 3 :
β1 =
µ23
µ32
C’est le moment d’ordre 3 au carré divisé par le moment d’ordre 2 au cube
afin d’avoir une grandeur sans dimension. Rappelons que µ2 n’est autre que la
variance.
Le coefficient β1 est toujours positif ou nul. S’il est nul, il y a symétrie.
Sinon, la distribution est oblique et tout dépend du signe de µ3 : par exemple,
si µ3 > 0, c’est oblique à gauche.
Le coefficient de Fisher (statisticien britannique, 1890-1962) est la racine
carrée du coefficient β1 de Pearson. Comme µ2 = Var(x) = σ 2 , on a la formule
suivante :
µ3
γ1 = 3
σ
7
C’est aussi une grandeur sans dimension.
L’interprétation est toujours la même :
• si γ1 = 0, il y a symétrie ;
• si γ1 > 0, il y a étalement à droite (oblique à gauche) ;
• si γ1 < 0, il y a étalement à gauche (oblique à droite).
• Exemple
On considère la distribution suivante comportant 20 valeurs numériques :
0.04
11.17
6.24
11.46
6.31
11.73
7.18
11.78
7.21
12.21
8.62
12.46
9.80
12.83
9.92
13.37
10.55
14.54
10.99
14.79
On va calculer les différents coefficients d’asymétrie.
Pour le coefficient de Yule, on a besoin des quartiles :
25%
8.27
50%
11.08
75%
12.27
On calcule donc :
Q1 + Q3 − 2Q2
8.27 + 12.27 − 2 × 11.08
s=
= −0.405
=
Q3 − Q1
12.27 − 8.27
Il y a étalement vers la gauche.
La moyenne est x̄ = 10.16. Calculons maintenant les moments centrés µ2 et
µ3 . On trouve :

1 P20

(xi − x̄)2 = · · · = 11.45
µ2 =

20 i=1


1 P20

µ3 =
(xi − x̄)3 = · · · = −47.07
20 i=1
√
On en déduit que σ = 11.45 = 3.38 et on obtient :

2
2

β1 = µ3 = (−47.07) = 1.477


µ32
(11.45)3



γ 1
=
µ3
−47.07
=
= −1.215
3
σ
(3.38)3
Chacun des coefficients confirme que la distribution est étalée à gauche.
Voici comment on effectue ces calculs avec le logiciel R :
> x <- c(0.04,6.24,6.31,7.18,7.21,8.62,9.80,9.92,10.55,10.99,
11.17,11.46,11.73,11.78,12.21,12.46,12.83,13.37,14.54,14.79)
> m <- mean(x)
> mu2 <- mean( (x-m)^2 )
> mu3 <- mean( (x-m)^3 )
> sigma <- sqrt(mu2)
> beta1 <- mu3^2/mu2^3
> gamma1 <- mu3/sigma^3
8
4.2
Coefficients d’aplatissement
Les moments d’ordre 4 renseignent sur le degré d’aplatissement de la courbe de
fréquences d’une distribution. L’aplatissement est jugé en se référant au modèle
de la courbe de densité de la loi normale. On dira qu’une courbe de fréquences
est plus ou moins aplatie que le modèle de la loi normale.
Le coefficient qui permet de mesurer quantitativement l’aplatissement s’appelle
le kurtosis (du grec κυρτ oτ ης qui signifie courbure).
La courbe suivante présente un aplatissement normal, comparable à celui de
la densité d’une loi normale de Gauss.
Aplatissement normal (mesokurtique)
γ2 = 0
La courbe suivante est plus pointue qu’une loi normale. En compensation
elle est moins dense sur les extrêmités.
9
Aplatissement leptokurtique
γ2 > 0
La courbe suivante est plus plate qu’une loi normale. En compensation elle
est plus dense sur les extrêmités.
Aplatissement platykurtique
γ2 < 0
Voici une comparaison des trois situations :
10
0.8
Aplatissements comparés
0.0
0.2
0.4
0.6
platykurtique
mesokurtique
leptokurtique
−3
−2
−1
0
1
2
3
Pearson a proposé d’utiliser le coefficient suivant :
β2 =
µ4
µ4
= 4
2
µ2
σ
On montre que ce rapport vaut 3 dans le cas d’une loi normale parfaite.
Donc si β2 est supérieur à 3, la courbe sera plus pointue que la loi normale et
si β2 est inférieur à 3, elle sera plus aplatie.
Il est plus naturel (par analogie avec le coefficient d’asymétrie), de considérer
que la valeur de référence est 0 et non pas 3. Aussi Fisher a proposé d’adopter
comme coefficient d’aplatissement la quantité :
γ 2 = β2 − 3 =
µ4
−3
σ4
On interprète le kurtosis γ2 de la manière suivante :
• si γ2 = 0, la courbe de fréquences est comparable à celle de la loi normale.
On dit qu’elle est mésokurtique.
• si γ2 > 0, la courbe de fréquences est plus pointue que celle de la loi
normale. On dit qu’elle est leptokurtique.
• si γ2 < 0, la courbe de fréquences est plus aplatie que celle de la loi
normale. On dit qu’elle est platykurtique.
• Exemple
On considère la distribution suivante comportant 20 valeurs numériques :
11
6.77
9.97
7.19
10.43
8.40
10.82
8.43
11.04
9.10
11.13
9.21
11.25
9.42
11.89
9.53
12.03
9.75
12.44
9.77
13.00
On va calculer les coefficients d’aplatissement.
La moyenne est x̄ = 10.0785. Calculons maintenant les moments centrés µ2
et µ4 . On trouve :

1 P20
2


µ2 = 20 i=1 (xi − x̄) = · · · = 2.64


µ = 1 P20 (x − x̄)4 = · · · = 17.00
4
i
20 i=1
On obtient :
β2 =
µ4
17.00
=
= 2.44
2
µ2
(2.64)2
On a donc γ2 = β2 − 3 = −0.56. Comme γ2 < 0, la distribution est
platykurtique (plus aplatie que la loi normale).
Voici comment on effectue ces calculs avec le logiciel R :
> x <- c(6.77,7.19,8.40,8.43,9.10,9.21,9.42,9.53,9.75,9.77,
9.97,10.43,10.82,11.04,11.13,11.25,11.89,12.03,12.44,13.00)
> m <- mean(x)
> mu2 <- mean( (x-m)^2 )
> mu4 <- mean( (x-m)^4 )
> beta2 <- mu4/mu2^2
> gamma2 <- beta2 - 3
5
Indicateurs de concentration
L’étude de la concentration concerne les variables continues à valeurs positives.
Elle consiste à comparer la distribution des individus à celle de la masse qu’ils
représentent par rapport à la masse totale.
• Exemple 1
On peut étudier la répartition des salaires entre les individus à celle des
masses salariales qu’ils représentent afin de savoir dans quelle mesure quelques
salariés représentent à eux seuls une grande part de la masse salariale (hauts
salaires) tandis que beaucoup de salariés représentent une part moindre de la
masse totale (bas salaires).
• Exemple 2
On peut étudier la répartition des factures encaissées afin de savoir quelle
part de factures représente quelle masse dans le chiffre d’affaire global.
On suppose que les données sont rassemblées dans un tableau d’effectifs :
Valeurs
Effectifs
v1
n1
v2
n2
12
v3
n3
···
···
vk
nk
Les effectifs n1 , n2 , etc. permettent de connaître la répartition des individus
en proportions. C’est la distribution des individus.
Les produits ni vi représentent le “poids” de la variable étudiée dans chaque
classe Ci , c’est-à-dire pour chaque valeur de vi . La distribution des ni vi est
donc la distribution des masses.
Nous allons voir plusieurs méthodes (graphiques et quantitatives) pour évaluer ces répartitions et repérer les concentrations.
5.1
Médiane et médiale
On a déjà vu la notion de médiane qui est une valeur telle que 50% de la
population soit située en dessous de cette valeur, et 50% au-dessus.
Définition 5.1. La médiale est la médiane de la distribution des masses ni vi .
On notera cette médiale L.
Le calcul de la médiale se fait comme celui de la médiane, à partir des
fréquences cumulées et nécessite toujours d’effectuer une interpolation. La différence est qu’il s’agit des fréquences cumulées de la distribution des masses et
non de celle des individus.
• Exemple
Le tableau suivant donne la répartition des surfaces agricoles utilisées (SAU)
dans la région Champagne-Ardennes en 2010 (source INSEE) :
Classes
Moins de 20 ha
De 20 à moins de 50 ha
De 50 à moins de 100 ha
De 100 à moins de 200 ha
De 200 ha à 500 ha
Effectifs
13 869
1 224
2 777
4 683
2 034
Calculer la médiale.
Chaque classe va être représentée par son milieu vi . Si ni est l’effectif de
la i-ième classe, on calcule les masses
ni vi et leur répartition en proportion par
P
rapport à la masse totale T =
ni vi . On en déduit les proportions cumulées.
Tous les calculs sont rassemblés dans le tableau suivant.
SAU
en ha
[0, 20[
[20, 50[
[50, 100[
[100, 200[
[200, 500[
Total
Effectif
ni
13 869
1 224
2 777
4 683
2 034
24 587
Milieu
vi
10
35
75
150
350
Masse
n i vi
138 690
42 840
208 275
702 450
711 900
1 804 155
13
Fréquence
ni vi /T
0.08
0.02
0.12
0.39
0.39
1.00
Fréquence
cumulée
0.08
0.10
0.22
0.61
1.00
On cherche où se situe la proportion cumulée de 50%. D’après le tableau,
c’est entre 0.22 = 22% et 0.61 = 61%.
Il faut faire une interpolation linéaire.
L’interpolation linéaire consiste à chercher la valeur L qui soit par rapport
à 100 et 200 ha comme la valeur 50% par rapport à 22% et 61%.
80
SAU
100 ha
L?
200 ha
60
70
61 − 22
=
200 − 100
61 %
50 %
40
50
L − 100
50 − 22
30
Proportion cumulée
Prop. cumulée
22%
50%
61%
20
22 %
10
100
50
L
100
150
200
200
SAU
On calcule
50 − 22
L − 100
=
61 − 22
200 − 100
On en déduit :
28
L − 100
=
39
100
Finalement :
L = 100 +
28 × 100
= 100 + 71.79 = 171.79 ha
39
La médiale est de 171.79 ha. Cela signifie que toutes les exploitations agricoles dont la SAU est inférieure à cette valeur ont une superficie cumulée qui
représente 50% de la superficie totale T .
14
5.2
Écart à la médiale
Si toutes les observations avaient la même répartition, la médiale L serait égale
à la médiane M . Mais de manière générale, la médiale est supérieure à la
médiane car les 50% des individus qui sont en-dessous de M représentent une
masse inférieure à la moitié de la masse totale. Il n’y a égalité que dans le cas
idéal d’équirépartition parfaite de toutes les masses.
L’écart entre la médiale et la médiane peut donc être considéré comme une
mesure de la distorsion de la répartition et sert d’indicateur de concentration.
Il est élémentaire à calculer :
∆M = L − M = médiale − médiane
Dans l’exemple précédent, calculons la médiane. On a besoin de connaître
les proportions cumulées des effectifs (et non plus des masses) :
SAU
en ha
[0, 20[
[20, 50[
[50, 100[
[100, 200[
[200, 500[
Total
Effectif
ni
13 869
1 224
2 777
4 683
2 034
24 587
Fréquence
ni /N
0.56
0.05
0.11
0.19
0.09
1.00
Fréquence
cumulée
0.56
0.61
0.72
0.91
1.00
On cherche où se situe la proportion cumulée de 50%. D’après le tableau,
c’est entre 0% et 0.56 = 56%.
On calcule
50 − 0
M −0
=
56 − 0
20 − 0
On en déduit :
50 × 20
= 17.86 ha
M=
56
La médiane est de 17.86 ha. Cela signifie que les exploitations agricoles dont
la SAU est inférieure à cette valeur constituent 50% de l’effectif total.
L’écart entre la médiale et la médiane est :
∆M = L − M = 171.79 − 17.86 = 153.93
C’est une forte distorsion. On la compare en général à l’étendue des observations
qui vaut ici 500. Le rapport est de 153.93/500 = 0.31 = 31%.
5.3
Courbe de Lorenz
La courbe de Lorenz (économiste américain, 1880-1962) est une représentation
graphique qui permet de visualiser graphiquement la répartition des concentrations entre individus et masses.
15
On calcule les fréquences cumulées des effectifs (qu’on notera pi ) et celles
des masses (qu’on notera qi ). On place sur un graphe les points de coordonnées
(pi , qi ) et on les joint par une ligne polygonale.
Cette ligne part du point (0, 0) et se termine au point (1, 1) puisque les
fréquences cumulées varient toujours de 0 à 1. Elle est donc inscrite dans le
carré de côté 1, parfois appelé le carré de Gini dans ce contexte.
0.6
0.4
0.0
0.2
Répartition des masses
0.8
1.0
Courbe de Lorenz
0.0
0.2
0.4
0.6
0.8
1.0
Répartition des effectifs
Algébriquement, on a la relation suivante pour la fréquence cumulée des
effectifs :
i
1 X
1
pi =
nj =
(n1 + n2 + · · · + ni )
N j=1
N
avec N = n1 + n2 + · · · + nk .
De même, on a la relation suivante pour la fréquence cumulée des masses
n i vi :
i
1
1X
nj vj = (n1 v1 + n2 v2 + · · · + ni vi )
qi =
T j=1
T
avec T = n1 v1 + n2 v2 + · · · + nk vk .
Par convention, on pose p0 = q0 = 0.
Un point de coordonnées (p, q) sur la courbe de Lorenz indique que p% des
individus se partagent q% de la masse.
La bissectrice du carré est la ligne d’équirépartition. C’est ce que serait
la courbe de concentration s’il y avait équirépartition des masses. Sur cette
diagonale, en tout point, p% des individus se partageraient exactement p% de
la masse. Dans ce cas, la concentration est nulle.
16
Définition 5.2. L’aire de concentration est la région comprise entre la diagonale et la courbe de Lorenz.
Interprétation : plus cette aire est importante, c’est-à-dire plus la courbe
de concentration s’écarte de la bissectrice, plus la concentration est forte.
0.0
0.2
0.4
0.6
0.8
1.0
Aire de concentration
0.0
5.4
0.2
0.4
0.6
0.8
1.0
Coefficient de Gini
Si on imagine qu’on déforme de plus en plus la courbe de concentration pour
l’éloigner de la bissectrice, à la limite elle coïnciderait avec le côté inférieur et
le côté droit du carré. L’aire de concentration maximale est donc le triangle
inférieur situé sous la bissectrice.
Définition 5.3. L’indice de Gini est le rapport entre la superficie de l’aire de
concentration et celle du triangle inférieur du carré.
L’indice de Gini (statisticien italien, 1884-1965) permet donc de faire des
comparaisons de concentration en les rapportant toutes à la concentration maximale. Cet indice, noté habituellement IG , est compris entre 0 et 1 :
0 ≤ IG ≤ 1
Le carré étant de côté 1, sa superficie est égale à 1 et donc la superficie du
triangle inférieur est égale à 1/2.
Si on note A l’aire de concentration, on a donc :
IG =
A
=2×A
1/2
17
Maintenant, si on note B l’aire sous la courbe de concentration, on a A =
1/2 − B et par conséquent :
IG = 2 × (1/2 − B) = 1 − 2 × B
La superficie B est plus facile à calculer car on découpe la région inférieure
à la courbe de concentration en trapèzes.
0.6
0.4
0.2
0.0
Répartition des masses
0.8
1.0
Courbe de Lorenz
0.0
0.2
0.4
0.6
0.8
Répartition des effectifs
Aire d’un trapèze
S=a×(
H
h
a
18
H+h
2
)
1.0
On a, pour un trapèze de base a et de hauteurs h et H :
S =a×h+
a × (H − h)
H +h
=a×
2
2
Donc, dans le cas de la courbe de concentration, le i-ième trapèze a une base
allant de pi−1 à pi (donc d’amplitude pi − pi−1 ) avec des hauteurs respectives
égales à qi−1 et qi . D’où :
Si = (pi − pi−1 ) ×
qi−1 + qi
2
On calcule B en additionnant les aires de tous les trapèzes :
B=
=
k
X
qi−1 + qi
(pi − pi−1 ) ×
2
i=1
k
X
i=1
fi
qi−1 + qi
2
ni
car pi − pi−1 = fi = .
N
On trouve finalement :
IG = 1 −
k
X
fi (qi−1 + qi )
i=1
Le rapport
fi vi
n i vi
=
gi = P
n i vi
x̄
s’appelle la valeur globale relative associée au couple (vi , ni ). C’est le proportion
de la masse de la classe Ci par rapport à la masse totale.
On a les relations :


G1 = g1


G2 = g1 + g2
..
..


.
.



Gk = g1 + g2 + · · · + gk = 1
La formule précédente permettant de calculer l’indice de Gini s’appelle la
formule des trapèzes. Il existe une autre formule, dite formule des triangles,
permettant d’obtenir cet indice :
IG =
k
X
(qi pi−1 − pi qi−1 )
i=2
19
Exercice
Voir la démontration de la formule des triangles dans les exercices complémentaires à la fin de cette séance.
• Exemple
L’indice de Gini de la France concernant la distribution des niveaux de vie
était égal à 0,289 en 2007. Son évolution de 1996 à 2007 est résumée dans le
tableau suivant :
Indice de Gini
1996
0,271
1999
0,269
2002
0,267
2005
0,269
2006
0,291
2007
0,289
Source INSEE.
D’après Wikipedia : “Les pays les plus égalitaires ont un coefficient de l’ordre
de 0,2 (Danemark, Suède, Japon, République tchèque. . . ). Les pays les plus inégalitaires au monde ont un coefficient de 0,6 (Brésil, Guatemala, Honduras. . . ).”
Il existe d’autres indices pour la mesure des inégalités : indice de Hoover,
indice de Theil.
L’indice de Hoover est la demi-somme des valeurs absolues des écarts verticaux entre la courbe de Lorenz et la diagonale :
H=
6
1X
|pi − qi |
2
Exercices
Exercice 3
On considère le tableau d’effectifs suivant représentant la répartition des
loyers dans une commune de 1000 logements locatifs.
Classe
[500,1000[
[1000,1500[
[1500,2000[
[2000,2500[
[2500,3000[
[3000,4000[
Effectif
3
45
239
504
191
18
Chaque classe sera représentée par son milieu.
3-1 ) Calculer la moyenne et l’écart-type de cette distribution.
3-2 ) Représenter l’histogramme.
3-3 ) Calculer les quartiles de cette distribution. En déduire l’indice d’asymétrie
de Yule.
3-4 ) Calculer le moment centré µ3 d’ordre 3 et en déduire le coefficient γ1
de Fisher. Que peut-on conclure ?
20
3-5 ) Calculer le moment centré µ4 d’ordre 4 et en déduire le kurtosis (coefficient d’aplatissement γ2 de Fisher). En déduire la forme de courbe de fréquences.
Exercice 4
Dans une entreprise on a relevé la répartition suivante des employés en fonction du salaire net perçu :
Salaires
[1000,1500[
[1500,2000[
[2000,3000[
[3000,4000[
[4000,6000[
Effectifs
30
160
125
25
10
4-1 ) Représenter la courbe de Lorenz.
4-2 ) Calculer la médiane et la médiale de cette distribution.
4-3 ) Calculer l’indice de Gini. Que peut-on conclure ?
Exercice 5
Démontrer la formule des triangles de l’indice de Gini à partir de la formule
des trapèzes.
21