Médiale et indice de Gini - UHA

Transcription

Médiale et indice de Gini - UHA
Médiale et indice de Gini
Table des matières
A Médiale
A.1 Série statistique discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
A.2 Série statistique continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
1
2
B Indice de Gini
2
A
Médiale
Le tableau ci-dessous envisage à la fois le cas d’une statistique discrète et d’une statistique continue. On suppose que
x1 > 0 et que a0 ≥ 0.
Valeurs
Classes
Effectifs
Masses
Masses cumulées
Masses cumulée relatives
x1
[a0 , a1 [
n1
m1
M1
G1
x2
[a1 , a2 [
n2
m2
M2
G2
x3
[a2 , a3 [
n3
m3
M3
G3
x4
[a3 , a4 [
n4
m4
M4
G4
Définition 1
Dans ce tableau
- les réels mi = ni × xi sont les masses
Pi
- les réels Mi = k=1 mi sont les masses cumulées
- M = M4 est la masse totale
- les réels Gi =
A.1
Mi
M
= sont les masses cumulées relatives.
Série statistique discrète
Définition 2
Soit (xi , ni ), i ∈ [1..p], une série statistique discrète. La fonction de répartition des masses cumulées est la fonction étagée
G de R dans l’intervalle [0, M ] qui vaut
- 0 sur ] − ∞, x1 [
- Mi sur [xi , xi+1 [ pour i ∈ [1..(p − 1)]
- M sur [xp , +∞[.
Définition 3
Soit (xi , ni ), i ∈ [1..p], une série statistique discrète telle que x1 > 0, et que pour tout i ∈ [1..p] on ait ni > 0. On pose
M0 = 0. L’ensemble des médiales de la série se définit comme suit :
- s’il existe un indice i0 ∈ [1..(p − 1)] tel que Mi0 = M/2, l’ensemble des médiales est l’intervalle [xi0 , xi0 +1 ]
- sinon il existe un indice i0 tel que Mi0 −1 < M/2 < Mi0 , et l’ensemble des médiales est le singleton {xi0 }. On dira plus
simplement que la médiale est xi0 .
A.2
Série statistique continue
Définition 4
La fonction de répartition des masses cumulées d’une série continue ([ai−1 , ai [, ni )i=1,...,p est l’application G de R dans
l’intervalle [0, M ] qui est affine par morceaux, et qui vaut
- 0 sur ] − ∞, a0 ]
- M sur [ap , +∞[
- Mi en ai pour i ∈ [1..p]
Définition 5
L’ensemble des médiales de la série est l’ensemble des abscisses des points d’ordonnée M/2 sur le graphe de la fonction de
répartition des masses cumulées. L’ensemble des médiales est soit un intervalle [a, b] avec a < b, ou un singleton {Me }. Dans ce
dernier cas on dira que la médiale est Me .
B
Indice de Gini
Hypothèses 6
On considère une série discrète (xi , ni )i=1,...p , ou une série continue ([ai−1 , ai [, ni )i=1,...,p . On suppose que x1 > 0 (xi valeurs
ou centres de classe), et que pour tout i on a ni > 0.
Définition 7
La courbe de concentration de Lorenz d’une série statistique discrète ou continue est la ligne brisée inscrite dans le carré
[0, 1] × [0, 1] joignant les points (0, 0), (F1 , G1 ), (F2 , G2 ),...,(Fp , Gp ) = (1, 1).
Proposition 8
1. A l’exception des points (0, 0) et (1, 1), la courbe de Lorenz est située strictement sous la diagonale.
2. La suite des pentes des segments de la courbe de Lorenz est strictement croissante.
Preuve
1. La suite (
Mi
)1≤i≤p est croissante. En effet on a la suite d’équivalences
Ni
Mi+1
Mi
<
⇐⇒ Ni+1 m1 + ... + Ni+1 mi < Ni m1 + ... + Ni mi+1
Ni
Ni+1
⇐⇒ ni+1 m1 + ... + ni+1 mi < Ni mi+1
⇐⇒ ni+1 n1 x1 + ... + ni+1 ni xi < n1 ni+1 xi+1 + ... + ni ni+1 xi+1
⇐⇒ 0 < n1 ni+1 [xi+1 − x1 ] + ... + ni ni+1 [xi+1 − xi ].
La dernière équivalence est vérifiée car la suite (xi ) est strictement croissante et les effectifs strictement positifs. On en
déduit en particulier que pour tout i ∈ [1..(p − 1)]
Mi
Mp
M
Mi
Ni
<
=
⇐⇒
<
⇐⇒ Gi < Fi ,
Ni
Np
N
M
N
ce qui signifie que les points de la courbe de Lorenz sont situés strictement sous la diagonale.
2. Le ie segment de la courbe de Lorenz, i ∈ [1..n], a pour pente
Gi+1 − Gi
ni+1 xi+1 /M
N
=
= xi+1 .
Fi+1 − Fi
ni+1 /N
M
La croissance stricte de la suite des pentes des segments de la courbe de Lorenz résulte donc de celle de la suite (xi+1 ).
Définition 9
L’indice de Gini, noté g, est le double de l’aire comprise entre la diagonale du carré et la courbe de Lorenz.
Proposition 10
On a
g=
n−1
X
(Gi+1 Fi − Gi Fi+1 ).
i=1
Preuve
0.8
0.0
0.2
0.4
0.6
Masses relatives cumulées
0.6
0.4
0.0
0.2
Masses relatives cumulées
0.8
1.0
Courbe de Lorentz
1.0
Courbe de Lorentz
0.0
0.2
0.4
0.6
0.8
1.0
0.0
Fréquences cumulées
0.2
0.4
0.6
0.8
1.0
Fréquences cumulées
On décompose la surface comprise entre la diagonale et la courbe de Lorenz en n − 1 triangles comme indiqué ci-dessus, le
ie triangle, i ∈ [1..n − 1], ayant pour sommets les points (0, 0), (Fi , Gi ) et (Fi+i , Gi+1 ). Le ie triangle est représenté ci-dessous.
Gi+1
0
B
A
Gi
C
D
O
Fi
Fi+1
0
Les hypothèses impliquent que pour i ∈ [1..(p − 1)] on a Fi < Fi+1 et Gi < Gi+1 . La proposition précédente monte que la pente
du segment OA est strictement inférieure à celle du segment AB. On peut donc calculer l’aire du triangle OAB de la façon
suivante :
aire du triangle OAB = aire du triangle OBD − aire du triangle OAC − aire du trapèze CABD
Gi+1 × Fi+i
Gi × Fi
Gi+1 + Gi
=
−
− (Fi+i − Fi )
2
2
2
1
= [Gi+1 Fi − Fi+1 Gi ]
2
L’indice de Gini correspondant à deux fois la somme des expressions précédentes, on obtient bien le résultat annoncé.
Remarque 11
En pratique on calcule l’indice de Gini comme dans l’exemple ci dessous.
Exemple 12
La répartition d’une série statistique simple X est donnée par le tableau suivant.
Classes
[0, 200[
[200, 400[
Effectifs
4
2
Pour déterminer la médiale de la série et l’indice de Gini on commence par compléter le tableau :
Classes
[0, 200[
[200, 400[
Effectifs
4
2
Effectifs cumulés
4
6
Fréquences cumulées
2
3
F1 =
1
Masses
400
600
Masses cumulées
400
1000
Masses cumulées relatives
G1 = 0, 4
1
1) La masse totale est M = 1000 ; puisque M/2 = 500, la médiale M e appartient à la classe [200, 400[. Par égalité des pentes
des segments AB et AM dans le graphique ci-dessous on obtient
B
1000
●
M
500
●
A
400
●
200
Me
400
1000 − 400
500 − 400
100
100
700
=
=⇒ 3 =
=⇒ M e = 200 +
=
.
400 − 200
M e − 200
M e − 200
3
3
2) La courbe de Lorenz est représentée ci-dessous.
Masses relatives cumulées
Courbe de Lorenz
T2
0,4
G1
R
T1
F1=2/3
Fréquences cumulées
0, 4
2
× 0, 4/2 =
3
3
1
0, 4
- le rectangle R a pour aire a2 = × 0, 4 =
3
3
0, 3
1
.
- le triangle T 2 a pour aire a3 = 0, 6 × /2 =
3
3
La somme de ces aires est
0, 4 0, 4 0, 3
1, 1
a1 + a2 + a3 =
+
+
=
.
3
3
3
3
L’aire comprise entre la diagonale et la courbe de Lorenz est donc
- Le triangle T 1 a pour aire a1 =
1 1, 1
3 − 2, 2
0, 8
−
=
=
,
2
3
6
6
et l’indice de Gini vaut par conséquent
2×
0, 8
0, 8
4
=
=
.
6
3
15