Médiale et indice de Gini - UHA
Transcription
Médiale et indice de Gini - UHA
Médiale et indice de Gini Table des matières A Médiale A.1 Série statistique discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A.2 Série statistique continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1 2 B Indice de Gini 2 A Médiale Le tableau ci-dessous envisage à la fois le cas d’une statistique discrète et d’une statistique continue. On suppose que x1 > 0 et que a0 ≥ 0. Valeurs Classes Effectifs Masses Masses cumulées Masses cumulée relatives x1 [a0 , a1 [ n1 m1 M1 G1 x2 [a1 , a2 [ n2 m2 M2 G2 x3 [a2 , a3 [ n3 m3 M3 G3 x4 [a3 , a4 [ n4 m4 M4 G4 Définition 1 Dans ce tableau - les réels mi = ni × xi sont les masses Pi - les réels Mi = k=1 mi sont les masses cumulées - M = M4 est la masse totale - les réels Gi = A.1 Mi M = sont les masses cumulées relatives. Série statistique discrète Définition 2 Soit (xi , ni ), i ∈ [1..p], une série statistique discrète. La fonction de répartition des masses cumulées est la fonction étagée G de R dans l’intervalle [0, M ] qui vaut - 0 sur ] − ∞, x1 [ - Mi sur [xi , xi+1 [ pour i ∈ [1..(p − 1)] - M sur [xp , +∞[. Définition 3 Soit (xi , ni ), i ∈ [1..p], une série statistique discrète telle que x1 > 0, et que pour tout i ∈ [1..p] on ait ni > 0. On pose M0 = 0. L’ensemble des médiales de la série se définit comme suit : - s’il existe un indice i0 ∈ [1..(p − 1)] tel que Mi0 = M/2, l’ensemble des médiales est l’intervalle [xi0 , xi0 +1 ] - sinon il existe un indice i0 tel que Mi0 −1 < M/2 < Mi0 , et l’ensemble des médiales est le singleton {xi0 }. On dira plus simplement que la médiale est xi0 . A.2 Série statistique continue Définition 4 La fonction de répartition des masses cumulées d’une série continue ([ai−1 , ai [, ni )i=1,...,p est l’application G de R dans l’intervalle [0, M ] qui est affine par morceaux, et qui vaut - 0 sur ] − ∞, a0 ] - M sur [ap , +∞[ - Mi en ai pour i ∈ [1..p] Définition 5 L’ensemble des médiales de la série est l’ensemble des abscisses des points d’ordonnée M/2 sur le graphe de la fonction de répartition des masses cumulées. L’ensemble des médiales est soit un intervalle [a, b] avec a < b, ou un singleton {Me }. Dans ce dernier cas on dira que la médiale est Me . B Indice de Gini Hypothèses 6 On considère une série discrète (xi , ni )i=1,...p , ou une série continue ([ai−1 , ai [, ni )i=1,...,p . On suppose que x1 > 0 (xi valeurs ou centres de classe), et que pour tout i on a ni > 0. Définition 7 La courbe de concentration de Lorenz d’une série statistique discrète ou continue est la ligne brisée inscrite dans le carré [0, 1] × [0, 1] joignant les points (0, 0), (F1 , G1 ), (F2 , G2 ),...,(Fp , Gp ) = (1, 1). Proposition 8 1. A l’exception des points (0, 0) et (1, 1), la courbe de Lorenz est située strictement sous la diagonale. 2. La suite des pentes des segments de la courbe de Lorenz est strictement croissante. Preuve 1. La suite ( Mi )1≤i≤p est croissante. En effet on a la suite d’équivalences Ni Mi+1 Mi < ⇐⇒ Ni+1 m1 + ... + Ni+1 mi < Ni m1 + ... + Ni mi+1 Ni Ni+1 ⇐⇒ ni+1 m1 + ... + ni+1 mi < Ni mi+1 ⇐⇒ ni+1 n1 x1 + ... + ni+1 ni xi < n1 ni+1 xi+1 + ... + ni ni+1 xi+1 ⇐⇒ 0 < n1 ni+1 [xi+1 − x1 ] + ... + ni ni+1 [xi+1 − xi ]. La dernière équivalence est vérifiée car la suite (xi ) est strictement croissante et les effectifs strictement positifs. On en déduit en particulier que pour tout i ∈ [1..(p − 1)] Mi Mp M Mi Ni < = ⇐⇒ < ⇐⇒ Gi < Fi , Ni Np N M N ce qui signifie que les points de la courbe de Lorenz sont situés strictement sous la diagonale. 2. Le ie segment de la courbe de Lorenz, i ∈ [1..n], a pour pente Gi+1 − Gi ni+1 xi+1 /M N = = xi+1 . Fi+1 − Fi ni+1 /N M La croissance stricte de la suite des pentes des segments de la courbe de Lorenz résulte donc de celle de la suite (xi+1 ). Définition 9 L’indice de Gini, noté g, est le double de l’aire comprise entre la diagonale du carré et la courbe de Lorenz. Proposition 10 On a g= n−1 X (Gi+1 Fi − Gi Fi+1 ). i=1 Preuve 0.8 0.0 0.2 0.4 0.6 Masses relatives cumulées 0.6 0.4 0.0 0.2 Masses relatives cumulées 0.8 1.0 Courbe de Lorentz 1.0 Courbe de Lorentz 0.0 0.2 0.4 0.6 0.8 1.0 0.0 Fréquences cumulées 0.2 0.4 0.6 0.8 1.0 Fréquences cumulées On décompose la surface comprise entre la diagonale et la courbe de Lorenz en n − 1 triangles comme indiqué ci-dessus, le ie triangle, i ∈ [1..n − 1], ayant pour sommets les points (0, 0), (Fi , Gi ) et (Fi+i , Gi+1 ). Le ie triangle est représenté ci-dessous. Gi+1 0 B A Gi C D O Fi Fi+1 0 Les hypothèses impliquent que pour i ∈ [1..(p − 1)] on a Fi < Fi+1 et Gi < Gi+1 . La proposition précédente monte que la pente du segment OA est strictement inférieure à celle du segment AB. On peut donc calculer l’aire du triangle OAB de la façon suivante : aire du triangle OAB = aire du triangle OBD − aire du triangle OAC − aire du trapèze CABD Gi+1 × Fi+i Gi × Fi Gi+1 + Gi = − − (Fi+i − Fi ) 2 2 2 1 = [Gi+1 Fi − Fi+1 Gi ] 2 L’indice de Gini correspondant à deux fois la somme des expressions précédentes, on obtient bien le résultat annoncé. Remarque 11 En pratique on calcule l’indice de Gini comme dans l’exemple ci dessous. Exemple 12 La répartition d’une série statistique simple X est donnée par le tableau suivant. Classes [0, 200[ [200, 400[ Effectifs 4 2 Pour déterminer la médiale de la série et l’indice de Gini on commence par compléter le tableau : Classes [0, 200[ [200, 400[ Effectifs 4 2 Effectifs cumulés 4 6 Fréquences cumulées 2 3 F1 = 1 Masses 400 600 Masses cumulées 400 1000 Masses cumulées relatives G1 = 0, 4 1 1) La masse totale est M = 1000 ; puisque M/2 = 500, la médiale M e appartient à la classe [200, 400[. Par égalité des pentes des segments AB et AM dans le graphique ci-dessous on obtient B 1000 ● M 500 ● A 400 ● 200 Me 400 1000 − 400 500 − 400 100 100 700 = =⇒ 3 = =⇒ M e = 200 + = . 400 − 200 M e − 200 M e − 200 3 3 2) La courbe de Lorenz est représentée ci-dessous. Masses relatives cumulées Courbe de Lorenz T2 0,4 G1 R T1 F1=2/3 Fréquences cumulées 0, 4 2 × 0, 4/2 = 3 3 1 0, 4 - le rectangle R a pour aire a2 = × 0, 4 = 3 3 0, 3 1 . - le triangle T 2 a pour aire a3 = 0, 6 × /2 = 3 3 La somme de ces aires est 0, 4 0, 4 0, 3 1, 1 a1 + a2 + a3 = + + = . 3 3 3 3 L’aire comprise entre la diagonale et la courbe de Lorenz est donc - Le triangle T 1 a pour aire a1 = 1 1, 1 3 − 2, 2 0, 8 − = = , 2 3 6 6 et l’indice de Gini vaut par conséquent 2× 0, 8 0, 8 4 = = . 6 3 15