Séance 05
Transcription
Séance 05
UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2016 – 2017 L1 Économie Cours de B. Desgraupes Statistiques Descriptives Séance 05: Indicateurs de forme et de concentration Table des matières 1 Introduction 1 2 Moments d’ordre p 2.1 Moments simples . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Moments centrés . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 3 3 Comparaison des indicateurs de tendance centrale 4 4 Indicateurs de forme 4.1 Coefficients d’asymétrie . . . . . . . . . . . . . . . . . . . . . . . 4.2 Coefficients d’aplatissement . . . . . . . . . . . . . . . . . . . . . 6 6 8 5 Indicateurs de concentration 5.1 Médiane et médiale . . . . . 5.2 Écart à la médiale . . . . . 5.3 Courbe de Lorenz . . . . . . 5.4 Coefficient de Gini . . . . . . . . . . . . . 6 Exercices 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 12 14 15 17 20 Introduction Dans cette séance, nous allons étudier des indicateurs de forme et des indicateurs de concentration. Les indicateurs de forme permettent de décrire et de mesurer les caractéristiques de la courbe de fréquences d’une distribution. L’allure de cette courbe renseigne sur la manière dont les densités sont réparties. Les caractéristiques principales sont le degré d’asymétrie et le degré d’aplatissement. Les indicateurs de concentration concernent la manière dont sont réparties les masses par rapport aux effectifs. On les utilise beaucoup en économie dans les analyses de répartition de ressources ou de richesses. 1 Moments d’ordre p 2 Les moments sont des quantités qui étendent la notion de moyenne et celle de variance. La moyenne est essentiellement une quantité linéaire (c’est-à-dire de degré 1) et la variance une quantité quadratique (c’est-à-dire de degré 2). Les moments constituent une généralisation aux degrés supérieurs. Ils ont une grande importance théorique en probabilités et fournissent des informations très utiles dans l’exploration des données statistiques. On distingue : 1. les moments simples ; 2. les moments centrés. On les définit pour un ordre particulier p où p est un nombre entier positif. 2.1 Moments simples Les moments simples d’ordre p correspondent à une moyenne des puissances p. Définition 2.1. Le moment simple d’ordre p d’une variable statistique x est la moyenne (arithmétique !) des puissances p-ièmes des valeurs observées. Si les données sont écrites sous forme exhaustive, la formule mathématique du moment simple d’ordre p est : Mp = N 1 X p x N i=1 i Si les données sont regoupées sous forme de tableau d’effectifs de la forme : Valeurs Effectifs v1 n1 v2 n2 v3 n3 ··· ··· vk nk La formule s’écrit : Mp = k n1 × v1p + n2 × v2p + · · · + nk × vkp 1 X = ni vip N N i=1 avec N = n1 + n2 + · · · + nk . Avec un tableau de fréquences, la formule s’écrit : Mp = k X i=1 2 fi vip Les moments d’ordre p sont exprimés dans l’unité des données élevée à la puissance p : par exemple, si les x sont des quantités en mètres, le moment d’ordre 3 sera en mètres cubes. Remarque : les moments simples d’ordre p ne doivent donc pas être confondus avec des moyennes d’ordre p : dans ces dernières, on prend la puissance 1/p du tout pour se retrouver dans la même unité que les données. Dans le cas particulier où p = 1, on retrouve la moyenne arithmétique. Donc M1 = x̄. Dans le cas particulier où p = 2, on obtient le carré de la moyenne quadratique. Donc M2 = m22 . La formule développée de la variance (moyenne des carrés moins carré de la moyenne) peut s’écrire avec les moments de la manière suivante : Var(x) = M2 − M12 2.2 Moments centrés Les moments centrés sont les moments simples appliqués aux écarts par rapport à la moyenne. Autrement dit, on remplace les valeurs xi par xi − x̄ dans les formules précédentes. On les note au moyen de la lettre grecque µ (qui se lit mu). Les formules mathématiques sont donc (selon que les données sont exhaustives ou regroupées) : µp = N 1 X (xi − x̄)p N i=1 k k X 1 X p ni (vi − x̄) = fi (vi − x̄)p µp = N i=1 i=1 PN PN PN où x̄ = N1 i=1 xi = N1 i=1 ni vi = i=1 fi vi . • Cas particulier où p = 1 On calcule : µ1 = = N 1 X (xi − x̄) N i=1 N N 1 X 1 X xi − x̄ N i=1 N i=1 1 × N × x̄ N = x̄ − x̄ = 0 = x̄ − Donc le moment centré d’ordre 1 est toujours nul ! 3 On interprète ce résultat en disant que les écarts à gauche de la moyenne (écarts par défaut) compensent exactement les écarts à droite (écarts par excès). • Cas particulier où p = 2 µ2 = N 1 X (xi − x̄)2 N i=1 Donc le moment centré d’ordre 2 n’est autre que la variance ! On a donc : µ2 = Var(x). La formule développée de la variance conduit à la relation : µ2 = M2 − M12 Il existe des formules (rapidement compliquées !) qui relient les moments centrés d’ordre p et les moments simples d’ordre inférieur ou égal à p. Exercice Trouver une formule exprimant µ3 en fonction de M1 , M2 et M3 . Solution : µ3 = M3 − 3M1 M2 + 2M13 . • Exemple On considère les données suivantes concernant une variable discrète V pouvant prendre les valeurs 0, 1, 2, 3, 4 : Valeurs Effectifs 0 16 1 19 2 28 3 22 4 15 Calculer les moments simples et les moments centrés d’ordres 1, 2, 3 et 4. Résultats de l’exemple précédent : p 1 2 3 4 3 Moments simples 2.01 5.69 17.97 60.89 Moments centrés 0 1.65 -0.10 5.37 Comparaison des indicateurs de tendance centrale On a vu trois indicateurs de tendance centrale : le mode, la médiane et la moyenne. La comparaison de ces indicateurs entre eux donne des renseignements sur la façon dont les données observées sont réparties. Dans une distribution parfaitement symétrique et concentrée autour de sa valeur centrale, les trois indicateurs coïncident : mode = médiane = moyenne 4 Dans ce cas, tout est réparti autour du mode (c’est-à-dire de la valeur de plus forte densité ou de plus fort effectif) et, par symétrie, la médiane et la moyenne sont égales à cette quantité : il y a autant de valeurs à gauche qu’à droite et les valeurs à gauche compensent exactement les valeurs à droite. Cette situation idéale sert de référence mais dans la pratique le mode, la médiane et la moyenne peuvent différer et leurs positions relatives indiquent une asymétrie dans la répartition des données. On dit que la courbe de fréquences est oblique du côté où la décroissance est la plus forte. On distingue essentiellement deux situations : 1. lorsque mode < médiane < moyenne, on dit que la distribution est oblique à gauche (ou de manière synonyme qu’elle est étalée à droite). 2. lorsque mode > médiane > moyenne, on dit que la distribution est oblique à droite (ou de manière synonyme qu’elle est étalée à gauche). Dans une distribution symétrique, le mode, la médiane et la moyenne coïncident. 0.0 0.1 0.2 0.3 0.4 Distribution symétrique −3 −2 −1 0 1 2 3 Mo = M = m La distribution ci-dessous est dite étalée vers la gauche (ou oblique à droite). On a mode > médiane > moyenne 5 0.0 0.1 0.2 0.3 0.4 Distribution étalée à gauche −6 −4 −2 0 2 Mo > M > m La distribution ci-dessous est dite étalée vers la droite (ou oblique à gauche). On a mode < médiane < moyenne 0.0 0.1 0.2 0.3 0.4 Distribution étalée à droite −2 0 2 4 6 Mo < M < m Les cas de figure qui viennent d’être examinés ne recouvrent pas toutes les situations possibles. Il y a des distributions qui présentent plusieurs modes... Les sections qui suivent définissent des indicateurs, appelés aussi coefficients, qui permettent de mesurer quantitativement le degré d’asymétrie d’une distribution et de sa courbe de fréquences. Certains coefficients d’asymétrie sont définis à partir des quartiles, d’autres sont liés au moments d’ordre 3. 6 4 Indicateurs de forme 4.1 Coefficients d’asymétrie Le coefficient de Yule (statisticien écossais, 1871-1951) est calculé à partir de la position des quartiles Q1 , Q2 et Q3 . Il s’écrit : s= Q1 + Q3 − 2Q2 (Q3 − Q2 ) − (Q2 − Q1 ) = (Q3 − Q2 ) + (Q2 − Q1 ) Q3 − Q1 • si s = 0, il y a symétrie ; • si s > 0, il y a étalement à droite (oblique à gauche) ; • si s < 0, il y a étalement à gauche (oblique à droite). Le choix de la lettre s vient de skewness qui est le terme anglais pour désigner l’asymétrie. Rappelons que Q2 n’est autre que la médiane. Il existe deux coefficients d’asymétrie dûs à Pearson (mathématicien britannique, 1857-1936). Le premier se base sur la moyenne x̄ et le mode MO . Il est défini par : s= x̄ − MO σ Il s’interprète comme le coefficient de Yule : • si s = 0, il y a symétrie ; • si s > 0, il y a étalement à droite (oblique à gauche) ; • si s < 0, il y a étalement à gauche (oblique à droite). Le deuxième coefficient d’asymétrie de Pearson, noté β1 , est plus utilisé. Il est défini à partir des moments centrés d’ordre 2 et 3 : β1 = µ23 µ32 C’est le moment d’ordre 3 au carré divisé par le moment d’ordre 2 au cube afin d’avoir une grandeur sans dimension. Rappelons que µ2 n’est autre que la variance. Le coefficient β1 est toujours positif ou nul. S’il est nul, il y a symétrie. Sinon, la distribution est oblique et tout dépend du signe de µ3 : par exemple, si µ3 > 0, c’est oblique à gauche. Le coefficient de Fisher (statisticien britannique, 1890-1962) est la racine carrée du coefficient β1 de Pearson. Comme µ2 = Var(x) = σ 2 , on a la formule suivante : µ3 γ1 = 3 σ 7 C’est aussi une grandeur sans dimension. L’interprétation est toujours la même : • si γ1 = 0, il y a symétrie ; • si γ1 > 0, il y a étalement à droite (oblique à gauche) ; • si γ1 < 0, il y a étalement à gauche (oblique à droite). • Exemple On considère la distribution suivante comportant 20 valeurs numériques : 0.04 11.17 6.24 11.46 6.31 11.73 7.18 11.78 7.21 12.21 8.62 12.46 9.80 12.83 9.92 13.37 10.55 14.54 10.99 14.79 On va calculer les différents coefficients d’asymétrie. Pour le coefficient de Yule, on a besoin des quartiles : 25% 8.27 50% 11.08 75% 12.27 On calcule donc : Q1 + Q3 − 2Q2 8.27 + 12.27 − 2 × 11.08 s= = −0.405 = Q3 − Q1 12.27 − 8.27 Il y a étalement vers la gauche. La moyenne est x̄ = 10.16. Calculons maintenant les moments centrés µ2 et µ3 . On trouve : 1 P20 (xi − x̄)2 = · · · = 11.45 µ2 = 20 i=1 1 P20 µ3 = (xi − x̄)3 = · · · = −47.07 20 i=1 √ On en déduit que σ = 11.45 = 3.38 et on obtient : 2 2 β1 = µ3 = (−47.07) = 1.477 µ32 (11.45)3 γ 1 = µ3 −47.07 = = −1.215 3 σ (3.38)3 Chacun des coefficients confirme que la distribution est étalée à gauche. Voici comment on effectue ces calculs avec le logiciel R : > x <- c(0.04,6.24,6.31,7.18,7.21,8.62,9.80,9.92,10.55,10.99, 11.17,11.46,11.73,11.78,12.21,12.46,12.83,13.37,14.54,14.79) > m <- mean(x) > mu2 <- mean( (x-m)^2 ) > mu3 <- mean( (x-m)^3 ) > sigma <- sqrt(mu2) > beta1 <- mu3^2/mu2^3 > gamma1 <- mu3/sigma^3 8 4.2 Coefficients d’aplatissement Les moments d’ordre 4 renseignent sur le degré d’aplatissement de la courbe de fréquences d’une distribution. L’aplatissement est jugé en se référant au modèle de la courbe de densité de la loi normale. On dira qu’une courbe de fréquences est plus ou moins aplatie que le modèle de la loi normale. Le coefficient qui permet de mesurer quantitativement l’aplatissement s’appelle le kurtosis (du grec κυρτ oτ ης qui signifie courbure). La courbe suivante présente un aplatissement normal, comparable à celui de la densité d’une loi normale de Gauss. Aplatissement normal (mesokurtique) γ2 = 0 La courbe suivante est plus pointue qu’une loi normale. En compensation elle est moins dense sur les extrêmités. 9 Aplatissement leptokurtique γ2 > 0 La courbe suivante est plus plate qu’une loi normale. En compensation elle est plus dense sur les extrêmités. Aplatissement platykurtique γ2 < 0 Voici une comparaison des trois situations : 10 0.8 Aplatissements comparés 0.0 0.2 0.4 0.6 platykurtique mesokurtique leptokurtique −3 −2 −1 0 1 2 3 Pearson a proposé d’utiliser le coefficient suivant : β2 = µ4 µ4 = 4 2 µ2 σ On montre que ce rapport vaut 3 dans le cas d’une loi normale parfaite. Donc si β2 est supérieur à 3, la courbe sera plus pointue que la loi normale et si β2 est inférieur à 3, elle sera plus aplatie. Il est plus naturel (par analogie avec le coefficient d’asymétrie), de considérer que la valeur de référence est 0 et non pas 3. Aussi Fisher a proposé d’adopter comme coefficient d’aplatissement la quantité : γ 2 = β2 − 3 = µ4 −3 σ4 On interprète le kurtosis γ2 de la manière suivante : • si γ2 = 0, la courbe de fréquences est comparable à celle de la loi normale. On dit qu’elle est mésokurtique. • si γ2 > 0, la courbe de fréquences est plus pointue que celle de la loi normale. On dit qu’elle est leptokurtique. • si γ2 < 0, la courbe de fréquences est plus aplatie que celle de la loi normale. On dit qu’elle est platykurtique. • Exemple On considère la distribution suivante comportant 20 valeurs numériques : 11 6.77 9.97 7.19 10.43 8.40 10.82 8.43 11.04 9.10 11.13 9.21 11.25 9.42 11.89 9.53 12.03 9.75 12.44 9.77 13.00 On va calculer les coefficients d’aplatissement. La moyenne est x̄ = 10.0785. Calculons maintenant les moments centrés µ2 et µ4 . On trouve : 1 P20 2 µ2 = 20 i=1 (xi − x̄) = · · · = 2.64 µ = 1 P20 (x − x̄)4 = · · · = 17.00 4 i 20 i=1 On obtient : β2 = µ4 17.00 = = 2.44 2 µ2 (2.64)2 On a donc γ2 = β2 − 3 = −0.56. Comme γ2 < 0, la distribution est platykurtique (plus aplatie que la loi normale). Voici comment on effectue ces calculs avec le logiciel R : > x <- c(6.77,7.19,8.40,8.43,9.10,9.21,9.42,9.53,9.75,9.77, 9.97,10.43,10.82,11.04,11.13,11.25,11.89,12.03,12.44,13.00) > m <- mean(x) > mu2 <- mean( (x-m)^2 ) > mu4 <- mean( (x-m)^4 ) > beta2 <- mu4/mu2^2 > gamma2 <- beta2 - 3 5 Indicateurs de concentration L’étude de la concentration concerne les variables continues à valeurs positives. Elle consiste à comparer la distribution des individus à celle de la masse qu’ils représentent par rapport à la masse totale. • Exemple 1 On peut étudier la répartition des salaires entre les individus à celle des masses salariales qu’ils représentent afin de savoir dans quelle mesure quelques salariés représentent à eux seuls une grande part de la masse salariale (hauts salaires) tandis que beaucoup de salariés représentent une part moindre de la masse totale (bas salaires). • Exemple 2 On peut étudier la répartition des factures encaissées afin de savoir quelle part de factures représente quelle masse dans le chiffre d’affaire global. On suppose que les données sont rassemblées dans un tableau d’effectifs : Valeurs Effectifs v1 n1 v2 n2 12 v3 n3 ··· ··· vk nk Les effectifs n1 , n2 , etc. permettent de connaître la répartition des individus en proportions. C’est la distribution des individus. Les produits ni vi représentent le “poids” de la variable étudiée dans chaque classe Ci , c’est-à-dire pour chaque valeur de vi . La distribution des ni vi est donc la distribution des masses. Nous allons voir plusieurs méthodes (graphiques et quantitatives) pour évaluer ces répartitions et repérer les concentrations. 5.1 Médiane et médiale On a déjà vu la notion de médiane qui est une valeur telle que 50% de la population soit située en dessous de cette valeur, et 50% au-dessus. Définition 5.1. La médiale est la médiane de la distribution des masses ni vi . On notera cette médiale L. Le calcul de la médiale se fait comme celui de la médiane, à partir des fréquences cumulées et nécessite toujours d’effectuer une interpolation. La différence est qu’il s’agit des fréquences cumulées de la distribution des masses et non de celle des individus. • Exemple Le tableau suivant donne la répartition des surfaces agricoles utilisées (SAU) dans la région Champagne-Ardennes en 2010 (source INSEE) : Classes Moins de 20 ha De 20 à moins de 50 ha De 50 à moins de 100 ha De 100 à moins de 200 ha De 200 ha à 500 ha Effectifs 13 869 1 224 2 777 4 683 2 034 Calculer la médiale. Chaque classe va être représentée par son milieu vi . Si ni est l’effectif de la i-ième classe, on calcule les masses ni vi et leur répartition en proportion par P rapport à la masse totale T = ni vi . On en déduit les proportions cumulées. Tous les calculs sont rassemblés dans le tableau suivant. SAU en ha [0, 20[ [20, 50[ [50, 100[ [100, 200[ [200, 500[ Total Effectif ni 13 869 1 224 2 777 4 683 2 034 24 587 Milieu vi 10 35 75 150 350 Masse n i vi 138 690 42 840 208 275 702 450 711 900 1 804 155 13 Fréquence ni vi /T 0.08 0.02 0.12 0.39 0.39 1.00 Fréquence cumulée 0.08 0.10 0.22 0.61 1.00 On cherche où se situe la proportion cumulée de 50%. D’après le tableau, c’est entre 0.22 = 22% et 0.61 = 61%. Il faut faire une interpolation linéaire. L’interpolation linéaire consiste à chercher la valeur L qui soit par rapport à 100 et 200 ha comme la valeur 50% par rapport à 22% et 61%. 80 SAU 100 ha L? 200 ha 60 70 61 − 22 = 200 − 100 61 % 50 % 40 50 L − 100 50 − 22 30 Proportion cumulée Prop. cumulée 22% 50% 61% 20 22 % 10 100 50 L 100 150 200 200 SAU On calcule 50 − 22 L − 100 = 61 − 22 200 − 100 On en déduit : 28 L − 100 = 39 100 Finalement : L = 100 + 28 × 100 = 100 + 71.79 = 171.79 ha 39 La médiale est de 171.79 ha. Cela signifie que toutes les exploitations agricoles dont la SAU est inférieure à cette valeur ont une superficie cumulée qui représente 50% de la superficie totale T . 14 5.2 Écart à la médiale Si toutes les observations avaient la même répartition, la médiale L serait égale à la médiane M . Mais de manière générale, la médiale est supérieure à la médiane car les 50% des individus qui sont en-dessous de M représentent une masse inférieure à la moitié de la masse totale. Il n’y a égalité que dans le cas idéal d’équirépartition parfaite de toutes les masses. L’écart entre la médiale et la médiane peut donc être considéré comme une mesure de la distorsion de la répartition et sert d’indicateur de concentration. Il est élémentaire à calculer : ∆M = L − M = médiale − médiane Dans l’exemple précédent, calculons la médiane. On a besoin de connaître les proportions cumulées des effectifs (et non plus des masses) : SAU en ha [0, 20[ [20, 50[ [50, 100[ [100, 200[ [200, 500[ Total Effectif ni 13 869 1 224 2 777 4 683 2 034 24 587 Fréquence ni /N 0.56 0.05 0.11 0.19 0.09 1.00 Fréquence cumulée 0.56 0.61 0.72 0.91 1.00 On cherche où se situe la proportion cumulée de 50%. D’après le tableau, c’est entre 0% et 0.56 = 56%. On calcule 50 − 0 M −0 = 56 − 0 20 − 0 On en déduit : 50 × 20 = 17.86 ha M= 56 La médiane est de 17.86 ha. Cela signifie que les exploitations agricoles dont la SAU est inférieure à cette valeur constituent 50% de l’effectif total. L’écart entre la médiale et la médiane est : ∆M = L − M = 171.79 − 17.86 = 153.93 C’est une forte distorsion. On la compare en général à l’étendue des observations qui vaut ici 500. Le rapport est de 153.93/500 = 0.31 = 31%. 5.3 Courbe de Lorenz La courbe de Lorenz (économiste américain, 1880-1962) est une représentation graphique qui permet de visualiser graphiquement la répartition des concentrations entre individus et masses. 15 On calcule les fréquences cumulées des effectifs (qu’on notera pi ) et celles des masses (qu’on notera qi ). On place sur un graphe les points de coordonnées (pi , qi ) et on les joint par une ligne polygonale. Cette ligne part du point (0, 0) et se termine au point (1, 1) puisque les fréquences cumulées varient toujours de 0 à 1. Elle est donc inscrite dans le carré de côté 1, parfois appelé le carré de Gini dans ce contexte. 0.6 0.4 0.0 0.2 Répartition des masses 0.8 1.0 Courbe de Lorenz 0.0 0.2 0.4 0.6 0.8 1.0 Répartition des effectifs Algébriquement, on a la relation suivante pour la fréquence cumulée des effectifs : i 1 X 1 pi = nj = (n1 + n2 + · · · + ni ) N j=1 N avec N = n1 + n2 + · · · + nk . De même, on a la relation suivante pour la fréquence cumulée des masses n i vi : i 1 1X nj vj = (n1 v1 + n2 v2 + · · · + ni vi ) qi = T j=1 T avec T = n1 v1 + n2 v2 + · · · + nk vk . Par convention, on pose p0 = q0 = 0. Un point de coordonnées (p, q) sur la courbe de Lorenz indique que p% des individus se partagent q% de la masse. La bissectrice du carré est la ligne d’équirépartition. C’est ce que serait la courbe de concentration s’il y avait équirépartition des masses. Sur cette diagonale, en tout point, p% des individus se partageraient exactement p% de la masse. Dans ce cas, la concentration est nulle. 16 Définition 5.2. L’aire de concentration est la région comprise entre la diagonale et la courbe de Lorenz. Interprétation : plus cette aire est importante, c’est-à-dire plus la courbe de concentration s’écarte de la bissectrice, plus la concentration est forte. 0.0 0.2 0.4 0.6 0.8 1.0 Aire de concentration 0.0 5.4 0.2 0.4 0.6 0.8 1.0 Coefficient de Gini Si on imagine qu’on déforme de plus en plus la courbe de concentration pour l’éloigner de la bissectrice, à la limite elle coïnciderait avec le côté inférieur et le côté droit du carré. L’aire de concentration maximale est donc le triangle inférieur situé sous la bissectrice. Définition 5.3. L’indice de Gini est le rapport entre la superficie de l’aire de concentration et celle du triangle inférieur du carré. L’indice de Gini (statisticien italien, 1884-1965) permet donc de faire des comparaisons de concentration en les rapportant toutes à la concentration maximale. Cet indice, noté habituellement IG , est compris entre 0 et 1 : 0 ≤ IG ≤ 1 Le carré étant de côté 1, sa superficie est égale à 1 et donc la superficie du triangle inférieur est égale à 1/2. Si on note A l’aire de concentration, on a donc : IG = A =2×A 1/2 17 Maintenant, si on note B l’aire sous la courbe de concentration, on a A = 1/2 − B et par conséquent : IG = 2 × (1/2 − B) = 1 − 2 × B La superficie B est plus facile à calculer car on découpe la région inférieure à la courbe de concentration en trapèzes. 0.6 0.4 0.2 0.0 Répartition des masses 0.8 1.0 Courbe de Lorenz 0.0 0.2 0.4 0.6 0.8 Répartition des effectifs Aire d’un trapèze S=a×( H h a 18 H+h 2 ) 1.0 On a, pour un trapèze de base a et de hauteurs h et H : S =a×h+ a × (H − h) H +h =a× 2 2 Donc, dans le cas de la courbe de concentration, le i-ième trapèze a une base allant de pi−1 à pi (donc d’amplitude pi − pi−1 ) avec des hauteurs respectives égales à qi−1 et qi . D’où : Si = (pi − pi−1 ) × qi−1 + qi 2 On calcule B en additionnant les aires de tous les trapèzes : B= = k X qi−1 + qi (pi − pi−1 ) × 2 i=1 k X i=1 fi qi−1 + qi 2 ni car pi − pi−1 = fi = . N On trouve finalement : IG = 1 − k X fi (qi−1 + qi ) i=1 Le rapport fi vi n i vi = gi = P n i vi x̄ s’appelle la valeur globale relative associée au couple (vi , ni ). C’est le proportion de la masse de la classe Ci par rapport à la masse totale. On a les relations : G1 = g1 G2 = g1 + g2 .. .. . . Gk = g1 + g2 + · · · + gk = 1 La formule précédente permettant de calculer l’indice de Gini s’appelle la formule des trapèzes. Il existe une autre formule, dite formule des triangles, permettant d’obtenir cet indice : IG = k X (qi pi−1 − pi qi−1 ) i=2 19 Exercice Voir la démontration de la formule des triangles dans les exercices complémentaires à la fin de cette séance. • Exemple L’indice de Gini de la France concernant la distribution des niveaux de vie était égal à 0,289 en 2007. Son évolution de 1996 à 2007 est résumée dans le tableau suivant : Indice de Gini 1996 0,271 1999 0,269 2002 0,267 2005 0,269 2006 0,291 2007 0,289 Source INSEE. D’après Wikipedia : “Les pays les plus égalitaires ont un coefficient de l’ordre de 0,2 (Danemark, Suède, Japon, République tchèque. . . ). Les pays les plus inégalitaires au monde ont un coefficient de 0,6 (Brésil, Guatemala, Honduras. . . ).” Il existe d’autres indices pour la mesure des inégalités : indice de Hoover, indice de Theil. L’indice de Hoover est la demi-somme des valeurs absolues des écarts verticaux entre la courbe de Lorenz et la diagonale : H= 6 1X |pi − qi | 2 Exercices Exercice 3 On considère le tableau d’effectifs suivant représentant la répartition des loyers dans une commune de 1000 logements locatifs. Classe [500,1000[ [1000,1500[ [1500,2000[ [2000,2500[ [2500,3000[ [3000,4000[ Effectif 3 45 239 504 191 18 Chaque classe sera représentée par son milieu. 3-1 ) Calculer la moyenne et l’écart-type de cette distribution. 3-2 ) Représenter l’histogramme. 3-3 ) Calculer les quartiles de cette distribution. En déduire l’indice d’asymétrie de Yule. 3-4 ) Calculer le moment centré µ3 d’ordre 3 et en déduire le coefficient γ1 de Fisher. Que peut-on conclure ? 20 3-5 ) Calculer le moment centré µ4 d’ordre 4 et en déduire le kurtosis (coefficient d’aplatissement γ2 de Fisher). En déduire la forme de courbe de fréquences. Exercice 4 Dans une entreprise on a relevé la répartition suivante des employés en fonction du salaire net perçu : Salaires [1000,1500[ [1500,2000[ [2000,3000[ [3000,4000[ [4000,6000[ Effectifs 30 160 125 25 10 4-1 ) Représenter la courbe de Lorenz. 4-2 ) Calculer la médiane et la médiale de cette distribution. 4-3 ) Calculer l’indice de Gini. Que peut-on conclure ? Exercice 5 Démontrer la formule des triangles de l’indice de Gini à partir de la formule des trapèzes. 21