S1.3 La dispersion statistique - Perrier
Transcription
S1.3 La dispersion statistique - Perrier
S1.3 La dispersion statistique Thérèse Saint-Julien Dispersion statistique : définition On appelle dispersion statistique, la tendance qu'ont les valeurs de la distribution d'un caractère à s'étaler, à se disperser, de part et d'autre d'une valeur centrale. On distingue la dispersion absolue (mesurée dans l'unité de mesure du caractère), et la dispersion relative (mesurée par un nombre sans dimension). 1. Les mesures de la dispersion absolue Part des cadres Nombre dans le total de Arrondiss d'habitants la population ements en 1999 (en active résidente milliers) (%) Paris 1er Paris 2e Paris 3e Paris 4e Paris 5e Paris 6e Paris 7e Paris 8e Paris 9e Paris 10e Paris 11e Paris 12e Paris 13e Paris 14e Paris 15e Paris 16e Paris 17e Paris 18e Paris 19e Paris 20e 17 20 34 31 59 45 57 39 56 90 149 137 172 133 225 162 161 185 173 183 45 39 44 46 52 53 49 43 43 33 35 37 34 43 46 45 40 28 25 26 • Les paramètres de dispersion absolue indiquent de combien les valeurs d'une distribution s'écartent en général de la valeur centrale de référence. Un paramètre de dispersion absolue s'exprime toujours dans l'unité de mesure. • Les mesures de la dispersion absolue s’expriment dans l’unité de mesure de la variable considérée. Exemples: – Pour le nombre d'habitants en 1999, il s’agira de milliers d'habitants – Pour la part des cadres dans le total de la population active résidente, il s’agira de % de personnes actives occupant un emploi de cadre • Les trois paramètres de dispersion absolue les plus courants sont l'étendue, l'intervalle inter quantile, et l'écart type Année 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 1925 Pluviosité du mois de septembre (en mm) 119 170 31 35 583 422 27 254 153 133 27 760 49 201 70 90 252 300 200 158 382 186 150 630 211 160 182 98 112 61 La dispersion inter annuelle des précipitations de septembre au Mont Aigoual entre 1896 à 1925 Minimum 27 mm Maximum 760 mm Etendue 1er quartile Médiane 3ème quartile Intervalle interquartile Moyenne Variance Ecart-type 733 mm 90 mm 252 mm 162 mm 32246 179,6 mm nombre de mois de septembre 11 10 9 8 7 6 5 4 3 2 1 0 100 200 300 400 500 600 700 800 Total des précipitations en mm Année 1896 1897 1898 1899 1900 1901 1902 1903 1904 1905 1906 1907 1908 1909 1910 1911 1912 1913 1914 1915 1916 1917 1918 1919 1920 1921 1922 1923 1924 Pluviosité du mois de septembre (en mm) 119 170 31 35 583 422 27 254 153 133 27 760 49 201 70 90 252 300 200 158 382 186 150 630 211 160 182 98 112 1.1 L’étendue ou amplitude • l'étendue ou amplitude d'une distribution est égale à la différence entre la plus grande et la plus petite valeur de la distribution • : Etendue de X = Xmax - Xmin nombre de mois de septembre 11 10 9 8 7 6 5 4 3 2 1 0 100 200 300 400 500 600 700 800 Total des précipitations en mm médiane= 160 moyenne=212 1.2 La mesure de la dispersion statistique et les valeurs centrales la mesure de l'étendue exceptée, chacun des paramètres de dispersion statistique caractérise le degré de dispersion des valeurs de la distribution statistique de part et d'autre d'une valeur centrale de référence nombre d'arrondissements 4 3 2 1 < 2 0 ] ] 2 0 4 0 ] ] 4 0 6 0 ] ] 6 0 8 0 ] ] 8 0 1 0 0 ] ] 1 0 0 1 2 0 ] ] 1 2 0 1 4 0 ] ] 1 4 0 1 6 0 ] ] 1 6 0 1 8 0 ] ] 1 8 0 2 0 0 ] ] 2 0 0 2 2 0 ] ] 2 2 0 2 4 0 ] Nombre d'habitants intervalle interquantile par rapport à la médiane variance et écart-type par rapport à la moyenne nombre d'arrondissements 5 4 3 2 1 Arrondissements < 2 4 ] ] 2 4 3 0 ] ] 3 0 3 5 ] ] 3 5 4 0 ] ] 4 0 4 5 ] ] 4 5 5 0 ] ] 5 0 5 5 ] Part des emplois de cadres dans la population active résidente Médiane Moyenne Part des cadres Nombre dans la d'habitants en population 1999 (en active % milliers) 43,0 40,3 111 106 1. Mesures de la dispersion autour de la médiane Pluviosité du mois Nombre de mois de Année de septembre septembr e (en mm) 1902 1906 1898 1899 1908 1910 1911 1923 1924 1896 1905 1918 1904 1915 1921 1897 1922 1917 1914 1909 1920 1912 1903 1913 1916 1901 1900 1919 1907 27 27 31 35 49 70 90 98 112 119 133 150 153 158 160 170 182 186 200 201 211 252 254 300 382 422 583 630 760 ¾Quantiles 1. Quantiles : les quantiles sont les valeurs du caractère qui définissent les bornes d'une partition en classes d'effectifs égaux. Ces particuliers Les quartiles sont les trois valeurs qui permettent de découper la distribution en quatre classes d'effectifs égaux. On les note Xq1 , Xq2 et Xq3. 1er quartile=90 mm médiane=159 mm Partition du caractère XminÆ Xq1 Æ Xq2 Æ Xq3 Æ Xmax fréquence des éléments: 25% 25% 25% 3e quartile=252 mm 25% Remarque : Xq2 est égal à la médiane. Intervalle interquartile 162 mm ¾Quantiles 33 1er décile 65,5 2e décile 105 3e décile 2. Déciles- Les déciles sont les neufs valeurs de X qui permettent de découper la distribution en dix classes d'effectifs égaux. 0n les note Xd1...Xd9. 141,5 4e décile Etc.. 159 5e décile 184 6e décile 206 7e décile 277 8e décile 502,5 9e décile Précipitations en mm (déciles) ¾Intervalle interquantile - - L'intervalle interquartile est l'étendue de la distribution sur laquelle se trouvent concentrée la moitié des éléments dont les valeurs de X sont les plus proches de la médiane. On exclut alors de la distribution les 25% des valeurs les plus faibles et les 25 % des valeurs les plus fortes de X. Cet intervalle se note:(Xq3Xq1). L'intervalle interdécile est l'étendue de la distribution sur laquelle se trouvent concentrés 80% des éléments dont les valeurs de X sont les moins différentes de la médiane. On exclut alors de la distribution les 10 % des valeurs les plus faibles et les 10% des valeurs les plus fortes. Il se note (Xd9-Xd1). Le rapport interquantile : XQ3/XQ1; ou interdéciles : XD1/XD9 Revenus fiscaux déclarées au titre de l'année 2001 Paris Hauts de Seine Seine-Saint-Denis Val de Marne Ile de France Province revenu médian 1er décile 9e décile rapport interdécile 20147 20195 13155 17181 17982 14103 4864 6138 3658 5841 5581 5446 50961 45716 27740 36129 38912 27637 10,5 7,4 7,6 6,2 7,0 5,1 source DGI: revenus fiscaux localisés • 11 Paris 10 rapport interdécile 9 8 Seine-SaintDenis Hauts de Seine Ile de France 7 Val de Marne 6 5 4 10000 Province 12000 14000 Application du rapport inter déciles aux revenus des ménages en Ile-deFrance 16000 18000 revenu m édian 20000 22000 La position de chaque point est définie en fonction de la valaur prise par le revenu médian (abscisse) et par le rapport inter déciles (ordonnée). 2. Mesures de la dispersion autour de la moyenne 1.4 Variance, écart-type et moyenne σ 2 = 1 ∑( X i − X N i =1 n • ) 2 • σ n = 1∑ N i =1 (X − X ) 2 i • La variance de X, notée σ²x est une mesure globale de la variation d'un caractère de part et d'autre de la moyenne arithmétique (quantité d'information). Elle exprime la dispersion dans une unité de l’ordre du carré de l’unité de mesure du caractère. Pour obtenir un paramètre de dispersion absolue, on calcule la racine carrée de la variance L'écart type, noté σx est la racine carré de la moyenne des carrés des écarts à la moyenne, c'est à dire la racine carrée de la variance. Exemple de calcul de la variance et de l’écart-type nombre d'élèves Notes du professeur X Notes du Professeur X Elèves /20 écarts algébrique s à la moyenne i A B C D E F G H I moyenne somme écart-type 7 8 9 10 10 10 11 12 13 10 1,8 -3 -2 -1 0 0 0 1 2 3 0 0 1,8 Notes du Professeur Y carré des écarts algébriques (X − X ) ( X − X i 9 4 1 0 0 0 1 4 9 3 2 1 /20 écarts carré des algébrique écarts s à la algébriques moyenne (X − X ) ( X ) 2 i 0 5 9 10 10 10 11 15 20 10 28 5,3 -10 -5 -1 0 0 0 1 5 10 0 0 5,3 − X i 100 25 1 0 0 0 1 25 100 252 ) 2 D E A B C F G H I J 1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20 nombre d'élèves Notes du professeur Y 3 D 2 E 1A B C F G H I 1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20 Valeurs centrales et paramètres de dispersion pour quelques indicateurs décrivant les arrondissements de Paris Paramères de la distribution Nbr. de valeurs utilisées revenu moyen Part des Part des Part des Part Nombre communal par étrangers ouvriers cadres chômeurs d'habitants unité de dans la dans la dans la dans la en milliers consommation population population population population en 1999 en milliers % active % active % active % d'Euros 20 20 20 20 20 20 Minimum Maximum Etendue 12807 45460 32652 8 17 9 25 53 28 4 14 10 11 28 17 17 225 208 1er quartile Médiane 3ème quartile Intervalle interquartile intervalle interquartile relatif 15142 20033 25398 10256 0,51 9 11 14 4 0,41 35 43 45 11 0,25 5 7 11 6 0,78 14 17 21 8 0,48 42 111 167 125 1,12 22727 94804619 9737 7687 0,44 11 7 3 2 0,24 40 63 8 7 0,20 8 11 3 3 0,42 18 24 5 4 0,29 106 4327214 66 62 0,64 Moyenne Variance Ecart-type Ecart absolu moyen CV (écart-type/moyenne) Caractéristiques de la distribution normale Caractéristiques de la courbe Normale : 1. La variable x varie de -∞ à +∞ 2. La fonction est toujours > 0 3. L’aire sous la courbe vaut 1 4. Elle est symétrique 5. Elle atteint son maximum au point X (moyenne arithmétique) 6. Elle a une forme en « cloche » : plus on s’écarte à gauche et à droite de la moyenne arithmétique, plus la hauteur de la courbe diminue avec l’axe des abscisses comme asymptote. La signification probabiliste de l’écart-type Distribution normale 68,30% L’écart-type a l'avantage d'avoir une signification probabiliste. La théorie des probabilités permet en effet d'estimer la chance qu'a une valeur d'être éloignée de la moyenne de plus d'un certain nombre d'écarttypes. Lorsqu'une distribution est gaussienne (on dit aussi "normale") les probabilités de trouver les valeurs a une distance donnée de la moyenne sont les suivantes : 68,3% des valeurs sont entre X X − 1σ X et X X + 1σ X 95,50% 95,5% des valeurs sont entre XX −2σX et X X + 2σ X 99,7 % des valeurs sont entre X X − 3σ X 99,70% et X X + 3σ X 2. Les mesures de la dispersion relative IIQRX = IIQX X X X méd. • Eliminer l’effet de l’unité de mesure du caractère pour pouvoir comparer les degrés de dispersion de deux caractères • Deux mesures usuelles de la dispersion relative à partir de: 9 Q3 X Q1 X D1 l’intervalle interquantile: l’intervalle interquantile relatif (IIQR) On peut aussi utiliser le rapport interquantile, par exemple: D9 9 CV =σ X X l’écart-type: le coefficient de variation (CV) La dispersion statistique des revenus des ménages à Paris et dans les départements de la petite couronne REVENUS FISCAUX DES MENAGES: MEDIANES ET DECILES 11 P ar i s 60000 Paris 10 50000 40000 9 Haut s de Sei ne 30000 rapport interdécile P r ovi nc e 20000 10000 0 I l e de Fr anc e Seine-SaintDenis 8 Ile de France 7 Val de Marne 6 Province 5 Sei ne-Sai nt -Deni s 4 10000 V al de M ar ne 1er décile revenu médian Hauts de Seine 12000 14000 16000 18000 revenu m édian 9e décile Revenus fiscaux (en euros) déclarées au titre de l'année 2001 Zones géographiques revenu médian 1er décile Paris Hauts de Seine Seine-Saint-Denis Val de Marne Ile de France Province 20147 20195 13155 17181 17982 14103 4864 6138 3658 5841 5581 5446 9e rapport décile interdécile 50961 45716 27740 36129 38912 27637 10,5 7,4 7,6 6,2 7,0 5,1 20000 22000 Evolution des salaires annuels des hommes et des femmes en Ile-de-France: moyennes, médianes et déciles Mesures absolues et relatives de la dispersion statistique Arrondissements Minimum Maximum Etendue Part de s Part de s cadre s ouvrie rs dans dans la la population population active % active % 1er quartile Médiane 3ème quartile intervalle interquartile 3,9 14,3 208 5,5 7,2 11,1 5,6 24,7 53,0 28,3 34,5 43,0 45,4 11 intervalle interquartile relatif 0,78 0,25 Moyenne 8,2 40,3 Ecart-type 3,4 7,9 0,42 0,20 CV (écart-type/moyenne) • • • Pour comparer les degré de dispersion de deux distributions on a recours aux mesures de dispersion relative, et non pas les mesures de dispersion absolue. Dans l’exemple ci-contre la comparaison directe des écart-types (ou des intervalles interquartiles) pourrait, à tort, laisser croire, qu’en moyenne, les disparités introduites entre les arrondissements par le caractère «Part des cadres dans la population active » sont supérieures à celles liées au caractère « Part des ouvriers dans la population active ». Il n’en est rien. Comme l’indique la comparaison des coefficients de variation les arrondissements parisiens sont, en moyenne, beaucoup plus différents les uns des autres du fait de la part des ouvriers (cv=0,42) que de la part des cadres(cv= contre 0,2). 3. Distribution statistique et répartition géographique Montant moyen de l’impôt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution géographique montant de l'impôt par contribuable Nbre d'aires urbaines Minimum 1er quartile Médiane 3ème quartile Int. interquartile Int. interquartile relatif Maximum Etendue Moyenne CV (écarttype/moyenne) Ecart-type nombre de contribuables imposés 361 361 9609 13386 14620 15755 2369 2656 4832 8984 22354 17522 0,16 1,95 25847 16239 14718 2745058 2742402 30719 0,15 4,89 2193 149915 Forme de la distribution, dispersion et distribution géographique (dépt des Yvelines) Paramètres des distributions Densité de population part des prof. Intermédiaire densité en s dans la 1999(habitan population ts/km²) active résidente en 1999 (%) Nbr. de valeurs utilisées Minimum 1er quartile Médiane 3ème quartile Maximum Etendue Moyenne CV (écart-type/moyenne) Ecart-type d'échantillon Ecart absolu moyen 194 29 99 303 1289 6729 6700 934 1,45 1355 993 194 17 25 27 30 39 23 28 0,15 4 3 H i st og r a m m e 1,0 0,8 0,6 0,4 Résidents ayant un emploi de profession intermédiaire pour 100 emplois 0,2 0,0 29 1369 Hist o g r amme 0,400 0,350 0,300 0,250 0,200 0,150 0,100 0,050 0,000 16 20 24 28 32 36 40 2709 4049 5389 6729 Montant moyen de l’impôt et nombre de contribuables dans les aires urbaines: distribution statistique et distribution géographique: synthèse Caractéristiques des distributions géographiques Disparités entre les aires urbaines Forme de la distribution montant de l'impôt par contribuable nombre de contribuables imposés Très faibles: les aires Très fortes: les aires urbaines urbaines ont, en sont en moyenne très moyenne, tendance à se dissemblables les unes des ressembler. Les valeurs autres. Les mesures de des mesures de dispersion relative très éloignées dispersion relative de 0 voisines de 0. symétrique: méd.=moy. très dissymétrique: méd.< moy. Les aires urbaines les Les aires urbaines les plus plus nombreuses se nombreuses se concentrent concentrent autour de autour des valeurs les plus la moyenne faibles Dispersion statistique et répartition géographique Dispersion statistique et répartition géographique intensité de la Distribution dispersion statistique statistique de X Distribution géographique de X concentration avec un ordre géographique forte grandes différences des valeurs de X hétérogénéité des unités spatiales dispersion sans ordre géographique de la répartition faible grandes ressemblances des valeurs de X homogénéité des unités spatiales Les densités de population à Paris de 1861 à 1999 La répartition en 1861 Forte dispersion statistique des valeurs= forte hétérogénéité spatiale Dans ce cas, l’hétérogénéité est assortie d’un ordre spatial fort : les fortes densités concernent les quartiers des arrondissements centraux; les plus faibles concernent les quartiers les plus périphériques des arrondissements périphériques. La répartition en 1999 La dispersion statistique est plus faible mais un ordre spatial demeure. Les fortes valeurs sont le fait des quartiers nord et est. Dispersion statistique et répartition géographique dans l’exemple des arrondissements parisiens