S1.3 La dispersion statistique - Perrier

Transcription

S1.3 La dispersion statistique - Perrier
S1.3 La dispersion statistique
Thérèse Saint-Julien
Dispersion statistique : définition
On appelle dispersion statistique, la tendance qu'ont les valeurs de la
distribution d'un caractère à s'étaler, à se disperser, de part et d'autre
d'une valeur centrale.
On distingue la dispersion absolue (mesurée dans l'unité de mesure du
caractère), et la dispersion relative (mesurée par un nombre sans
dimension).
1. Les mesures de la dispersion absolue
Part des cadres
Nombre
dans le total de
Arrondiss d'habitants
la population
ements
en 1999 (en
active résidente
milliers)
(%)
Paris 1er
Paris 2e
Paris 3e
Paris 4e
Paris 5e
Paris 6e
Paris 7e
Paris 8e
Paris 9e
Paris 10e
Paris 11e
Paris 12e
Paris 13e
Paris 14e
Paris 15e
Paris 16e
Paris 17e
Paris 18e
Paris 19e
Paris 20e
17
20
34
31
59
45
57
39
56
90
149
137
172
133
225
162
161
185
173
183
45
39
44
46
52
53
49
43
43
33
35
37
34
43
46
45
40
28
25
26
•
Les paramètres de dispersion absolue indiquent
de combien les valeurs d'une distribution
s'écartent en général de la valeur centrale de
référence. Un paramètre de dispersion absolue
s'exprime toujours dans l'unité de mesure.
•
Les mesures de la dispersion absolue s’expriment
dans l’unité de mesure de la variable considérée.
Exemples:
– Pour le nombre d'habitants en 1999, il
s’agira de milliers d'habitants
– Pour la part des cadres dans le total de la
population active résidente, il s’agira de % de
personnes actives occupant un emploi de cadre
•
Les trois paramètres de dispersion absolue les
plus courants sont l'étendue, l'intervalle inter
quantile, et l'écart type
Année
1896
1897
1898
1899
1900
1901
1902
1903
1904
1905
1906
1907
1908
1909
1910
1911
1912
1913
1914
1915
1916
1917
1918
1919
1920
1921
1922
1923
1924
1925
Pluviosité
du mois de
septembre
(en mm)
119
170
31
35
583
422
27
254
153
133
27
760
49
201
70
90
252
300
200
158
382
186
150
630
211
160
182
98
112
61
La dispersion inter annuelle des
précipitations de septembre au
Mont Aigoual entre 1896 à 1925
Minimum
27 mm
Maximum
760 mm
Etendue
1er quartile
Médiane
3ème quartile
Intervalle
interquartile
Moyenne Variance
Ecart-type
733 mm
90 mm
252 mm
162 mm
32246
179,6 mm
nombre de
mois de
septembre
11
10
9
8
7
6
5
4
3
2
1
0
100
200
300
400
500
600
700
800
Total des précipitations en mm
Année
1896
1897
1898
1899
1900
1901
1902
1903
1904
1905
1906
1907
1908
1909
1910
1911
1912
1913
1914
1915
1916
1917
1918
1919
1920
1921
1922
1923
1924
Pluviosité du
mois de
septembre (en
mm)
119
170
31
35
583
422
27
254
153
133
27
760
49
201
70
90
252
300
200
158
382
186
150
630
211
160
182
98
112
1.1 L’étendue ou amplitude
•
l'étendue ou amplitude d'une distribution est égale à la
différence entre la plus grande et la plus petite valeur de la
distribution
•
:
Etendue de X = Xmax - Xmin
nombre de
mois de
septembre
11
10
9
8
7
6
5
4
3
2
1
0
100
200
300
400
500
600
700
800
Total des précipitations en mm
médiane= 160
moyenne=212
1.2 La mesure de la dispersion statistique
et les valeurs centrales
la mesure de l'étendue exceptée, chacun des
paramètres de dispersion statistique caractérise le
degré de dispersion des valeurs de la distribution
statistique de part et d'autre d'une valeur centrale de
référence
nombre
d'arrondissements
4
3
2
1
<
2
0
]
]
2
0
4
0
]
]
4
0
6
0
]
]
6
0
8
0
]
]
8
0
1
0
0
]
]
1
0
0
1
2
0
]
]
1
2
0
1
4
0
]
]
1
4
0
1
6
0
]
]
1
6
0
1
8
0
]
]
1
8
0
2
0
0
]
]
2
0
0
2
2
0
]
]
2
2
0
2
4
0
]
Nombre
d'habitants
intervalle interquantile par rapport à la médiane
variance et écart-type par rapport à la moyenne
nombre
d'arrondissements
5
4
3
2
1
Arrondissements
<
2
4
]
]
2
4
3
0
]
]
3
0
3
5
]
]
3
5
4
0
]
]
4
0
4
5
]
]
4
5
5
0
]
]
5
0
5
5
]
Part des emplois de
cadres dans la
population active
résidente
Médiane
Moyenne
Part des cadres
Nombre
dans la
d'habitants en
population
1999 (en
active %
milliers)
43,0
40,3
111
106
1. Mesures de la dispersion autour de la médiane
Pluviosité
du mois
Nombre de mois de
Année
de
septembre
septembr
e (en mm)
1902
1906
1898
1899
1908
1910
1911
1923
1924
1896
1905
1918
1904
1915
1921
1897
1922
1917
1914
1909
1920
1912
1903
1913
1916
1901
1900
1919
1907
27
27
31
35
49
70
90
98
112
119
133
150
153
158
160
170
182
186
200
201
211
252
254
300
382
422
583
630
760
¾Quantiles
1. Quantiles : les quantiles sont les valeurs
du caractère qui définissent les bornes
d'une partition en classes d'effectifs
égaux.
Ces particuliers
Les quartiles sont les trois valeurs qui
permettent de découper la distribution
en quatre classes d'effectifs égaux. On
les note Xq1 , Xq2 et Xq3.
1er quartile=90 mm
médiane=159 mm
Partition du caractère
XminÆ Xq1
Æ Xq2 Æ Xq3 Æ Xmax
fréquence des éléments: 25%
25%
25%
3e quartile=252 mm
25%
Remarque : Xq2 est égal à la médiane.
Intervalle
interquartile
162 mm
¾Quantiles
33
1er décile
65,5
2e décile
105
3e décile
2. Déciles- Les déciles sont les
neufs valeurs de X qui
permettent de découper la
distribution en dix classes
d'effectifs égaux. 0n les
note Xd1...Xd9.
141,5
4e décile
Etc..
159
5e décile
184
6e décile
206
7e décile
277
8e décile
502,5
9e décile
Précipitations
en mm (déciles)
¾Intervalle interquantile
-
-
L'intervalle interquartile est l'étendue de la distribution sur
laquelle se trouvent concentrée la moitié des éléments dont les
valeurs de X sont les plus proches de la médiane. On exclut alors
de la distribution les 25% des valeurs les plus faibles et les 25
% des valeurs les plus fortes de X. Cet intervalle se note:(Xq3Xq1).
L'intervalle interdécile est l'étendue de la distribution sur
laquelle se trouvent concentrés 80% des éléments dont les
valeurs de X sont les moins différentes de la médiane. On exclut
alors de la distribution les 10 % des valeurs les plus faibles et
les 10% des valeurs les plus fortes. Il se note (Xd9-Xd1).
Le rapport interquantile : XQ3/XQ1; ou interdéciles :
XD1/XD9
Revenus fiscaux déclarées au titre de l'année 2001
Paris
Hauts de Seine
Seine-Saint-Denis
Val de Marne
Ile de France
Province
revenu
médian
1er décile
9e décile
rapport
interdécile
20147
20195
13155
17181
17982
14103
4864
6138
3658
5841
5581
5446
50961
45716
27740
36129
38912
27637
10,5
7,4
7,6
6,2
7,0
5,1
source DGI: revenus fiscaux localisés
•
11
Paris
10
rapport interdécile
9
8
Seine-SaintDenis
Hauts de Seine
Ile de France
7
Val de Marne
6
5
4
10000
Province
12000
14000
Application du rapport
inter déciles aux revenus
des ménages en Ile-deFrance
16000
18000
revenu m édian
20000
22000
La position de chaque point est
définie en fonction de la valaur
prise par le revenu médian
(abscisse) et par le rapport inter
déciles (ordonnée).
2. Mesures de la dispersion autour de la moyenne
1.4 Variance, écart-type et moyenne
σ
2
= 1 ∑( X i − X
N i =1
n
•
)
2
•
σ
n
= 1∑
N i =1
(X − X )
2
i
•
La variance de X, notée σ²x est une mesure
globale de la variation d'un caractère de part et
d'autre de la moyenne arithmétique (quantité
d'information). Elle exprime la dispersion dans
une unité de l’ordre du carré de l’unité de
mesure du caractère.
Pour obtenir un paramètre de dispersion
absolue, on calcule la racine carrée de la
variance
L'écart type, noté σx est la racine carré de la
moyenne des carrés des écarts à la moyenne,
c'est à dire la racine carrée de la variance.
Exemple de calcul de la variance et de l’écart-type
nombre
d'élèves
Notes du professeur X
Notes du Professeur X
Elèves
/20
écarts
algébrique
s à la
moyenne
i
A
B
C
D
E
F
G
H
I
moyenne
somme
écart-type
7
8
9
10
10
10
11
12
13
10
1,8
-3
-2
-1
0
0
0
1
2
3
0
0
1,8
Notes du Professeur Y
carré des
écarts
algébriques
(X − X ) ( X
− X
i
9
4
1
0
0
0
1
4
9
3
2
1
/20
écarts
carré des
algébrique
écarts
s à la
algébriques
moyenne
(X − X ) ( X
)
2
i
0
5
9
10
10
10
11
15
20
10
28
5,3
-10
-5
-1
0
0
0
1
5
10
0
0
5,3
− X
i
100
25
1
0
0
0
1
25
100
252
)
2
D
E
A B C F G H I J
1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20
nombre
d'élèves
Notes du professeur Y
3
D
2
E
1A
B
C F G
H
I
1 2 3 4 5 6 7 8 9 10 11 12 13 14 14 16 17 18 19 20
Valeurs centrales et paramètres de dispersion pour
quelques indicateurs décrivant les arrondissements de
Paris
Paramères de la distribution
Nbr. de valeurs utilisées
revenu moyen
Part des Part des
Part des
Part
Nombre
communal par
étrangers
ouvriers
cadres
chômeurs
d'habitants
unité de
dans la
dans la
dans la
dans la
en milliers
consommation
population population population population
en 1999
en milliers
%
active %
active % active %
d'Euros
20
20
20
20
20
20
Minimum
Maximum
Etendue
12807
45460
32652
8
17
9
25
53
28
4
14
10
11
28
17
17
225
208
1er quartile
Médiane
3ème quartile
Intervalle interquartile
intervalle interquartile relatif
15142
20033
25398
10256
0,51
9
11
14
4
0,41
35
43
45
11
0,25
5
7
11
6
0,78
14
17
21
8
0,48
42
111
167
125
1,12
22727
94804619
9737
7687
0,44
11
7
3
2
0,24
40
63
8
7
0,20
8
11
3
3
0,42
18
24
5
4
0,29
106
4327214
66
62
0,64
Moyenne
Variance
Ecart-type
Ecart absolu moyen
CV (écart-type/moyenne)
Caractéristiques de la distribution normale
Caractéristiques de la courbe Normale :
1. La variable x varie de -∞ à +∞
2. La fonction est toujours > 0
3. L’aire sous la courbe vaut 1
4. Elle est symétrique
5. Elle atteint son maximum au point X (moyenne arithmétique)
6. Elle a une forme en « cloche » : plus on s’écarte à gauche et à droite de la
moyenne arithmétique, plus la hauteur de la courbe diminue avec l’axe des
abscisses comme asymptote.
La signification probabiliste
de l’écart-type
Distribution normale
68,30%
L’écart-type a l'avantage d'avoir une
signification probabiliste. La théorie des
probabilités permet en effet d'estimer la
chance qu'a une valeur d'être éloignée de la
moyenne de plus d'un certain nombre d'écarttypes.
Lorsqu'une distribution est gaussienne (on dit
aussi "normale") les probabilités de trouver
les valeurs a une distance donnée de la
moyenne sont les suivantes :
68,3% des valeurs sont entre X X − 1σ X
et
X X + 1σ X
95,50%
95,5% des valeurs sont entre XX −2σX
et X X + 2σ X
99,7 % des valeurs sont entre
X X − 3σ X
99,70%
et X X + 3σ X
2. Les mesures de la
dispersion relative
IIQRX = IIQX
X
X
X méd.
•
Eliminer l’effet de l’unité de
mesure du caractère pour
pouvoir comparer les degrés de
dispersion de deux caractères
•
Deux mesures usuelles de la
dispersion relative à partir de:
9
Q3
X
Q1
X
D1
l’intervalle interquantile:
l’intervalle interquantile relatif
(IIQR)
On peut aussi utiliser le rapport
interquantile, par exemple:
D9
9
CV
=σ
X
X
l’écart-type: le coefficient de
variation (CV)
La dispersion statistique des revenus des ménages à Paris
et dans les départements de la petite couronne
REVENUS FISCAUX DES MENAGES: MEDIANES ET DECILES
11
P ar i s
60000
Paris
10
50000
40000
9
Haut s de Sei ne
30000
rapport interdécile
P r ovi nc e
20000
10000
0
I l e de Fr anc e
Seine-SaintDenis
8
Ile de France
7
Val de Marne
6
Province
5
Sei ne-Sai nt -Deni s
4
10000
V al de M ar ne
1er décile
revenu médian
Hauts de Seine
12000
14000
16000
18000
revenu m édian
9e décile
Revenus fiscaux (en euros) déclarées au titre de
l'année 2001
Zones
géographiques
revenu
médian
1er
décile
Paris
Hauts de Seine
Seine-Saint-Denis
Val de Marne
Ile de France
Province
20147
20195
13155
17181
17982
14103
4864
6138
3658
5841
5581
5446
9e
rapport
décile interdécile
50961
45716
27740
36129
38912
27637
10,5
7,4
7,6
6,2
7,0
5,1
20000
22000
Evolution des salaires
annuels des hommes et des
femmes en Ile-de-France:
moyennes, médianes et
déciles
Mesures absolues et relatives de la dispersion statistique
Arrondissements
Minimum
Maximum
Etendue
Part de s
Part de s cadre s
ouvrie rs dans
dans la
la population
population
active %
active %
1er quartile
Médiane
3ème quartile
intervalle interquartile
3,9
14,3
208
5,5
7,2
11,1
5,6
24,7
53,0
28,3
34,5
43,0
45,4
11
intervalle interquartile
relatif
0,78
0,25
Moyenne
8,2
40,3
Ecart-type
3,4
7,9
0,42
0,20
CV (écart-type/moyenne)
•
•
•
Pour comparer les degré de dispersion de deux
distributions on a recours aux mesures de
dispersion relative, et non pas les mesures de
dispersion absolue.
Dans l’exemple ci-contre la comparaison directe
des écart-types (ou des intervalles interquartiles)
pourrait, à tort, laisser croire, qu’en moyenne, les
disparités introduites entre les arrondissements
par le caractère «Part des cadres dans la
population active » sont supérieures à celles
liées au caractère « Part des ouvriers dans la
population active ». Il n’en est rien.
Comme l’indique la comparaison des
coefficients de variation les arrondissements
parisiens sont, en moyenne, beaucoup plus
différents les uns des autres du fait de la part des
ouvriers (cv=0,42) que de la part des cadres(cv=
contre 0,2).
3. Distribution statistique et répartition
géographique
Montant moyen de l’impôt et nombre de contribuables dans les
aires urbaines: distribution statistique et distribution
géographique
montant de
l'impôt par
contribuable
Nbre d'aires
urbaines
Minimum
1er quartile
Médiane
3ème quartile
Int. interquartile
Int. interquartile
relatif
Maximum
Etendue
Moyenne
CV (écarttype/moyenne)
Ecart-type
nombre de
contribuables
imposés
361
361
9609
13386
14620
15755
2369
2656
4832
8984
22354
17522
0,16
1,95
25847
16239
14718
2745058
2742402
30719
0,15
4,89
2193
149915
Forme de la distribution, dispersion et
distribution géographique (dépt des Yvelines)
Paramètres des distributions
Densité de population
part des
prof.
Intermédiaire
densité en
s dans la
1999(habitan
population
ts/km²)
active
résidente en
1999 (%)
Nbr. de valeurs utilisées
Minimum
1er quartile
Médiane
3ème quartile
Maximum
Etendue
Moyenne
CV (écart-type/moyenne)
Ecart-type d'échantillon
Ecart absolu moyen
194
29
99
303
1289
6729
6700
934
1,45
1355
993
194
17
25
27
30
39
23
28
0,15
4
3
H i st og r a m m e
1,0
0,8
0,6
0,4
Résidents ayant un
emploi de profession
intermédiaire pour
100 emplois
0,2
0,0
29
1369
Hist o g r amme
0,400
0,350
0,300
0,250
0,200
0,150
0,100
0,050
0,000
16
20
24
28
32
36
40
2709
4049
5389
6729
Montant moyen de l’impôt et nombre de contribuables
dans les aires urbaines: distribution statistique et
distribution géographique: synthèse
Caractéristiques
des distributions
géographiques
Disparités entre
les aires urbaines
Forme de la
distribution
montant de l'impôt
par contribuable
nombre de contribuables
imposés
Très faibles: les aires
Très fortes: les aires urbaines
urbaines ont, en
sont en moyenne très
moyenne, tendance à se
dissemblables les unes des
ressembler. Les valeurs
autres. Les mesures de
des mesures de
dispersion relative très éloignées
dispersion relative
de 0
voisines de 0.
symétrique: méd.=moy. très dissymétrique: méd.< moy.
Les aires urbaines les
Les aires urbaines les plus
plus nombreuses se
nombreuses se concentrent
concentrent autour de
autour des valeurs les plus
la moyenne
faibles
Dispersion statistique et répartition géographique
Dispersion statistique et répartition géographique
intensité de la
Distribution
dispersion statistique statistique de X
Distribution géographique de X
concentration
avec un ordre géographique
forte
grandes
différences des
valeurs de X
hétérogénéité des
unités spatiales
dispersion
sans ordre géographique de
la répartition
faible
grandes
ressemblances des
valeurs de X
homogénéité des
unités spatiales
Les densités de population à Paris de 1861 à 1999
La répartition en 1861
Forte dispersion statistique des
valeurs= forte hétérogénéité
spatiale
Dans ce cas, l’hétérogénéité est
assortie d’un ordre spatial
fort : les fortes densités
concernent les quartiers des
arrondissements centraux; les
plus faibles concernent les
quartiers les plus
périphériques des
arrondissements
périphériques.
La répartition en 1999
La dispersion statistique est
plus faible mais un ordre
spatial demeure. Les fortes
valeurs sont le fait des
quartiers nord et est.
Dispersion statistique et répartition géographique dans
l’exemple des arrondissements parisiens