Chapitre 2. Caractéristiques des distributions à une variable

Transcription

Chapitre 2. Caractéristiques des distributions à une variable
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Chapitre 2. Caractéristiques des distributions à
une variable quantitative
Jean-François Coeurjolly
http://www-ljk.imag.fr/membres/Jean-Francois.Coeurjolly/
Laboratoire Jean Kuntzmann (LJK), Grenoble University
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Objectif général de ce chapitre
Objectif : calculer des caractéristiques permettant de
résumer les tableaux et graphiques.
Trois catégories de caractéristiques :
1
2
3
Tendance centrale
Dispersion
Concentration
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
1
Caractéristiques de tendance centrale
Mode
Médiane
Quantiles d’ordre quelconque
Moyenne
Synthèse : quelles caractéristiques pour résumer une série ?
Complément : méthode du “shift and share”
2
Caractéristiques de dispersion
Etendue (intervalle de variation)
Ecarts interquantiles
Ecart absolu
Ecart-type et variance
Comparaison de séries statistiques et synthèse
3
Caractéristiques de concentration
Courbe de Lorentz
Indice de Gini
Médiale
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Mode
Mode d’une variable statistique
Définition
Le mode (ou classe modale) est la valeur (ou la classe) pour
laquelle les individus sont le plus représentés.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Mode
Mode d’une variable statistique
Définition
Le mode (ou classe modale) est la valeur (ou la classe) pour
laquelle les individus sont le plus représentés.
Calcul du mode :
variable discrète : modalité présentant le plus grand effectif (ou
plus grande fréquence).
variable continue : on cherche d’abord la classe ayant la plus
grande densité : c’est la classe modale. Le mode peut ensuite
être défini (par exemple comme le centre de cette classe).
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Mode
Mode d’une variable statistique
Définition
Le mode (ou classe modale) est la valeur (ou la classe) pour
laquelle les individus sont le plus représentés.
Calcul du mode :
variable discrète : modalité présentant le plus grand effectif (ou
plus grande fréquence).
variable continue : on cherche d’abord la classe ayant la plus
grande densité : c’est la classe modale. Le mode peut ensuite
être défini (par exemple comme le centre de cette classe).
Remarques :
pour une var. continue, en général on ne donne que la classe
modale.
Une série peut avoir plusieurs modes (en présence de maxima
locaux de fréquence ou densité selon le type de variable) ; on
parle de série plurimodale.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Mode
0.30
0.25
●
●
0.20
fréquence
0.35
●
0.15
0.10
Exemple Nbre pers./voiture
xi
fi
1
10%
2
25%
3
40%
4
25%
Total
100%
0.40
Application numérique sur deux exemples
●
1.0
1.5
2.0
2.5
3.0
3.5
4.0
30
20
% par tranche de 800 euros
10
0
Revenu des ménages français
xi
fi
di
(en euros)
(/tr. de 800e)
[0, 1600[
45%
22.5%
[1600, 2400[
35%
35%
[2400, 3200[
20%
20%
Total
100%
×
40
nombre de personnes/voiture
0
500
1000
1500
2000
Revenu en euros
2500
3000
3500
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane - définition
Définition
La médiane est la valeur de la série (i.e. une modalité) qui
partage la série en deux sous-ensembles de même effectif (ou de
même fréquence).
BIl faut distinguer deux cas :
1
les données sont observés de manière brute.
[le plus souvent une variable discrète]
2
les données sont regroupées en classes.
[le plus souvent une variable continue]
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (2) - données brutes
Deux cas possibles en fonction du caractère pair ou impair de la
taille de l’échantillon n :
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (2) - données brutes
Deux cas possibles en fonction du caractère pair ou impair de la
taille de l’échantillon n :
1
n est impair : la médiane de la série de n = 5 âges : 17, 9,
19, 25, 21 est
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (2) - données brutes
Deux cas possibles en fonction du caractère pair ou impair de la
taille de l’échantillon n :
1
n est impair : la médiane de la série de n = 5 âges : 17, 9,
19, 25, 21 est Me = 19 (ans) .
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (2) - données brutes
Deux cas possibles en fonction du caractère pair ou impair de la
taille de l’échantillon n :
1
2
n est impair : la médiane de la série de n = 5 âges : 17, 9,
19, 25, 21 est Me = 19 (ans) .
n est pair : la médiane de la série de n = 4 âges : 17, 9, 19,
25 est entre 17 et 19
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (2) - données brutes
Deux cas possibles en fonction du caractère pair ou impair de la
taille de l’échantillon n :
1
2
n est impair : la médiane de la série de n = 5 âges : 17, 9,
19, 25, 21 est Me = 19 (ans) .
n est pair : la médiane de la série de n = 4 âges : 17, 9, 19,
25 est entre 17 et 19⇒ Me = (17 + 19)/2 = 18 (ans)
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (2) - données brutes
Deux cas possibles en fonction du caractère pair ou impair de la
taille de l’échantillon n :
1
2
n est impair : la médiane de la série de n = 5 âges : 17, 9,
19, 25, 21 est Me = 19 (ans) .
n est pair : la médiane de la série de n = 4 âges : 17, 9, 19,
25 est entre 17 et 19⇒ Me = (17 + 19)/2 = 18 (ans)
Formule générale : Soient x1 , . . . , xn les valeurs de la série et
soient x(1) , x(2) , . . . , x(n) les versions ordonnées, i.e.
x(1) ≤ x(2) ≤ . . . ≤ x(n) alors
(
x((n+1)/2)
si n est impair,
Me = x(n/2) +x(n/2+1)
si n est pair.
2
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane - données brutes (2)
Quelle est la médiane de la série statistique suivante ?
Exemple nb personnes/voiture
xi
ni
fi
Fi
1
40
10%
10%
2
100 25%
35%
3
160 40%
75%
4
100 25%
100%
Total 400 100%
×
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane - données brutes (2)
Quelle est la médiane de la série statistique suivante ?
Exemple nb personnes/voiture
xi
ni
fi
Fi
1
40
10%
10%
2
100 25%
35%
3
160 40%
75%
4
100 25%
100%
Total 400 100%
×
n = 400 est pair ⇒ il faut donc repérer la 200 -ème et
201 -ème observation dans la liste des observations
ordonnées.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane - données brutes (2)
Quelle est la médiane de la série statistique suivante ?
Exemple nb personnes/voiture
xi
ni
fi
Fi
1
40
10%
10%
2
100 25%
35%
3
160 40%
75%
4
100 25%
100%
Total 400 100%
×
n = 400 est pair ⇒ il faut donc repérer la 200 -ème et
201 -ème observation dans la liste des observations
ordonnées.
x(200) = 3 , x(201) = 3 ⇒ Me =
3+3
2
= 3 (pers./voiture)
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (3) - données regroupées
Exemple du revenu
xi (en e)
ni (×106 )
[0, 1600[
9
[1600, 2400[
7
[2400, 3200[
4
Total
20
ménages
fi
Fi
45%
45%
35%
80%
20% 100%
100%
×
Dans le cas où les données sont regroupées en classes, il faut
suivre deux étapes :
1
repérer la classe médiane , i.e. la classe contenant la
médiane.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (3) - données regroupées
Exemple du revenu
xi (en e)
ni (×106 )
[0, 1600[
9
[1600, 2400[
7
[2400, 3200[
4
Total
20
ménages
fi
Fi
45%
45%
35%
80%
20% 100%
100%
×
Dans le cas où les données sont regroupées en classes, il faut
suivre deux étapes :
1
repérer la classe médiane , i.e. la classe contenant la
médiane.
Ici, 45% des ménage ont un revenu < 1600eet 80% des
ménages ont un revenu < 2400e
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
Médiane (3) - données regroupées
Exemple du revenu
xi (en e)
ni (×106 )
[0, 1600[
9
[1600, 2400[
7
[2400, 3200[
4
Total
20
ménages
fi
Fi
45%
45%
35%
80%
20% 100%
100%
×
Dans le cas où les données sont regroupées en classes, il faut
suivre deux étapes :
1
repérer la classe médiane , i.e. la classe contenant la
médiane.
Ici, 45% des ménage ont un revenu < 1600eet 80% des
ménages ont un revenu < 2400e⇒ Me ∈]1600, 2400[
2
estimer la médiane par interpolation linéaire .
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
1.0
Médiane (4) - interpolation linéaire
0.8
●
0.6
●
Fi
A quoi correspond la médiane sur
ce graphique ?
0.0
0.2
0.4
●
●
0
500
1000
1500
revenu
2000
2500
3000
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
1.0
Médiane (5) - interpolation linéaire
0.8
●
Graphiquement : la médiane
correspond à l’abscisse du point
d’intersection entre la courbe des
(xi , Fi ) et la droite horizontale
d’équation y = 50%.
0.6
●
Fi
(Me,50%)
●
0.0
0.2
0.4
●
●
0
500
1000
1500
2000
2500
3000
revenu
⇒ Formule générale : soit ]xi , xi+1 [ la classe médiane et soient
Fi et Fi+1 les fréquences cumulées évaluées en xi et xi+1 , alors
Me = xi +
50% − Fi
× (xi+1 − xi )
Fi+1 − Fi
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
1.0
Médiane (5) - interpolation linéaire
0.8
●
Graphiquement : la médiane
correspond à l’abscisse du point
d’intersection entre la courbe des
(xi , Fi ) et la droite horizontale
d’équation y = 50%.
0.6
●
Fi
(Me,50%)
●
0.0
0.2
0.4
●
●
0
500
1000
1500
2000
2500
3000
revenu
Application numérique :
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
1.0
Médiane (5) - interpolation linéaire
0.8
●
Graphiquement : la médiane
correspond à l’abscisse du point
d’intersection entre la courbe des
(xi , Fi ) et la droite horizontale
d’équation y = 50%.
0.6
●
Fi
(Me,50%)
●
0.0
0.2
0.4
●
●
0
500
1000
1500
2000
2500
3000
revenu
Application numérique :
xi = 1600, xi+1 = 2400, Fi = 45%, Fi+1 = 80%.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiane
1.0
Médiane (5) - interpolation linéaire
0.8
●
Graphiquement : la médiane
correspond à l’abscisse du point
d’intersection entre la courbe des
(xi , Fi ) et la droite horizontale
d’équation y = 50%.
0.6
●
Fi
(Me,50%)
●
0.0
0.2
0.4
●
●
0
500
1000
1500
2000
2500
3000
revenu
Application numérique :
xi = 1600, xi+1 = 2400, Fi = 45%, Fi+1 = 80%.
Me = 1600 +
50%−45%
80%−45%
× (2400 − 1600) ' 1714.28 e.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Quantiles d’ordre quelconque
Quantile
Définition
Un quantile d’ordre α (pour α ∈ (0, 1)) notée en toute généralité Qα
est la valeur qui partage la série en deux sous-ensembles ; une
proportion α se situe en dessous de Qα et une proportion 1 − α
au-dessus strictement de Qα .
Remarques :
Me = Q50% .
Quartiles (notés Q1 , Q2 , Q3 ) : quantiles qui séparent la série en 4
sous-ensembles de même effectif/fréquence. Plus précisément
Q1 = Q25% , Q2 = Me, Q3 = Q75% .
Déciles (notés D1 , D2 , . . . , D9 ) : quantiles qui séparent la série en
10 sous-ensembes de même fréquence. Plus précisément
D1 = Q10% , D2 = Q20% , . . . , D9 = Q90% .
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Quantiles d’ordre quelconque
Quantile (2)
Les quantiles se calculent de manière similaire à la médiane.
Ainsi pour des données regroupées on a : si Qα ∈]xi , xi+1 [
Qα = xi +
α − Fi
× (xi+1 − xi )
Fi+1 − Fi
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Quantiles d’ordre quelconque
Quantile (2)
Les quantiles se calculent de manière similaire à la médiane.
Ainsi pour des données regroupées on a : si Qα ∈]xi , xi+1 [
Qα = xi +
α − Fi
× (xi+1 − xi )
Fi+1 − Fi
Calculez le premier quartile de la série suivante
Exemple du revenu ménages
xi (en e)
ni (×106 )
fi
Fi
[0, 1600[
9
45%
45%
[1600, 2400[
7
35%
80%
[2400, 3200[
4
20%
100%
Total
20
100%
×
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Quantiles d’ordre quelconque
Quantile (2)
Les quantiles se calculent de manière similaire à la médiane.
Ainsi pour des données regroupées on a : si Qα ∈]xi , xi+1 [
Qα = xi +
α − Fi
× (xi+1 − xi )
Fi+1 − Fi
Calculez le premier quartile de la série suivante
Exemple du revenu ménages
xi (en e)
ni (×106 )
fi
Fi
[0, 1600[
9
45%
45%
[1600, 2400[
7
35%
80%
[2400, 3200[
4
20%
100%
Total
20
100%
×
Q1 ∈]0, 1600[
Q1 = 0 +
888.89e.
25%−0
45%−0 (1600
− 0) '
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne - introduction
Il y a plusieurs types de moyenne dépendant essentiellement du
problème considéré
1
Moyenne arithmétique [la plus connue et la plus standard]
2
Moyenne géométrique [utilisée par exemple pour calculer
des taux moyens]
3
Moyenne harmonique [utilisée pour calculer des moyennes
de ratios]
4
Moyenne quadratique [moyenne de carrés, notion moins
utilisée]
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne arithmétique (pondérée)
Définition
Soit xi (i = 1, . . . , p) les modalités d’une série brute, d’effectifs
ni (i = 1, . . . , p) et fréquence fi , la moyenne arithmétique
pondérée notée x est donnée par
x=
p
p
X
1X
ni
ni xi =
fi xi car fi = .
n i=1
n
i=1
BSi les données sont regroupées en classes, les xi ne sont en
général pas observées. Ces valeurs sont alors remplacées par les
centres de classes, notés ci pour i = 1, . . . , p.
lorsque le nombre de modalités (ou nombre de classes) est grand,
il devient intéressant d’utiliser la calculatrice (rentrer les données
sous forme d’un tableau, configurer de manière appropriée et
demander des résultats univariés).
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne arithmétique : exemple covoiturage
Calculez la moyenne de la série
Exemple nb personnes/voiture
xi
ni
fi
Fi
1
40
10%
10%
2
100 25%
35%
3
160 40%
75%
4
100 25%
100%
Total 400 100%
×
Application :
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne arithmétique : exemple covoiturage
Calculez la moyenne de la série
Exemple nb personnes/voiture
xi
ni
fi
Fi
1
40
10%
10%
2
100 25%
35%
3
160 40%
75%
4
100 25%
100%
Total 400 100%
×
Application :
x=
40 ∗ 1 + 100 ∗ 2 + 160 ∗ 3 + 100 ∗ 4
= 2.8 pers./voiture.
400
(Remarque : 10% ∗ 1 + 25% ∗ 2 + 40%3 + 25% ∗ 4 = 2.8)
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne arithmétique : exemple revenu des ménages
Calculez la moyenne de la série
Exemple du revenu ménages
xi (en e)
ci
ni (×106 )
fi
[0, 1600[
800
9
45%
[1600, 2400[ 2000
7
35%
[2400, 3200[ 2800
4
20%
Total
×
20
100%
Application :
Fi
45%
80%
100%
×
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne arithmétique : exemple revenu des ménages
Calculez la moyenne de la série
Exemple du revenu ménages
xi (en e)
ci
ni (×106 )
fi
[0, 1600[
800
9
45%
[1600, 2400[ 2000
7
35%
[2400, 3200[ 2800
4
20%
Total
×
20
100%
Fi
45%
80%
100%
×
Application :
x=
9 ∗ 800 + 7 ∗ 2000 + 4 ∗ 2800
= 1620 e.
20
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Propriétés de la moyenne arithmétique
1
La somme des écarts (pondérés) à la moyenne est nulle,
c-a-d
p
X
ni (xi − x ) = 0
i=1
Preuve :
p
X
i=1
ni (xi − x ) =
p
X
i=1
 p

X 

ni xi −  ni  x = nx − nx = 0.
i=1
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Propriétés de la moyenne arithmétique
1
La somme des écarts (pondérés) à la moyenne est nulle,
c-a-d
p
X
ni (xi − x ) = 0
i=1
2
Considérons une population P d’effectif total n composée
de k sous-populations P1 , . . . , Pk d’effectifs n1 , . . . , nk (donc
n = n1 + . . . + nk ). Notons x 1 , . . . , x k les moyennes
arithmétiques des sous-populations P1 , . . . , Pk alors
x=
n1 x1 + . . . + nk xk
.
n
“la moyenne globale est égale à la moyenne pondérée des
moyennes”
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
“Moyenne globale = moyenne pondérée des moyennes”
Ex : salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez la moyenne de la
série Ensemble de deux
façons différentes :
xi (en e)
[0, 1500[
[1500, 3000[
Total
Méthode 1 (méthode directe) :
ci
750
2250
×
ni,H
70
130
200
ni,F
60
40
100
ni,E
130
170
300
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
“Moyenne globale = moyenne pondérée des moyennes”
Ex : salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez la moyenne de la
série Ensemble de deux
façons différentes :
xi (en e)
[0, 1500[
[1500, 3000[
Total
ci
750
2250
×
ni,H
70
130
200
ni,F
60
40
100
Méthode 1 (méthode directe) :
xE =
1
(750 × 130 + 2250 × 170) = 1600e.
300
ni,E
130
170
300
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
“Moyenne globale = moyenne pondérée des moyennes”
Ex : salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez la moyenne de la
série Ensemble de deux
façons différentes :
xi (en e)
[0, 1500[
[1500, 3000[
Total
ci
750
2250
×
ni,H
70
130
200
ni,F
60
40
100
ni,E
130
170
300
Méthode 1 (méthode directe) :
1
(750 × 130 + 2250 × 170) = 1600e.
300
Méthode 2 (en utilisant la propriété précédente) :
xE =
1
(750 × 70 + 2250 × 130) = 1725e.
200
1
(750 × 60 + 2250 × 40) = 1350e.
=
100
1
1
(200 × x H + 100 × x F ) =
(200 × 1725 + 100 × 1350) = 1600e.
=
300
300
xH =
xF
xE
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne géométrique
Une action en bourse a évolué à la hausse de 10% l’année 1,
puis a diminué de 5% l’année 2 et de 5% l’année 3.
Question : Quel est le taux moyen (noté tmoy ) d’évolution
de cette action sur les trois années ?
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne géométrique
Une action en bourse a évolué à la hausse de 10% l’année 1,
puis a diminué de 5% l’année 2 et de 5% l’année 3.
Question : Quel est le taux moyen (noté tmoy ) d’évolution
de cette action sur les trois années ?
B
tmoy , 0 ! ! !
La moyenne géométrique est le taux qui, appliqué
durant les trois années donnera le même capital final selon
l’évolution décrite précédemment.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne géométrique (2)
Soit C0 le capital initial et soient C1 , C2 , C3 les capitaux après
1,2 ou 3 années. On a
selon l’énoncé C1 = (1 + 10%)C0 , C2 = (1 − 5%)C1 et
C3 = (1 − 5%)C2 , c-a-d
C3 = (1 + 10%)(1 − 5%)(1 − 5%)C0 .
selon la définition du taux moyen : C1 = (1 + tmoy )C0 ,
C2 = (1 + tmoy )C1 et C3 = (1 + tmoy )C2 , c-a-d
C3 = (1 + tmoy )3 C0 .
Par identification des deux identités, il vient que pour tout
capital initial C0
(1 + 10%)(1 − 5%)(1 − 5%) = (1 + tmoy )3
⇐⇒
tmoy = (1 + 10%)(1 − 5%)(1 − 5%) 1/3 − 1.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne géométrique (3)
Définition
Soit la série statistique x1 , . . . , xp d’effectif n1 , . . . , np alors la
moyenne géométrique notée en général x G est définie par
xG =
où n = n1 + . . . + np .
x1n1
×
x2n2
× ... ×
n
xp p
!1/n
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne harmonique
Elle permet de calculer des moyennes de ratios.
Exemple : Un coureur monte une côte de 1km à la vitesse
de 10km/h et descend cette même côte à la vitesse de
30km/h.
Question : Quelle est la vitesse moyenne du coureur ?
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne harmonique
Elle permet de calculer des moyennes de ratios.
Exemple : Un coureur monte une côte de 1km à la vitesse
de 10km/h et descend cette même côte à la vitesse de
30km/h.
Question : Quelle est la vitesse moyenne du coureur ?
vmoy , 20 km/h ! !
car il a passé plus de temps à 10km/h qu’à 30km/h.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne harmonique
Elle permet de calculer des moyennes de ratios.
Exemple : Un coureur monte une côte de 1km à la vitesse
de 10km/h et descend cette même côte à la vitesse de
30km/h.
Question : Quelle est la vitesse moyenne du coureur ?
vmoy , 20 km/h ! !
car il a passé plus de temps à 10km/h qu’à 30km/h.
On cherche vmoy telle que la somme des temps passés à la
montée et la descente soit égal au temps passé à la vitesse
vmoy :
1
1
2
tmontée = 10
, tdesc. = 30
, tv moy = vmoy
⇐⇒
2
vmoy
=
1
10
+
1
30
⇐⇒ vmoy =
2
1
1
10 + 30
= 15 km/h.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Moyenne
Moyenne harmonique (2)
Définition
Soit la série statistique x1 , . . . , xp d’effectif n1 , . . . , np alors la
moyenne harmonique notée en général x H est définie par
xH =
où n = n1 + . . . + np .
n1
x1
n
+ ... +
np
xp
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Synthèse : quelles caractéristiques pour résumer une série ?
Synthèse
Mode(s), médiane, moyenne(s) : quel(s) indicateur(s)
utiliser pour résumer une série et en donner des tendances
centrales ?
Cela dépend de la “forme” générale de la série statistique
étudiée selon qu’elle soit :
plurimodale,
symétrique,
asymétrique.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Synthèse : quelles caractéristiques pour résumer une série ?
Afin de résumer cette série . . .
. . . quel est l’indicateur pertinent ?
Salaires xi
en e
[0, 4000[
[4000, 8000[
[28000, 32000[
ci
ni
ai
(1 u.a. 4000e)
2000
16000
30000
45
10
45
1
6
1
x = 16000e, Me = 16000e.
2 classes modales :
[0, 4000[,[28000, 32000[.
⇒
Moyenne et médiane non
représentatives de la série.
Modes informatifs.
série pluri-modale
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Synthèse : quelles caractéristiques pour résumer une série ?
Afin de résumer cette série . . .
. . . quel est l’indicateur pertinent ?
Salaires xi
en e
[0, 1000[
[1000, 2000[
[2000, 3000[
ci
ni
ai
(1 u.a. 1000e)
500
1500
2500
5
90
5
1
1
1
x = 1500e, Me = 1500e.
classes modales : [1000, 2000[.
⇒
les trois indicateurs peuvent être
utilisés.
série symétrique
on préfèrera la moyenne qui
possède des propriétés intéressant
(calcul algébrique)
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Synthèse : quelles caractéristiques pour résumer une série ?
Afin de résumer cette série . . .
. . . quel est l’indicateur pertinent ?
Salaires xi
en e
[0, 2000[
[2000, 38000[
ci
ni
ai
(1 u.a. 2000e)
1000
18000
90
10
1
18
x = 2900e, Me = 1100e.
⇒
La moyenne n’est pas
représentative car trop influencée
par les gros salaires.
la médiane est plus adaptée.
série asymétrique
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Complément : méthode du “shift and share”
Complément : méthode ”shift and share”
méthode utilisée pour comparer plusieurs moyennes
pondérées lorsque les coefficients de pondération sont très
,, par exemple lorsqu’ils évoluent au cours du temps.
permet de lisser l’effet structure.
Exemples : salaires de 2 CSP en 2010 et 2011.
CSP
Cadres
Employés
Année 2010
fi
x i (e)
10% 2000
90% 1000
Année 2011
fi
x i (e)
50% 1300
50%
900
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Complément : méthode du “shift and share”
Complément : méthode ”shift and share”
méthode utilisée pour comparer plusieurs moyennes
pondérées lorsque les coefficients de pondération sont très
,, par exemple lorsqu’ils évoluent au cours du temps.
permet de lisser l’effet structure.
Exemples : salaires de 2 CSP en 2010 et 2011.
CSP
Cadres
Employés
Année 2010
fi
x i (e)
10% 2000
90% 1000
Année 2011
fi
x i (e)
50% 1300
50%
900
x 2010 = 1100 e, x 2011 = 1100 e.
peut-on conclure qu’il n’y a pas d’évolution de salaires de
2010 à 2011 ?
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Complément : méthode du “shift and share”
Complément : méthode ”shift and share” (2)
CSP
Cadres
Employés
Année 2010
fi
x i (e)
10% 2000
90% 1000
Année 2011
fi
x i (e)
50% 1300
50%
900
Pour éliminer l’effet du changement des effectifs, on calcule
les moyennes en fixant les effectifs de 2010 :
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Complément : méthode du “shift and share”
Complément : méthode ”shift and share” (2)
CSP
Cadres
Employés
Année 2010
fi
x i (e)
10% 2000
90% 1000
Année 2011
fi
x i (e)
50% 1300
50%
900
Pour éliminer l’effet du changement des effectifs, on calcule
les moyennes en fixant les effectifs de 2010 :
x 02011 = 10% × 1300 + 90% × 900 = 940 e
⇒ evolution de
940−1100
1100
' −14.54%.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Complément : méthode du “shift and share”
Complément : méthode ”shift and share” (2)
CSP
Cadres
Employés
Année 2010
fi
x i (e)
10% 2000
90% 1000
Année 2011
fi
x i (e)
50% 1300
50%
900
Pour éliminer l’effet du changement des effectifs, on calcule
les moyennes en fixant les effectifs de 2010 :
x 02011 = 10% × 1300 + 90% × 900 = 940 e
⇒ evolution de 940−1100
' −14.54%.
1100
pour éliminer l’effet du changement de salaires, on calcule
la moyenne en 2011 en fixant les salaires en 2010
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Complément : méthode du “shift and share”
Complément : méthode ”shift and share” (2)
CSP
Cadres
Employés
Année 2010
fi
x i (e)
10% 2000
90% 1000
Année 2011
fi
x i (e)
50% 1300
50%
900
Pour éliminer l’effet du changement des effectifs, on calcule
les moyennes en fixant les effectifs de 2010 :
x 02011 = 10% × 1300 + 90% × 900 = 940 e
⇒ evolution de 940−1100
' −14.54%.
1100
pour éliminer l’effet du changement de salaires, on calcule
la moyenne en 2011 en fixant les salaires en 2010
x 00
2011 = 50% × 2000 + 50% × 1000 = 1500 e
⇒ évolution de
1500−1100
1100
' 36.36%.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Caractéristiques de dispersion
Objectif : définir des indicateurs permettant d’évaluer le
caractère dispersé ou variable d’une série statistique.
En particulier, nous étudierons
1
l’étendue
2
les écarts interquantiles
3
les écarts absolus (moyen et médian)
4
l’écart-type (ou variance)
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Etendue (intervalle de variation)
Etendue (intervalle de variation)
Définition
L’étendue est la différence entre la plus grande et la plus petite
observation de la série.
Etendue = x(n) − x(1) .
Notion très peu utilisée en pratique car elle est très sensible
aux fluctuations de l’échantillon.
Exemple : on relève l’âge de 10 individus : 24, 16, 18, 22,
16, 26, 35, 25, 15, 76.
⇒ étendue est de
tp76-16 = 50 ans.
Si on remplace 76 par un âge ≤ 35 l’étendue devient 19 ans.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecarts interquantiles
Ecarts-interquantiles
Définition
On définit l’écart-interquartile et l’écart-interdécile comme
suit
Ecart interquartile = Q3 − Q1
Ecart interdécile = D9 − D1 .
Plus ces écarts sont grands et plus la série est dispersée.
Du fait que l’on ne tient pas compte des observations
faibles ou élevées, ces caractéristiques sont moins sensibles
aux fluctuations de l’échantillon que l’étendue.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart absolu
Ecarts absolus
x : statistique, xi : modalités, ni : effectifs, p nbre de modalités.
1
Ecart absolu moyen :
ex =
2
p
1X
ni |xi − x |.
n i=1
Ecart absolu médian :
e Me =
p
1X
ni |xi − Me|.
n i=1
Remarques
Plus les écarts absolus sont grands, plus la série est dispersée.
Avantage : facile à calculer, écart absolu médian moins sensible
aux valeurs extrêmes.
Inconvénient : ne se prête pas aux calculs algébriques.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Ecart-type et variance
Définition
La variance est la moyenne arithmétique pondérée des écarts à
la moyenne au carré. L’écart-type est la racine carrée de la
variance.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Ecart-type et variance
Définition
La variance est la moyenne arithmétique pondérée des écarts à
la moyenne au carré. L’écart-type est la racine carrée de la
variance.
Variance :
Var (x ) =
p
p
X
1X
fi (xi − x )2
ni (xi − x )2 =
n i=1
i=1
Ecart-type :
σx =
p
Var (x )
Interprétation
Plus l’écart-type (ou variance) est grand(e) et plus la série
observée est dispersée.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Ecart-type et variance (2)
Autre expression de la variance :
Var (x ) =
p
1X
ni (xi − x )2
n i=1
=
p
1X
ni xi2 − (x )2
n i=1
= x 2 − (x )2
= “moyenne des carrés” − “carré de la moyenne”.
BTout comme la moyenne, pour calculer une variance (ou
écart-type) pour une variable continue (dont les données sont
regroupées en classes) on remplace les xi par ci les centres de
classe.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Ecart-type et variance (3)
Calculez les variance et
écart-type de la série
suivante :
xi (en e)
[0, 1600[
[1600, 2400[
[2400, 3200[
Total
ci
800
2000
2800
×
ni (×106 )
9
7
4
20
fi
45%
35%
20%
100%
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Ecart-type et variance (3)
Calculez les variance et
écart-type de la série
suivante :
xi (en e)
[0, 1600[
[1600, 2400[
[2400, 3200[
Total
ci
800
2000
2800
×
ni (×106 )
9
7
4
20
fi
45%
35%
20%
100%
Méthode 1 : on rappelle que x = 1620e.
1 9 × (800 − 1620)2 + 7 × (2000 − 1620)2 + 4 × (2800 − 1620)2
Var (x ) =
20
= 631600 e2 .
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Ecart-type et variance (3)
xi (en e)
[0, 1600[
[1600, 2400[
[2400, 3200[
Total
Calculez les variance et
écart-type de la série
suivante :
ci
800
2000
2800
×
ni (×106 )
9
7
4
20
fi
45%
35%
20%
100%
Méthode 1 : on rappelle que x = 1620e.
1 9 × (800 − 1620)2 + 7 × (2000 − 1620)2 + 4 × (2800 − 1620)2
Var (x ) =
20
= 631600 e2 .
Méthode 2 :
1 9 × 8002 + 7 × 20002 + 4 × 28002 = 3256000 e2
20
Var (x ) = x 2 − (x )2 = 3256000 − 16202 = 631600 e2
x2 =
Ecart-type : σx =
√
631600 ' 794.7 e.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Variance intra et interpopulation
Théorème
Considérons une population P de taille n composée de k
sous-populations P1 , . . . , Pk d’effectifs respectifs n1 , . . . , nk . Notons,
x 1 , . . . , x k et Var (x1 ), . . . , Var (xk ) les moyennes et variances des k
sous-populations. Alors, la variance de la population P est
n1 Var (x1 ) + . . . + nk Var (xk ) n1 (x − x 1 )2 + . . . + nk (x − x k )2
+
n
n
p
k
X
X
1
1
=
ni Var (xi ) +
ni (x i − x )2
n i=1
n i=1
Var (x ) =
= “moyenne des variances”+“variance des moyennes”
= Variance intra-population + Variance inter-population.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (2)
Vérifions le résultat précédent sur l’exemple suivant : on étudie le
salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez les variances
inter-, intra- et totale de
la série :
Pour simplifier (un peu)
les calculs :
xi (en e)
[0, 1500[
[1500, 3000[
Total
x H = 1725 e
x F = 1350 e
x = 1600 e
ci
750
2250
×
ni,H
70
130
200
ni,F
60
40
100
Var (xH ) = 511875 e2
Var (xF ) = 540000 e2
Var (x ) = 552500 e2 .
ni,E
130
170
300
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (2)
Vérifions le résultat précédent sur l’exemple suivant : on étudie le
salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
xi (en e)
[0, 1500[
[1500, 3000[
Total
Calculez les variances
inter-, intra- et totale de
la série :
Pour simplifier (un peu)
les calculs :
x H = 1725 e
x F = 1350 e
x = 1600 e
ci
750
2250
×
ni,H
70
130
200
ni,F
60
40
100
ni,E
130
170
300
Var (xH ) = 511875 e2
Var (xF ) = 540000 e2
Var (x ) = 552500 e2 .
Moyenne des variances :
1
(200 × Var(xH ) + 100 × Var(xF ))
300
1
(200 × 511875 + 100 × 540000) = 521250e2 .
=
300
Var . Intra =
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (2)
Vérifions le résultat précédent sur l’exemple suivant : on étudie le
salaire de nH =200 hommes et nF =100 femmes d’une entreprise.
Calculez les variances
inter-, intra- et totale de
la série :
Pour simplifier (un peu)
les calculs :
xi (en e)
[0, 1500[
[1500, 3000[
Total
x H = 1725 e
x F = 1350 e
x = 1600 e
ci
750
2250
×
ni,H
70
130
200
ni,F
60
40
100
ni,E
130
170
300
Var (xH ) = 511875 e2
Var (xF ) = 540000 e2
Var (x ) = 552500 e2 .
Variance des moyennes :
1 200 × (xH − x)2 + 100 × (xF − x)2
Var . Inter =
300
1 =
200 × (1725 − 1600)2 + 100 × (1350 − 1600)2 = 31250e2 .
300
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (3)
Résumons un peu ces calculs :
Var (x ) = 552500e2 .
Var . Intra + Var . Inter = Moy. des variances + Var. des moyennes
= 521250 + 31250 = 552500e2 .
Peut-on dire que la caractéristique H/F influence le salaire ?
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Ecart-type et variance
Variance intra et interpopulation (3)
Résumons un peu ces calculs :
Var (x ) = 552500e2 .
Var . Intra + Var . Inter = Moy. des variances + Var. des moyennes
= 521250 + 31250 = 552500e2 .
Peut-on dire que la caractéristique H/F influence le salaire ? Si
tel est le cas, la variance des moyennes est forte relativelement à
la variance totale des salaires. Or,
31250
Var . Inter
=
' 5.66%.
Var (x )
552500
5.66% de la variance est expliquée par l’hétérogénéité des
moyennes (H/F) ce qui est relativement faible. Par conséquent,
les salaires de cette entreprise ne sont que peu influencés par le
sexe.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement I : Comparaison de séries (1)
soit x la série statistique de 4 produits en Francs : 100F, 200F,
300F et 400F.
soit y la série statistique des 4 produits en e :15e, 30e,45e,60e.
Intuitivement, ces deux séries sont dispersées de la même
manière. Or,
σx = 111.8F
et
σy = 16.8e.
Conclusion : pour comparer les deux séries qui ne sont pas dans
la même unité, il faut transformer les caractéristiques de
dispersion.
σx
Coefficient de variation :
= c’est le % de variation par
x
rapport à la moyenne, sans unité.
σx
111.8
'
' 0.45
x
250
et
σy
16.8
'
' 0.45.
y
37.5
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement I : comparaison de séries (2)
D’autres indicateurs de comparaison de séries statistiques :
Coefficient de dispersion :
Q3 − Q1
D9 − D1
ou
.
Me
Me
Rapport interquartile ou rapport interdécile :
Q3
Q1
ou
D9
D1
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement II : la boı̂te à moustaches (1)
aussi appelée box plot ou diagramme
de Tukey.
moyen rapide de visualiser des
caractéristiques centrale et de
dispersion d’une série quantitative.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement II : la boı̂te à moustaches (1)
aussi appelée box plot ou diagramme
de Tukey.
moyen rapide de visualiser des
caractéristiques centrale et de
dispersion d’une série quantitative.
principalement utilisée pour
comparer un même caractère
pour plusieurs populations.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement II : la boı̂te à moustaches (1)
aussi appelée box plot ou diagramme
de Tukey.
moyen rapide de visualiser des
caractéristiques centrale et de
dispersion d’une série quantitative.
principalement utilisée pour
comparer un même caractère
pour plusieurs populations.
basée sur le calcul de D1 , Q1 , Me, Q3
et D9 .
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement II : la boı̂te à moustaches (1)
aussi appelée box plot ou diagramme
de Tukey.
moyen rapide de visualiser des
caractéristiques centrale et de
dispersion d’une série quantitative.
principalement utilisée pour
comparer un même caractère
pour plusieurs populations.
basée sur le calcul de D1 , Q1 , Me, Q3
et D9 .
D9
Q3
Me
Q1
D1
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement II : la boı̂te à moustaches (2)
Me = 18010
Q3 = 27140
D9 = 39010
40000
30000
Q1 =11135
20000
D1 = 6040
10000
sachant que pour les
agriculteurs
50000
Etude sur le niveau de vie des ménages en euros par CSP (personne
de référence) en 2010. Application : complétez le graphique suivant
avec les revenus des agriculteurs . . .
agriculteurs
cadres
profInt
employes
ouvriers
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Comparaison de séries statistiques et synthèse
Complement II : la boı̂te à moustaches (2)
Me = 18010
Q3 = 27140
D9 = 39010
40000
30000
Q1 =11135
20000
D1 = 6040
10000
sachant que pour les
agriculteurs
50000
Etude sur le niveau de vie des ménages en euros par CSP (personne
de référence) en 2010. Application : complétez le graphique suivant
avec les revenus des agriculteurs . . .
agriculteurs
cadres
profInt
employes
ouvriers
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Introduction
Elles sont utilisées pour mesurer (essentiellement) la
répartition de la masse salariale. La répartition de la masse
salariale se situe entre les deux cas extrêmes suivants
Répartition des salaires parfaitement équitables : un certain
pourcentage de salariés reçoit le même pourcentage de la
masse salariale. On dit que la concentration est nulle.
Un seul salarié reçoit toute la masse salariale (et les autres
rien). On dit que la concentration est maximale.
Trois indicateurs pour quantifier la concentration
1
2
3
courbe de Lorentz
Indice de Gini
Médiale.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On étudie les salaires de 50 employés d’une entreprise.
xi (en e)
[600, 1200[
[1200, 1800[
[1800, 2100[
Total
1
2
ci
900
1500
1950
×
ni
15
25
10
50
fi
30%
50%
20%
100%
Fi
30 %
80%
100%
×
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On étudie les salaires de 50 employés d’une entreprise.
xi (en e)
[600, 1200[
[1200, 1800[
[1800, 2100[
Total
1
2
ci
900
1500
1950
×
ni
15
25
10
50
fi
30%
50%
20%
100%
Fi
30 %
80%
100%
×
ni ci
13500
37500
19500
70500
on calcule la masse salariale = ni × ci .
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On étudie les salaires de 50 employés d’une entreprise.
xi (en e)
[600, 1200[
[1200, 1800[
[1800, 2100[
Total
ci
900
1500
1950
×
ni
15
25
10
50
fi
30%
50%
20%
100%
Fi
30 %
80%
100%
×
ni ci
13500
37500
19500
70500
gi
19.1%
53.2%
27.7%
100%
Gi
19.1%
72.3%
100%
×
1
on calcule la masse salariale = ni × ci .
2
on calcule le % de la masse salariale gi , ainsi que les fréquences
cumulées Gi .
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Courbe de Lorentz
Courbe de Lorentz
On étudie les salaires de 50 employés d’une entreprise.
xi (en e)
[600, 1200[
[1200, 1800[
[1800, 2100[
Total
ci
900
1500
1950
×
ni
15
25
10
50
fi
30%
50%
20%
100%
Fi
30 %
80%
100%
×
ni ci
13500
37500
19500
70500
gi
19.1%
53.2%
27.7%
100%
Gi
19.1%
72.3%
100%
×
Définition
La courbe de Lorentz est obtenue en faisant correspondre à la
fréquence cumulée Fi à la fréquence cumulée Gi de la masse salariale.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Courbe de Lorentz
100
Courbe de Lorentz (2)
80
●
60
40
0
20
Gi (en %)
●
●
●
0
20
40
60
80
100
Fi (en %)
droite rouge = répartition parfaitement équitable.
Plus la courbe de Lorentz est éloignée de la droite rouge et
plus la concentration est forte (répartition de moins en moins
équitable).
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Indice de Gini
100
Indice de Gini
80
●
60
0
Gi (en %)
IGini =
20
Soit S la surface orange.
40
●
S
Surf. Demi-carré
= 2S ∈ [0, 1]
●
●
0
20
40
60
80
100
Fi (en %)
Plus IGini est proche de 0 , plus la concentration est faible
(proche de équirépartition).
Dans notre cas, IGini ' 14% (on ne cherchera pas à calculer
l’indice)
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiale
Médiale
xi (en e)
[600, 1200[
[1200, 1800[
[1800, 2100[
Total
ci
900
1500
1950
×
ni
15
25
10
50
fi
30%
50%
20%
100%
Fi
30 %
80%
100%
×
ni ci
13500
37500
19500
70500
gi
19.1%
53.2%
27.7%
100%
Gi
19.1%
72.3%
100%
×
La médiale est la médiane de la série masse associée. Dans
notre exemple
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiale
Médiale
xi (en e)
[600, 1200[
[1200, 1800[
[1800, 2100[
Total
ci
900
1500
1950
×
ni
15
25
10
50
fi
30%
50%
20%
100%
Fi
30 %
80%
100%
×
ni ci
13500
37500
19500
70500
gi
19.1%
53.2%
27.7%
100%
Gi
19.1%
72.3%
100%
×
La médiale est la médiane de la série masse associée. Dans
notre exemple
50% − 19.1%
Médiale = 1200 +
× (1800 − 1200) ' 1548e.
72.3% − 19.1%
Les salariés recevant moins de 1548 ereprésentent 50% de la
masse salariale.
Caractéristiques de tendance centrale
Caractéristiques de dispersion
Caractéristiques de concentration
Médiale
Médiale
xi (en e)
[600, 1200[
[1200, 1800[
[1800, 2100[
Total
ci
900
1500
1950
×
ni
15
25
10
50
fi
30%
50%
20%
100%
Fi
30 %
80%
100%
×
ni ci
13500
37500
19500
70500
gi
19.1%
53.2%
27.7%
100%
Gi
19.1%
72.3%
100%
×
La médiale est la médiane de la série masse associée. Dans
notre exemple
50% − 19.1%
Médiale = 1200 +
× (1800 − 1200) ' 1548e.
72.3% − 19.1%
Les salariés recevant moins de 1548 ereprésentent 50% de la
masse salariale.
Mesure de concentration :
Médiale − Me
∆=
≥ 0.
Etendue
∆ petit = faible concentration, ∆ grand= grande concentration.
Ici, on peut vérifier que ∆ ' (1548 − 1440)/(2100 − 600) ' 7.2%.