La statistique descriptive

Transcription

La statistique descriptive
La statistique descriptive
Introduction
La statistique est la méthode scientifique du traitement des données
quantitatives. On distingue :
La statistique descriptive qui décrit les données à l’aide de
représentations graphiques et de résumés numériques. Elle
utilise la géométrie et l’algèbre linéaire.
La statistique inférentielle qui permet de déduire les
caractéristiques inconnues d’une population à partir d’un
échantillon issu de cette population. Elle utilise la théorie des
probabilités pour calculer des intervalles de confiance et
mettre en place des tests statistiques.
Vocabulaire
On s’intéresse à des unités statistiques (dits individus) : par exemple
des individus, des entreprises, des ménages.
Sur ces individus, on mesure un caractère ou une variable : l’âge ou
la catégorie socioprofessionnelle de la personne, le chiffre d’affaires
de l’entreprise, le revenu du ménage...
Les valeurs possibles de la variable sont appelés des modalités.
Vocabulaire, graphiques
Variable qualitative : les modalités sont des catégories.
Variable qualitative nominale : les modalités ne peuvent pas
être ordonnées.
Variable qualitative ordinale : les modalités peuvent être
ordonnées.
Variable quantitative : les modalités sont numériques.
Variable quantitative discrète : les modalités sont numériques
en quantité dénombrable.
Variable quantitative continue : l’ensemble des modalités est
continu.
Série statistique
On appelle série statistique la suite des valeurs prises par une
variable X sur les individus.
Souvent n désigne le nombre d’individus et les valeurs de la variable
X sont notées x1 , · · · , xn .
Par exemple, si X est la variable SEXE à deux modalités F et H:
x1 = F , x2 = F , x3 = H, · · · , xn = F .
Si Y est la variable AGE : y1 = 42, y2 = 35, y3 = 57, · · · , yn = 23.
Variable qualitative nominale
Une variable qualitative nominale a des modalités qui ne peuvent
pas être ordonnées. Notons les x1 , · · · , xJ .
L’effectif d’une modalité est le nombre de fois où cette modalité
apparaı̂t dans la série. On note nj l’effectif de la modalité xj .
nj
La fréquence d’une modalité est fj = .
n
Les variables nominales peuvent être représentées graphiquement
par :
Un diagramme en barres des effectifs (ou en bâtons)
Un diagramme en secteur des fréquences (ou camembert)
Diagramme en secteurs et diagramme en barres
On s’intéresse à la variable état-civil notée X et à la série statistique des
valeurs prises par X sur 20 personnes. La codification est : Célibataire ,
Divorcé(e), Marié(e), Veuf(ve).
8
10
Célibataire
6
Divorcé(e)
Marié(e)
0
2
4
Veuf(ve)
Célibataire
Divorcé(e)
Marié(e)
Veuf(ve)
Variables qualitatives ordinales
Les valeurs distinctes d’une variable ordinale peuvent être ordonnées
x1 ≤ x2 ≤ · · · ≤ xn−1 ≤ xn
Exemple : X est le dernier diplôme obtenu.
On peut calculer les effectifs cumulés : Nj =
j
X
nk
k=1
j
Et les fréquences cumulées : Fj =
X
Nj
=
fk .
N
k=1
Elles peuvent être représentées graphiquement par un diagramme en
barres des effectifs ou des effectifs cumulés (ou en bâtons) ou un
diagramme en secteur des fréquences.
Diagramme en secteurs
On interroge 50 personnes sur leur dernier diplôme obtenu. La
codification est : sans diplôme (Sd), primaire (P), secondaire (S),
Supérieur non-universitaire (Su), Universitaire (U).
Sd
P
Se
U
Su
50
0
0
2
10
4
20
6
8
30
10
40
12
14
Diagramme en barres
P
Sd
Se
Su
U
P
Sd
Se
Su
U
Variables quantitatives discrètes
Exemple : X=nombre d’enfants par famille
Comme pour les variables qualitatives ordinales, on peut calculer les
effectifs, les effectifs cumulés, les fréquences, les fréquences
cumulées.
Les effectifs sont représentés graphiquement à l’aide d’un
diagramme en bâtons et les fréquences cumulées à l’aide de la
fonction de répartition (empirique).
Cette fonction
est définie de R dans [0, 1] et vaut :

si
x < x1
 0
Fj si xj ≤ x < xj+1
F (x) =

1
si
x ≥ xJ
On peut aussi l’écrire :
F (x) =
n
1X
1xi ≤x .
n
i=1
0
5
10
15
Diagramme en bâtons
1
2
3
4
5
6
8
0.0
0.2
0.4
0.6
0.8
1.0
Fonction de répartition
0
2
4
6
8
Variables (quantitatives) continues
Pour faire des représentations graphiques et construire le
tableau statistique, il faut procéder à des regroupements en
classes.
Notons [cj− , cj+ [ une classe. On appelle :
cj− la borne inférieure de la classe j.
cj+ la borne supérieure de la classe j.
c − +c +
cj = j 2 j le centre de la classe.
aj = cj+ − cj− l’amplitude de la classe j.
Exemple : taille de 50 élèves
[cj− , cj+ [
[151, 155[
[155, 159[
[159, 163[
[163, 167[
[167, 171[
nj N j
10 10
12 22
11 33
7 40
10 50
fj
Fj
0.2
0.2
0.24 0.44
0.22 0.66
0.14 0.8
0.2
1
Histogramme
Notons :
nj l’effectif de la classe j,
Nj l’effectif cumulé de la classe j,
fj la fréquence de la classe j,
Fj la fréquence cumulée de la classe j.
L’histogramme consiste à représenter les effectifs nj (resp. les
fréquences fj ) des classes [cj ; cj+1 [ par des rectangles dont la
surface représente l’effectif (resp. la fréquence).
Histogramme
Pour un histogramme des effectifs, la hauteur du rectangle
correspondant à la classe j est donc donnée par :
hj =
nj
.
aj
L’aire de l’histogramme est alors égale à l’effectif total n.
Pour un histogramme des fréquences, la hauteur du rectangle
correspondant à la classe j est donnée par :
hj =
fj
.
aj
L’aire de l’histogramme est alors égale à 1.
0.00
0.01
0.02
0.03
0.04
0.05
0.06
Histogramme des fréquences
151
155
159
163
167
171
Remarque importante
Dans le cas de classes de même amplitude, on représente souvent
l’histogramme avec les effectifs (ou les fréquences) reportés en ordonnée.
0
2
4
6
8
10
12
Histogramme des effectifs avec classes d’amplitudes égales
151
155
159
163
167
171
Fonction de fréquences cumulées (croissante)
Elle est définie par :



Fj−1 +
F (x) =


0
fj
(x
cj+ −cj−
1
si x < c1−
− cj− ) si cj− ≤ x < cj+
si cJ+ < x
Quand x est une borne de classes, F (x) est la proportion de valeurs
de la série inférieures ou égales à x. A l’intérieur des classes, on fait
l’hypothèse que la fonction de répartition est une fonction affine.
0.0
0.2
0.4
0.6
0.8
1.0
Fonction de fréquences cumulées (croissante)
151
155
159
163
167
171
Statistique descriptive univariée
Indicateurs de position
mode
moyennes
médiane
quartiles
Indicateurs de dispersion
étendue
intervalle interquartile
variance
écart-type
Le mode
Le mode est la modalité de la variable correspondant à l’effectif le
plus grand.
Remarques :
Le mode peut être calculé pour tous les types de variable,
quantitative et qualitative.
Le mode n’est pas nécessairement unique.
Quand une variable continue est découpée en classes, on peut
définir une classe modale (classe correspondant à l’effectif le
plus élevé).
La moyenne (arithmétique)
n
J
1X
1X
xi ou x =
ni xi dans le cas d’une variable définie à
n
n
i=1
i=1
partir des effectifs.
x=
Elle ne peut être définie que sur une variable quantitative.
Elle n’est pas nécessairement une valeur possible (exemple : nombre
d’enfants par famille).
Un défaut de la moyenne est qu’elle est très sensible aux valeurs
atypiques (erreurs de mesures)
Les autres moyennes
Moyenne géométrique
n
Y
1
G = ( xi ) n
i=1
Moyenne harmonique
H=
n
.
n
X
1
xi
i=1
La médiane (variable continue ou quantitative ordinale)
La médiane d’une série statistique est une valeur m telle que au
moins la moitié des valeurs de la série soient inférieures ou égales à
m et au moins la moitié des valeurs de la série soient supérieures ou
égales à m. On la calcule de la manière suivante :
1
2
3
On trie la série statistique par ordre croissant des valeurs
observées : 3 2 1 0 0 1 2.
On obtient : 0 0 1 1 2 2 3.
Heuristiquement, la médiane est “la valeur qui se trouve au
milieu de la série ordonnée” : ici 1.
Deux cas doivent être distingués : si n est impair, la médiane est
l’un des xi , si n est pair la médiane est une valeur qui est comprise
entre les deux valeurs qui sont centrales, par exemple on peut
prendre la plus petite valeur ou la moyenne des deux valeurs.
La médiane
Quelle que soit la définition choisie (cas n impair), la médiane vérifie
que au moins 50% des valeurs sont inférieures ou égales à la
médiane et au moins 50% des valeurs sont supérieures ou égales à la
médiane.
On peut définir la médiane à l’aide de la fonction de répartition
empirique :
n
1X
1xi ≤x .
F (x) =
n
i=1
“La médiane” de la série peut être définie par :
min{x ∈ R , F (x) ≥ 0.5}.
Calcul de la médiane quand les données sont découpées en classes
0.0
0.2
0.4
0.6
0.8
1.0
On fait l’hypothèse qu’à l’intérieur d’une classe la fonction de répartition
augmente de façon affine.
151
155
159
163
167
171
Les quantiles
La notion de quantile généralise la notion de médiane.
Soit p ∈]0, 1[. Le quantile d’ordre p peut être défini par :
min{x ∈ R , F (x) ≥ p}.
Attention, il y a neuf définitions possibles de quantiles, différentes
selon chaque logiciel.
Les quantiles d’ordre 0.25 et 0.75 sont appelés premier et troisième
quartiles.
Avec la définition ci-dessus, le premier quartile q0.25 est la plus
petite valeur telle que au moins 25% des valeurs soient inférieures à
q0.25 et le troisième quartile est la plus petite valeur q0.75 telle que
au moins 75% des valeurs soient inférieures à q0.75 .
L’intervalle [q0.25 ; q0.75 ] est appelé intervalle inter-quartile.
Paramètres de dispersion
L’étendue, différence entre la plus grande et la plus petite valeur
observée.
La distance interquartile dinter = q0.75 − q0.25
La variance est la moyenne des carrés des écarts à la moyenne :
v=
n
1X
(xi − x)2 .
n
i=1
Théorème : v =
n
1X 2
xi − x 2 .
n
i=1
La variance peut également être définie à partir des effectifs et des
J
J
1X
1X
valeurs distinctes : v =
(ni xi − x)2 =
ni xi2 − x 2 .
n
n
i=1
i=1
Boı̂te à moustaches (boxplot)
C’est un diagramme qui permet de représenter la distribution d’une
variable. Il y a beaucoup de façon de le définir. A l’orignie, Tuckey
en 1977, l’avait défini ainsi :
Un rectangle qui s’étend du premier au troisième quartile. Le
rectangle est divisé par une ligne correspondant à la médiane.
Ce rectangle est complété par deux segments de droites défini
par la plus petite et la plus grande observation comprise entre
q0.25 − 1.5dinter et q0.75 + 1.5dinter
On trace les segments de droites reliant ces observations au
rectangle.
Les valeurs qui ne sont pas comprises entre les segments sont
représentées par des points et sont appelées valeurs extrèmes
ou valeurs atypiques (0, 3% des valeurs si X est gaussienne).
Boı̂te à moustaches
On utilise une base de données de communes suisses de 2003 fournie par
l’Office fédéral de la statistique contenant un ensemble de variables
concernant la population et l’aménagement du territoire. L’objectif est
d’avoir un aperçu des superficies (en hectares) des communes du canton
de Neuchâtel :
0
1000
2000
3000
4000
5000
Statistique descriptive bivariée
On s’intéresse à deux variables X et Y . Ces deux variables sont mesurées
sur les n individus. La série statistique est alors une suite de n couples
des valeurs prises par les deux variables sur chaque individu :
(x1 , y1 ), · · · , (xn , yn )
Chacune des deux variables peut être, soit quantitative, soit qualitative.
On examine tous les cas possibles :
Les deux variables sont quantitatives.
Les deux variables sont qualitatives.
L’une est quantitative et l’autre qualitative.
Deux variables quantitatives
80
70
60
poids
90
100
Exemple: Taille et poids de 20 individus.
On représente graphiquement cette série bivariée par un nuage de points.
160
170
180
taille
190
Analyse séparée des variables
Il faut commencer par analyser séparément les variables : moyennes,
variances, écart-types, quantiles...
Covariance
Elle est définie par :
n
cov (X , Y ) =
1X
(xi − x)(yi − y ).
n
i=1
Remarques :
cov (X , X ) = var (X ).
La covariance est une “mesure de la variation simultanée de x
et y ” : elle devient plus positive pour chaque couple de
valeurs qui diffèrent de leur moyenne dans le même sens, et
plus négative pour chaque couple de valeurs qui diffèrent de
leur moyenne dans le sens opposé.
Théorème :
n
cov (X , Y ) =
1X
xi yi − x y .
n
i=1
Coefficient de corrélation
Le coefficient de corrélation entre X et Y est la covariance divisée
par les deux écart-types sX et sY :
r=
cov (X , Y )
.
sX sY
D’après l’inégalité de Cauchy Schwarz appliquée aux vecteurs
centrés, −1 ≤ r ≤ 1.
Si r = 1, les points sont alignés sur une droite de pente positive.
Si r = −1, les points sont alignés sur une droite de pente négative.
Le coefficient de détermination est r 2 , il a son interprétation propre
qu’on verra au moment de la régression linéaire.
Illustrations
r= +1
r= -1
y
y
O
O
x
-1 < r < 0
y
x
0<r<1
y
O
O
x
r=0
x
r=0
y
y
O
x
O
x
Droite de régression
On considère que la variable X est explicative et que la variable Y est
dépendante. Le problème consiste à identifier une droite y = ax + b qui
ajuste bien le nuage de points. Si les coefficients a et b étaient connus,
on pourrait calculer les erreurs ei (dits résidus) de la régression :
ei = yi − axi − b.
Pour déterminer la valeur des coefficients a et b on utilise le principe des
moindres carrés : on cherche a et b qui minimisent la somme des carrés
des résidus :
n
n
X
X
ei2 =
(yi − axi − b)2 .
i=1
i=1
100
Illustration
90
yi
ei
80
70
60
poids
y*i
160
170
180
taille
190
Droite de régression
Théorème : Les coefficients a et b qui minimisent le critère des
moindres carrés sont donnés par :
a=
cov (X , Y )
et b = y − ax.
var (X )
La droite de régression passe par le point (x, y ) centre de gravité du
nuage de points.
Elle a pour équation : y − y =
cov (X ,Y )
var (X ) (x
− x).
La moyenne des résidus est nulle.
On note yˆi = axi + b les valeurs dites estimées. Ainsi le résidu pour
l’observation i est ei = yi − yˆi . La moyenne des valeurs yˆi est y .
Décomposition de la variance
On appelle somme des carrés totaux (des écarts entre les valeurs yi
et leur moyenne y ):
SCT =
n
X
(yi − y )2 .
i=1
SCT traduit la variabilité des valeurs yi .
On appelle somme des carrés résiduelle :
SCR =
n
X
ei2 =
i=1
n
X
(yi − yˆi )2 .
i=1
SCR traduit la variabilité des résidus.
On appelle somme des carrés expliquée (par la régression) :
SCE =
n
X
(yˆi − y )2 .
i=1
SCE traduit la variabilité des valeurs yˆi .
Coefficient de détermination
Théorème : SCT = SCE + SCR .
Théorème : Soit r le coefficient de corrélation entre X et Y .
On a : r 2 =
SCE
SCT
C’est-à-dire que le coefficient de détermination r 2 mesure la
proportion des variations de la variable dépendante expliquée
par le modèle fourni par la régression.
Le r 2 est compris entre 0 et 1. Il vaut 1 quand les résidus sont tous
nuls, c’est-à-dire quand la relation entre Y et X est linéaire.
Deux variables qualitatives
Notons x1 , · · · , xJ et y1 , · · · , yK les modalités des variables X et Y . Les
données observées peuvent être regroupées dans un tableau de
contingence :
X
H
HH
y1
y2
..
.
..
.
yK
total
HH
Y
x1
x2
···
···
xJ
n11
n21
..
.
..
.
nK 1
n.1
n12
n22
..
.
..
.
nK 2
n.2
···
···
..
.
..
.
···
···
···
···
..
.
..
.
···
···
n1J
n2J
..
.
..
.
nKJ
n.J
total
n1.
n2.
..
.
..
.
nK .
n
Exemple
Voici un tableau de contingence donnant chez 518 travailleurs dans le
secteur tertiaire américain la relation entre catégorie socio-professionnelle
et appartenance politique :
Démocrate
Républicain
Indépendant
total
Ouvrier
126
71
19
216
Employé
61
93
14
168
Cadre
38
69
27
134
total
225
233
60
518
Profils lignes et profils colonnes
On appelle ième profil ligne le J-uplet : ( nni1i. , nni2i. , · · · , nniJi. )
Interprétation : le 1er profil ligne de l’exemple indique que parmi les
démocrates interrogés, il y a 126/225 = 56% d’ouvriers,
61/225 = 27, 2% d’employés et 38/225 = 16, 8% de cadres.
n
On appelle jème profil colonne le K-uplet : ( n1j.j ,
n2j
n.j
,··· ,
nKj
n.j
)
Interprétation : le 1er profil colonne de l’exemple indique que parmi
les ouvriers interrogés, il y a 126/228 = 58% de démocrates
71/218 = 33% de républicains et 19/218 = 9% d’indépendants.
Etude du lien entre X et Y
Pour étudier le lien, on construit un tableau de contingence
théorique qui représente la situation où les deux variables sont
indépendantes.
Dans ce cas, les effectifs théoriques sont :
n̂ij =
ni. n.j
.
n
On mesure l’écart à l’indépendance à l’aide de :
χ2e =
J X
K
X
(nij − n̂ij )2
.
n̂ij
i=1 j=1
Le nombre χ2e est toujours positif ou nul. Plus il est grand, plus la
liaison entre les variables est grande.
On verra que l’on peut construire un test statistique (test
d’indépendance du χ2 ) pour décider à partir de quelle valeur on
peut dire que les variables sont liées.
Coefficient de Cramer
Comme χ2e dépend de n et de la taille du tableau, on introduit un
coefficient qui n’en dépend pas :
Le coefficient de Cramer est défini par :
s
χ2e
.
C=
n min(J − 1, K − 1)
Ce coefficient est compris entre 0 et 1, proche de 0 si les variables
sont indépendantes et proche de 1 si elles sont très liées. Ce
coefficient sert uniquement à la comparaison de liaison.
Une variable qualitative, une variable quantitative
On observe le prix Y d’un produit de consommation courante dans 15
grandes surfaces de 3 régions différentes. Les variables sont :
Y : le prix (en euros) est une variable quantitative (continue).
X : la région est une variable qualitative avec 3 modalités (Ile de
France=1, Centre=2, Languedoc-Roussillon=3) appelée facteur.
Y
X
13.5
1
13.2
2
13.4
3
14.2
1
13.3
2
13.3
3
14.1
1
13.1
2
14
3
13.4
1
13.5
2
14.2
3
13.3
1
13.4
2
Question : on constate que les coûts moyens sur les 3 régions sont :
y1 = 13.7 , y2 = 13.3 , y3 = 13.8.
Il semble donc y avoir une différence de prix selon les régions, c’est-à-dire
un lien entre X et Y : Comment le ”quantifier”?
14.1
3
Décomposition de la variance
La variable X partage la population en c groupes. Pour i = 1 · · · c, on
note :
ni l’effectif du groupe i.
yij la valeur de Y sur le jième individu du groupe i.
yi la moyenne de Y sur le groupe i.
On introduit les quantités suivantes:
La variation totale : SCT =
ni
c X
X
(yij − y )2 .
i=1 j=1
La variation factorielle (inter-groupes) : SCF =
c
X
ni (yi − y )2 .
i=1
La variation résiduelle (intra-groupes) : SCR =
ni
c X
X
i=1 j=1
(yij − yi )2 .
Théorème de décomposition de la variance
Théorème : SCT = SCF + SCR .
SCF
Posons R 2 = SC
. Ce coefficient mesure le lien entre X et Y car
T
plus la variation inter-groupes SCF est grande (relativement à SCT ),
plus il y a de disparité entre les moyennes de chaque groupe et donc
plus la variable X influe sur la variable Y .
Plus R 2 est proche de 1 (SCF très supérieure à SCR ), plus les
groupes sont hétérogènes donc plus il existe une forte liaison
entre X et Y .
Plus R 2 est proche de 0 (SCF très inférieure à SCR ), moins il y
a de différence entre les différentes moyennes des groupes donc
moins il y a de liaison entre X et Y .
Remarque : Si X n’a que deux modalités 0 et 1, R 2 est le carré du
coefficient de corrélation linéaire entre X et Y .
Calcul sur l’exemple
y = 13.6
var(y ) = 0.14666 donc SCT = 15 × var(y ) = 2.3.
y1 = 13.7 , y2 = 13.3 , y3 = 13.8.
SCF = 5(y1 − y )2 + 5(y2 − y )2 + 5(y3 − y )2 = 0, 7.
Donc R 2 = 0, 564.
Ce qui signifie que 56, 4% de la variabilité de Y est expliquée par la
variable X .