Cours d`analyse de données

Transcription

L’analyse de données
Cours d’analyse de données
But synthétiser, structurer l’information contenue dans des données
multidimensionnelles (n individus, p variables).
Jean-Marc Lasgouttes
[email protected]
Deux groupes de méthodes
– méthodes de classification : réduire la taille de l’ensemble des individus
en formant des groupes homogènes ;
– méthodes factorielles : réduire le nombre de variables en les résumant
par un petit nombre de composantes synthétiques.
Magistère de Finance de Paris 1, 2è année
http://www-rocq.inria.fr/~lasgoutt/ana-donnees/
Deux types de méthodes factorielles
– analyse en composantes principales : variables numériques ;
– analyse des correspondances : variables qualitatives.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
But du cours
1
Ce que ce cours n’est pas
Un cours de mathématiques financières il n’y a pas de modèles
probabilistes de processus financiers (cours de bourse...).
Méthodes couvertes par le cours
– analyse en composantes principales (ACP) ;
– analyse (factorielle) des correspondances (AFC) ;
– analyse des correspondances multiples (ACM).
Un cours de statistique inférentielle il ne sera pas question ici de
tests, d’estimateurs, de prévision statistique.
Un cours uniquement orienté « utilisateur » même si le but ultime
est de savoir utiliser les méthodes d’analyse de données, ce cours s’attache
à exposer les fondements mathématiques de ces méthodes.
Compétences recherchées
– savoir interpréter les tables et graphiques issus de ces méthodes ;
– comprendre les fondements mathématiques des méthodes ;
– être capable de mener soi-même une telle étude.
Un cours appliqué aux données financières ce cours est avant
tout un cours de méthode ; les exemples abordés seront ou ne seront pas
issus de cette application.
Un cours « pratique » Les contraintes d’effectif et de matériel ne
permettent malheureusement pas d’effectuer des travaux pratiques.
2
3
Méthodes utilisées
Statistiques et probabilités
Algèbre linéaire les données sont vues de manière abstraites comme un
nuage de points dans un espace vectoriel de dimension finie ; en particulier
on utilise
Une approche différente Les probabilités reposent sur un modèle de
données et font en général des hypothèses simplificatrices. Ici, on utilisera
plus des considérations géométriques.
– matrices : permettent de manipuler un ensemble de variables comme
un objet mathématique unique ;
– valeurs et vecteurs propres : permettent de décrire la structure d’une
matrice.
– métriques : permettent de définir la distance entre deux points de l’espace vectoriel ; on utilise aussi des produits scalaires.
3 ponts possibles
– les données statistiques sont empruntes d’une forme de variabilité liée
aux erreurs de mesures ; on peut modéliser cette erreur par une variable
aléatoire ;
– on constate souvent que la répartition d’une variable est proche d’une
loi de probabilités connue ;
– surtout, quand des données sont issue d’un sondage, on peut considérer
que ce sont des tirages d’une variable aléatoire. Quand les échantillons
sont assez grands, on connaı̂t des lois limites.
Théorie des probabilités peu utile ici ; plutôt nécessaire en statistique
inférentielle (estimation, tests, modélisation et prévision,...). On utilisera
quand même quelques tests statistiques.
4
Références
5
Individus et variables
Ces références sont données à titre indicatif ; aucun livre n’est demandé
pour ce cours.
Base du cours Gilbert Saporta, Probabilités, analyse des données et
statistique, 2nde édition, Technip, 2006.
Version plus simple Jean-Marie Bouroche et Gilbert Saporta, L’analyse des données, Que Sais-je?, Presses Universitaires de France, 2002.
Logiciel de traitement de données R Development Core Team
(2007). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria, http://www.Rproject.org.
6
Population groupe ou ensemble d’individus que l’on analyse.
Recensement étude de tous les individus d’une population donnée.
Sondage étude d’une partie seulement d’une population appelée échantillon.
Variables ensemble de caractéristiques d’une population.
– quantitatives: nombres sur lesquels les opérations usuelles (somme,
moyenne,...) ont un sens ; elles peuvent être discrètes (ex : nombre
d’éléments dans un ensemble) ou continues (ex: prix, taille) ;
– qualitatives: appartenance à une catégorie donnée ; elles peuvent être
nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant).
7
Description de données quantitatives
Moyenne arithmétique
Définition On appelle variable un vecteur x de taille n. Chaque coordonnée xi correspond à un individu. On s’intéresse ici à des valeurs
numériques.
Définition On note
Poids Chaque individu a éventuellement un poids pi, tel que p1 + · · · +
pn=1. On a souvent p = 1/n.
ou pour des données pondérés
x̄ =
Représentation histogramme en découpant les valeurs de la variable
en classes ; ou alors « boı̂te à moustache ».
Résumés on dispose d’une série d’indicateurs qui ne donne qu’une vue
partielle des données : effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3ème quartile, ... Ces indicateurs
mesurent principalement la tendance centrale et la dispersion.
On utilisera principalement la moyenne, la variance et l’écart type.
8
Variance et écart-type
s2x =
1
n
i=1
(xi − x̄)2 ou s2x =
n
X
i=1
i=1
Propriétés la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les observations et est sensible aux valeurs
extrêmes. Elle est très utilisée à cause de ses bonnes propriétés mathématiques.
pi(xi − x̄)2
sxy =
n
X
i=1
9
pi(xi − x̄)(yi − ȳ) =
p
X
i=1
pixiyi − x̄ȳ.
et le coefficient de r de Bravais-Pearson ou coefficient de corrélation est
donné par
pix2i − (x̄)2
rxy
La variance est « la moyenne des carrés moins le carré de la moyenne ».
L’écart-type, qui a la même unité que x, est une mesure de dispersion.
p i xi .
Définitions la covariance observée entre deux variables x et y est
Propriétés La variance satisfait la formule suivante
n
X
n
X
i=1
L’écart-type sx est la racine carrée de la variance.
s2x =
1X
xi ,
n i=1
Mesure de liaison entre deux variables
Définition la variance de x est définie par
n
X
n
x̄ =
10
Pn
sxy
i=1 pi (xi − x̄)(yi − ȳ)
pP n
=
= pPn
.
2
2
sx sy
i=1 pi (xi − x̄)
i=1 pi(yi − ȳ)
11
Le coefficient de corrélation par l’exemple
x1
0.8
1.0
0.0
0.8
0.99
0.10
x2
0.15
0.89
x3
0.10
1.0
0.0
0.0
0.4
0.6
0.13
x4
0.0
0.4
En particulier, rxx = 1.
0.4
0.8
Variables liées |rxy| = 1 si et seulement si x et y sont linéairement
liées :
axi + byi = c, pour tout 1 ≤ i ≤ n.
0.2
0.8
0.6
0.8
−1 ≤ rxy ≤ 1.
0.4
0.4
Borne On a toujours (inégalité de Cauchy-Schwarz)
0.2
0.0
0.0
−1.5 −1.0 −0.5
Propriétés du coefficient de corrélation
Variables décorrélées si rxy = 0, on dit que les variables sont décorrélées. Cela ne veut pas dire qu’elles sont indépendantes !
12
Corrélation et liaison significative
0.0
0.2
0.4
0.6
0.8
1.0
−1.5
−1.0
−0.5
0.0
Interprétation on a 4 variables numériques avec 30 individus. Les variables 1 et 2 sont indépendantes ; les variables 1 et 3 ont une relation
linéaire ; les variables 2 et 4 ont une relation non-linéaire.
13
Le test on se fixe un risque d’erreur α (0.01 ou 0.05 en général) et on
calcule la probabilité
Problème à partir de quelle valeur de rxy peut-on considérer que les
variables x et y sont liées?
Domaine d’application on se place dans le cas ou le nombre d’individus est n > 30.
Méthode si x et y sont deux variables gaussiennes indépendantes, alors
on peut montrer que
2
(n − 2)rxy
P F (1,n − 2) >
2
1 − rxy
!
= π.
Si π < α on considère que l’événement est trop improbable et que donc
que l’hypothèse originale d’indépendance doit être rejetée au seuil α. On
trouvera en général ces valeurs dans une table précalculée de la loi F .
2
(n − 2)rxy
2
1 − rxy
suit une loi de Fischer-Snedecor F (1,n − 2). Le résultat est valable dans
le cas non gaussien pour n > 30.
14
15
Interlude : notation matricielle
Tableau de données
Matrice tableau de données carré ou rectangulaire, noté par un lettre
majuscule grasse (ex : X).
Vecteur matrice à une seule colonne, noté par
grasse (ex : x).



1
0
...
, 1 = 
Cas particuliers I = 
0
1
une lettre minuscule

1
.. .
1
Transposition de matrice échange des lignes et des colonnes d’une
matrice ; on note M0 la transposée de M.
16
Vecteurs variable et individu
On note xij la valeur de la i-ème variable pour le j-ème individu. Pour
n individus et p variables, on a le tableau
x11 x21
 x12 x22


1
p
X = (x , . . . ,x ) = 

···

 ..
x1n

···
..
xji
xp1
...
xpn




.



X est une matrice rectangulaire à n lignes et p colonnes.
17
La matrice des poids
Pourquoi utile quand les individus n’ont pas la même importance (échantillons redressés, données regroupées,...).
Variable Une colonne du tableau



j
x =


Comment on associe aux individus un poids pi tel que
xj1
..
xji
..
xjn

p1 + · · · + p n = 1





et on représente ces poids dans la matrice diagonale de taille n


0
p1


p2
.
D=
.


..
0
pn
Individu Une ligne du tableau
e0i = (x1i , . . . ,xji , . . . ,xpi)
Cas uniforme tous les individus ont le même poids pi = 1/n et D =
1
n I.
18
19
Point moyen et tableau centré
Matrice de variance-covariance
Point moyen c’est le vecteur g des moyennes arithmétiques de chaque
variable :
g0 = (x̄1, . . . ,x̄p),
où
n
X
x̄j =
pixji .
i=1
On peut aussi écrire g = X0D1.
Définition c’est une matrice carrée de dimension p

 2
s1 s12 · · · s1p

 s21
,
V=
...

 ..
sp1
s2p
Tableau centré il est obtenu en centrant les variables autour de leur
moyenne
yij = xji − x̄j
ou, en notation matricielle,
où skl est la covariance des variables xk et x` et s2j est la variance de la
variable xj
Y = X − 1g0 = (I − 110D)X
V = X0DX − gg0 = Y0DY.
20
Matrice de corrélation
1 r12 · · ·
 r21 1
R=
...
 .
rp1
r1p
21
Contexte chaque individu est considéré comme un point d’un espace
vectoriel F de dimension p . L’ensemble des individus est un nuage de
points dans F et g est son centre de gravité.


,

1
L’analyse de composantes principales (ACP)
Définition Si l’on note rk` = sk`/sk s`, c’est la matrice p × p

Formule matricielle
Principe on cherche à réduire le nombre p de variables tout en préservant au maximum la structure du problème.
Formule matricielle R = D1/sVD1/s, où


D1/s = 
1
s1
0
...
0
1
sp
Pour cela on projette le nuage de points sur un sous-espace
de dimension inférieure.



22
23
Exemple en dimension 2
Exemple en dimension 2 (suite)
On cherche la direction qui différencie le plus les points entre eux.
On veut passer de 2 variables à 1 seule.
x
2
x2
x1
x1
24
Distance entre individus
Distance euclidienne classique la distance la plus simple entre deux
points de Rp est définie par
d2(u,v) =
j=1
Matrice définie positive c’est une matrice symétrique telle que, pour
tout u non nul, u0Mu > 0.
Définition soit M = (mjk ) définie positive de dimension p. On pose
kuk2M = u0Mu =
(uj − vj )2 = ku − vk2
Généralisation simple on multiplie la variable j par
d2(u,v) =
p
X
j=1
p X
p
X
mjk uj uk ,
j=1 k=1
d2M(u,v) = ku − vk2M.
√
Espace métrique il est défini par le produit scalaire
aj
hu,viM = u0Mv =
aj (uj − vj )2,
25
Métrique
Motivation afin de pouvoir considérer la structure du nuage des individus, il faut définir une distance, qui induira une géométrie.
p
X
p X
p
X
mjk uj vk .
j=1 k=1
On dit que u et v sont orthogonaux si hu,viM = 0.
26
27
Comparaison avec le cas usuel
Inertie
Définition l’inertie en un point a du nuage de points est
Norme
2
0
kuk = u u =
p
X
u2j
0
Ia =
(= u Iu)
i=1
j=1
kuk2M = u0Mu =
n
X
p X
p
X
pikei − ak2M =
j=1 k=1
2Ig =
hu,vi = u v =
p
X
(= u Iv)
p X
p
X
mjk uj vk
pipj kei − ej k2M.
L’inertie totale est aussi donnée par la trace de la matrice MV
j=1
hu,viM = u0Mv =
n
n X
X
i=1 j=1
0
u j vj
i=1
pi(ei − a)0M(ei − a).
Autres relations l’inertie totale Ig est la moitié de la moyenne des
carrés des distances entre les individus
mjk uj uk
Produit scalaire
0
n
X
Ig = Tr(MV),
la trace d’une matrice étant la somme de ses éléments diagonaux.
j=1 k=1
28
Métriques particulières
29
Métriques et tableaux transformés
MétriquePusuelle M = I correspond au produit scalaire usuel et Ig =
p
Tr(V) = j=1 s2i .
Problèmes
– la distance entre individus dépend de l’unité de mesure.
– la distance privilégie les variables les plus dispersées.
Métrique réduite c’est la plus courante ; on prend la matrice diagonale
des inverses des variances
 1

0
s21


...
M = D1/s2 = 

1
0
2
s
Utiliser la métrique M = T0T sur le tableau X est équivalent à travailler
avec la métrique classique I sur le tableau transformé XT0.
Tableau transformé Si on travaille sur le tableau transformé XT0
(changement de variables) au lieu de X, alors les nouveaux individus
seront de la forme Tei et
hTei1 ,Tei2 i = (Tei1 )0(Tei2 ) = e0i1 T0Tei2 = e0i1 Mei2 = hei1 ,ei2 iM
Réciproque pour toute matrice symétrique positive M, il existe une
matrice T (racine carrée de M) telle que
M = T0 T
p
et Ig = Tr(D1/s2 V) = Tr(D1/sVD1/s) = Tr(R) = p.
30
et donc on peut ramener l’utilisation de la métrique à un changement de
variables.
31
Métriques et tableaux transformés (suite)
L’analyse de composantes principales (version 2)
Utiliser une métrique est donc équivalent à « tordre » les données pour
les rendre comparables
x2
Principe on cherche à projeter le nuage de points sur un espace Fk de
dimension k < p.
x2
Critère on veut que la moyenne des carrés des distances entre les points
projetés soit maximale (elle est toujours plus petite que pour le nuage
original).
x1
x1
Pour cela on cherche Fk , sous espace de dimension k de Rk ,
tel que l’inertie du nuage projeté sur Fk soit maximale.
Exemple utiliser la métrique réduite est équivalent à travailler sur les
données centrées réduites Z = YD1/s.
32
Interlude : valeurs propres et vecteurs propres
33
Valeurs et vecteurs propres : un exemple concret
Définition un vecteur v de taille p est un vecteur propre d’une matrice
A de taille p × p s’il existe λ ∈ C telle que
Av = λv.
La matrice
Domaine En général, les vecteurs propres et valeurs propres sont complexes ; dans tous les cas qui nous intéressent, ils seront réels.
Interprétation des vecteurs propres ce sont les directions dans lesquelles la matrice agit.
Interprétation des valeurs propres c’est le facteur multiplicatif associé à une direction donnée.
34

5 1 −1
 2 4 −2 
1 −1 3

a pour vecteurs propres
λ est une valeur propre de A associée à v.

 
 

0
1
1
v1 =  1  , v 2 =  0  , v 3 =  1  .
1
1
0
On vérifie facilement que les valeurs propres associées sont
λ1 = 2, λ2 = 4, λ3 = 6.
35
Valeurs et vecteurs propres : cas particuliers
Quelques matrices diagonalisables
Matrice nulle sa seule valeur propre est 0, et tout vecteur est vecteur
propre.
Matrice symétrique une matrice symétrique réelle (A0 = A) possède
une base de vecteurs propres orthogonaux et ses valeurs propres sont
réelles
et λi ∈ R.
hvi,vj i = 0 si i 6= j,
Matrice identité tout vecteur est vecteur propre de I avec valeur
propre 1, puisque Iv = v.
Matrice diagonale si Dλ est une matrice diagonale avec les coefficients λ1, . . . ,λp, alors le i-ème vecteur coordonnée est vecteur propre de
Dλ associé à la valeur propre λi.
L’action d’une matrice diagonale est de multiplier chacune des coordonnées d’un vecteur par la valeur propre correspondante.
Matrice diagonalisable c’est une matrice dont les vecteurs propres
forment une base de l’espace vectoriel : tout vecteur peut être représenté
de manière unique comme combinaison linéaire des vecteurs propres. Une
matrice de taille p × p qui a p valeurs propres réelles distinctes est diagonalisable dans R.
36
Matrice M-symétrique une matrice M-symétrique réelle (A0M =
MA) possède une base de vecteurs propres M-orthogonaux et ses valeurs
propres sont positives ou nulles
hvi,vj iM = 0 si i 6= j,
et λi ∈ R.
Matrice définie positive c’est une matrice symétrique dont les valeurs
propres sont strictement positives et donc
hvi,vj i = 0 si i 6= j,
et λi > 0.
Analyse de de VM
37
Résultat principal
Valeurs propres la matrice VM est M-symétrique : elle est donc diagonalisable et ses valeurs propres λ1, . . . ,λp sont réelles.
Théorème principal
Vecteurs propres il existe donc p vecteurs a1, . . . ,ap tels que
VMai = λiai,
avec hai,aj iM = 1 si i = j, 0 sinon.
Les ai sont les axes principaux d’inertie de VM . Ils sont M-orthonormaux.
Signe des valeurs propres les valeurs propres de VM sont positives
et on peut les classer par ordre décroissant
λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.
Idée du lien avec l’inertie on sait que T r(VM) = λ1 + · · · + λp.
Si on ne garde que les données relatives à a1, . . . ,ak , on gardera l’inertie
λ1 + · · · + λk , et c’est le mieux qu’on puisse faire.
38
(Admis)
1. Si Fk est le sous-espace de dimension k portant l’inertie principale,
alors
Fk+1 = Fk ⊕ fk+1,
où fk+1 est le sous espace de dimension 1 M-orthogonal à Fk portant
l’inertie maximale : les solutions sont « emboı̂tées » ;
2. Fk est engendré par les k vecteurs propres de VM associés aux k plus
grandes valeurs propres.
Interprétation du théorème l’ACP sur k + 1 variables est obtenue
par ajout d’une variable d’inertie maximale à l’ACP sur k variables. Il n’est
pas nécessaire de refaire tout le calcul.
39
Les composantes principales
Coordonnées des individus supposons que ei − g =
alors
p
X
cij hak ,aj iM = cij
hei − g,aj iM =
Représentation des individus dans un plan principal
Pp
k=1 cij ak ,
Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales c1 et c2, on représente chaque individu i par un point
d’abscisse ci1 et d’ordonnée ci2.
Axe 2
k=1
La coordonnée de l’individu centré ei − g sur l’axe principal aj est
donc donné par la projection M-orthogonale
cij = hei − g,aj iM = (ei − g)0Maj .
40
Propriétés des composantes principales
e1
e7
e4
Composantes principales ce sont les variables cj de taille n définies
par
cj = YMaj .
Chaque cj contient les coordonnées des projections M-orthogonales
des individus centrés sur l’axe défini par les aj .
e6
e2
Axe 1
e5
e8
e3
Quand? Elle est utile quand les individus sont discernables.
41
Facteurs principaux
Moyenne arithmétique les composantes principales sont centrées :
c̄j = c0j D1 = a0j MY 0D1 = 0
Définition on associe à un axe principal aj le facteur principal uj =
Maj de taille p. C’est un vecteur propre de MV car
car Y 0D1 = 0 (les colonnes de Y sont centrées).
MVuj = MVMaj = λj Maj = λj uj
Variance la variance de cj est λj car
Calcul en pratique, on calcule les uj par diagonalisation de MV, puis
on obtient les cj = Yuj . Les aj ne sont pas intéressants.
La valeur d’une variable cj pour l’individu ei est donc
V (cj ) = c0j Dcj = a0j MY 0DYMaj
= a0j MVMaj = λj a0j Maj = λj .
Covariance de même, pour i 6= j,
cij = (ei − g)0uj =
cov(ci,cj ) = c0iDcj = · · · = λj a0iMaj = 0.
yik ujk
k=1
où u0j = (ui1, . . . ,uip).
Les composantes principales ne sont pas corrélées entre elles.
p
X
42
43
Formules de reconstruction
Il est possible de reconstruire le tableau centré Y à partir des composantes principales et des facteurs principaux
Y=
p
X
cj a0j =
j=1
p
X
cj u0j M−1.
Travailler avec la métrique D1/s2 est équivalent à diviser chaque variable
par son écart-type et à utiliser la métrique I.
j=1
Données centrées réduites c’est le tableau Z contenant les données
et, comme M est inversible et que ai est une base, on obtient Y.
Approximation si on prend les k premiers termes seulement, on obtient
la meilleure approximation de Y par une matrice de rang k au sens des
moindres carrés (théorème de Eckart-Young).
44
L’ACP sur les données centrées réduites
zij =
xji − x̄j
,
sj
qui se calcule matriciellement comme Z = YD1/s.
45
Nombre d’axes à retenir
Matrice de variance-covariance c’est la matrice de corrélation car
Z0DZ = D1/sY0DYD1/s = D1/sVD1/s = R.
Métrique on prend la métrique M = I.
Facteurs principaux ce sont les p vecteurs propres orthonormés de R,
Rui = λiui, avec hui,uj i = 1 si i = j, 0 sinon.
Dimension de l’espace des individus L’ACP visant à réduire la dimension de l’espace des individus, on veut conserver aussi peu d’axes que
possible. Il faut pour cela que les variables d’origine soient raisonnablement
corrélées entre elles.
Les seuls critères utilisables sont empiriques.
Interprétation des axes on s’efforce de ne retenir que des axes à
propos desquels une forme d’interprétation est possible (soit directement,
soit en terme des variables avec lesquels ils sont très corrélés). On donnera
des outils à cet effet plus loin dans le cours.
Critère de Kaiser (variables centrées-réduites) on ne retient que
les axes associés à des valeurs propres supérieures à 1, c’est-à-dire dont
la variance est supérieure à celle des variables d’origine.
Une autre interprétation est que la moyenne des valeurs propres étant
1, on ne garde que celles qui sont supérieures à cette moyenne.
dont les valeurs propres sont classés par valeur propre décroissante
λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λ p ≥ 0
Composantes principales elles sont données par cj = Zuj .
Pourquoi cette métrique ? pour que les distances soient indépendantes des unités de mesure et qu’elles ne privilégient pas les variables
dispersées.
Équivalence avec les données réduites on a D1/s2 = D1/sD1/s
et donc
hei,ej iD1/s2 = hD1/sei,D1/sej i.
j=1
Preuve il suffit de calculer


p
p
X
X
0

cj aj Mai =
cj a0j Mai = ci = YMai
j=1
Le cas de la métrique D1/s2
46
47
L’espace des variables
Nombre d’axes à retenir (suite)
Éboulis des valeurs propres on cherche un « coude » dans le graphe
des valeurs propres
Métrique D il faut munir l’espace des variables d’une métrique raisonnable. On choisit toujours la métrique D des poids :
3.5
hx,yiD = x0Dy,
kxk2D = x0Dx.
3.0
Interprétation pour deux variables centrées x et y, on a
2.0
2.5
cov(x,y) = hx,yiD,
V (x) = kxk2D,
hx,yiD
.
kxkDkykD
√
Exemple les vecteurs ck / λk forment une base D-orthonormale
(
1, si k = `,
ck c `
√ ,√
= cor(ck ,c`) =
λk λ` D
0, sinon.
0.0
0.5
1.0
1.5
cor(x,y) =
2
4
6
8
10
48
49
Corrélation entre composantes et variables initiales
Le cercle des corrélations
Quand on travaille sur les variables centrées-réduites, la corrélation
entre une composante principale ck et une variable zj est
Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales, par exemple c1 et c2, on représente chaque variable zj
par un point d’abscisse r(zj ,c1) et d’ordonnée r(zj ,c2).
Axe 2
Axe 2
cov(zj ,ck ) (zj )0Dck
= √
r(zj ,ck ) = p
λk
V (ck )
x6 x7
r (xj ,c2 )
xj
et donc le vecteur des corrélations de ck avec Z est
r (xj ,c1 )
Z0Dck
.
r(Z,ck ) = (r(z1,ck ), . . . ,r(zp,ck ))0 = √
λk
x4
x5
x3
Axe 1
x8
Comme Z0Dck = Z0DZuk = Ruk = λk uk , on a finalement
p
r(Z,ck ) = λk uk .
Axe 1
x1
x2
Effet « taille » cela arrive quand toutes les variables sont corrélées
positivement avec la première composante principale. Cette composante
est alors appelée facteur de « taille », la seconde facteur de « forme ».
50
51
Contribution d’un individu à une composante
Le cercle des corrélations (suite)
√
Pourquoi un cercle? comme les ck / λk forment une base D-orthonormale,
Définition On sait que V (ck ) = λk =
de l’individu i à la composante k est donc
p p
X
X
ck
c
ck j
√ ,z
√k =
r(ck ,zj ) √
z =
λk
λk
λk
D
i=1
k=1
j
et donc
kzj k2D
=1=
p
X
2
2
i=1 picik .
La contribution
pic2ik
λk
Interprétation la contribution d’un individu est importante si elle excède le poids pi de l’individu concerné, c’est-à-dire
j
r (ck ,z ).
k=1
Les points sont bien à l’intérieur d’un cercle de rayon 1.
Interprétation
– les points sont la projection orthogonale dans D des variables dans le
plan défini par les composantes principales c1 et c2.
– Il ne faut interpréter la proximité des points que s’ils sont proches de
la circonférence.
Pn
52
p
pic2ik
≥ pi =⇒ |cik | ≥ λk .
λk
Individus sur-représentés ce sont les individus qui jouent un rôle trop
fort dans la définition d’un axe (par exemple > 0,25). Il « tire à lui » l’axe
k et risque de perturber les représentations des autres points sur les axes
de rang ≥ k. Un tel individu peut être le signe de données erronées.
53
Qualité globale de la représentation
Qualité locale de la représentation
Calcul de l’inertie on se souvient que Ig = Tr(VM) ; comme la trace
d’une matrice est la somme de ses valeurs propres, on a
But on cherche à déterminer si le nuage de points est très aplati par
la projection sur les sous-espaces principaux. Dans ce cas, deux individus
éloignés pourraient artificiellement sembler proches les uns des autres.
Ig = λ 1 + λ 2 + · · · + λ p .
e1
Définition la qualité de la représentation obtenue par k valeurs propres
est la proportion de l’inertie expliquée
λ1 + λ 2 + · · · + λ k
λ1 + λ2 + · · · + λ p
θ
g
F12
e2
Utilisation si par exemple λ1 + λ2 est égal 90% de Ig, on en déduit
que le nuage de points est aplati autour du premier plan principal.
54
55
Angle entre un individu et un axe principal
Angle entre un individu et un sous-espace principal
Il est défini par son cosinus carré. Le cosinus de l’angle entre l’individu
centré i et l’axe principal j est
C’est l’angle entre l’individu et sa projection orthogonale sur le sousespace.
La projection de ei − g sur le sous-espace Fq , q ≤ p, est
Pq
c
k=1 ik ak , et donc
cos(ei,aj ) =
hei − g,aj iM
.
kei − gkM
Pq
c2ik
.
cos (ei,Fq ) = Pk=1
p
2
k=1 cik
2
car les aj forment une base orthonormale. Comme hei − g,aj iM = cij ,
c2ij
cos2(ei,aj ) = Pp
2 .
k=1 cik
La qualité de la représentation de l’individu i sur le plan Fq est donc
la somme des qualités de représentation sur les axes formant Fq . Il est
significatif quand le point ei n’est pas trop près de g.
Cette grandeur mesure la qualité de la représentation de l’individu i
sur l’axe principal aj .
56
57
Variables supplémentaires quantitatives
Éléments supplémentaires
Motivation les composantes principales étant définies pour maximiser
les contributions, le fait que les corrélations obtenues soient proches de 1
peut ne pas être significatif. Par contre, une corrélation forte entre une
composante principale et un individu ou une variable n’ayant pas participé
à l’analyse est très significative.
Cas des individus sur-représentés on peut décider d’utiliser ces
points en individus supplémentaires, en particulier quand les points constituent un échantillon et ne présentent pas d’intérêt en eux-mêmes.
Corrélation on calcule la corrélation de la variable avec les composantes
principales et on la place dans le cercle des corrélations. Si ẑ est le vecteur
centré-réduit correspondant à cette variable, on calcule
n
cov(ẑ,ck ) hẑ,ck iD
1 X
= √
=√
piẑicik .
cor(ẑ,ck ) = p
λk
λk i=1
V (ck )
On peut utiliser un test statistique pour déterminer si une corrélation est
significative.
Méthode on « met de coté » certaines variables pour qu’elles ne soient
pas utilisées dans l’analyse (on diminue donc la dimension de R), ou
alors certains individus (ils ne sont pas pris en compte dans le calcul des
covariances). On cherche ensuite à savoir s’ils sont liés à un axe donné.
58
59
Variables qualitatives supplémentaires
Individus supplémentaires
Représentation on peut représenter par des symboles différents les
individus de chaque catégorie sur les axes principaux.
Valeur-test on considère les n̂ individus ayant une certaine caractéristique (homme, femme...) et la coordonnée ĉk de leur barycentre sur la
kième composante principale. La valeur-test est
r r
n̂ n − 1
.
|ĉk |
λk n − n̂
Quand n̂ est assez grand, elle est significative si elle est supérieure à 2 ou
3 . On ne doit pas l’utiliser sur les variables actives.
Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk serait une
variable aléatoire centrée (les z sont de moyenne nulle) et de variance
λk n−n̂
n̂ n−1 car le tirage est sans remise.
60
Représentation on les ajoute à la représentation sur les plans principaux. Pour calculer leur coordonnée sur un axe fixé, on écrit
ĉk = hẑ,uk i =
p
X
ẑ j ukj ,
j=1
où les ẑ j sont les coordonnées centrées-réduites d’un individu supplémentaire ẑ.
Ces individus serviront d’échantillon-test pour vérifier les hypothèses
tirées de l’ACP sur les individus actifs.
61
L’ACP en trois transparents (1)
Données les données représentent les valeurs de p variables mesurées
sur n individus ; les individus peuvent avoir un poids. En général on travaille sur des données centrées réduites Z (on retranche la moyenne et on
divise par l’écart type).
Nombre d’axes on se contente souvent de garder les axes interprétables de valeur propre supérieure à 1. La qualité de la représentation
retenue est mesurée par la part d’inertie expliquée par ces composantes.
Matrice de corrélation c’est la matrice R de variance-covariance des
variables centrées réduites. Elle possède p valeurs propres λ1 ≥ · · · ≥
λp ≥ 0.
Facteurs principaux uk ce sont les vecteurs propres orthonormés de
R (de dimension p) associés aux valeurs propres λk . Leur j-ième composante ukj est le poids de la variable j dans la composante k.
Composantes principales ck ce sont les vecteurs Zuk de dimension
n. Leur i-ième coordonnée cki est la valeur de la composante k pour
l’individu i. Les ck sont décorrélées et leur variance est V (ck ) = λj .
62
Cercle des corrélations il permet de visualiser comment les variables
sont corrélées (positivement ou négativement) avec les composantes principales. À partir de là, on peut soit trouver une signification physique à
chaque composante, soit montrer que les composantes séparent les variables en paquets. Seules les variables bien représentées (situées près du
bord du cercle) doivent être interprétées.
Variables supplémentaires certaines variables peuvent être mises de
coté lors de l’ACP et reportées séparément sur le cercle des corrélation
(ou la représentation des individus pour les variables qualitatives).
63
Représentation des individus pour un plan principal donné, la représentation des projections des individus permet de confirmer l’interprétation
des variables. On peut aussi visualiser les individus aberrants (erreur de
donnée ou individu atypique).
Contribution d’un individu à une composante c’est la part de la
variance d’une composante principale qui provient d’un individu donné. Si
cette contribution est très supérieure aux autres, on peut avoir intérêt à
mettre l’individu en donnée supplémentaire.
Qualité globale de la représentation c’est la part de l’inertie totale
Ig qui est expliquée par les axes principaux qui ont été retenus. Elle permet
de mesurer la précision et la pertinence de l’ACP.
Qualité de la représentation d’un individu elle permet de vérifier
que tous les individus sont bien représentés par le sous-espace principal
choisi; elle s’exprime comme le carré du cosinus de l’angle entre l’individu
et sa projection orthogonale.
64

Cours d`analyse de données

Transcription

Documents pareils

Retraite de communion - Paroisse de Castanet

Jean-Marc Bailleux

Jean-Marc Mormeck - Rhone Solidaires

N° 39 Échos des Fairways de AVRIL 2011

Organigramme

Nouveautés avril 2016 L`amour et les forêts, d`Eric Reinhardt

161018 Communiqué Groupe CANAL

Jean-Marc Wiederrecht

Programme - Vie`ta`mine

Télécharger CDR0451 en PDF