Cours d`analyse de données

Transcription

Cours d`analyse de données
L’analyse de données
Cours d’analyse de données
But synthétiser, structurer l’information contenue dans des données
multidimensionnelles (n individus, p variables).
Jean-Marc Lasgouttes
[email protected]
Deux groupes de méthodes
– méthodes de classification : réduire la taille de l’ensemble des individus
en formant des groupes homogènes ;
– méthodes factorielles : réduire le nombre de variables en les résumant
par un petit nombre de composantes synthétiques.
Magistère de Finance de Paris 1, 2è année
http://www-rocq.inria.fr/~lasgoutt/ana-donnees/
Deux types de méthodes factorielles
– analyse en composantes principales : variables numériques ;
– analyse des correspondances : variables qualitatives.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
But du cours
1
Ce que ce cours n’est pas
Un cours de mathématiques financières il n’y a pas de modèles
probabilistes de processus financiers (cours de bourse...).
Méthodes couvertes par le cours
– analyse en composantes principales (ACP) ;
– analyse (factorielle) des correspondances (AFC) ;
– analyse des correspondances multiples (ACM).
Un cours de statistique inférentielle il ne sera pas question ici de
tests, d’estimateurs, de prévision statistique.
Un cours uniquement orienté « utilisateur » même si le but ultime
est de savoir utiliser les méthodes d’analyse de données, ce cours s’attache
à exposer les fondements mathématiques de ces méthodes.
Compétences recherchées
– savoir interpréter les tables et graphiques issus de ces méthodes ;
– comprendre les fondements mathématiques des méthodes ;
– être capable de mener soi-même une telle étude.
Un cours appliqué aux données financières ce cours est avant
tout un cours de méthode ; les exemples abordés seront ou ne seront pas
issus de cette application.
Un cours « pratique » Les contraintes d’effectif et de matériel ne
permettent malheureusement pas d’effectuer des travaux pratiques.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
2
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
3
Méthodes utilisées
Statistiques et probabilités
Algèbre linéaire les données sont vues de manière abstraites comme un
nuage de points dans un espace vectoriel de dimension finie ; en particulier
on utilise
Une approche différente Les probabilités reposent sur un modèle de
données et font en général des hypothèses simplificatrices. Ici, on utilisera
plus des considérations géométriques.
– matrices : permettent de manipuler un ensemble de variables comme
un objet mathématique unique ;
– valeurs et vecteurs propres : permettent de décrire la structure d’une
matrice.
– métriques : permettent de définir la distance entre deux points de l’espace vectoriel ; on utilise aussi des produits scalaires.
3 ponts possibles
– les données statistiques sont empruntes d’une forme de variabilité liée
aux erreurs de mesures ; on peut modéliser cette erreur par une variable
aléatoire ;
– on constate souvent que la répartition d’une variable est proche d’une
loi de probabilités connue ;
– surtout, quand des données sont issue d’un sondage, on peut considérer
que ce sont des tirages d’une variable aléatoire. Quand les échantillons
sont assez grands, on connaı̂t des lois limites.
Théorie des probabilités peu utile ici ; plutôt nécessaire en statistique
inférentielle (estimation, tests, modélisation et prévision,...). On utilisera
quand même quelques tests statistiques.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
4
Références
5
Individus et variables
Ces références sont données à titre indicatif ; aucun livre n’est demandé
pour ce cours.
Base du cours Gilbert Saporta, Probabilités, analyse des données et
statistique, 2nde édition, Technip, 2006.
Version plus simple Jean-Marie Bouroche et Gilbert Saporta, L’analyse des données, Que Sais-je?, Presses Universitaires de France, 2002.
Logiciel de traitement de données R Development Core Team
(2007). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria, http://www.Rproject.org.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
6
Population groupe ou ensemble d’individus que l’on analyse.
Recensement étude de tous les individus d’une population donnée.
Sondage étude d’une partie seulement d’une population appelée échantillon.
Variables ensemble de caractéristiques d’une population.
– quantitatives: nombres sur lesquels les opérations usuelles (somme,
moyenne,...) ont un sens ; elles peuvent être discrètes (ex : nombre
d’éléments dans un ensemble) ou continues (ex: prix, taille) ;
– qualitatives: appartenance à une catégorie donnée ; elles peuvent être
nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant).
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
7
Description de données quantitatives
Moyenne arithmétique
Définition On appelle variable un vecteur x de taille n. Chaque coordonnée xi correspond à un individu. On s’intéresse ici à des valeurs
numériques.
Définition On note
Poids Chaque individu a éventuellement un poids pi, tel que p1 + · · · +
pn=1. On a souvent p = 1/n.
ou pour des données pondérés
x̄ =
Représentation histogramme en découpant les valeurs de la variable
en classes ; ou alors « boı̂te à moustache ».
Résumés on dispose d’une série d’indicateurs qui ne donne qu’une vue
partielle des données : effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3ème quartile, ... Ces indicateurs
mesurent principalement la tendance centrale et la dispersion.
On utilisera principalement la moyenne, la variance et l’écart type.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
8
Variance et écart-type
s2x =
1
n
i=1
(xi − x̄)2 ou s2x =
n
X
i=1
i=1
Propriétés la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les observations et est sensible aux valeurs
extrêmes. Elle est très utilisée à cause de ses bonnes propriétés mathématiques.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
pi(xi − x̄)2
sxy =
n
X
i=1
9
pi(xi − x̄)(yi − ȳ) =
p
X
i=1
pixiyi − x̄ȳ.
et le coefficient de r de Bravais-Pearson ou coefficient de corrélation est
donné par
pix2i − (x̄)2
rxy
La variance est « la moyenne des carrés moins le carré de la moyenne ».
L’écart-type, qui a la même unité que x, est une mesure de dispersion.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
p i xi .
Définitions la covariance observée entre deux variables x et y est
Propriétés La variance satisfait la formule suivante
n
X
n
X
i=1
L’écart-type sx est la racine carrée de la variance.
s2x =
1X
xi ,
n i=1
Mesure de liaison entre deux variables
Définition la variance de x est définie par
n
X
n
x̄ =
10
Pn
sxy
i=1 pi (xi − x̄)(yi − ȳ)
pP n
=
= pPn
.
2
2
sx sy
i=1 pi (xi − x̄)
i=1 pi(yi − ȳ)
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
11
Le coefficient de corrélation par l’exemple
x1
0.8
1.0
0.0
0.8
0.99
0.10
x2
0.15
0.89
x3
0.10
1.0
0.0
0.0
0.4
0.6
0.13
x4
0.0
0.4
En particulier, rxx = 1.
0.4
0.8
Variables liées |rxy| = 1 si et seulement si x et y sont linéairement
liées :
axi + byi = c, pour tout 1 ≤ i ≤ n.
0.2
0.8
0.6
0.8
−1 ≤ rxy ≤ 1.
0.4
0.4
Borne On a toujours (inégalité de Cauchy-Schwarz)
0.2
0.0
0.0
−1.5 −1.0 −0.5
Propriétés du coefficient de corrélation
Variables décorrélées si rxy = 0, on dit que les variables sont décorrélées. Cela ne veut pas dire qu’elles sont indépendantes !
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
12
Corrélation et liaison significative
0.0
0.2
0.4
0.6
0.8
1.0
−1.5
−1.0
−0.5
0.0
Interprétation on a 4 variables numériques avec 30 individus. Les variables 1 et 2 sont indépendantes ; les variables 1 et 3 ont une relation
linéaire ; les variables 2 et 4 ont une relation non-linéaire.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
13
Le test on se fixe un risque d’erreur α (0.01 ou 0.05 en général) et on
calcule la probabilité
Problème à partir de quelle valeur de rxy peut-on considérer que les
variables x et y sont liées?
Domaine d’application on se place dans le cas ou le nombre d’individus est n > 30.
Méthode si x et y sont deux variables gaussiennes indépendantes, alors
on peut montrer que
2
(n − 2)rxy
P F (1,n − 2) >
2
1 − rxy
!
= π.
Si π < α on considère que l’événement est trop improbable et que donc
que l’hypothèse originale d’indépendance doit être rejetée au seuil α. On
trouvera en général ces valeurs dans une table précalculée de la loi F .
2
(n − 2)rxy
2
1 − rxy
suit une loi de Fischer-Snedecor F (1,n − 2). Le résultat est valable dans
le cas non gaussien pour n > 30.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
14
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
15
Interlude : notation matricielle
Tableau de données
Matrice tableau de données carré ou rectangulaire, noté par un lettre
majuscule grasse (ex : X).
Vecteur matrice à une seule colonne, noté par
grasse (ex : x).



1
0
...
, 1 = 
Cas particuliers I = 
0
1
une lettre minuscule

1
.. .
1
Transposition de matrice échange des lignes et des colonnes d’une
matrice ; on note M0 la transposée de M.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
16
Vecteurs variable et individu
On note xij la valeur de la i-ème variable pour le j-ème individu. Pour
n individus et p variables, on a le tableau
x11 x21
 x12 x22


1
p
X = (x , . . . ,x ) = 

···

 ..
x1n

···
..
xji
xp1
...
xpn




.



X est une matrice rectangulaire à n lignes et p colonnes.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
17
La matrice des poids
Pourquoi utile quand les individus n’ont pas la même importance (échantillons redressés, données regroupées,...).
Variable Une colonne du tableau



j
x =


Comment on associe aux individus un poids pi tel que
xj1
..
xji
..
xjn

p1 + · · · + p n = 1





et on représente ces poids dans la matrice diagonale de taille n


0
p1


p2
.
D=
.


..
0
pn
Individu Une ligne du tableau
e0i = (x1i , . . . ,xji , . . . ,xpi)
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Cas uniforme tous les individus ont le même poids pi = 1/n et D =
1
n I.
18
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
19
Point moyen et tableau centré
Matrice de variance-covariance
Point moyen c’est le vecteur g des moyennes arithmétiques de chaque
variable :
g0 = (x̄1, . . . ,x̄p),
où
n
X
x̄j =
pixji .
i=1
On peut aussi écrire g = X0D1.
Définition c’est une matrice carrée de dimension p

 2
s1 s12 · · · s1p

 s21
,
V=
...

 ..
sp1
s2p
Tableau centré il est obtenu en centrant les variables autour de leur
moyenne
yij = xji − x̄j
ou, en notation matricielle,
où skl est la covariance des variables xk et x` et s2j est la variance de la
variable xj
Y = X − 1g0 = (I − 110D)X
V = X0DX − gg0 = Y0DY.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
20
Matrice de corrélation
1 r12 · · ·
 r21 1
R=
...
 .
rp1
r1p
21
Contexte chaque individu est considéré comme un point d’un espace
vectoriel F de dimension p . L’ensemble des individus est un nuage de
points dans F et g est son centre de gravité.


,

1
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
L’analyse de composantes principales (ACP)
Définition Si l’on note rk` = sk`/sk s`, c’est la matrice p × p

Formule matricielle
Principe on cherche à réduire le nombre p de variables tout en préservant au maximum la structure du problème.
Formule matricielle R = D1/sVD1/s, où


D1/s = 
1
s1
0
...
0
1
sp
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Pour cela on projette le nuage de points sur un sous-espace
de dimension inférieure.



22
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
23
Exemple en dimension 2
Exemple en dimension 2 (suite)
On cherche la direction qui différencie le plus les points entre eux.
On veut passer de 2 variables à 1 seule.
x
2
x2
x1
x1
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
24
Distance entre individus
Distance euclidienne classique la distance la plus simple entre deux
points de Rp est définie par
d2(u,v) =
j=1
Matrice définie positive c’est une matrice symétrique telle que, pour
tout u non nul, u0Mu > 0.
Définition soit M = (mjk ) définie positive de dimension p. On pose
kuk2M = u0Mu =
(uj − vj )2 = ku − vk2
Généralisation simple on multiplie la variable j par
d2(u,v) =
p
X
j=1
p X
p
X
mjk uj uk ,
j=1 k=1
d2M(u,v) = ku − vk2M.
√
Espace métrique il est défini par le produit scalaire
aj
hu,viM = u0Mv =
aj (uj − vj )2,
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
25
Métrique
Motivation afin de pouvoir considérer la structure du nuage des individus, il faut définir une distance, qui induira une géométrie.
p
X
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
p X
p
X
mjk uj vk .
j=1 k=1
On dit que u et v sont orthogonaux si hu,viM = 0.
26
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
27
Comparaison avec le cas usuel
Inertie
Définition l’inertie en un point a du nuage de points est
Norme
2
0
kuk = u u =
p
X
u2j
0
Ia =
(= u Iu)
i=1
j=1
kuk2M = u0Mu =
n
X
p X
p
X
pikei − ak2M =
j=1 k=1
2Ig =
hu,vi = u v =
p
X
(= u Iv)
p X
p
X
mjk uj vk
pipj kei − ej k2M.
L’inertie totale est aussi donnée par la trace de la matrice MV
j=1
hu,viM = u0Mv =
n
n X
X
i=1 j=1
0
u j vj
i=1
pi(ei − a)0M(ei − a).
Autres relations l’inertie totale Ig est la moitié de la moyenne des
carrés des distances entre les individus
mjk uj uk
Produit scalaire
0
n
X
Ig = Tr(MV),
la trace d’une matrice étant la somme de ses éléments diagonaux.
j=1 k=1
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
28
Métriques particulières
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
29
Métriques et tableaux transformés
MétriquePusuelle M = I correspond au produit scalaire usuel et Ig =
p
Tr(V) = j=1 s2i .
Problèmes
– la distance entre individus dépend de l’unité de mesure.
– la distance privilégie les variables les plus dispersées.
Métrique réduite c’est la plus courante ; on prend la matrice diagonale
des inverses des variances
 1

0
s21


...
M = D1/s2 = 

1
0
2
s
Utiliser la métrique M = T0T sur le tableau X est équivalent à travailler
avec la métrique classique I sur le tableau transformé XT0.
Tableau transformé Si on travaille sur le tableau transformé XT0
(changement de variables) au lieu de X, alors les nouveaux individus
seront de la forme Tei et
hTei1 ,Tei2 i = (Tei1 )0(Tei2 ) = e0i1 T0Tei2 = e0i1 Mei2 = hei1 ,ei2 iM
Réciproque pour toute matrice symétrique positive M, il existe une
matrice T (racine carrée de M) telle que
M = T0 T
p
et Ig = Tr(D1/s2 V) = Tr(D1/sVD1/s) = Tr(R) = p.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
30
et donc on peut ramener l’utilisation de la métrique à un changement de
variables.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
31
Métriques et tableaux transformés (suite)
L’analyse de composantes principales (version 2)
Utiliser une métrique est donc équivalent à « tordre » les données pour
les rendre comparables
x2
Principe on cherche à projeter le nuage de points sur un espace Fk de
dimension k < p.
x2
Critère on veut que la moyenne des carrés des distances entre les points
projetés soit maximale (elle est toujours plus petite que pour le nuage
original).
x1
x1
Pour cela on cherche Fk , sous espace de dimension k de Rk ,
tel que l’inertie du nuage projeté sur Fk soit maximale.
Exemple utiliser la métrique réduite est équivalent à travailler sur les
données centrées réduites Z = YD1/s.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
32
Interlude : valeurs propres et vecteurs propres
33
Valeurs et vecteurs propres : un exemple concret
Définition un vecteur v de taille p est un vecteur propre d’une matrice
A de taille p × p s’il existe λ ∈ C telle que
Av = λv.
La matrice
Domaine En général, les vecteurs propres et valeurs propres sont complexes ; dans tous les cas qui nous intéressent, ils seront réels.
Interprétation des vecteurs propres ce sont les directions dans lesquelles la matrice agit.
Interprétation des valeurs propres c’est le facteur multiplicatif associé à une direction donnée.
34

5 1 −1
 2 4 −2 
1 −1 3

a pour vecteurs propres
λ est une valeur propre de A associée à v.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.

 
 

0
1
1
v1 =  1  , v 2 =  0  , v 3 =  1  .
1
1
0
On vérifie facilement que les valeurs propres associées sont
λ1 = 2, λ2 = 4, λ3 = 6.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
35
Valeurs et vecteurs propres : cas particuliers
Quelques matrices diagonalisables
Matrice nulle sa seule valeur propre est 0, et tout vecteur est vecteur
propre.
Matrice symétrique une matrice symétrique réelle (A0 = A) possède
une base de vecteurs propres orthogonaux et ses valeurs propres sont
réelles
et λi ∈ R.
hvi,vj i = 0 si i 6= j,
Matrice identité tout vecteur est vecteur propre de I avec valeur
propre 1, puisque Iv = v.
Matrice diagonale si Dλ est une matrice diagonale avec les coefficients λ1, . . . ,λp, alors le i-ème vecteur coordonnée est vecteur propre de
Dλ associé à la valeur propre λi.
L’action d’une matrice diagonale est de multiplier chacune des coordonnées d’un vecteur par la valeur propre correspondante.
Matrice diagonalisable c’est une matrice dont les vecteurs propres
forment une base de l’espace vectoriel : tout vecteur peut être représenté
de manière unique comme combinaison linéaire des vecteurs propres. Une
matrice de taille p × p qui a p valeurs propres réelles distinctes est diagonalisable dans R.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
36
Matrice M-symétrique une matrice M-symétrique réelle (A0M =
MA) possède une base de vecteurs propres M-orthogonaux et ses valeurs
propres sont positives ou nulles
hvi,vj iM = 0 si i 6= j,
et λi ∈ R.
Matrice définie positive c’est une matrice symétrique dont les valeurs
propres sont strictement positives et donc
hvi,vj i = 0 si i 6= j,
et λi > 0.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Analyse de de VM
37
Résultat principal
Valeurs propres la matrice VM est M-symétrique : elle est donc diagonalisable et ses valeurs propres λ1, . . . ,λp sont réelles.
Théorème principal
Vecteurs propres il existe donc p vecteurs a1, . . . ,ap tels que
VMai = λiai,
avec hai,aj iM = 1 si i = j, 0 sinon.
Les ai sont les axes principaux d’inertie de VM . Ils sont M-orthonormaux.
Signe des valeurs propres les valeurs propres de VM sont positives
et on peut les classer par ordre décroissant
λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0.
Idée du lien avec l’inertie on sait que T r(VM) = λ1 + · · · + λp.
Si on ne garde que les données relatives à a1, . . . ,ak , on gardera l’inertie
λ1 + · · · + λk , et c’est le mieux qu’on puisse faire.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
38
(Admis)
1. Si Fk est le sous-espace de dimension k portant l’inertie principale,
alors
Fk+1 = Fk ⊕ fk+1,
où fk+1 est le sous espace de dimension 1 M-orthogonal à Fk portant
l’inertie maximale : les solutions sont « emboı̂tées » ;
2. Fk est engendré par les k vecteurs propres de VM associés aux k plus
grandes valeurs propres.
Interprétation du théorème l’ACP sur k + 1 variables est obtenue
par ajout d’une variable d’inertie maximale à l’ACP sur k variables. Il n’est
pas nécessaire de refaire tout le calcul.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
39
Les composantes principales
Coordonnées des individus supposons que ei − g =
alors
p
X
cij hak ,aj iM = cij
hei − g,aj iM =
Représentation des individus dans un plan principal
Pp
k=1 cij ak ,
Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales c1 et c2, on représente chaque individu i par un point
d’abscisse ci1 et d’ordonnée ci2.
Axe 2
k=1
La coordonnée de l’individu centré ei − g sur l’axe principal aj est
donc donné par la projection M-orthogonale
cij = hei − g,aj iM = (ei − g)0Maj .
40
Propriétés des composantes principales
e1
e7
e4
Composantes principales ce sont les variables cj de taille n définies
par
cj = YMaj .
Chaque cj contient les coordonnées des projections M-orthogonales
des individus centrés sur l’axe défini par les aj .
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
e6
e2
Axe 1
e5
e8
e3
Quand? Elle est utile quand les individus sont discernables.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
41
Facteurs principaux
Moyenne arithmétique les composantes principales sont centrées :
c̄j = c0j D1 = a0j MY 0D1 = 0
Définition on associe à un axe principal aj le facteur principal uj =
Maj de taille p. C’est un vecteur propre de MV car
car Y 0D1 = 0 (les colonnes de Y sont centrées).
MVuj = MVMaj = λj Maj = λj uj
Variance la variance de cj est λj car
Calcul en pratique, on calcule les uj par diagonalisation de MV, puis
on obtient les cj = Yuj . Les aj ne sont pas intéressants.
La valeur d’une variable cj pour l’individu ei est donc
V (cj ) = c0j Dcj = a0j MY 0DYMaj
= a0j MVMaj = λj a0j Maj = λj .
Covariance de même, pour i 6= j,
cij = (ei − g)0uj =
cov(ci,cj ) = c0iDcj = · · · = λj a0iMaj = 0.
yik ujk
k=1
où u0j = (ui1, . . . ,uip).
Les composantes principales ne sont pas corrélées entre elles.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
p
X
42
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
43
Formules de reconstruction
Il est possible de reconstruire le tableau centré Y à partir des composantes principales et des facteurs principaux
Y=
p
X
cj a0j =
j=1
p
X
cj u0j M−1.
Travailler avec la métrique D1/s2 est équivalent à diviser chaque variable
par son écart-type et à utiliser la métrique I.
j=1
Données centrées réduites c’est le tableau Z contenant les données
et, comme M est inversible et que ai est une base, on obtient Y.
Approximation si on prend les k premiers termes seulement, on obtient
la meilleure approximation de Y par une matrice de rang k au sens des
moindres carrés (théorème de Eckart-Young).
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
44
L’ACP sur les données centrées réduites
zij =
xji − x̄j
,
sj
qui se calcule matriciellement comme Z = YD1/s.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
45
Nombre d’axes à retenir
Matrice de variance-covariance c’est la matrice de corrélation car
Z0DZ = D1/sY0DYD1/s = D1/sVD1/s = R.
Métrique on prend la métrique M = I.
Facteurs principaux ce sont les p vecteurs propres orthonormés de R,
Rui = λiui, avec hui,uj i = 1 si i = j, 0 sinon.
Dimension de l’espace des individus L’ACP visant à réduire la dimension de l’espace des individus, on veut conserver aussi peu d’axes que
possible. Il faut pour cela que les variables d’origine soient raisonnablement
corrélées entre elles.
Les seuls critères utilisables sont empiriques.
Interprétation des axes on s’efforce de ne retenir que des axes à
propos desquels une forme d’interprétation est possible (soit directement,
soit en terme des variables avec lesquels ils sont très corrélés). On donnera
des outils à cet effet plus loin dans le cours.
Critère de Kaiser (variables centrées-réduites) on ne retient que
les axes associés à des valeurs propres supérieures à 1, c’est-à-dire dont
la variance est supérieure à celle des variables d’origine.
Une autre interprétation est que la moyenne des valeurs propres étant
1, on ne garde que celles qui sont supérieures à cette moyenne.
dont les valeurs propres sont classés par valeur propre décroissante
λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λ p ≥ 0
Composantes principales elles sont données par cj = Zuj .
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Pourquoi cette métrique ? pour que les distances soient indépendantes des unités de mesure et qu’elles ne privilégient pas les variables
dispersées.
Équivalence avec les données réduites on a D1/s2 = D1/sD1/s
et donc
hei,ej iD1/s2 = hD1/sei,D1/sej i.
j=1
Preuve il suffit de calculer


p
p
X
X
0

cj aj Mai =
cj a0j Mai = ci = YMai
j=1
Le cas de la métrique D1/s2
46
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
47
L’espace des variables
Nombre d’axes à retenir (suite)
Éboulis des valeurs propres on cherche un « coude » dans le graphe
des valeurs propres
Métrique D il faut munir l’espace des variables d’une métrique raisonnable. On choisit toujours la métrique D des poids :
3.5
hx,yiD = x0Dy,
kxk2D = x0Dx.
3.0
Interprétation pour deux variables centrées x et y, on a
2.0
2.5
cov(x,y) = hx,yiD,
V (x) = kxk2D,
hx,yiD
.
kxkDkykD
√
Exemple les vecteurs ck / λk forment une base D-orthonormale
(
1, si k = `,
ck c `
√ ,√
= cor(ck ,c`) =
λk λ` D
0, sinon.
0.0
0.5
1.0
1.5
cor(x,y) =
2
4
6
8
10
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
48
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
49
Corrélation entre composantes et variables initiales
Le cercle des corrélations
Quand on travaille sur les variables centrées-réduites, la corrélation
entre une composante principale ck et une variable zj est
Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales, par exemple c1 et c2, on représente chaque variable zj
par un point d’abscisse r(zj ,c1) et d’ordonnée r(zj ,c2).
Axe 2
Axe 2
cov(zj ,ck ) (zj )0Dck
= √
r(zj ,ck ) = p
λk
V (ck )
x6 x7
r (xj ,c2 )
xj
et donc le vecteur des corrélations de ck avec Z est
r (xj ,c1 )
Z0Dck
.
r(Z,ck ) = (r(z1,ck ), . . . ,r(zp,ck ))0 = √
λk
x4
x5
x3
Axe 1
x8
Comme Z0Dck = Z0DZuk = Ruk = λk uk , on a finalement
p
r(Z,ck ) = λk uk .
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Axe 1
x1
x2
Effet « taille » cela arrive quand toutes les variables sont corrélées
positivement avec la première composante principale. Cette composante
est alors appelée facteur de « taille », la seconde facteur de « forme ».
50
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
51
Contribution d’un individu à une composante
Le cercle des corrélations (suite)
√
Pourquoi un cercle? comme les ck / λk forment une base D-orthonormale,
Définition On sait que V (ck ) = λk =
de l’individu i à la composante k est donc
p p
X
X
ck
c
ck j
√ ,z
√k =
r(ck ,zj ) √
z =
λk
λk
λk
D
i=1
k=1
j
et donc
kzj k2D
=1=
p
X
2
2
i=1 picik .
La contribution
pic2ik
λk
Interprétation la contribution d’un individu est importante si elle excède le poids pi de l’individu concerné, c’est-à-dire
j
r (ck ,z ).
k=1
Les points sont bien à l’intérieur d’un cercle de rayon 1.
Interprétation
– les points sont la projection orthogonale dans D des variables dans le
plan défini par les composantes principales c1 et c2.
– Il ne faut interpréter la proximité des points que s’ils sont proches de
la circonférence.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
Pn
52
p
pic2ik
≥ pi =⇒ |cik | ≥ λk .
λk
Individus sur-représentés ce sont les individus qui jouent un rôle trop
fort dans la définition d’un axe (par exemple > 0,25). Il « tire à lui » l’axe
k et risque de perturber les représentations des autres points sur les axes
de rang ≥ k. Un tel individu peut être le signe de données erronées.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
53
Qualité globale de la représentation
Qualité locale de la représentation
Calcul de l’inertie on se souvient que Ig = Tr(VM) ; comme la trace
d’une matrice est la somme de ses valeurs propres, on a
But on cherche à déterminer si le nuage de points est très aplati par
la projection sur les sous-espaces principaux. Dans ce cas, deux individus
éloignés pourraient artificiellement sembler proches les uns des autres.
Ig = λ 1 + λ 2 + · · · + λ p .
e1
Définition la qualité de la représentation obtenue par k valeurs propres
est la proportion de l’inertie expliquée
λ1 + λ 2 + · · · + λ k
λ1 + λ2 + · · · + λ p
θ
g
F12
e2
Utilisation si par exemple λ1 + λ2 est égal 90% de Ig, on en déduit
que le nuage de points est aplati autour du premier plan principal.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
54
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
55
Angle entre un individu et un axe principal
Angle entre un individu et un sous-espace principal
Il est défini par son cosinus carré. Le cosinus de l’angle entre l’individu
centré i et l’axe principal j est
C’est l’angle entre l’individu et sa projection orthogonale sur le sousespace.
La projection de ei − g sur le sous-espace Fq , q ≤ p, est
Pq
c
k=1 ik ak , et donc
cos(ei,aj ) =
hei − g,aj iM
.
kei − gkM
Pq
c2ik
.
cos (ei,Fq ) = Pk=1
p
2
k=1 cik
2
car les aj forment une base orthonormale. Comme hei − g,aj iM = cij ,
c2ij
cos2(ei,aj ) = Pp
2 .
k=1 cik
La qualité de la représentation de l’individu i sur le plan Fq est donc
la somme des qualités de représentation sur les axes formant Fq . Il est
significatif quand le point ei n’est pas trop près de g.
Cette grandeur mesure la qualité de la représentation de l’individu i
sur l’axe principal aj .
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
56
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
57
Variables supplémentaires quantitatives
Éléments supplémentaires
Motivation les composantes principales étant définies pour maximiser
les contributions, le fait que les corrélations obtenues soient proches de 1
peut ne pas être significatif. Par contre, une corrélation forte entre une
composante principale et un individu ou une variable n’ayant pas participé
à l’analyse est très significative.
Cas des individus sur-représentés on peut décider d’utiliser ces
points en individus supplémentaires, en particulier quand les points constituent un échantillon et ne présentent pas d’intérêt en eux-mêmes.
Corrélation on calcule la corrélation de la variable avec les composantes
principales et on la place dans le cercle des corrélations. Si ẑ est le vecteur
centré-réduit correspondant à cette variable, on calcule
n
cov(ẑ,ck ) hẑ,ck iD
1 X
= √
=√
piẑicik .
cor(ẑ,ck ) = p
λk
λk i=1
V (ck )
On peut utiliser un test statistique pour déterminer si une corrélation est
significative.
Méthode on « met de coté » certaines variables pour qu’elles ne soient
pas utilisées dans l’analyse (on diminue donc la dimension de R), ou
alors certains individus (ils ne sont pas pris en compte dans le calcul des
covariances). On cherche ensuite à savoir s’ils sont liés à un axe donné.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
58
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
59
Variables qualitatives supplémentaires
Individus supplémentaires
Représentation on peut représenter par des symboles différents les
individus de chaque catégorie sur les axes principaux.
Valeur-test on considère les n̂ individus ayant une certaine caractéristique (homme, femme...) et la coordonnée ĉk de leur barycentre sur la
kième composante principale. La valeur-test est
r r
n̂ n − 1
.
|ĉk |
λk n − n̂
Quand n̂ est assez grand, elle est significative si elle est supérieure à 2 ou
3 . On ne doit pas l’utiliser sur les variables actives.
Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk serait une
variable aléatoire centrée (les z sont de moyenne nulle) et de variance
λk n−n̂
n̂ n−1 car le tirage est sans remise.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
60
Représentation on les ajoute à la représentation sur les plans principaux. Pour calculer leur coordonnée sur un axe fixé, on écrit
ĉk = hẑ,uk i =
p
X
ẑ j ukj ,
j=1
où les ẑ j sont les coordonnées centrées-réduites d’un individu supplémentaire ẑ.
Ces individus serviront d’échantillon-test pour vérifier les hypothèses
tirées de l’ACP sur les individus actifs.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
61
L’ACP en trois transparents (1)
L’ACP en trois transparents (2)
Données les données représentent les valeurs de p variables mesurées
sur n individus ; les individus peuvent avoir un poids. En général on travaille sur des données centrées réduites Z (on retranche la moyenne et on
divise par l’écart type).
Nombre d’axes on se contente souvent de garder les axes interprétables de valeur propre supérieure à 1. La qualité de la représentation
retenue est mesurée par la part d’inertie expliquée par ces composantes.
Matrice de corrélation c’est la matrice R de variance-covariance des
variables centrées réduites. Elle possède p valeurs propres λ1 ≥ · · · ≥
λp ≥ 0.
Facteurs principaux uk ce sont les vecteurs propres orthonormés de
R (de dimension p) associés aux valeurs propres λk . Leur j-ième composante ukj est le poids de la variable j dans la composante k.
Composantes principales ck ce sont les vecteurs Zuk de dimension
n. Leur i-ième coordonnée cki est la valeur de la composante k pour
l’individu i. Les ck sont décorrélées et leur variance est V (ck ) = λj .
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
62
Cercle des corrélations il permet de visualiser comment les variables
sont corrélées (positivement ou négativement) avec les composantes principales. À partir de là, on peut soit trouver une signification physique à
chaque composante, soit montrer que les composantes séparent les variables en paquets. Seules les variables bien représentées (situées près du
bord du cercle) doivent être interprétées.
Variables supplémentaires certaines variables peuvent être mises de
coté lors de l’ACP et reportées séparément sur le cercle des corrélation
(ou la représentation des individus pour les variables qualitatives).
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
63
L’ACP en trois transparents (3)
Représentation des individus pour un plan principal donné, la représentation des projections des individus permet de confirmer l’interprétation
des variables. On peut aussi visualiser les individus aberrants (erreur de
donnée ou individu atypique).
Contribution d’un individu à une composante c’est la part de la
variance d’une composante principale qui provient d’un individu donné. Si
cette contribution est très supérieure aux autres, on peut avoir intérêt à
mettre l’individu en donnée supplémentaire.
Qualité globale de la représentation c’est la part de l’inertie totale
Ig qui est expliquée par les axes principaux qui ont été retenus. Elle permet
de mesurer la précision et la pertinence de l’ACP.
Qualité de la représentation d’un individu elle permet de vérifier
que tous les individus sont bien représentés par le sous-espace principal
choisi; elle s’exprime comme le carré du cosinus de l’angle entre l’individu
et sa projection orthogonale.
Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008.
64

Documents pareils