présentation ACP

Transcription

présentation ACP
Analyse en Composantes Principales
Carole BINARD
Les données
Quand p>3 : représentation graphique impossible
Objectif
Extraire l’essentiel de l’information
contenue dans le tableau de données pour
fournir une représentation se prêtant plus
aisément à l’interprétation
Les espaces
 Espace des individus:
Les n lignes du tableau peuvent être considérées comme n
points de l’espace des individus à p dimensions.
 Espace des variables:
Les p colonnes peuvent être considérées comme p points dans
un espace à n dimensions (l’espace des variables).
L’espace des individus
 On munit l’espace des individus de la distance euclidienne
classique:
L’espace des individus
 On désigne par g le centre de gravité du nuage:
L’espace des individus
 L’inertie du nuage s’écrit:
Définitions
On recherche des sous-espaces représentant au mieux ce nuage
de points en respectant 2 critères:
1. Critère de proximité
2. Fidélité des distances
Ce sont les sous-espaces passant par g et qui optimisent ces 2
critères
Définitions
Soit H le sous-espace passant par g.
 Définition 1: L’inertie expliquée par H est définie par:
 Définition 2: L’inertie par rapport à H (inertie résiduelle) est
définie par:
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A
g
H1
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A
H2
g
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A
H3
H3 est bon pour A. Mais
l’est-il pour B?
g
Définitions
Soit H le sous-espace passant par g.
 Définition 3:
Inertie totale = inertie expliquée + inertie résiduelle
On choisit H qui maximise l’inertie
expliquée et qui minimise l’inertie résiduelle
A
H3
H3 est bon pour A. Mais
l’est-il pour B?
g
B
Détermination des nouveaux axes


On définit g comme origine du nouveau repère
Pour la première droite H1, on détermine un vecteur
unitaire u1 porté par H1 avec d(0,u1)=1
Détermination des nouveaux axes
On définit un deuxième sous-espace H2
 On recherche u2 tel que :
 u2 est perpendiculaire à u1
 La droite portée par u2 (2ème composante), passant par 0,
ait une inertie maximale

En pratique




On construit la matrice de variances-covariances
On calcule les vecteurs et valeurs propres associées
On range dans l’ordre décroissant les valeurs propres (en
valeurs absolues) : le 1er vect. propre est associé à la plus
grande des valeurs propres,…
Ces vecteurs sont les u1, u2, …, up recherchés
Remarques




Les droites engendrées par ces vecteurs propres sont appelées
respectivement le 1er, le 2ème, le pième axe principal d’inertie
du nuage
L’inertie expliquée par H1 (1er axe principal) engendré par v1
est égale à la val. propre associée : λ1
L’inertie expliquée par le plan H2, engendré par v1 et v2 est
égale à λ1+ λ2
Les valeurs propres de la matrice de variancescovariances représentent les parts d’inertie expliquée par
chacun des axes principaux du nuage de des individus
J
En résumé
i
Tableau
des
Données
J
Matrice des
valeurs
propres
J
Histogramme
des valeurs
propres
J
Matrice de
corrélation
J
J
Matrice des
vecteurs
propres
Diagonalisation
i
K
Composantes
principales
J

Documents pareils