présentation ACP
Transcription
présentation ACP
Analyse en Composantes Principales Carole BINARD Les données Quand p>3 : représentation graphique impossible Objectif Extraire l’essentiel de l’information contenue dans le tableau de données pour fournir une représentation se prêtant plus aisément à l’interprétation Les espaces Espace des individus: Les n lignes du tableau peuvent être considérées comme n points de l’espace des individus à p dimensions. Espace des variables: Les p colonnes peuvent être considérées comme p points dans un espace à n dimensions (l’espace des variables). L’espace des individus On munit l’espace des individus de la distance euclidienne classique: L’espace des individus On désigne par g le centre de gravité du nuage: L’espace des individus L’inertie du nuage s’écrit: Définitions On recherche des sous-espaces représentant au mieux ce nuage de points en respectant 2 critères: 1. Critère de proximité 2. Fidélité des distances Ce sont les sous-espaces passant par g et qui optimisent ces 2 critères Définitions Soit H le sous-espace passant par g. Définition 1: L’inertie expliquée par H est définie par: Définition 2: L’inertie par rapport à H (inertie résiduelle) est définie par: Définitions Soit H le sous-espace passant par g. Définition 3: Inertie totale = inertie expliquée + inertie résiduelle On choisit H qui maximise l’inertie expliquée et qui minimise l’inertie résiduelle A g H1 Définitions Soit H le sous-espace passant par g. Définition 3: Inertie totale = inertie expliquée + inertie résiduelle On choisit H qui maximise l’inertie expliquée et qui minimise l’inertie résiduelle A H2 g Définitions Soit H le sous-espace passant par g. Définition 3: Inertie totale = inertie expliquée + inertie résiduelle On choisit H qui maximise l’inertie expliquée et qui minimise l’inertie résiduelle A H3 H3 est bon pour A. Mais l’est-il pour B? g Définitions Soit H le sous-espace passant par g. Définition 3: Inertie totale = inertie expliquée + inertie résiduelle On choisit H qui maximise l’inertie expliquée et qui minimise l’inertie résiduelle A H3 H3 est bon pour A. Mais l’est-il pour B? g B Détermination des nouveaux axes On définit g comme origine du nouveau repère Pour la première droite H1, on détermine un vecteur unitaire u1 porté par H1 avec d(0,u1)=1 Détermination des nouveaux axes On définit un deuxième sous-espace H2 On recherche u2 tel que : u2 est perpendiculaire à u1 La droite portée par u2 (2ème composante), passant par 0, ait une inertie maximale En pratique On construit la matrice de variances-covariances On calcule les vecteurs et valeurs propres associées On range dans l’ordre décroissant les valeurs propres (en valeurs absolues) : le 1er vect. propre est associé à la plus grande des valeurs propres,… Ces vecteurs sont les u1, u2, …, up recherchés Remarques Les droites engendrées par ces vecteurs propres sont appelées respectivement le 1er, le 2ème, le pième axe principal d’inertie du nuage L’inertie expliquée par H1 (1er axe principal) engendré par v1 est égale à la val. propre associée : λ1 L’inertie expliquée par le plan H2, engendré par v1 et v2 est égale à λ1+ λ2 Les valeurs propres de la matrice de variancescovariances représentent les parts d’inertie expliquée par chacun des axes principaux du nuage de des individus J En résumé i Tableau des Données J Matrice des valeurs propres J Histogramme des valeurs propres J Matrice de corrélation J J Matrice des vecteurs propres Diagonalisation i K Composantes principales J