GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID
Transcription
GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID
LUISS, Université Paris 13 Libera Università Laboratoire Analyse, Internazionale Géométrie et Applications degli Studi Sociali UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID [email protected] Master 2 EID 07/08 1 1 Introduction 1.1 Les Analyses Factorielles Nous étudierons les diérents types d'analyses factorielles. Le choix du type dépendra des variables à analyser. • ACP : des variables quantitatives (Analyse en Composante Principale) • AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) • ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Le nom de ces procedures sous SAS sont: • PROC FACTOR (ACP avec Rotation des axes) • PROC PRINCOMP (Regression logistique linéaire methode maximum de vraisemblance) • 1.2 PROC CORRESP (Analyse des correspondances simples et multiples) Pourquoi ? Les méthodes d'analyses factorielles sont souvent regroupées sous le terme générique d'analyse des données. Les méthodes d'analyses factorielles ou d'analyse des données se situent essentiellement dans un contexte exploratoire. En eet, l'analyse des données peut être dénie comme l'extension de la statistique descriptive au cas multidimensionnel. Les analyses factorielles sont avant tout descriptives et permettent une analyse simultanée d'un ensemble de variables. Les analyses factorielles ont pour but de «résumer» au mieux des tableaux rectangulaires de données Pour cela diérentes techniques se distinguent selon la nature des données analysées: quantitatives, qualitatives, les deux. Leurs démarches consistenet à remplacer les variables d'origine, nombreuses, par de nouvelles variables, synthétiques, en nombre inférieur et à conserver les premières d'entre elles. Au sens qu'on ne conservera que celle apportant le plus d'informations. Au nal, les variables d'origine sont remplacées par des axes, combinaisons des variables d'origine, et perpendiculaires deux à deux. Ces axes permettent de positionner les individus et les variables origines sur des plans en 2D. C'est ce que nous appelerons projection ( ou nuages)des individus, ou des variables sur les deux meilleurs axes factorielles. 1.3 Les méthodes Comme nou sl'avons vu plus haut il y a trois principales méthodes: • ACP : des variables quantitatives (Analyse en Composante Principale) [email protected] Master 2 EID 07/08 2 • AFC : deux variables qualitatives (Analyse Factorielle des Correspondances ) • ACM : plusieurs variables qualitatives (Analyse des Correspondances Multiples ) Avant de s'interesser en détail à l'ACP, parlons des deux autres méthodes. Analyse Factorielle des Correspondances: AFC L'AFC traite des données diérentes de celles requises par l'ACP. En eet, l'ACP traite des données quantitatives alors que l'AFC permet le traitement des tableaux croisés encore appelés tableaux de contingence. Un tableau de contingence doit vérier la propriété suivante : la somme des éléments en ligne possède une signication, de même que la somme des éléments en colonnes. L'objectif de l'AFC est alors d'étudier la nature de la liaison éventuelle entre les deux caractères. D'un point de vue algorithmique, la diérence entre l'ACP et l'AFC réside seulement dans le choix de la métrique. En ce sens qu'une métrique permet de mesurer une distance entre deux vecteurs (un individu est un vecteur dans l'espace des variables, une variable est un vecteur dans l'espace des individus). En ACP, la métrique utilisée est la distance euclidienne. En AFC, la métrique est la distance du Khi-2. A part la métrique et la nature des données, la démarche en AFC est identique à la démarche en ACP. Analyse des Correspondances Multiples: ACM Historiquement, l'ACM est un simple prolongement de l'AFC aux tableaux de données mis sous forme binaire ou tableaux logiques. En eet, faire une ACM sur deux variables qualitatives est identique à faire une AFC sur le tableau de contingence de ces deux variables. Cependant si l'ACM ressemble à l'AFC sur le plan technique, sur le plan des objectifs elle s'apparente plus à l'ACP à travers l'analyse de tableaux individus-variables. Remarque : L'ACM peut traiter des variables quantitatives, mais celles-ci doivent au préalable être découper en classes. Initialement, le tableaux des données se résume à une matrice X, où une ligne correspond à un individu et une colonne à une modalité d'une variable. Ce tableau est composé de 0 et de 1. La méthode est alors semblable à celle de l'ACP que nous verrons par la suite. 2 2.1 L'Analyse en Composantes Principales (ACP) Représentation mathématique On possède un tableau rectangulaire de mesure (comme une matrice) dont les colonnes sont des variables (mensurations, taux, températures, ...) [email protected] Master 2 EID 07/08 et dont les lignes représentent des 3 individus statistiques (unités élémentaires telles que des êtres humains, des pays, des années ...). On note X ce tableau de données. X11 · · · ··· ··· X1p .. . . . · · · Xij · · · . Xn1 · · · · · · · · · Xnp • X: Tableau de données • Xij : Valeur de la • Xi. : ime • X.j : j me ime observation pour la variable observation du tableau variable du tableau • n : Eectif des individus • p: Nombre de variables 2.2 j ime Objectif Notre objectif est d'extraire l'essentiel de l'information contenue dans le tableau de données X et d'en fournir une représentation se prêtant plus aisément à l'interprétation. Autrement dit, nous nous proposons de rechercher une représentation des n individus dans un sousespace de l'espace initial. Nous cherchons donc à dénir k nouvelles variables, combinaison des p de l'espace initial, qui font perdre le moins d'information possible . Ces k variables seront appelées composantes principales et les axes qu'elles déterminent axes principaux. 2.3 Rappels mathématiques L'analyse du nuage de points utilise la notion fondamentale de distance. On munit l'espace des individus de la distance euclidienne classique. d(Xi. , Xj. )2 = On désigne par g est donc un vecteur de dimension La matrice X k=1 |Xik − Xjk |2 le centre de gravité du nuage : g= g Pn 1 n Pn i=1 Xi. n. est généralement centrée sur le centre de gravité : X11 − X̄1 · · · . . . X̄ = .. X1p − X̄p . . . . Xn1 − X̄1 · · · Xnp − X̄p Elle peut être aussi réduite : [email protected] Master 2 EID 07/08 4 X̃ = X11 −X̄1 σ(X. 1 ) .. Xn1 −X̄1 σ(X1 ) ··· .. . ··· X1p −X̄p σ(Xp ) . . . Xnp −X̄p σ(Xp ) On peut alors calculer les matrices de covariances et de corrélations. En eet une fois X transformée en X̄ ou X̃ , il sut de la multiplier par sa transposée X t pour la matrice obtenir: • la matrice de variance-covariance si • la matrice de corrélation si X X est juste centrée. est centrée réduite, autrement dit normée. Covariances = 1/n · X̄ t · X̄ Correlations = 1/n · X̃ t · X̃ Ces deux matrices sont des matrice sont de taille diagonalisables dans une base orthonormée. Dans la suite nous noterons par 2.4 carrées X les matrices X̄ p, symétriques, et/ou et réelles. Elles X̃ . Projections sur un sous-espace X.j , tel que u tel que la pojection orthogonale du nuage sur u ait une variance maximale. Soit C la matrice de covariance ou de corrélation précédement calculée. La projection de l'échantillon des X sur u s'écrit : Le principe de l'ACP est de trouver un axe u, issu d'une combinaison linéaire des la variance du nuage autour de cet axe soit maximale. Nous cherchons donc le vecteur πu (X) = X · u La variance empirique de πu (X) vaut donc : πu (X)t · 1/n · πu (X) = ut · X t · 1/n · X ·u | {z } C C est diagonalisable dans une base orthonormée, notons P la matrice de changement de base associée et ∆ la matrice diagonale associée. On obtient Comme nous l'avons vu plus haut ainsi que : πu (X)0 · 1/n · πu (X) = ut P t ∆P u = (P u)t ∆ (P u) | {z } v Avec cette réécriture, nous cherchons le vecteur unitaire Diag(λ1 , ..., λp ) est diagonale. v Rangeons les valeurs de la diagonale de v t ∆v où ∆ = ∆ en ordre décroissant. qui maximise On peut rapidement vérier qu'il sut de prendre le premier vecteur unitaire on a alors : v t · ∆ · v = λ1 [email protected] Master 2 EID 07/08 5 On a donc que la diagonalisation de la matrice de corrélation (ou de covariance si on se place dans un modèle non réduit), nous a permis d'écrire que le vecteur qui explique le plus d'inertie du nuage est le premier vecteur propre correspondant au vecteur propre de la plus grande valeur propre. De même le deuxième vecteur qui explique la plus grande part de l'inertie restante est le deuxième vecteur propre, etc. Finalement, la question de l'ACP se ramène donc à un problème de diagonalisation de la matrice de corrélation. 2.5 ACP sous SAS Deux procédures SAS permettent de réaliser des Analyses en composantes principales: • PROC PRINCOMP • PROC FACTOR Pour dessiner les plans factoriels (nuages des individus et des variables), deux autres procédures sont utilisées • Pour adapter les tables : la PROC TRANSPOSE • Pour éditer le graphique : la PROC PLOT Remarque : Quand on utilise une PROC PRINCOMP, il est nécessaire d'enchaîner sur une PROC FACTOR METHOD=SCORE si on souhaite dessiner les plans factoriels. PROC PRINCOMP <options>; BY variables; VAR variables; RUN; Algorithme 1: Procédure PRINCOMP Les options sont: • DATA=Table-SAS • OUT=Table-SAS: Table SAS qui contient les données initiales plus les scores des individus sur les composantes principales. • OUTSTAT=Table-SAS: Table SAS qui contient les moyennes, variances, nombres d'observations, corrélations ou covariances, les valeurs propres et les composantes principales (scores des variables). [email protected] Master 2 EID 07/08 6 PROC FACTOR <options>; BY variables; VAR variables; RUN. Algorithme 2: Procédure FACTOR Les options sont: • DATA=Table-SAS OUT=Table-SAS OUTSTAT=Table-SAS • METHOD=Name Name=PRINCIPAL : réalise une ACP à partir d'un tableau individus-variables Name=SCORE : réalise une ACP à partir des scores des variables sur des composantes principales (par exemple, la table OUSTAT d'une PROC PRINCOMP). • NFACTORS=n : détermine le nombre de facteur maximum qui doit être extrait. Nécessaire si on utilise l'option OUT= [email protected] Master 2 EID 07/08 7