Cours d`analyse de données
Transcription
Cours d`analyse de données
L’analyse de données Cours d’analyse de données But synthétiser, structurer l’information contenue dans des données multidimensionnelles (n individus, p variables). Jean-Marc Lasgouttes [email protected] Deux groupes de méthodes – méthodes de classification : réduire la taille de l’ensemble des individus en formant des groupes homogènes ; – méthodes factorielles : réduire le nombre de variables en les résumant par un petit nombre de composantes synthétiques. Magistère de Finance de Paris 1, 2è année http://www-rocq.inria.fr/~lasgoutt/ana-donnees/ Deux types de méthodes factorielles – analyse en composantes principales : variables numériques ; – analyse des correspondances : variables qualitatives. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. But du cours 1 Ce que ce cours n’est pas Un cours de mathématiques financières il n’y a pas de modèles probabilistes de processus financiers (cours de bourse...). Méthodes couvertes par le cours – analyse en composantes principales (ACP) ; – analyse (factorielle) des correspondances (AFC) ; – analyse des correspondances multiples (ACM). Un cours de statistique inférentielle il ne sera pas question ici de tests, d’estimateurs, de prévision statistique. Un cours uniquement orienté « utilisateur » même si le but ultime est de savoir utiliser les méthodes d’analyse de données, ce cours s’attache à exposer les fondements mathématiques de ces méthodes. Compétences recherchées – savoir interpréter les tables et graphiques issus de ces méthodes ; – comprendre les fondements mathématiques des méthodes ; – être capable de mener soi-même une telle étude. Un cours appliqué aux données financières ce cours est avant tout un cours de méthode ; les exemples abordés seront ou ne seront pas issus de cette application. Un cours « pratique » Les contraintes d’effectif et de matériel ne permettent malheureusement pas d’effectuer des travaux pratiques. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 2 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 3 Méthodes utilisées Statistiques et probabilités Algèbre linéaire les données sont vues de manière abstraites comme un nuage de points dans un espace vectoriel de dimension finie ; en particulier on utilise Une approche différente Les probabilités reposent sur un modèle de données et font en général des hypothèses simplificatrices. Ici, on utilisera plus des considérations géométriques. – matrices : permettent de manipuler un ensemble de variables comme un objet mathématique unique ; – valeurs et vecteurs propres : permettent de décrire la structure d’une matrice. – métriques : permettent de définir la distance entre deux points de l’espace vectoriel ; on utilise aussi des produits scalaires. 3 ponts possibles – les données statistiques sont empruntes d’une forme de variabilité liée aux erreurs de mesures ; on peut modéliser cette erreur par une variable aléatoire ; – on constate souvent que la répartition d’une variable est proche d’une loi de probabilités connue ; – surtout, quand des données sont issue d’un sondage, on peut considérer que ce sont des tirages d’une variable aléatoire. Quand les échantillons sont assez grands, on connaı̂t des lois limites. Théorie des probabilités peu utile ici ; plutôt nécessaire en statistique inférentielle (estimation, tests, modélisation et prévision,...). On utilisera quand même quelques tests statistiques. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 4 Références 5 Individus et variables Ces références sont données à titre indicatif ; aucun livre n’est demandé pour ce cours. Base du cours Gilbert Saporta, Probabilités, analyse des données et statistique, 2nde édition, Technip, 2006. Version plus simple Jean-Marie Bouroche et Gilbert Saporta, L’analyse des données, Que Sais-je?, Presses Universitaires de France, 2002. Logiciel de traitement de données R Development Core Team (2007). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria, http://www.Rproject.org. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 6 Population groupe ou ensemble d’individus que l’on analyse. Recensement étude de tous les individus d’une population donnée. Sondage étude d’une partie seulement d’une population appelée échantillon. Variables ensemble de caractéristiques d’une population. – quantitatives: nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent être discrètes (ex : nombre d’éléments dans un ensemble) ou continues (ex: prix, taille) ; – qualitatives: appartenance à une catégorie donnée ; elles peuvent être nominales (ex : sexe, CSP) ou ordinales quand les catégories sont ordonnées (ex : très résistant, assez résistant, peu résistant). Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 7 Description de données quantitatives Moyenne arithmétique Définition On appelle variable un vecteur x de taille n. Chaque coordonnée xi correspond à un individu. On s’intéresse ici à des valeurs numériques. Définition On note Poids Chaque individu a éventuellement un poids pi, tel que p1 + · · · + pn=1. On a souvent p = 1/n. ou pour des données pondérés x̄ = Représentation histogramme en découpant les valeurs de la variable en classes ; ou alors « boı̂te à moustache ». Résumés on dispose d’une série d’indicateurs qui ne donne qu’une vue partielle des données : effectif, moyenne, médiane, variance, écart type, minimum, maximum, étendue, 1er quartile, 3ème quartile, ... Ces indicateurs mesurent principalement la tendance centrale et la dispersion. On utilisera principalement la moyenne, la variance et l’écart type. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 8 Variance et écart-type s2x = 1 n i=1 (xi − x̄)2 ou s2x = n X i=1 i=1 Propriétés la moyenne arithmétique est une mesure de tendance centrale qui dépend de toutes les observations et est sensible aux valeurs extrêmes. Elle est très utilisée à cause de ses bonnes propriétés mathématiques. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. pi(xi − x̄)2 sxy = n X i=1 9 pi(xi − x̄)(yi − ȳ) = p X i=1 pixiyi − x̄ȳ. et le coefficient de r de Bravais-Pearson ou coefficient de corrélation est donné par pix2i − (x̄)2 rxy La variance est « la moyenne des carrés moins le carré de la moyenne ». L’écart-type, qui a la même unité que x, est une mesure de dispersion. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. p i xi . Définitions la covariance observée entre deux variables x et y est Propriétés La variance satisfait la formule suivante n X n X i=1 L’écart-type sx est la racine carrée de la variance. s2x = 1X xi , n i=1 Mesure de liaison entre deux variables Définition la variance de x est définie par n X n x̄ = 10 Pn sxy i=1 pi (xi − x̄)(yi − ȳ) pP n = = pPn . 2 2 sx sy i=1 pi (xi − x̄) i=1 pi(yi − ȳ) Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 11 Le coefficient de corrélation par l’exemple x1 0.8 1.0 0.0 0.8 0.99 0.10 x2 0.15 0.89 x3 0.10 1.0 0.0 0.0 0.4 0.6 0.13 x4 0.0 0.4 En particulier, rxx = 1. 0.4 0.8 Variables liées |rxy| = 1 si et seulement si x et y sont linéairement liées : axi + byi = c, pour tout 1 ≤ i ≤ n. 0.2 0.8 0.6 0.8 −1 ≤ rxy ≤ 1. 0.4 0.4 Borne On a toujours (inégalité de Cauchy-Schwarz) 0.2 0.0 0.0 −1.5 −1.0 −0.5 Propriétés du coefficient de corrélation Variables décorrélées si rxy = 0, on dit que les variables sont décorrélées. Cela ne veut pas dire qu’elles sont indépendantes ! Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 12 Corrélation et liaison significative 0.0 0.2 0.4 0.6 0.8 1.0 −1.5 −1.0 −0.5 0.0 Interprétation on a 4 variables numériques avec 30 individus. Les variables 1 et 2 sont indépendantes ; les variables 1 et 3 ont une relation linéaire ; les variables 2 et 4 ont une relation non-linéaire. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 13 Le test on se fixe un risque d’erreur α (0.01 ou 0.05 en général) et on calcule la probabilité Problème à partir de quelle valeur de rxy peut-on considérer que les variables x et y sont liées? Domaine d’application on se place dans le cas ou le nombre d’individus est n > 30. Méthode si x et y sont deux variables gaussiennes indépendantes, alors on peut montrer que 2 (n − 2)rxy P F (1,n − 2) > 2 1 − rxy ! = π. Si π < α on considère que l’événement est trop improbable et que donc que l’hypothèse originale d’indépendance doit être rejetée au seuil α. On trouvera en général ces valeurs dans une table précalculée de la loi F . 2 (n − 2)rxy 2 1 − rxy suit une loi de Fischer-Snedecor F (1,n − 2). Le résultat est valable dans le cas non gaussien pour n > 30. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 14 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 15 Interlude : notation matricielle Tableau de données Matrice tableau de données carré ou rectangulaire, noté par un lettre majuscule grasse (ex : X). Vecteur matrice à une seule colonne, noté par grasse (ex : x). 1 0 ... , 1 = Cas particuliers I = 0 1 une lettre minuscule 1 .. . 1 Transposition de matrice échange des lignes et des colonnes d’une matrice ; on note M0 la transposée de M. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 16 Vecteurs variable et individu On note xij la valeur de la i-ème variable pour le j-ème individu. Pour n individus et p variables, on a le tableau x11 x21 x12 x22 1 p X = (x , . . . ,x ) = ··· .. x1n ··· .. xji xp1 ... xpn . X est une matrice rectangulaire à n lignes et p colonnes. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 17 La matrice des poids Pourquoi utile quand les individus n’ont pas la même importance (échantillons redressés, données regroupées,...). Variable Une colonne du tableau j x = Comment on associe aux individus un poids pi tel que xj1 .. xji .. xjn p1 + · · · + p n = 1 et on représente ces poids dans la matrice diagonale de taille n 0 p1 p2 . D= . .. 0 pn Individu Une ligne du tableau e0i = (x1i , . . . ,xji , . . . ,xpi) Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Cas uniforme tous les individus ont le même poids pi = 1/n et D = 1 n I. 18 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 19 Point moyen et tableau centré Matrice de variance-covariance Point moyen c’est le vecteur g des moyennes arithmétiques de chaque variable : g0 = (x̄1, . . . ,x̄p), où n X x̄j = pixji . i=1 On peut aussi écrire g = X0D1. Définition c’est une matrice carrée de dimension p 2 s1 s12 · · · s1p s21 , V= ... .. sp1 s2p Tableau centré il est obtenu en centrant les variables autour de leur moyenne yij = xji − x̄j ou, en notation matricielle, où skl est la covariance des variables xk et x` et s2j est la variance de la variable xj Y = X − 1g0 = (I − 110D)X V = X0DX − gg0 = Y0DY. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 20 Matrice de corrélation 1 r12 · · · r21 1 R= ... . rp1 r1p 21 Contexte chaque individu est considéré comme un point d’un espace vectoriel F de dimension p . L’ensemble des individus est un nuage de points dans F et g est son centre de gravité. , 1 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. L’analyse de composantes principales (ACP) Définition Si l’on note rk` = sk`/sk s`, c’est la matrice p × p Formule matricielle Principe on cherche à réduire le nombre p de variables tout en préservant au maximum la structure du problème. Formule matricielle R = D1/sVD1/s, où D1/s = 1 s1 0 ... 0 1 sp Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Pour cela on projette le nuage de points sur un sous-espace de dimension inférieure. 22 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 23 Exemple en dimension 2 Exemple en dimension 2 (suite) On cherche la direction qui différencie le plus les points entre eux. On veut passer de 2 variables à 1 seule. x 2 x2 x1 x1 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 24 Distance entre individus Distance euclidienne classique la distance la plus simple entre deux points de Rp est définie par d2(u,v) = j=1 Matrice définie positive c’est une matrice symétrique telle que, pour tout u non nul, u0Mu > 0. Définition soit M = (mjk ) définie positive de dimension p. On pose kuk2M = u0Mu = (uj − vj )2 = ku − vk2 Généralisation simple on multiplie la variable j par d2(u,v) = p X j=1 p X p X mjk uj uk , j=1 k=1 d2M(u,v) = ku − vk2M. √ Espace métrique il est défini par le produit scalaire aj hu,viM = u0Mv = aj (uj − vj )2, Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 25 Métrique Motivation afin de pouvoir considérer la structure du nuage des individus, il faut définir une distance, qui induira une géométrie. p X Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. p X p X mjk uj vk . j=1 k=1 On dit que u et v sont orthogonaux si hu,viM = 0. 26 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 27 Comparaison avec le cas usuel Inertie Définition l’inertie en un point a du nuage de points est Norme 2 0 kuk = u u = p X u2j 0 Ia = (= u Iu) i=1 j=1 kuk2M = u0Mu = n X p X p X pikei − ak2M = j=1 k=1 2Ig = hu,vi = u v = p X (= u Iv) p X p X mjk uj vk pipj kei − ej k2M. L’inertie totale est aussi donnée par la trace de la matrice MV j=1 hu,viM = u0Mv = n n X X i=1 j=1 0 u j vj i=1 pi(ei − a)0M(ei − a). Autres relations l’inertie totale Ig est la moitié de la moyenne des carrés des distances entre les individus mjk uj uk Produit scalaire 0 n X Ig = Tr(MV), la trace d’une matrice étant la somme de ses éléments diagonaux. j=1 k=1 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 28 Métriques particulières Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 29 Métriques et tableaux transformés MétriquePusuelle M = I correspond au produit scalaire usuel et Ig = p Tr(V) = j=1 s2i . Problèmes – la distance entre individus dépend de l’unité de mesure. – la distance privilégie les variables les plus dispersées. Métrique réduite c’est la plus courante ; on prend la matrice diagonale des inverses des variances 1 0 s21 ... M = D1/s2 = 1 0 2 s Utiliser la métrique M = T0T sur le tableau X est équivalent à travailler avec la métrique classique I sur le tableau transformé XT0. Tableau transformé Si on travaille sur le tableau transformé XT0 (changement de variables) au lieu de X, alors les nouveaux individus seront de la forme Tei et hTei1 ,Tei2 i = (Tei1 )0(Tei2 ) = e0i1 T0Tei2 = e0i1 Mei2 = hei1 ,ei2 iM Réciproque pour toute matrice symétrique positive M, il existe une matrice T (racine carrée de M) telle que M = T0 T p et Ig = Tr(D1/s2 V) = Tr(D1/sVD1/s) = Tr(R) = p. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 30 et donc on peut ramener l’utilisation de la métrique à un changement de variables. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 31 Métriques et tableaux transformés (suite) L’analyse de composantes principales (version 2) Utiliser une métrique est donc équivalent à « tordre » les données pour les rendre comparables x2 Principe on cherche à projeter le nuage de points sur un espace Fk de dimension k < p. x2 Critère on veut que la moyenne des carrés des distances entre les points projetés soit maximale (elle est toujours plus petite que pour le nuage original). x1 x1 Pour cela on cherche Fk , sous espace de dimension k de Rk , tel que l’inertie du nuage projeté sur Fk soit maximale. Exemple utiliser la métrique réduite est équivalent à travailler sur les données centrées réduites Z = YD1/s. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 32 Interlude : valeurs propres et vecteurs propres 33 Valeurs et vecteurs propres : un exemple concret Définition un vecteur v de taille p est un vecteur propre d’une matrice A de taille p × p s’il existe λ ∈ C telle que Av = λv. La matrice Domaine En général, les vecteurs propres et valeurs propres sont complexes ; dans tous les cas qui nous intéressent, ils seront réels. Interprétation des vecteurs propres ce sont les directions dans lesquelles la matrice agit. Interprétation des valeurs propres c’est le facteur multiplicatif associé à une direction donnée. 34 5 1 −1 2 4 −2 1 −1 3 a pour vecteurs propres λ est une valeur propre de A associée à v. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 0 1 1 v1 = 1 , v 2 = 0 , v 3 = 1 . 1 1 0 On vérifie facilement que les valeurs propres associées sont λ1 = 2, λ2 = 4, λ3 = 6. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 35 Valeurs et vecteurs propres : cas particuliers Quelques matrices diagonalisables Matrice nulle sa seule valeur propre est 0, et tout vecteur est vecteur propre. Matrice symétrique une matrice symétrique réelle (A0 = A) possède une base de vecteurs propres orthogonaux et ses valeurs propres sont réelles et λi ∈ R. hvi,vj i = 0 si i 6= j, Matrice identité tout vecteur est vecteur propre de I avec valeur propre 1, puisque Iv = v. Matrice diagonale si Dλ est une matrice diagonale avec les coefficients λ1, . . . ,λp, alors le i-ème vecteur coordonnée est vecteur propre de Dλ associé à la valeur propre λi. L’action d’une matrice diagonale est de multiplier chacune des coordonnées d’un vecteur par la valeur propre correspondante. Matrice diagonalisable c’est une matrice dont les vecteurs propres forment une base de l’espace vectoriel : tout vecteur peut être représenté de manière unique comme combinaison linéaire des vecteurs propres. Une matrice de taille p × p qui a p valeurs propres réelles distinctes est diagonalisable dans R. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 36 Matrice M-symétrique une matrice M-symétrique réelle (A0M = MA) possède une base de vecteurs propres M-orthogonaux et ses valeurs propres sont positives ou nulles hvi,vj iM = 0 si i 6= j, et λi ∈ R. Matrice définie positive c’est une matrice symétrique dont les valeurs propres sont strictement positives et donc hvi,vj i = 0 si i 6= j, et λi > 0. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Analyse de de VM 37 Résultat principal Valeurs propres la matrice VM est M-symétrique : elle est donc diagonalisable et ses valeurs propres λ1, . . . ,λp sont réelles. Théorème principal Vecteurs propres il existe donc p vecteurs a1, . . . ,ap tels que VMai = λiai, avec hai,aj iM = 1 si i = j, 0 sinon. Les ai sont les axes principaux d’inertie de VM . Ils sont M-orthonormaux. Signe des valeurs propres les valeurs propres de VM sont positives et on peut les classer par ordre décroissant λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0. Idée du lien avec l’inertie on sait que T r(VM) = λ1 + · · · + λp. Si on ne garde que les données relatives à a1, . . . ,ak , on gardera l’inertie λ1 + · · · + λk , et c’est le mieux qu’on puisse faire. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 38 (Admis) 1. Si Fk est le sous-espace de dimension k portant l’inertie principale, alors Fk+1 = Fk ⊕ fk+1, où fk+1 est le sous espace de dimension 1 M-orthogonal à Fk portant l’inertie maximale : les solutions sont « emboı̂tées » ; 2. Fk est engendré par les k vecteurs propres de VM associés aux k plus grandes valeurs propres. Interprétation du théorème l’ACP sur k + 1 variables est obtenue par ajout d’une variable d’inertie maximale à l’ACP sur k variables. Il n’est pas nécessaire de refaire tout le calcul. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 39 Les composantes principales Coordonnées des individus supposons que ei − g = alors p X cij hak ,aj iM = cij hei − g,aj iM = Représentation des individus dans un plan principal Pp k=1 cij ak , Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales c1 et c2, on représente chaque individu i par un point d’abscisse ci1 et d’ordonnée ci2. Axe 2 k=1 La coordonnée de l’individu centré ei − g sur l’axe principal aj est donc donné par la projection M-orthogonale cij = hei − g,aj iM = (ei − g)0Maj . 40 Propriétés des composantes principales e1 e7 e4 Composantes principales ce sont les variables cj de taille n définies par cj = YMaj . Chaque cj contient les coordonnées des projections M-orthogonales des individus centrés sur l’axe défini par les aj . Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. e6 e2 Axe 1 e5 e8 e3 Quand? Elle est utile quand les individus sont discernables. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 41 Facteurs principaux Moyenne arithmétique les composantes principales sont centrées : c̄j = c0j D1 = a0j MY 0D1 = 0 Définition on associe à un axe principal aj le facteur principal uj = Maj de taille p. C’est un vecteur propre de MV car car Y 0D1 = 0 (les colonnes de Y sont centrées). MVuj = MVMaj = λj Maj = λj uj Variance la variance de cj est λj car Calcul en pratique, on calcule les uj par diagonalisation de MV, puis on obtient les cj = Yuj . Les aj ne sont pas intéressants. La valeur d’une variable cj pour l’individu ei est donc V (cj ) = c0j Dcj = a0j MY 0DYMaj = a0j MVMaj = λj a0j Maj = λj . Covariance de même, pour i 6= j, cij = (ei − g)0uj = cov(ci,cj ) = c0iDcj = · · · = λj a0iMaj = 0. yik ujk k=1 où u0j = (ui1, . . . ,uip). Les composantes principales ne sont pas corrélées entre elles. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. p X 42 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 43 Formules de reconstruction Il est possible de reconstruire le tableau centré Y à partir des composantes principales et des facteurs principaux Y= p X cj a0j = j=1 p X cj u0j M−1. Travailler avec la métrique D1/s2 est équivalent à diviser chaque variable par son écart-type et à utiliser la métrique I. j=1 Données centrées réduites c’est le tableau Z contenant les données et, comme M est inversible et que ai est une base, on obtient Y. Approximation si on prend les k premiers termes seulement, on obtient la meilleure approximation de Y par une matrice de rang k au sens des moindres carrés (théorème de Eckart-Young). Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 44 L’ACP sur les données centrées réduites zij = xji − x̄j , sj qui se calcule matriciellement comme Z = YD1/s. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 45 Nombre d’axes à retenir Matrice de variance-covariance c’est la matrice de corrélation car Z0DZ = D1/sY0DYD1/s = D1/sVD1/s = R. Métrique on prend la métrique M = I. Facteurs principaux ce sont les p vecteurs propres orthonormés de R, Rui = λiui, avec hui,uj i = 1 si i = j, 0 sinon. Dimension de l’espace des individus L’ACP visant à réduire la dimension de l’espace des individus, on veut conserver aussi peu d’axes que possible. Il faut pour cela que les variables d’origine soient raisonnablement corrélées entre elles. Les seuls critères utilisables sont empiriques. Interprétation des axes on s’efforce de ne retenir que des axes à propos desquels une forme d’interprétation est possible (soit directement, soit en terme des variables avec lesquels ils sont très corrélés). On donnera des outils à cet effet plus loin dans le cours. Critère de Kaiser (variables centrées-réduites) on ne retient que les axes associés à des valeurs propres supérieures à 1, c’est-à-dire dont la variance est supérieure à celle des variables d’origine. Une autre interprétation est que la moyenne des valeurs propres étant 1, on ne garde que celles qui sont supérieures à cette moyenne. dont les valeurs propres sont classés par valeur propre décroissante λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λ p ≥ 0 Composantes principales elles sont données par cj = Zuj . Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Pourquoi cette métrique ? pour que les distances soient indépendantes des unités de mesure et qu’elles ne privilégient pas les variables dispersées. Équivalence avec les données réduites on a D1/s2 = D1/sD1/s et donc hei,ej iD1/s2 = hD1/sei,D1/sej i. j=1 Preuve il suffit de calculer p p X X 0 cj aj Mai = cj a0j Mai = ci = YMai j=1 Le cas de la métrique D1/s2 46 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 47 L’espace des variables Nombre d’axes à retenir (suite) Éboulis des valeurs propres on cherche un « coude » dans le graphe des valeurs propres Métrique D il faut munir l’espace des variables d’une métrique raisonnable. On choisit toujours la métrique D des poids : 3.5 hx,yiD = x0Dy, kxk2D = x0Dx. 3.0 Interprétation pour deux variables centrées x et y, on a 2.0 2.5 cov(x,y) = hx,yiD, V (x) = kxk2D, hx,yiD . kxkDkykD √ Exemple les vecteurs ck / λk forment une base D-orthonormale ( 1, si k = `, ck c ` √ ,√ = cor(ck ,c`) = λk λ` D 0, sinon. 0.0 0.5 1.0 1.5 cor(x,y) = 2 4 6 8 10 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 48 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 49 Corrélation entre composantes et variables initiales Le cercle des corrélations Quand on travaille sur les variables centrées-réduites, la corrélation entre une composante principale ck et une variable zj est Qu’est-ce que c’est? c’est une représentation où, pour deux composantes principales, par exemple c1 et c2, on représente chaque variable zj par un point d’abscisse r(zj ,c1) et d’ordonnée r(zj ,c2). Axe 2 Axe 2 cov(zj ,ck ) (zj )0Dck = √ r(zj ,ck ) = p λk V (ck ) x6 x7 r (xj ,c2 ) xj et donc le vecteur des corrélations de ck avec Z est r (xj ,c1 ) Z0Dck . r(Z,ck ) = (r(z1,ck ), . . . ,r(zp,ck ))0 = √ λk x4 x5 x3 Axe 1 x8 Comme Z0Dck = Z0DZuk = Ruk = λk uk , on a finalement p r(Z,ck ) = λk uk . Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Axe 1 x1 x2 Effet « taille » cela arrive quand toutes les variables sont corrélées positivement avec la première composante principale. Cette composante est alors appelée facteur de « taille », la seconde facteur de « forme ». 50 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 51 Contribution d’un individu à une composante Le cercle des corrélations (suite) √ Pourquoi un cercle? comme les ck / λk forment une base D-orthonormale, Définition On sait que V (ck ) = λk = de l’individu i à la composante k est donc p p X X ck c ck j √ ,z √k = r(ck ,zj ) √ z = λk λk λk D i=1 k=1 j et donc kzj k2D =1= p X 2 2 i=1 picik . La contribution pic2ik λk Interprétation la contribution d’un individu est importante si elle excède le poids pi de l’individu concerné, c’est-à-dire j r (ck ,z ). k=1 Les points sont bien à l’intérieur d’un cercle de rayon 1. Interprétation – les points sont la projection orthogonale dans D des variables dans le plan défini par les composantes principales c1 et c2. – Il ne faut interpréter la proximité des points que s’ils sont proches de la circonférence. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. Pn 52 p pic2ik ≥ pi =⇒ |cik | ≥ λk . λk Individus sur-représentés ce sont les individus qui jouent un rôle trop fort dans la définition d’un axe (par exemple > 0,25). Il « tire à lui » l’axe k et risque de perturber les représentations des autres points sur les axes de rang ≥ k. Un tel individu peut être le signe de données erronées. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 53 Qualité globale de la représentation Qualité locale de la représentation Calcul de l’inertie on se souvient que Ig = Tr(VM) ; comme la trace d’une matrice est la somme de ses valeurs propres, on a But on cherche à déterminer si le nuage de points est très aplati par la projection sur les sous-espaces principaux. Dans ce cas, deux individus éloignés pourraient artificiellement sembler proches les uns des autres. Ig = λ 1 + λ 2 + · · · + λ p . e1 Définition la qualité de la représentation obtenue par k valeurs propres est la proportion de l’inertie expliquée λ1 + λ 2 + · · · + λ k λ1 + λ2 + · · · + λ p θ g F12 e2 Utilisation si par exemple λ1 + λ2 est égal 90% de Ig, on en déduit que le nuage de points est aplati autour du premier plan principal. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 54 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 55 Angle entre un individu et un axe principal Angle entre un individu et un sous-espace principal Il est défini par son cosinus carré. Le cosinus de l’angle entre l’individu centré i et l’axe principal j est C’est l’angle entre l’individu et sa projection orthogonale sur le sousespace. La projection de ei − g sur le sous-espace Fq , q ≤ p, est Pq c k=1 ik ak , et donc cos(ei,aj ) = hei − g,aj iM . kei − gkM Pq c2ik . cos (ei,Fq ) = Pk=1 p 2 k=1 cik 2 car les aj forment une base orthonormale. Comme hei − g,aj iM = cij , c2ij cos2(ei,aj ) = Pp 2 . k=1 cik La qualité de la représentation de l’individu i sur le plan Fq est donc la somme des qualités de représentation sur les axes formant Fq . Il est significatif quand le point ei n’est pas trop près de g. Cette grandeur mesure la qualité de la représentation de l’individu i sur l’axe principal aj . Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 56 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 57 Variables supplémentaires quantitatives Éléments supplémentaires Motivation les composantes principales étant définies pour maximiser les contributions, le fait que les corrélations obtenues soient proches de 1 peut ne pas être significatif. Par contre, une corrélation forte entre une composante principale et un individu ou une variable n’ayant pas participé à l’analyse est très significative. Cas des individus sur-représentés on peut décider d’utiliser ces points en individus supplémentaires, en particulier quand les points constituent un échantillon et ne présentent pas d’intérêt en eux-mêmes. Corrélation on calcule la corrélation de la variable avec les composantes principales et on la place dans le cercle des corrélations. Si ẑ est le vecteur centré-réduit correspondant à cette variable, on calcule n cov(ẑ,ck ) hẑ,ck iD 1 X = √ =√ piẑicik . cor(ẑ,ck ) = p λk λk i=1 V (ck ) On peut utiliser un test statistique pour déterminer si une corrélation est significative. Méthode on « met de coté » certaines variables pour qu’elles ne soient pas utilisées dans l’analyse (on diminue donc la dimension de R), ou alors certains individus (ils ne sont pas pris en compte dans le calcul des covariances). On cherche ensuite à savoir s’ils sont liés à un axe donné. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 58 Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 59 Variables qualitatives supplémentaires Individus supplémentaires Représentation on peut représenter par des symboles différents les individus de chaque catégorie sur les axes principaux. Valeur-test on considère les n̂ individus ayant une certaine caractéristique (homme, femme...) et la coordonnée ĉk de leur barycentre sur la kième composante principale. La valeur-test est r r n̂ n − 1 . |ĉk | λk n − n̂ Quand n̂ est assez grand, elle est significative si elle est supérieure à 2 ou 3 . On ne doit pas l’utiliser sur les variables actives. Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk serait une variable aléatoire centrée (les z sont de moyenne nulle) et de variance λk n−n̂ n̂ n−1 car le tirage est sans remise. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 60 Représentation on les ajoute à la représentation sur les plans principaux. Pour calculer leur coordonnée sur un axe fixé, on écrit ĉk = hẑ,uk i = p X ẑ j ukj , j=1 où les ẑ j sont les coordonnées centrées-réduites d’un individu supplémentaire ẑ. Ces individus serviront d’échantillon-test pour vérifier les hypothèses tirées de l’ACP sur les individus actifs. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 61 L’ACP en trois transparents (1) L’ACP en trois transparents (2) Données les données représentent les valeurs de p variables mesurées sur n individus ; les individus peuvent avoir un poids. En général on travaille sur des données centrées réduites Z (on retranche la moyenne et on divise par l’écart type). Nombre d’axes on se contente souvent de garder les axes interprétables de valeur propre supérieure à 1. La qualité de la représentation retenue est mesurée par la part d’inertie expliquée par ces composantes. Matrice de corrélation c’est la matrice R de variance-covariance des variables centrées réduites. Elle possède p valeurs propres λ1 ≥ · · · ≥ λp ≥ 0. Facteurs principaux uk ce sont les vecteurs propres orthonormés de R (de dimension p) associés aux valeurs propres λk . Leur j-ième composante ukj est le poids de la variable j dans la composante k. Composantes principales ck ce sont les vecteurs Zuk de dimension n. Leur i-ième coordonnée cki est la valeur de la composante k pour l’individu i. Les ck sont décorrélées et leur variance est V (ck ) = λj . Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 62 Cercle des corrélations il permet de visualiser comment les variables sont corrélées (positivement ou négativement) avec les composantes principales. À partir de là, on peut soit trouver une signification physique à chaque composante, soit montrer que les composantes séparent les variables en paquets. Seules les variables bien représentées (situées près du bord du cercle) doivent être interprétées. Variables supplémentaires certaines variables peuvent être mises de coté lors de l’ACP et reportées séparément sur le cercle des corrélation (ou la représentation des individus pour les variables qualitatives). Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 63 L’ACP en trois transparents (3) Représentation des individus pour un plan principal donné, la représentation des projections des individus permet de confirmer l’interprétation des variables. On peut aussi visualiser les individus aberrants (erreur de donnée ou individu atypique). Contribution d’un individu à une composante c’est la part de la variance d’une composante principale qui provient d’un individu donné. Si cette contribution est très supérieure aux autres, on peut avoir intérêt à mettre l’individu en donnée supplémentaire. Qualité globale de la représentation c’est la part de l’inertie totale Ig qui est expliquée par les axes principaux qui ont été retenus. Elle permet de mesurer la précision et la pertinence de l’ACP. Qualité de la représentation d’un individu elle permet de vérifier que tous les individus sont bien représentés par le sous-espace principal choisi; elle s’exprime comme le carré du cosinus de l’angle entre l’individu et sa projection orthogonale. Cours d’analyse de données — Jean-Marc Lasgouttes — année 2007-2008. 64