Approche PLS et analyse de tableaux multiples
Transcription
Approche PLS et analyse de tableaux multiples
Approche PLS et analyse de tableaux multiples Michel Tenenhaus ([email protected]) HEC – Paris, 78351 Jouy-en-Josas Résumé Nous étudions dans cette communication le cas de J blocs de variables X1,…, XJ observées sur les mêmes individus. Nous suivons une logique "Analyse factorielle en facteurs communs et spécifiques" sur tableaux au lieu de variables. Dans la première section nous supposons que chaque bloc de variable Xj est multidimensionnel et peut être résumé par m variables latentes plus un résidu Ej. Chaque tableau de données est décomposé en deux parties : X j = t j1 p'j1 + ... + t jm p'jm + E j . Le premier terme de la décomposition est t j1 p'j1 + ... + t jm p'jm . Les variables latentes t j1 ,...,t jm doivent expliquer aussi bien que possible le tableau de données Xj et en même temps les variables latentes de même rang h t1h ,...,t Jh doivent être aussi positivement corrélées que possible. Le second terme de la décomposition est le résidu Ej qui représente la part de Xj non reliée aux autres blocs, c'est à dire la partie spécifique du tableau Xj. Nous montrons que l'approche PLS permet de retrouver plusieurs méthodes usuelles d'analyse de tableaux multiples. Dans la deuxième section nous supposons d'une part que le nombre de variables latentes peut varier d'un bloc à l'autre, et imposons d'autre part l'orthogonalité entre les variables latentes d'un même bloc. Nous présentons un algorithme permettant l'analyse de tableaux multiples sous ces nouvelles conditions. Mots-clés : Approche PLS, Analyse de tableaux multiples, Analyse factorielle multiple, Analyse canonique généralisée. Abstract We consider in this paper the situation where J blocks of variables X1,…, XJ are observed on the same set of individuals. We can follow a factor analysis logic on tables instead of variables. In the first section we suppose that each block Xj is multidimensional and is summarized by m latent variables plus a residual Ej. Each data table is decomposed into two parts: X j = t j1 p'j1 + ... + t jm p'jm + E j . The first part of the decomposition is t j1 p'j1 + ... + t jm p'jm . The latent variables t j1 ,...,t jm should well explained the data table Xj and in the same time the latent variables t1h ,...,t Jh of same rank h should be as positively correlated as possible. The second part of the decomposition is the residual Ej which represents the part of Xj not related to the other block, i.e. the specific part of Xj. We show that the PLS approach allows to recover the usual methods for multiple table analysis. In the second section we suppose that the number of latent variables can be different from one bloc to another and that these latent variables are orthogonal. A new algorithm dealing with these constraints is presented. Key-words : PLS approach, PLS Path modeling, Multiple table analysis, Multiple factor analysis, Generalized canonical analysis. 1. Analyse de tableaux multiples : approche classique Dans le cas général de J tableaux X1,…, XJ à analyser on construit un super-bloc XJ+1 fusionnant tous ces blocs Xj. Ce super-bloc est résumé par m variables latentes tJ+1,1,…,tJ+1,m appelées aussi variables auxiliaires. Le modèle de causalité décrivant cette situation est donné dans la figure 1. Ce modèle correspond au modèle hiérarchique proposé par Wold (1982). 1 Les variables latentes tj1,…, tjm doivent bien expliquer leur propre bloc Xj. Dans le même temps les variables latentes de même rang t1h,…, tJh doivent être aussi positivement corrélées que possible avec la variable auxiliaire tJ+1,h. Dans les méthodes d'analyse de tableaux multiples (= ATM), comme l'analyse canonique généralisée de Horst (1961) ou de Carroll (1968), ou l'analyse factorielle multiple de Escoffier et Pagès (1994), des contraintes d'orthogonalité sont imposées aux variables auxiliaires tJ+1,h alors qu'il n'y a pas de contraintes d'orthogonalité sur les variables latentes tjh reliées au bloc j. Figure 1 : Modèle de causalité associé aux J blocs de variables t11 E1 X1 tJ+1,1 t1m X1 tJ1 EJ ... XJ tJ+1,m Em XJ tJm Nous définissons pour le super-bloc XJ+1 la suite de bloc EJ+1,h obtenue de la manière suivante : chaque bloc EJ+1,h représente le résidu de la régression du super-bloc XJ+1 sur les variables latentes tJ+1,1,…, tJ+1,h. Cette procédure est appelée "Deflation" en anglais. La Figure 2 correspond au modèle utilisé à l'étape h (pour h = 1, on a posé EJ+1,0 = XJ+1). Figure 2 : Modèle de causalité associé à l'étape h E1 X1 t1h tJ+1,h EJ+1,h-1 EJ+1,h EJ XJ tJh Pour calculer les variables latentes tjh et la variable auxiliaire tJ+1,h on utilise l'algorithme PLS décrit dans Wold (1985). Nous allons maintenant présenter cet algorithme pour l'étape h de cette application spécifique. Tout d'abord il y a deux méthodes d'estimation des variables latentes : Estimation externe : - Chaque bloc Xj est résumé par la variable latente tjh = Xjwjh - Le super-bloc XJ+1,h est résumé par la variable latente tJ+1,h = EJ+1,h-1wJ+1,h 2 Estimation Interne : - Chaque bloc est aussi résumé par la variable latente zjh = ejhtJ+1,h, où ejh est le signe de la corrélation entre tjh et tJ+1,h. Nous allons cependant choisir ejh = +1 et montrer qu'alors la corrélation est effectivement positive. - Le super-bloc EJ+1,h-1 est résumé par la variable latente z J +1,h = J ∑e j =1 J +1, j ,h t jh , où eJ+1,j,h = +1 pour le schéma centroïde, ou bien la corrélation entre tjh et tJ+1,h pour le schéma factoriel, ou enfin le coefficient de régression de tjh dans la régression de tJ+1,h sur t1h,…, tJh pour le schéma structurel (ou Path weighting scheme). Nous pouvons maintenant décrire l'algorithme PLS pour le cas de J blocs de variables. Les poids wjh peuvent être calculés selon deux modes : le mode A ou le mode B. Dans le mode A on utilise la régression simple : (1) w jh ∝ X 'j t J +1,h , j = 1 à J, et wJ +1,h ∝ E'J +1,h −1 z J +1,h où ∝ signifie que le terme de gauche est égal au terme de droite à une normalisation près. Pour le mode B on utilise la régression multiple : (2) w jh ∝ ( X 'j X j )−1 X j t J +1,h , j = 1 à J, et wJ +1,h ∝ ( E'J +1,h −1 EJ +1,h −1 )−1 E'J +1,h −1 z J +1,h La normalisation dépend de la méthode utilisée. Pour certaines méthodes on impose à wjh d'être normé à 1, pour d'autres méthodes c'est la variance de tjh qui doit être égale à 1. Il est maintenant facile de vérifier que la corrélation entre tjh et tJ+1,h est toujours positive : t'J +1,ht jh = t'J +1,h X j w jh ∝ t'J +1,h X j X 'j t J +1,h > 0 lorsque le mode A est utilisé. Le même résultat est obtenu lorsque le mode B est utilisé. L'algorithme PLS est itératif. On commence par un choix arbitraire des poids wjh. On obtient les estimations externes, puis les estimations internes. En utilisant les équations (1) ou (2) on obtient de nouveaux poids. Cette procédure est itérée jusqu'à convergence de l'algorithme pratiquement toujours vérifiée sur les applications, mais seulement démontrée mathématiquement dans le cas de deux blocs. Les différentes options de l'approche PLS (Mode A ou B pour les estimations externes, les schémas centroïde, factoriel ou structurel pour les estimations internes) permettent de retrouver plusieurs méthodes d'analyse de tableaux multiples : l'analyse canonique généralisé de Horst (1961), celle de Carroll (1968)), l'analyse factorielle multiple (Escofier & Pagès, 1994), l'analyse en composantes principales partagée (split principal component analysis) de Lohmöller (1989), l'algorithme de la variance maximum de Horst (1965). Les liens entre PLS et ces méthodes ont été démontrés dans Lohmöller (1989) et Tenenhaus (1999) et étudiés sur des exemples pratiques dans Guinot, Latreille et Tenenhaus (2001) et Pagès et Tenenhaus (2001). Ces différentes méthodes sont obtenues en utilisant l'algorithme PLS sous les options décrites dans le tableau 1. Seul le super-bloc est déflaté, les blocs d'origine ne sont pas déflatés. Discussion sur les contraintes d'orthogonalité Il y a un grand avantage à imposer des contraintes d'orthogonalité seulement sur les variables latentes liées au super-bloc : il n'y a pas de contrainte de dimension liée à la taille des blocs. Si l'on imposait des contraintes d'orthogonalité aux variables latentes des blocs d'origine, alors le nombre maximum m de variables latentes serait la taille du plus petit bloc. Le super-bloc XJ+1 est résumé par m variables latentes orthogonales tJ+1,1,…, tJ+1,m. Chaque bloc Xj est résumé par m variables latentes tj1,…, tjm. Mais 3 ces variables latentes peuvent être hautement corrélées et par conséquent ne pas refléter la dimension réelle du bloc. Pour chaque bloc Xj les variables latentes tj1,…, tjm représentent la part du bloc corrélée aux autres blocs. Une analyse en composantes principales de ces variables latentes donnerait la dimension réelle de cette partie de Xj. Tableau 1 : Analyse de tableaux multiples et Approche PLS Mode de calcul des estimations externes Centroïde Schema de calcul des estimations internes Factoriel Structurel Analyse canonique généralisée de Horst PLS Analyse canonique généralisée de Carroll PLS A - Analyse en composantes principales partagée de Lohmöller, - Algorithme de la variance maximum de Horst, - Analyse Factorielle Multiple de Escofier & Pagès Analyse canonique Analyse canonique généralisée de Horst généralisée de Carroll (critère SUMCOR) Super-bloc déflaté, pas de déflation sur les blocs d'origine B On peut préférer imposer des contraintes d'orthogonalité aux variables latentes de chaque bloc. Mais il faut alors lever la contrainte de dimension liée au plus petit bloc. Cette situation va être discutée dans la prochaine section. 2. Analyse de tableaux multiples : une nouvelle approche Nous allons décrire dans cette section une nouvelle approche plus centrée sur les blocs que sur le super-bloc. Cette approche est appelée PLS-ATM : une approche PLS pour l'analyse de tableaux multiples. Nous supposons maintenant un nombre variable de variables latentes dans chaque bloc : (3) X j = t j1 p'j1 + ... + t jm j p'jm j + E j Nous proposons une procédure en deux étapes pour trouver ces variables latentes. Etape 1 Pour chaque bloc Xj on définit le super-block XJ+1,-j obtenu en fusionnant tous les autres blocs Xi pour i ≠ j. Pour chaque j on réalise une régression PLS de XJ+1,-j sur Xj. On obtient ainsi les composantes PLS tj1 ,...,tjm j qui représentent la partie de Xj reliée aux autres blocs. Le choix du nombre mj de composantes pour le bloc Xj est fixé par validation croisée. Etape 2 { } Une des procédures décrites dans la table 1 est utilisée sur les blocs Tj = tj1 ,...,tjm j pour h = 1. Nous obtenons ainsi les variables latentes de rang 1 t11,…, tJ1 et tJ+1,1. Puis, pour obtenir les variables latentes suivantes, nous ne considérons que les blocs avec mj > 1. Pour chacun de ces blocs nous construisons le résidu Tj1 de la régression de Tj sur tj1. Une ATM est appliquée à ces blocs et nous obtenons les variables latentes de rang 2 t12,…, tJ2 (pour j avec mj > 1) et tJ+1,2. Les variables latentes t1j et t2j sont non corrélées par construction, mais les variables auxiliaires tJ+1,1 et tJ+1,2 peuvent être légèrement 4 corrélées puisqu'on impose aucune contrainte d'orthogonalité sur ces variables latentes. Cette recherche de variables latentes est itérée jusqu'à l'obtention des différentes variables latentes des blocs. Une application de cet algorithme à des données sensorielles est présentée dans Tenenhaus (2004). Références [1] Carroll, J.D. (1968): “A generalization of canonical correlation analysis to three or more sets of variables”, Proc. 76th Conv. Am. Psych. Assoc., pp. 227-228. [2] Chin W.W. (2003): “PLS-Graph User’s Guide”, C.T. Bauer College of Business, University of Houston, USA. [3] Escofier B. and Pagès J. (1994): “Multiple factor analysis”, (AFMULT package), Computational Statistics and Data Analysis, vol. 18, pp. 121-140. [4] Guinot C., Latreille J., Tenenhaus M. (2001): “PLS Path modellind and multiple table analysis. Application to the cosmetic habits of women in Ile-de-France”, Chemometrics and Intelligent Laboratory Systems, 58, pp. 247-259. [5] Horst P. (1961): “Relations among m sets of variables”, Psychometrika, vol. 26, pp. 126-149. [6] Horst P. (1965): Factor Analysis of Data Matrices, Holt, Rinehart and Winston, New York. [7] Hotelling, H. (1936): “Relations between two sets of variates”, Biometrika, vol. 28, pp. 321-377. [8] Lohmöller J.-B. (1989): Latent Variables Path Modeling with Partial Least Squares, PhysicaVerlag, Heildelberg. [9] Pagès J. and Tenenhaus M. (2001): “Multiple factor analysis combined with PLS path modeling. Application to the analysis of relationships between physico-chemical variables, sensory profiles and hedonic judgements”, Chemometrics and Intelligent Laboratory Systems, 58, pp. 261-273. [10] Tenenhaus M. (1999): “L’approche PLS”, Revue de Statistique Appliquée ,vol. 47, n° 2, pp. 5-40. [11] Tenenhaus M. (2004): "Multiple Table Analysis and PLS Path Modeling", Compstat 04, Prague, (à paraître) [12] Wold H. (1982): “Soft Modeling: The Basic Design and Some Extensions”, in Systems under indirect observation, Part 2, K.G. Jöreskog & H. Wold (Eds), North-Holland, Amsterdam, pp. 154. [13] Wold H. (1985): “Partial Least Squares”, in Encyclopedia of Statistical Sciences, vol. 6, Kotz, S & Johnson, N.L. (Eds), John Wiley & Sons, New York, pp. 581-591. 5