Approche PLS et analyse de tableaux multiples

Transcription

Approche PLS et analyse de tableaux multiples
Approche PLS et analyse de tableaux multiples
Michel Tenenhaus ([email protected])
HEC – Paris, 78351 Jouy-en-Josas
Résumé
Nous étudions dans cette communication le cas de J blocs de variables X1,…, XJ observées sur les
mêmes individus. Nous suivons une logique "Analyse factorielle en facteurs communs et spécifiques"
sur tableaux au lieu de variables. Dans la première section nous supposons que chaque bloc de variable
Xj est multidimensionnel et peut être résumé par m variables latentes plus un résidu Ej. Chaque tableau
de données est décomposé en deux parties : X j = t j1 p'j1 + ... + t jm p'jm + E j . Le premier terme de la
décomposition est t j1 p'j1 + ... + t jm p'jm . Les variables latentes t j1 ,...,t jm doivent expliquer aussi bien
que possible le tableau de données Xj et en même temps les variables latentes de même rang h
t1h ,...,t Jh doivent être aussi positivement corrélées que possible. Le second terme de la décomposition
est le résidu Ej qui représente la part de Xj non reliée aux autres blocs, c'est à dire la partie spécifique
du tableau Xj. Nous montrons que l'approche PLS permet de retrouver plusieurs méthodes usuelles
d'analyse de tableaux multiples. Dans la deuxième section nous supposons d'une part que le nombre de
variables latentes peut varier d'un bloc à l'autre, et imposons d'autre part l'orthogonalité entre les
variables latentes d'un même bloc. Nous présentons un algorithme permettant l'analyse de tableaux
multiples sous ces nouvelles conditions.
Mots-clés : Approche PLS, Analyse de tableaux multiples, Analyse factorielle multiple, Analyse
canonique généralisée.
Abstract
We consider in this paper the situation where J blocks of variables X1,…, XJ are observed on the same
set of individuals. We can follow a factor analysis logic on tables instead of variables. In the first
section we suppose that each block Xj is multidimensional and is summarized by m latent variables
plus a residual Ej. Each data table is decomposed into two parts: X j = t j1 p'j1 + ... + t jm p'jm + E j . The
first part of the decomposition is t j1 p'j1 + ... + t jm p'jm . The latent variables t j1 ,...,t jm should well
explained the data table Xj and in the same time the latent variables t1h ,...,t Jh of same rank h should be
as positively correlated as possible. The second part of the decomposition is the residual Ej which
represents the part of Xj not related to the other block, i.e. the specific part of Xj. We show that the
PLS approach allows to recover the usual methods for multiple table analysis. In the second section
we suppose that the number of latent variables can be different from one bloc to another and that these
latent variables are orthogonal. A new algorithm dealing with these constraints is presented.
Key-words : PLS approach, PLS Path modeling, Multiple table analysis, Multiple factor analysis,
Generalized canonical analysis.
1.
Analyse de tableaux multiples : approche classique
Dans le cas général de J tableaux X1,…, XJ à analyser on construit un super-bloc XJ+1 fusionnant tous
ces blocs Xj. Ce super-bloc est résumé par m variables latentes tJ+1,1,…,tJ+1,m appelées aussi variables
auxiliaires. Le modèle de causalité décrivant cette situation est donné dans la figure 1. Ce modèle
correspond au modèle hiérarchique proposé par Wold (1982).
1
Les variables latentes tj1,…, tjm doivent bien expliquer leur propre bloc Xj. Dans le même temps les
variables latentes de même rang t1h,…, tJh doivent être aussi positivement corrélées que possible avec la
variable auxiliaire tJ+1,h. Dans les méthodes d'analyse de tableaux multiples (= ATM), comme l'analyse
canonique généralisée de Horst (1961) ou de Carroll (1968), ou l'analyse factorielle multiple de
Escoffier et Pagès (1994), des contraintes d'orthogonalité sont imposées aux variables auxiliaires tJ+1,h
alors qu'il n'y a pas de contraintes d'orthogonalité sur les variables latentes tjh reliées au bloc j.
Figure 1 : Modèle de causalité associé aux J blocs de variables
t11
E1
X1
tJ+1,1
t1m
X1
tJ1
EJ
...
XJ
tJ+1,m
Em
XJ
tJm
Nous définissons pour le super-bloc XJ+1 la suite de bloc EJ+1,h obtenue de la manière suivante : chaque
bloc EJ+1,h représente le résidu de la régression du super-bloc XJ+1 sur les variables latentes
tJ+1,1,…, tJ+1,h. Cette procédure est appelée "Deflation" en anglais. La Figure 2 correspond au modèle
utilisé à l'étape h (pour h = 1, on a posé EJ+1,0 = XJ+1).
Figure 2 : Modèle de causalité associé à l'étape h
E1
X1
t1h
tJ+1,h
EJ+1,h-1
EJ+1,h
EJ
XJ
tJh
Pour calculer les variables latentes tjh et la variable auxiliaire tJ+1,h on utilise l'algorithme PLS décrit
dans Wold (1985). Nous allons maintenant présenter cet algorithme pour l'étape h de cette application
spécifique.
Tout d'abord il y a deux méthodes d'estimation des variables latentes :
Estimation externe :
-
Chaque bloc Xj est résumé par la variable latente tjh = Xjwjh
-
Le super-bloc XJ+1,h est résumé par la variable latente tJ+1,h = EJ+1,h-1wJ+1,h
2
Estimation Interne :
-
Chaque bloc est aussi résumé par la variable latente zjh = ejhtJ+1,h, où ejh est le signe de la
corrélation entre tjh et tJ+1,h. Nous allons cependant choisir ejh = +1 et montrer qu'alors la
corrélation est effectivement positive.
-
Le super-bloc EJ+1,h-1 est résumé par la variable latente z J +1,h =
J
∑e
j =1
J +1, j ,h t jh
, où eJ+1,j,h = +1
pour le schéma centroïde, ou bien la corrélation entre tjh et tJ+1,h pour le schéma factoriel, ou
enfin le coefficient de régression de tjh dans la régression de tJ+1,h sur t1h,…, tJh pour le schéma
structurel (ou Path weighting scheme).
Nous pouvons maintenant décrire l'algorithme PLS pour le cas de J blocs de variables. Les poids wjh
peuvent être calculés selon deux modes : le mode A ou le mode B. Dans le mode A on utilise la
régression simple :
(1)
w jh ∝ X 'j t J +1,h , j = 1 à J, et
wJ +1,h ∝ E'J +1,h −1 z J +1,h
où ∝ signifie que le terme de gauche est égal au terme de droite à une normalisation près. Pour le
mode B on utilise la régression multiple :
(2)
w jh ∝ ( X 'j X j )−1 X j t J +1,h , j = 1 à J,
et
wJ +1,h ∝ ( E'J +1,h −1 EJ +1,h −1 )−1 E'J +1,h −1 z J +1,h
La normalisation dépend de la méthode utilisée. Pour certaines méthodes on impose à wjh d'être normé
à 1, pour d'autres méthodes c'est la variance de tjh qui doit être égale à 1. Il est maintenant facile de
vérifier que la corrélation entre tjh et tJ+1,h est toujours positive :
t'J +1,ht jh = t'J +1,h X j w jh ∝ t'J +1,h X j X 'j t J +1,h > 0
lorsque le mode A est utilisé. Le même résultat est obtenu lorsque le mode B est utilisé.
L'algorithme PLS est itératif. On commence par un choix arbitraire des poids wjh. On obtient les
estimations externes, puis les estimations internes. En utilisant les équations (1) ou (2) on obtient de
nouveaux poids. Cette procédure est itérée jusqu'à convergence de l'algorithme pratiquement toujours
vérifiée sur les applications, mais seulement démontrée mathématiquement dans le cas de deux blocs.
Les différentes options de l'approche PLS (Mode A ou B pour les estimations externes, les schémas
centroïde, factoriel ou structurel pour les estimations internes) permettent de retrouver plusieurs
méthodes d'analyse de tableaux multiples : l'analyse canonique généralisé de Horst (1961), celle de
Carroll (1968)), l'analyse factorielle multiple (Escofier & Pagès, 1994), l'analyse en composantes
principales partagée (split principal component analysis) de Lohmöller (1989), l'algorithme de la
variance maximum de Horst (1965). Les liens entre PLS et ces méthodes ont été démontrés dans
Lohmöller (1989) et Tenenhaus (1999) et étudiés sur des exemples pratiques dans Guinot, Latreille et
Tenenhaus (2001) et Pagès et Tenenhaus (2001). Ces différentes méthodes sont obtenues en utilisant
l'algorithme PLS sous les options décrites dans le tableau 1. Seul le super-bloc est déflaté, les blocs
d'origine ne sont pas déflatés.
Discussion sur les contraintes d'orthogonalité
Il y a un grand avantage à imposer des contraintes d'orthogonalité seulement sur les variables latentes
liées au super-bloc : il n'y a pas de contrainte de dimension liée à la taille des blocs. Si l'on imposait
des contraintes d'orthogonalité aux variables latentes des blocs d'origine, alors le nombre maximum m
de variables latentes serait la taille du plus petit bloc. Le super-bloc XJ+1 est résumé par m variables
latentes orthogonales tJ+1,1,…, tJ+1,m. Chaque bloc Xj est résumé par m variables latentes tj1,…, tjm. Mais
3
ces variables latentes peuvent être hautement corrélées et par conséquent ne pas refléter la dimension
réelle du bloc. Pour chaque bloc Xj les variables latentes tj1,…, tjm représentent la part du bloc corrélée
aux autres blocs. Une analyse en composantes principales de ces variables latentes donnerait la
dimension réelle de cette partie de Xj.
Tableau 1 : Analyse de tableaux multiples et Approche PLS
Mode de calcul
des estimations externes
Centroïde
Schema de calcul des estimations internes
Factoriel
Structurel
Analyse canonique
généralisée de Horst PLS
Analyse canonique
généralisée de Carroll
PLS
A
- Analyse en composantes
principales partagée de
Lohmöller,
- Algorithme de la variance
maximum de Horst,
- Analyse Factorielle Multiple
de Escofier & Pagès
Analyse canonique
Analyse canonique
généralisée de Horst
généralisée de Carroll
(critère SUMCOR)
Super-bloc déflaté, pas de déflation sur les blocs d'origine
B
On peut préférer imposer des contraintes d'orthogonalité aux variables latentes de chaque bloc. Mais il
faut alors lever la contrainte de dimension liée au plus petit bloc. Cette situation va être discutée dans
la prochaine section.
2.
Analyse de tableaux multiples : une nouvelle approche
Nous allons décrire dans cette section une nouvelle approche plus centrée sur les blocs que sur le
super-bloc. Cette approche est appelée PLS-ATM : une approche PLS pour l'analyse de tableaux
multiples.
Nous supposons maintenant un nombre variable de variables latentes dans chaque bloc :
(3)
X j = t j1 p'j1 + ... + t jm j p'jm j + E j
Nous proposons une procédure en deux étapes pour trouver ces variables latentes.
Etape 1
Pour chaque bloc Xj on définit le super-block XJ+1,-j obtenu en fusionnant tous les autres blocs Xi pour
i ≠ j.
Pour chaque j on réalise une régression PLS de XJ+1,-j sur Xj. On obtient ainsi les composantes PLS
tj1 ,...,tjm j qui représentent la partie de Xj reliée aux autres blocs. Le choix du nombre mj de
composantes pour le bloc Xj est fixé par validation croisée.
Etape 2
{
}
Une des procédures décrites dans la table 1 est utilisée sur les blocs Tj = tj1 ,...,tjm j pour h = 1. Nous
obtenons ainsi les variables latentes de rang 1 t11,…, tJ1 et tJ+1,1. Puis, pour obtenir les variables latentes
suivantes, nous ne considérons que les blocs avec mj > 1. Pour chacun de ces blocs nous construisons
le résidu Tj1 de la régression de Tj sur tj1. Une ATM est appliquée à ces blocs et nous obtenons les
variables latentes de rang 2 t12,…, tJ2 (pour j avec mj > 1) et tJ+1,2. Les variables latentes t1j et t2j sont
non corrélées par construction, mais les variables auxiliaires tJ+1,1 et tJ+1,2 peuvent être légèrement
4
corrélées puisqu'on impose aucune contrainte d'orthogonalité sur ces variables latentes. Cette
recherche de variables latentes est itérée jusqu'à l'obtention des différentes variables latentes des blocs.
Une application de cet algorithme à des données sensorielles est présentée dans Tenenhaus (2004).
Références
[1] Carroll, J.D. (1968): “A generalization of canonical correlation analysis to three or more sets of
variables”, Proc. 76th Conv. Am. Psych. Assoc., pp. 227-228.
[2] Chin W.W. (2003): “PLS-Graph User’s Guide”, C.T. Bauer College of Business, University of
Houston, USA.
[3] Escofier B. and Pagès J. (1994): “Multiple factor analysis”, (AFMULT package), Computational
Statistics and Data Analysis, vol. 18, pp. 121-140.
[4] Guinot C., Latreille J., Tenenhaus M. (2001): “PLS Path modellind and multiple table analysis.
Application to the cosmetic habits of women in Ile-de-France”, Chemometrics and Intelligent
Laboratory Systems, 58, pp. 247-259.
[5] Horst P. (1961): “Relations among m sets of variables”, Psychometrika, vol. 26, pp. 126-149.
[6] Horst P. (1965): Factor Analysis of Data Matrices, Holt, Rinehart and Winston, New York.
[7] Hotelling, H. (1936): “Relations between two sets of variates”, Biometrika, vol. 28, pp. 321-377.
[8] Lohmöller J.-B. (1989): Latent Variables Path Modeling with Partial Least Squares, PhysicaVerlag, Heildelberg.
[9] Pagès J. and Tenenhaus M. (2001): “Multiple factor analysis combined with PLS path modeling.
Application to the analysis of relationships between physico-chemical variables, sensory profiles
and hedonic judgements”, Chemometrics and Intelligent Laboratory Systems, 58, pp. 261-273.
[10] Tenenhaus M. (1999): “L’approche PLS”, Revue de Statistique Appliquée ,vol. 47, n° 2, pp. 5-40.
[11] Tenenhaus M. (2004): "Multiple Table Analysis and PLS Path Modeling", Compstat 04, Prague,
(à paraître)
[12] Wold H. (1982): “Soft Modeling: The Basic Design and Some Extensions”, in Systems under
indirect observation, Part 2, K.G. Jöreskog & H. Wold (Eds), North-Holland, Amsterdam, pp. 154.
[13] Wold H. (1985): “Partial Least Squares”, in Encyclopedia of Statistical Sciences, vol. 6, Kotz, S
& Johnson, N.L. (Eds), John Wiley & Sons, New York, pp. 581-591.
5