Régression logistique PLS
Transcription
Régression logistique PLS
Les Méthodes PLS Pierre-Louis Gonzalez Michel Tenenhaus 1 Les méthodes PLS initiées par Herman et Svante Wold I. NIPALS (Nonlinear Iterative Partial Least Squares) II. Régression PLS (Partial Least Squares Regression) II.1 PLS1 II.2 PLS2 III Analyse discriminante PLS IV. Régression logistique PLS 2 I. La méthode NIPALS Analyse en composantes principales • Possibilité de données manquantes. • Validation croisée pour choisir le nombre de composantes. • Identification des outliers avec - une carte de contrôle des observations, - des tests sur les écarts au modèle de l’ACP. 3 Utilisation de NIPALS :Exemple voitures Modèle Honda Civic Renault 19 Fiat Tipo Cylindrée . 1721 1580 Puissance 90 . 83 Vitesse 174 180 . Poids 850 965 970 Longueur 369 415 395 Largeur 166 169 170 95 184 730 350 . # Citroën AX Sport 1294 Il y a une observation manquante par véhicule ! Le principe de NIPALS: Comment projeter un point avec données manquantes ? 4 Projection sur un axe xi * * * * * °0 u xi o ti o * o o * o * o 0 u x i'u ti = = pente de la droite u'u des moindres carrés sans constante de x i sur u 5 Projection d’un point avec données manquantes sur un axe xi * * * °0 xi o Valeur manquante * * u ti o o * o * o * o 0 u S' il y a des données manquantes xi ' u est calculé sur les données ti = u'u disponible s 6 L ’algorithme NIPALS Recherche des composantes principales Données : X = {xij} tableau n×k , xj = variable j xi = observation i Modèle de l ’ACP : X = t1p1´ + … + tkpk´ avec (1) p1, … , pk orthonormés ( axes ) et (2) t1, … , tk orthogonaux 7 ( composantes principales ) L ’algorithme NIPALS Recherche de la première composante principale • Modèle : X = t1p1´ + résidu, avec p1 normé • Algorithme : les équations de base (1) Si t1 connu, calcul de p1j par régression : xj = p1jt1 + résidu (2) Normalisation de p1 = (p11,…,p1k) (3) Si p1 connu, calcul de t1i par régression : xi = t1ip1 + résidu • Algorithme : fonctionnement Prendre t1 = x1 , puis itérer sur (1), (2), (3). - Si données manquantes, faire les calculs sur toutes les données disponibles. 8 Commentaires: Les relations cycliques découlant des équations de base de l’algorithme montrent que λ1 est la plus grande valeur propre vérifiant les équations suivantes: 1 X ' X p1 = λ1 p1 n −1 1 X X ' t1 = λ 1 t1 n −1 Nous avons divisé par n-1 pour retrouver les résultats de SIMCA. Ce calcul est une application de la méthode de la puissance itérée pour le calcul du vecteur propre d’une matrice associé à la plus grande valeur propre ( Hotelling-1936; Anderson-1958) 9 Projection sur l’ axe 1 xi * * * * * °0 p1 xi o t1i o * o o * o * o p1 0 t1 i xi ' p1 = = p e n t e d e la d r o i te p 1 'p 1 d e s m o i n d r e s c a r r é s s a n s c o n s t a n te de x i sur p1 10 L ’algorithme NIPALS Recherche des autres composantes principales • La première étape donne : X = t1p1′ + X1 • On répète les opérations précédentes sur la matrice des résidus X1 de la régression de X sur t1. • On obtient : X1 = t2p2′ + X2 et X = t1p1′ + t2p2′ + X2 • On obtient de même les autres composantes. 11 RESSh et PRESSh A chaque étape on étudie la reconstitution du tableau X : X̂ = t1p1' + t 2 p '2 + ... + t h p 'h RESS h = ∑ ( x ij − x̂ ij ) 2 Residual Sum of Squares : i, j Les cases de X sont partagées en G groupes, et on réalise G factorisations en enlevant à chaque fois un seul des groupes. Predicted Residual Sum of Squares : PRESSh = ∑ ( x ij − x̂ ( −ij) ) 2 i, j où x̂ ( − ij) est calculé dans l’analyse réalisée sans le groupe contenant la case (i,j). 12 L ’algorithme NIPALS Choix du nombre de composantes • On choisit le nombre de composantes principales par validation croisée. • La composante th est retenue si PRESSh Q = 1− ≥ limite RESSh −1 2 13 Q2(cum) et R2(validation croisée) h 2 [Qcum ]h PRESS a = 1− ∏ a =1 RESS a −1 peu différent de R 2validation croisée PRESSh / n − 1 = 1− 2 s ∑ j j La composante h est retenue si : 2 2 [Qcum ]h est nettement supérieur à [Qcum ]h −1 CONSEIL : Modèle à h composantes acceptable si [Q2cum]h > 0.5 14 Utilisation de NIPALS : Exemple voitures autobis.M1 (PC), Untitled, Work set Model Overview (cum) R2X(cum) Q2(cum) 1.00 R2X(cum) & Q2(cum) 0.80 0.60 0.40 0.20 0.00 Comp[1] Comp[2] Comp[3] Comp[4] Simca-P 8.0 by Umetrics AB 2000-05-30 18:38 La validation croisée conduit à deux composantes. 15 NIPALS : Exemple Voitures Carte des variables ("les vecteurs propres") VITESSE 0.6 0.4 PUISSANCE 0.0 Simca-P 3.01 by Umetri AB 1998-11-21 14:26 p[2] 0.2 CYLINDRÉE -0.2 LONGUEUR POIDS -0.4 LARGEUR 0.0 0.1 0.2 0.3 0.4 p[1] 16 NIPALS : Exemple Voitures Carte des voitures (les 2 premières "composantes principales") 2 citroen peugeot bmw 325i audi 90 seat ibi peugeot t[2] honda ci peugeot renault citroen ford sie renault fiat tip peugeot fiat uno 0 ford fie roverbmw 82 530i renault ford sco opel ome renault -1 Simca-P 3.01 by Umetri AB 1998-11-21 14:29 1 nissan vwv carav -2 -4 -2 0 2 4 t[1] Ellipse: Hotelling T2 (0.05) 17 NIPALS : Identification des outliers Carte de contrôle des distances au modèle normalisées 2.00 DCrit (0.05) nissan vanet 1.80 1.60 bmw 325ix ford scorpio DModX[2] 1.40 1.20 opel omega honda civic 1.00 0.80 peugeot 205 renault 25 renault 21 peugeot 405 fiat tipo renault 19 citroen bx bmw 530i renault espa vw caravelle fiat uno audi 90 quat peugeot 405b ford sierra 0.60 peugeot 205r 0.40 ford fiesta seat ibiza s citroen a rover 827i 0.20 0.00 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals Simca-P 8.0 by Umetrics AB 2000-05-30 19:00 18 25 Calcul de la limite de contrôle Propriété : xi * DModX = * * d 2 ( x i , yi ) n yi * * 1 2 d ∑ ( x i , yi ) n i=1 * ≈ F( k1 , k 2 ) * Limite de contrôle : * F0.95 ( k1 , k 2 ) 19 Probabilité d’appartenir au modèle Test : H0 : l’observation i appartient au modèle de l’ACP H1 : l’observation i n’appartient pas au modèle Décision : On rejette H0 au risque α de se tromper si DModX ≥ F1−α (k1 , k 2 ) Niveau de signification ou « probabilité d’appartenir au modèle » : Plus petit α conduisant au rejet de H0 = Prob (F(k1,k2) ≥ DModX2) L’individu i est exactement sur la limite de contrôle DCrit(αmin) 20 NIPALS : Exemple Voitures "Probabilité" d'appartenir au modèle ACP (2 composantes) 1.00 rover 827i citroen a seat ibiza s ford fiesta 0.90 peugeot 205r 0.80 ford sierra peugeot 405b M1.PModX[2] 0.70 bmw 530i citroen bx 0.60 audi 90 quat renault 19 fiat uno vw caravelle fiat tipo 0.50 renault espa peugeot 405 0.40 renault 21 renault 25 honda civic peugeot 205 opel omega 0.30 0.20 ford scorpio bmw 325ix 0.10 nissan vanet 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 M1.Num Simca-P 8.0 by Umetrics AB 2000-05-22 11:34 PModX(Nissan Vanette) = 0.08 21 II. La régression PLS • Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. • Possibilité de données manquantes. • Il peut y avoir beaucoup plus de variables X que d’observations. • Il peut y avoir beaucoup plus de variables Y que d’observations. • Meilleure réponse au problème de la multicolinéarité. 22 La régression PLS : vocabulaire • Régression PLS1 : un seul Y • Régression PLS2 : plusieurs Y • Analyse discriminante PLS : Y qualitatif transformé en variables indicatrices des modalités 23 II.1. La régression PLS1 :une idée de l’algorithme Etape 1 : Recherche de m composantes orthogonales th = Xah bien explicatives de leur propre groupe et bien corrélées à y. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de Y sur les composantes PLS th . Etape 3 : Expression de la régression en fonction de X. 24 Objectif de l’étape 1 de la régression PLS1 y t1 X2 * ** * * * CPX1 * * ** * * * X1 CPX1 y * * * *** t1 25 La régression PLS1 : une idée de l’étape 1 lorsqu’il n’y a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes th = Xah maximisant le critère Cov (Xah , y) sous des contraintes de norme ( ah = 1 ) et d’orthogonalité entre th et les composantes précédentes t1 ,…, th-1. 26 Propriétés de la régression PLS1 De Cov2(Xah , y) = Cor2(Xah , y)*Var(Xah)*Var(y) on déduit que la régression PLS1 réalise un compromis entre la régression multiple de y sur X et l’analyse en composantes principales de X. 27 Régression PLS1: Étape 1 1. Calcul de la première composante PLS t1 : t1 = Xa1 = ∑ cor ( y, x j ) × x j j Lors de cette étape les covariances sont égales aux corrélations, puisque toutes les données sont centrées réduites 2. Normalisation du vecteur a1= (a11,…,a1k) 3. Régression de y sur t1=Xa1 exprimée en fonction des x 4. Calcul des résidus y1 et X1 des régressions de y et X sur t1 : y = c1t1 + y1 X = t1p1′ + X1 28 Régression PLS1: Étape 2 1. Calcul de la deuxième composante PLS t2 : t 2 = X 1b2 = ∑ cov( y1 , x1 j ) × x1 j j 2. Normalisation du vecteur b2= (b21,…,b2k) 3. Calcul de a2 tel que : t2 = X1b2 = Xa2 4. Régression de y1 sur t2 = Xa2 exprimée en fonction des x 5. Calcul des résidus y2 et X2 des régressions de y et X1 sur t2 : y1 = c2t2 + y2 X1 = t2p2′ + X2 29 Régression PLS1: Étapes suivantes • On procède de la même manière pour les autres composantes. • D’où le modèle de régression PLS à m composantes : y = = = = c1t1 + c2t2 + … + cmtm + Résidu c1Xa1 + c2Xa2 + … + cmXam + Résidu X(c1a1 + c2a2 + … + cmam) + Résidu b1x1 + b2x2 + … + bkxk + Résidu ŷ 30 Calcul de RESSh et PRESSh à l’étape h Residual Sum of Squares : RESS h = ∑ ( y ( h −1),i − ŷ ( h −1),i ) 2 où ŷ ( h −1),i = c h t hi i est la prévision de y(h-1),i Les observations sont partagées en G groupes, et on réalise G fois l’étape courante de l’algorithme sur yh-1 et Xh-1 en enlevant à chaque fois un groupe. Predicted Residual Sum of Squares : PRESS h = ∑ ( y ( h −1),i − ŷ ( h −1), −i ) 2 i où ŷ ( h −1), −i est calculé dans l’analyse réalisée sans le groupe contenant l’observation (i). 31 Choix du nombre de composantes • On choisit le nombre de composantes par validation croisée. • La composante h est retenue si ⇒ Soit : [PRESSh] ≤ 0.95×[RESSh-1] PRESS h Q = 1− ≥ 0.05 RESSh −1 2 32 Q2(cum) et R2(validation croisée) h 2 [Qcum ]h PRESS a = 1− ∏ a =1 RESS a −1 peu différent de 2 Rvalidation croisée PRESS h = 1− 2 ( y − y ) ∑ i i La composante h est retenue si : 2 2 [Qcum ]h est nettement supérieur à [Qcum ]h −1 Modèle à h composantes acceptable si [Q2cum]h > 0.5 33 Variable Importance in the Prediction (VIP) • Composantes PLS : th = Xh-1bh, avec ||bh|| = 1 • Importance de la variable xj (j=1,…, p) pour la prédiction de y dans un modèle à m composantes : VIPmj = p m m 2 2 R ( y , t ) b ∑ h hj 2 h =1 R ( y , t ) ∑ h h =1 • Moyenne des carrés des VIP = 1 • Variable importante pour la prédiction si VIP > 0.8 34 Régression PLS1 : Exemple Voitures Problèmes : multicolinéarité, données manquantes Données complètes Modèle Honda Civic Renault 19 Fiat Tipo Prix 83700 83800 70100 Cylindrée 1396 1721 1580 Puissance 90 92 83 Vitesse 174 180 170 Poids 850 965 970 Longueur 369 415 395 Largeur 166 169 170 1294 95 184 730 350 160 # Citroën AX Sport 66800 Données incomplètes Modèle Honda Civic Renault 19 Fiat Tipo Prix 83700 83800 70100 Cylindrée . 1721 1580 Puissance 90 . 83 Vitesse 174 180 . Poids 850 965 970 Longueur 369 415 395 Largeur 166 169 170 1294 95 184 730 350 . # Citroën AX Sport 66800 35 Régression multiple sur les données complètes R2 = 0.847, F = 15.730 Sig. = 0.0001 Coefficientsa Model Unstandardized Coefficients B Std. Error (Constant) 12070.406 194786.6 CYLINDRE -1.936 33.616 PUISSANC 1315.906 613.510 VITESSE -472.507 740.319 POIDS 45.923 100.047 LONGUEUR 209.653 504.152 LARGEUR -505.429 1501.589 Standardized Coefficients Beta -.018 .888 -.207 .184 .151 -.067 t .062 -.058 2.145 -.638 .459 .416 -.337 Sig. .951 .955 .047 .532 .652 .683 .741 a. Dependent Variable: PRIX 36 Corrélations entre les variables Correlation Matrix PRIX CYLINDRE PUISSANC VITESSE POIDS LONGUEUR LARGEUR PRIX 1.000 .852 .891 .720 .813 .747 .611 CYLINDRE .852 1.000 .861 .693 .905 .864 .709 PUISSANC .891 .861 1.000 .894 .746 .689 .552 Correlation VITESSE .720 .693 .894 1.000 .491 .532 .363 POIDS .813 .905 .746 .491 1.000 .917 .791 LONGUEUR .747 .864 .689 .532 .917 1.000 .864 LARGEUR .611 .709 .552 .363 .791 .864 1.000 37 Régression PLS sur les données incomplètes Choix du nombre de composantes autopbis.M1 (PLS), Untitled, Work set Model Overview (cum) R2Y(cum) Q2(cum) 1.00 R2Y(cum) & Q2(cum) 0.80 0.60 0.40 0.20 0.00 Comp[1] Comp[2] Comp[3] Simca-P 8.0 by Umetrics AB 2000-05-30 18:11 On retient une composante PLS 38 Régression PLS sur les données incomplètes R2 = 0.761 Équation sur les données centrées-réduites (CoeffCS) Pr ix = 2.18 + 0.183Cylindrée* + 0.206Puissance* + 0.146Vitesse * σ (Pr ix) + 0.165Poids* + 0.153Longueur * + 0.129Largeur * Équation sur les données d’origine (Coeff) Prix = -316 462 + 23Cylindrée + 328Puissance + 339Vitesse + 40Poids + 205Longueur + 1007Largeur Équation sur les données d’origine pour Y et centrées pour X (CoeffC) Prix = 125513 + 23(Cylindrée - 1888) + 328(Puissance - 112) + 339(Vitesse - 182) + 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168) 39 Résultats de la validation croisée sur les coefficients de régression PLS 0.24 0.22 Audi 90 Quattro 0.20 0.18 0.16 0.14 0.12 0.10 LARGEUR LONGUEUR POIDS VITESSE PUISSANC CYLINDRE PRIX 40 Résultats de la validation croisée sur les coefficients de régression PLS Cylindrée Puissance Vitesse Poids Longueur Largeur B 0.1827 0.2060 0.1465 0.1653 0.1525 0.1286 SE 0.0371 0.0570 0.0430 0.0181 0.0175 0.0299 Student T 4.925 3.614 3.407 9.133 8.714 4.301 p-value 0.0001 0.0005 0.0002 0.0001 0.0001 0.0001 41 Carte des variables X Y PUISSANCE 0.60 0.40 PRIX VITESSE POIDS w*c[2] 0.20 0.00 CYLINDRÉE -0.20 LONGUEUR -0.40 -0.60 LARGEUR -0.80 -0.70 -0.60 -0.50 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 w*c[1] 42 Validation globale Autoprib.M1 (PLS): Validate Model PRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192) R2 Q2 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00 -0.10 -0.20 0.00 0.10 0.20 0.30 0.40 0.50 0.60 0.70 0.80 0.90 1.00 200 permutations 1 components - Abscisse : Corrélation entre Y et Y permuté - Ordonnée : R2 et Q2 de la régression PLS de Y permuté sur X - Les droites noire et rouge sont les droites des moindres carrés 43 Exemple Voitures Variable Importance in the Projection (1 composante) 1.20 1.10 1.00 0.90 0.70 0.60 0.50 0.40 0.30 0.20 LARGEUR VITESSE LONGUEUR POIDS 0.00 CYLINDRE 0.10 PUISSANC VIP[1] 0.80 Simca-P 8.0 by Umetrics AB 2000-05-22 12:05 44 Régression PLS sur les données incomplètes AUTOPRIB.M1 (PLS), Modèle 1, Work set PRIX, Comp 1(Cum) 250000 audi 90 bmw 325i 200000 Y renault 150000 vw carav peugeot peugeot opel ome renault nissan v ford sie citroen 100000 50000 bmw 530i renault ford sco rover 82 fiat ford uno fie 40000 60000 honda ci renault peugeot seat peugeot fiatibitip citroen 80000 100000 120000 140000 160000 180000 200000 220000 240000 Predicted RMSEE=28979 Simca-P 7.01 by Umetri AB 1998-11-23 09:40 45 Intervalle de confiance à 95% du prix moyen (fourni par SIMCA) 300000 200000 PRIX 100000 0 0 100000 200000 300000 prévision 46 Intervalle de prévision à 95% du prix (à calculer) 300000 audi 90 quattro 200000 PRIX 100000 0 0 100000 200000 300000 prévision 47 Prédiction du prix de la HONDA CIVIC (Problème : certains X sont manquants) Prix de vente : 83 700 FF Cylindrée Puissance Vitesse Poids Longueur Largeur Caractéristiques de la Honda Civic ? 90 174 850 369 166 Caractéristiques centrées-réduites ? -.61009 -.32011 -1.10172 -1.23196 -.32679 48 Prédiction du Prix de la HONDA CIVIC Régression du Prix sur t1 : Prix - 125 512 ≈ 0.4045789 × t1 57 503 Calcul de tPS1 pour la HONDA CIVIC : - Régression : Xj = p1jt1 + erreur, j = 1,…, p ⇒ p1 = (p11, …, p1p) - Régression : xi = tPS1ip1 + erreur sur les données disponibles; d ’où le calcul de tPS1i ⇒ tPS1(Honda Civic) = -1.84262 est l’estimation de t1i Prédiction du prix de la HONDA CIVIC - On utilise tPS1 à la place de t1 ⇒ Prédiction du Prix = 82 644.5 FF 49 Prédiction du Prix de la HONDA CIVIC : calcul de tPS1 (Honda Civic) Cylindrée Puissance Vitesse Poids Longueur Largeur xHonda P1 0.48 0.45 0.37 0.39 0.39 0.36 ⎡0.48 ⎤ ⎛ ? ⎞ ⎟ ⎜ ⎢0.45 ⎥ − . 61 ⎟ ⎜ ⎥ ⎢ ⎜ − .32 ⎟ ⎢0.37 ⎥ ⎟ ≈ tPS1 ( Honda) × ⎢ =⎜ ⎥ ⎜ − 1.10 ⎟ ⎢0.39 ⎥ ⎜ − 1.23 ⎟ ⎢0.39 ⎥ ⎟ ⎜ ⎥ ⎢ ⎜ − .33 ⎟ 0 . 36 ⎥⎦ ⎢⎣ ⎠ ⎝ tPS1(Honda) = -1.84262 50 Régression PLS1 : Cas UOP Guided Wave Problème : 226 variables X et 26 observations Les données : • Y = indice d’octane • X1, X2, …, X226 : valeurs d’absorbance à différentes longueurs d’onde • Données de calibration : 26 échantillons d’essence (dont 2 avec alcool) • Données de validation : 13 échantillons d’essence (dont 4 avec alcool) 51 Cas UOP Guided Wave Visualisation des X -4.469e-03 0.113 0.231 0.349 0.467 0.585 a m H17 H36 p l S.016 e s 1100 X - 1200 a V r 1300 i a 1400 l b e 1500 s Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables 52 Cas UOP Guided Wave Visualisation des X : Données de calibration .7 .6 .5 .4 M52 .3 .2 H59 .1 0.0 -.1 1 25 13 49 37 73 61 97 85 121 109 145 133 169 157 193 181 217 205 Sequence number Les échantillons M52 et H59 contiennent de l ’alcool 53 Cas UOP Guided Wave Visualisation des X : Données de validation .7 .6 .5 .4 .3 .2 .1 0.0 -.1 1 25 13 49 37 73 61 97 85 121 109 145 133 169 157 193 181 217 205 Numéro de la longueur d'onde Les échantillons avec alcool sont en rouge 54 Régression PLS1 : les résultats • Données de spectroscopie Les données sont centrées, mais non réduites • Validation croisée : 3 composantes PLS 55 UOP Guided Wave : Les composantes PLS OCTANE.M4 (PLS), Untitled, Work set Scores: t[1]/t[2] 0.40 H39 H12 H24 H27 H20 H11 H17 H38 H36 H32 L13 M18 M05 M01 L21 M02 L37 L40 L35 L29 L06 L14 L31 L15 t[2] 0.20 0.00 -0.20 H59 M52 -0.40 -0.40 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 0.40 0.50 0.60 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-23 12:14 - Indice d ’octane : L = Low, M = Medium, H = High - Les échantillons M52 et H59 contiennent de l’alcool 56 UOP Guided Wave : les composantes PLS OCTANE.M4 (PLS), Untitled, Work set Scores: t[2]/t[3] 0.100 H32 H36 H38 H17 t[3] 0.050 M52 0.000 H59 L31 L40 L15 L14 L29 L06 L35 M02 M05 M18 M01 H11 H20 H27 H24 L21 L37 -0.050 -0.100 -0.50 -0.40 -0.30 -0.20 -0.10 H12 L13 0.00 0.10 0.20 0.30 H39 0.40 0.50 t[2] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-23 12:41 Indice d ’octane : L = Low, M = Medium, H = High 57 Cas UOP Guided Wave : Prévision Données de calibration OCTANE.M4 (PLS), Untitled, Work set OCTANE, Comp 3(Cum) H38 H39 H17 H24H20 H27 H36 H12 H11 H32 92 91 H59 Y 90 M05 M18 M52 M02 M01 89 88 87 L15 L35 L37L40 L14 L31 L29 L21 L06 87 L13 88 89 90 91 92 Predicted RMSEE=0.290788 Simca-P 7.01 by Umetri AB 1998-11-23 12:53 58 Cas UOP Guided Wave : Prévision Données de validation OCTANE.M5 (PLS), Untitled, PS-OCTANE OCTANE, Comp 3 (Cum) 92 S.022S.026 S.010 S.057 S.058 Observed 91 S.016 S.055 S.056 90 89 S.004 S.025 S.003 S.019 88 87 S.034 87 88 89 90 91 92 Predicted RMSEP=0.256792 Simca-P 7.01 by Umetri AB 1998-11-23 13:11 Présence d ’alcool : OUI / NON 59 II.2 La régression PLS2 • Relier un bloc de variables à expliquer Y à un bloc de variables explicatives X. • Possibilité de données manquantes. • Il peut y avoir beaucoup plus de variables X que d’observations. • Il peut y avoir beaucoup plus de variables Y que d’observations. 60 La régression PLS2 : une idée de l’algorithme Etape 1 : Recherche de m composantes orthogonales th = Xah et m composantes uh= Ybh bien corrélées entre elles et explicatives de leur propre groupe. Le nombre m est obtenu par validation croisée. Etape 2 : Régression de Y sur les composantes th . Etape 3 : Expression de la régression en fonction de X. 61 Objectif de l’étape 1 de la régression PLS2 Y2 t1 X2 ** * CPX1 * * * CPY1 * * ** * * * X1 u1 Y1 u1 * * * *** t1 62 La régression PLS2 : une idée de l’étape 1 lorsqu’il n’y a pas de données manquantes Pour chaque h = 1 à m, on recherche des composantes th = Xah et uh= Ybh maximisant le critère Cov (Xah , Ybh ) sous des contraintes de norme et d’orthogonalité entre th et les composantes précédentes t1 ,…, th-1. 63 Interprétation du critère de Tucker De Cov2(Xah , Ybh ) = Cor2(Xah , Ybh )* Var(Xah)*Var(Ybh) on déduit que la régression PLS réalise un compromis entre l’analyse canonique de X et Y, une ACP de X, et une ACP « oblique » de Y. 64 Variable Importance in the Prediction (VIP) • Composantes PLS : th = Xh-1bh , avec ||bh|| = 1 • Importance de la variable xj (j=1, p) pour la prédiction des yk (k=1, q) dans un modèle à m composantes : VIPmj = p m q m q 2 2 [ R ( y , t ) ] b ∑ ∑ k h hj 2 h =1 R ( y ; t ) ∑∑ k h k =1 h =1 k =1 • Moyenne des carrés des VIP = 1 • Variable importante pour la prévision si VIP > 0.8 65 Régression PLS2 Exemple 1: Dégustation de thé Les données Obs Température Sucré 1 1 1 2 1 2 3 1 3 Force 1 2 3 Citron 1 1 2 Sujet 1 4 2 6 … Sujet 6 5 8 6 # 11 1 2 1 1 1 14 3 3 1 2 12 15 # 18 Température Sucré 1 = Chaud 1 = Pas de sucre 2 = Tiède 2 = 1 sucre 3 = Glacé 3 = 2 sucres Force Citron 1 = Fort 1 = Avec 2 = Moyen 2 = Sans 3 = Faible 66 Cas Dégustation de thé • Bloc X Variables indicatrices des modalités de Température, Sucré, Force et Citron • Bloc Y Les classements des sujets 67 Cas Dégustation de thé Résultats de la régression PLS • Validation croisée : 3 composantes : th = Xwh* et uh = Ych • Équation de régression de Yk sur t1, …, th : Yk = c1kt1 + c2kt 2+ c3kt3 + c4kt4 + résidu • Les variables X et Y sont représentées à l’aide des vecteurs wh* et ch. 68 Cas Dégustation de thé Carte des variables THE.M1 (PLS), régression PLS, Workset Loadings: w*c[1]/w*c[2] Y5 0.6 Y3 CHAUD 0.4 CITRON0 FORT MOYEN SUCRE1 Y2 SUCRE2 0.0 Y4 GLACÉ SUCRE0 -0.2 Y6 -0.4 TIEDE CITRON1 LEGER -0.6 -0.6 -0.4 -0.2 0.0 w*c[1] 0.2 0.4 0.6 0.8 Simca-P 3.01 by Umetri AB 1998-11-23 18:11 w*c[2] 0.2 Y1 69 Cas dégustation de thé Visualisation de la régression PLS de Y1 sur X THE.M1 (PLS), régression PLS, Workset THE régression PLS Loadings: w*c[1]/w*c[2] M1.Y1 (CoeffCS) [4] Y5 0.6 Y3 0.4 CHAUD 0.0 w*c[1] 0.2 0.4 0.6 0.8 Règle d’interprétation: Les projections des variables X sur les variables Y reflètent le signe et l’ordre de grandeur des coefficients de régression PLS des Y sur X. Le juge 1 aime son thé chaud et rejette le thé tiède 70 Simca-P 3.01 by Umetri AB 1998-11-23 19:14 -0.2 CITRON0 -0.4 CITRON1 -0.6 -0.6 LEGER LEGER -0.6 -0.4 MOYEN CITRON1 FORT TIEDE SUCRE2 Y6 -0.4 -0.2 SUCRE1 -0.2 SUCRE0 Y4 FROID SUCRE0 0.0 FROID SUCRE2 0.0 TIEDE Y2 SUCRE1 Simca-P 3.01 by Umetri AB 1998-11-23 18:11 w*c[2] 0.2 0.2 Y1 CHAUD CITRON0 FORT MOYEN CoeffCS5[4] 0.4 Validation du modèle pour le juge 1 0.60 0.20 0.00 -0.20 -0.40 CITRON0 CITRON1 LEGER MOYEN FORT SUCRE2 SUCRE1 SUCRE0 FROID TIEDE -0.60 CHAUD CoeffCS[4](Y1) 0.40 Var ID (Primary) 71 Cas dégustation de thé Visualisation de la régression PLS de Y5 sur X THE régression PLS THE.M1 (PLS), régression PLS, Workset M1.Y5 (CoeffCS) [4] Loadings: w*c[1]/w*c[2] Y5 0.6 Y3 CHAUD -0.4 -0.2 0.0 w*c[1] 0.2 0.4 0.6 0.8 Le juge 5 préfère son thé sans citron, fort; il est indifférent au thé tiède; il rejette le thé léger, avec du citron. 72 Simca-P 3.01 by Umetri AB 1998-11-23 19:26 -0.6 CITRON0 -0.6 -0.4 CITRON1 LEGER LEGER CITRON1 MOYEN TIEDE FORT -0.4 -0.2 SUCRE2 Y6 SUCRE1 -0.2 0.0 SUCRE0 Y4 FROID SUCRE0 Simca-P 3.01 by Umetri AB 1998-11-23 18:11 SUCRE2 0.0 FROID Y2 SUCRE1 TIEDE 0.2 0.2 Y1 CHAUD CITRON0 FORT MOYEN CoeffCS9[4] 0.4 w*c[2] 0.4 Validation du modèle pour le juge 5 0.40 0.00 -0.20 CITRON0 CITRON1 LEGER MOYEN FORT SUCRE2 SUCRE1 SUCRE0 FROID TIEDE -0.40 CHAUD CoeffCS[4](Y5) 0.20 Var ID (Primary) 73 Carte des produits dans l’espace des juges Dégustation de thés Scores: u[1]/u[2] 2 11 8 2 12 18 1 4 14 10 1 3 ] 2[ 0 u 9 6 16 -1 13 17 -2 15 -2 7 5 -1 0 1 2 u[1] Simca-P 8.0 by Umetrics AB 2000-11-27 10:19 74 Variable Importance in the Projection (VIP) THE.M1 (PLS), Untitled, Work set VIP, Comp 4(Cum) 1.60 1.40 1.20 0.80 0.60 0.40 SUCRE1 MOYEN FROID FORT CITRON0 CITRON1 LEGER SUCRE2 SUCRE0 0.00 CHAUD 0.20 TIEDE VIP[4] 1.00 75 Simca-P 8.0 by Umetrics AB 2000-03-08 08:01 III. Analyse discriminante PLS • Bloc Y La variable qualitative Y est remplacée par l’ensemble des variables indicatrices de ses modalités. • Bloc X Variables numériques ou indicatrices des modalités des variables qualitatives. • Régression PLS de Y sur X 76 Analyse discriminante PLS : exemple Les données • 16 biopsies de tumeurs de cerveau humain. • Chaque tumeur est classée par un médecin anatomopathologiste comme bénigne ou maligne. • Chaque biopsie est analysée par chromatographie en phase gazeuse : on obtient un profil métabolique de la biopsie formé de 156 pics. • Quelques données manquantes Article: Jellum E., Bjørnson I., Nesbakken R., Johanson E., Wold S. Classification of human cancer cells by means of capillary gas chromatography and pattern recognition analysis. ( Journal of Chromatography, 1981) 77 Analyse discriminante PLS Profils métaboliques des biopsies T2 1200 1400 T3 1200 1000 T6 1000 T7 800 T8 N1 800 600 T9 N4 600 N5 T10 400 400 T11 N13 200 200 N14 0 N15 1 17 9 33 25 49 41 65 57 81 73 97 89 113 105 Sequence number Tumeurs bénignes 129 121 T16 0 1 145 137 T12 153 17 9 33 25 49 41 65 57 81 73 97 89 113 105 129 121 145 137 153 Sequence number Tumeurs malignes 78 Analyse en composantes principales des 16 biopsies Composantes principales 1 et 2 EGI1.M4 (PC), Untitled, Work set Scores: t[1]/t[2] 10 N15 t[2] 5 N13 T8 T12 T6 T7 N1 T3T11 T16 0 N4 N14 T9 -5 T10 T2 N5 -10 -10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:17 79 Analyse en composantes principales des 16 biopsies Composantes principales 1 et 3 EGI1.M4 (PC), Untitled, Work set Scores: t[1]/t[3] N14 10 N5 5 t[3] T16 T8 T12 T6 T7 0 T9 N13 N15 N1 T3T11 T10 N4 -5 T2 -10 -10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:19 80 Analyse discriminante PLS Composantes PLS 1 et 2 EGI1.M5 (PLS), Untitled, Work set Scores: t[1]/t[2] N14 10 t[2] 5 T8 N15 0 T12 T16 T7T6 T3 T11 T9 -5 T10 N5 N1 N13 N4 T2 -10 -10 0 10 t[1] Ellipse: Hotelling T2 (0.05) Simca-P 7.01 by Umetri AB 1998-11-24 15:22 81 IV. Régression logistique PLS • Bonne solution au problème de la multicolinéarité. • Il peut y avoir beaucoup plus de variables que d’observations. • Il peut y avoir des données manquantes. • Présentation de trois algorithmes 82 Qualité des vins de Bordeaux Variables observées sur 34 années (1924 - 1957) • TEMPERATURE : Somme des températures moyennes journalières • SOLEIL : Durée d’insolation • CHALEUR : Nombre de jours de grande chaleur • PLUIE : Hauteur des pluies • QUALITE DU VIN : Bon, Moyen, Médiocre 83 Régression logistique ordinale Y = Qualité : Bon (1), Moyen (2), Médiocre (3) PROB(Y ≤ i) = αi +β1Température+β2Soleil+β3Chaleur+β4Pluie e αi +β1Température+β2Soleil+β3Chaleur+β4Pluie 1+ e 84 Régression logistique ordinale Résultats SAS Score Test for the Proportional Odds Assumption Chi-Square = 2.9159 with 4 DF (p=0.5720) Analysis of Maximum Likelihood Estimates Variable DF INTERCP1 INTERCP2 TEMPERA SOLEIL CHALEUR PLUIE 1 1 1 1 1 1 Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square -2.6638 2.2941 3.4268 1.7462 -0.8891 -2.3668 0.9266 0.9782 1.8029 1.0760 1.1949 1.1292 8.2641 5.4998 3.6125 2.6335 0.5536 4.3931 0.0040 0.0190 0.0573 0.1046 0.4568 0.0361 85 Régression logistique ordinale Qualité de prévision du modèle QUALITE PREVISION OBSERVEE Effectif ‚ 1‚ 2‚ 3‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 8 ‚ 3 ‚ 0 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 2 ‚ 8 ‚ 1 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10 12 12 Total 11 11 12 34 Résultat : 7 années mal classées 86 Régression logistique ordinale Commentaires • Le modèle à pentes égales est acceptable (p = 0.572). • La chaleur a une influence positive sur la qualité du vin de Bordeaux, alors qu’elle apparaît comme non significative et avec un coefficient négatif dans le modèle. • C ’est un problème de multicolinéarité. • Il y a 7 années mal classées. 87 Algorithme 1 : La régression logistique PLS Etape 1 : Recherche de m composantes orthogonales Th = Xah explicatives de leur propre groupe et bien prédictives de y. Le nombre m est obtenu par validation croisée. Etape 2 : Régression logistique de Y sur les composantes Th . Etape 3 : Expression de la régression logistique en fonction de X. 88 Régression logistique PLS Étape 1 1. Régression logistique de y sur chaque xj : ⇒ les coefficients de régression a1j 2. Normalisation du vecteur a1= (a11,…,a1k) 3. Régression logistique de y sur T1=Xa1 exprimée en fonction des X 4. Calcul du résidu X1 de la régression de X sur T1 89 Régression logistique PLS Étape 2 1. Régression logistique de y sur T1 et chaque résidu x1j : ⇒ les coefficients de régression b2j 2. Normalisation du vecteur b2= (b21,…,b2k) 3. Calcul de a2 tel que : T2 = X1b2 = Xa2 4. Régression logistique de y sur T1= Xa1 et T2 = Xa2 exprimée en fonction des X 5. Calcul du résidu X2 de la régression de X sur T1 , T2 90 Régression logistique PLS Choix du nombre de composantes • On procède de la même manière pour les autres étapes. • On choisit le nombre de composantes par validation croisée : la composante h est retenue si 2 [ χ Pearson ( validation croisée, étape h )]1 / 2 2 1/ 2 [ χ ( substituti on, étape h 1 )] ≤ 0.95× Pearson Soit : Q2 = 1− 2 χ validation croisée, étape 2 χ substituti on, étape h ≥ 0 .0975 h -1 91 Régression logistique PLS Résultats de l’algorithme • La température de 1924 est supposée inconnue. • La régression logistique PLS de Y sur X a conduit à deux composantes PLS T1 et T2 : T1 = 0.57×Température + 0.63×Soleil + 0.41×Chaleur - 0.34×Pluie T2 = - 0.14×Température + 0.45×Soleil - 0.69×Chaleur - 0.52×Pluie 92 Régression logistique ordinale sur T1, T2 Résultats SAS Analysis of Maximum Likelihood Estimates Variable DF INTERCP1 INTERCP2 T1 T2 1 1 1 1 Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square -2.5490 2.1349 3.0797 1.4148 0.8768 0.8955 0.8350 0.8849 8.4507 5.6837 13.6032 2.5563 0.0036 0.0171 0.0002 0.1099 TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE QUALITÉ PRÉDICTION Effectif ‚ 1‚ 2‚ 3‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 9 ‚ 2 ‚ 0 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 1 ‚ 9 ‚ 1 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 10 12 12 Total 11 11 Résultat : 5 années mal classées 12 34 93 Régression logistique PLS Le modèle Prob (Y≤ i) −2.55× Bon + 2.14× Moyen + 3.08×T1 +1.42×T2 e = 1 + e −2.55×Bon +2.14×Moyen +3.08×T1+1.42×T2 e −2.55×Bon +2.14×Moyen +1.57×Temp.+2.73×Soleil +0.26Chaleur −1.77×Pluie = 1 + e −2.55×Bon +2.14×Moyen +1.57×Temp.+2.73×Soleil +0.26×Chaleur −1.77×Pluie 94 Algorithme 2 Régression logistique sur composantes PLS (1) (2) Régression PLS des indicatrices de Y sur les X. Régression logistique de Y sur les composantes PLS des X. 95 Régression logistique sur les composantes PLS Résultats • La température de 1924 est supposée inconnue. • La régression PLS des indicatrices de Y sur X a conduit à une seule composante PLS t1 (résultat de la validation croisée). • t1 = 0.55×Température + 0.55×Soleil +0.48×Chaleur – 0.40×Pluie • Pour l’année 1924 : t1 = (0.55×Soleil +0.48×Chaleur– 0.40×Pluie)/0.69 96 Utilisation de la régression PLS pour la prévision de la qualité du vin de Bordeaux The PLS Procedure Cross Validation for the Number of Latent Variables Test for larger residuals than minimum Number of Root Latent Mean Prob > Variables PRESS PRESS ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 0 1.0313 0 1 0.8304 1.0000 2 0.8313 0.4990 3 0.8375 0.4450 4 0.8472 0.3500 Minimum Root Mean PRESS = 0.830422 for 1 latent variable Smallest model with p-value > 0.1: 1 latent TABLE OF QUALITE BY PREV QUALITE PREV Frequency‚ 1‚ 3‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 11 ‚ 0 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 4 ‚ 7 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 1 ‚ 11 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 16 18 Choix d’une composante PLS Total 11 11 12 34 Résultat : 12 années mal classées 97 Résultats de la régression logistique de Y sur la composante PLS t1 Analysis of Maximum Likelihood Estimates Variable DF INTERCP1 INTERCP2 t1 1 1 1 Parameter Estimate Standard Error Wald Chi-Square Pr > Chi-Square -2.1492 2.2845 2.6592 0.8279 0.8351 0.7028 6.7391 7.4841 14.3182 0.0094 0.0062 0.0002 TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE QUALITÉ PRÉDICTION Effectif ‚ 1‚ 2‚ 3‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 1 ‚ 9 ‚ 2 ‚ 0 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 2 ‚ 2 ‚ 8 ‚ 1 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ 3 ‚ 0 ‚ 1 ‚ 11 ‚ ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ Total 11 11 12 Total 11 11 Résultat : 6 années mal classées 12 34 98 Régression logistique sur composantes PLS Le modèle Prob (Y≤ i) −2.15× Bon + 2.28× Moyen + 2.66×t1 e = 1 + e −2.15×Bon +2.28×Moyen +2.66×t1 e −2.15×Bon+2.28×Moyen+1.47×Temp.+1.46×Soleil+1.28×Chaleur −1.07×Pluie = 1 + e −2.15×Bon+2.28×Moyen+1.47×Temp.+1.46×Soleil+1.28×Chaleur −1.07×Pluie 99 Conclusion 1: Régression logistique PLS vs régression logistique sur composantes PLS • Les deux algorithmes présentés devraient avoir des qualités comparables. • L ’algorithme 2 est beaucoup plus simple : Deux étapes : (1) Régression PLS des indicatrices de Y sur X (2) Régression logistique de Y sur les composantes PLS 100 Conclusion 2: Le modèle linéaire généralisé PLS • Le modèle linéaire généralisé PLS peut être construit selon les mêmes procédures. • Approche beaucoup plus simple que la méthode de Brian Marx : « Iteratively Reweighted Partial Least Square Estimation for Generalized Linear Regression », Technometrics, 1996. 101 Algorithme 3 (données groupées) Régression PLS du logit de la variable de réponse sur les prédicteurs Exemple : Job satisfaction (Zelterman, 1999) • 9949 employees in the ‘ craft ’ job within a company • Response : Satisfied/Dissatisfied • Factors : Sex, Race (White/Nonwhite), Age (<35, 35-44, >44) Region (Northeast, Mid-Atlantic, Southern, Midwest, Northwest, Southwest, Pacific) • Explain Job satisfaction with all the main effects and the interactions. 102 Une approche exploratoire (1) Régression PLS de Y1 = Logit(proportion of satisfied people) Y2 = Logit(proportion of non satisfied people) sur les 4 facteurs et toutes les interactions. (2) Élimination itérative des termes à petits VIP, en vérifiant l’augmentation du Q2(cum) (3) Carte des variables finalement retenues 103 Résultat de la Régression PLS sur les logits MEN 0.30 YOUNG in NORTHEAST WOMEN in MIDWEST 0.20 NONWHITE WOMEN NON SATISFIED NORTHEAST 0.10 OLD WHITE w*c[2] YOUNG in MIDWEST 0.00 YOUNG WOMEN in NORTHEAST OLD in MID-ATLANTIC -0.10 SATISFIED MID-ATLANTIC YOUNG WHITE -0.20 WHITE in MID-ATLANTIC -0.30 YOUNG WOMEN SOUTHERN NONWHITE MEN WOMEN -0.40 OLD in SOUTHERN -0.50 -0.30 -0.20 -0.10 0.00 0.10 0.20 0.30 w*c[1] Y1 = Logit (Proportion of Satisfied) Y2 = Logit (Proportion of Non Satisfied) X = Explanatory variables kept after elimination of small VIP terms 104 Quelques références sur les méthodes PLS Régression PLS - L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and Megavariate Data Analysis using Projection Methods (PCA & PLS), Umetrics, 1999. - H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000 - H. Martens & T. Næs : Multivariate calibration, Wiley, 1989 - SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden), distribué par SIGMA PLUS - M. Tenenhaus : La régression PLS, Editions Technip, 1998 Approche PLS (PLS Path modelling) - J.-B. Lohmöller : Latent variable path modeling with partial least squares, Physica-Verlag, 1989 LVPLS 1.8 : Software for Latent variables path analysis with partial least-squares estimation, J.-B. Lohmöller, 1989 M. Tenenhaus : L’approche PLS, R.S.A., 47 (2), 5-40, 1999 105