Régression logistique PLS

Transcription

Les Méthodes PLS
Pierre-Louis Gonzalez
Michel Tenenhaus
1
Les méthodes PLS
initiées par Herman et Svante Wold
I. NIPALS (Nonlinear Iterative Partial Least Squares)
II. Régression PLS (Partial Least Squares Regression)
II.1 PLS1
II.2 PLS2
III Analyse discriminante PLS
IV. Régression logistique PLS
2
I. La méthode NIPALS
Analyse en composantes principales
• Possibilité de données manquantes.
• Validation croisée pour choisir le nombre
de composantes.
• Identification des outliers avec
- une carte de contrôle des observations,
- des tests sur les écarts au modèle de l’ACP.
3
Utilisation de NIPALS :Exemple voitures
Modèle
Honda Civic
Renault 19
Fiat Tipo
Cylindrée
.
1721
1580
Puissance
90
.
83
Vitesse
174
180
.
Poids
850
965
970
Longueur
369
415
395
Largeur
166
169
170
95
184
730
350
.
#
Citroën AX Sport 1294
Il y a une observation manquante par véhicule !
Le principe de NIPALS: Comment projeter un
point avec données manquantes ?
4
Projection sur un axe
xi
* *
*
*
*
°0
u
xi
o
ti
o
*
o
o
*
o
*
o
0
u
x i'u
ti =
= pente de la droite
u'u
des moindres
carrés sans constante
de x i sur u
5
Projection d’un point avec données manquantes sur un axe
xi
* *
*
°0
xi
o
Valeur manquante
*
*
u
ti
o
o
*
o
*
o
*
o
0
u
S' il y a des données manquantes
xi ' u
est calculé sur les données
ti =
u'u
disponible s
6
L ’algorithme NIPALS
Recherche des composantes principales
Données :
X = {xij} tableau n×k ,
xj = variable j
xi = observation i
Modèle de l ’ACP :
X = t1p1´ + … + tkpk´
avec (1) p1, … , pk orthonormés ( axes )
et
(2) t1, … , tk
orthogonaux
7
( composantes principales )
Recherche de la première composante principale
• Modèle : X = t1p1´ + résidu, avec p1 normé
• Algorithme : les équations de base
(1) Si t1 connu, calcul de p1j par régression :
xj = p1jt1 + résidu
(2) Normalisation de p1 = (p11,…,p1k)
(3) Si p1 connu, calcul de t1i par régression :
xi = t1ip1 + résidu
• Algorithme : fonctionnement
Prendre t1 = x1 , puis itérer sur (1), (2), (3).
-
Si données manquantes, faire les calculs sur toutes les données
disponibles.
8
Commentaires:
Les relations cycliques découlant des équations de base
de l’algorithme montrent que λ1 est la plus grande valeur
propre vérifiant les équations suivantes:
1
X ' X p1 = λ1 p1
n −1
1
X X ' t1 = λ 1 t1
n −1
Nous avons divisé par n-1 pour retrouver les résultats de
SIMCA.
Ce calcul est une application de la méthode de la
puissance itérée pour le calcul du vecteur propre d’une
matrice associé à la plus grande valeur propre
( Hotelling-1936; Anderson-1958)
9
Projection sur l’ axe 1
xi
* *
*
*
*
°0
p1
xi
o
t1i
o
*
o
o
*
o
*
o
p1
0
t1 i
xi ' p1
=
= p e n t e d e la d r o i te
p 1 'p 1
d e s m o i n d r e s c a r r é s s a n s c o n s t a n te
de x i sur p1
10
Recherche des autres composantes principales
• La première étape donne :
X = t1p1′ + X1
• On répète les opérations précédentes sur la matrice
des résidus X1 de la régression de X sur t1.
• On obtient : X1 = t2p2′ + X2
et X = t1p1′ + t2p2′ + X2
• On obtient de même les autres composantes.
11
RESSh et PRESSh
A chaque étape on étudie la reconstitution du tableau X :
X̂ = t1p1' + t 2 p '2 + ... + t h p 'h
RESS h = ∑ ( x ij − x̂ ij ) 2
Residual Sum of Squares :
i, j
Les cases de X sont partagées en G groupes, et on réalise G factorisations
en enlevant à chaque fois un seul des groupes.
Predicted Residual Sum of Squares :
PRESSh = ∑ ( x ij − x̂ ( −ij) ) 2
i, j
où x̂ ( − ij) est calculé dans l’analyse réalisée sans le groupe
contenant la case (i,j).
12
Choix du nombre de composantes
• On choisit le nombre de composantes principales
par validation croisée.
• La composante th est retenue si
PRESSh
Q = 1−
≥ limite
RESSh −1
2
13
Q2(cum) et R2(validation croisée)
h
2
[Qcum
]h
PRESS a
= 1− ∏
a =1 RESS a −1
peu différent de
R 2validation croisée
PRESSh / n − 1
= 1−
2
s
∑ j
j
La composante h est retenue si :
2
2
[Qcum
]h est nettement supérieur à [Qcum
]h −1
CONSEIL : Modèle à h composantes acceptable si [Q2cum]h > 0.5
14
Utilisation de NIPALS :
Exemple voitures
autobis.M1 (PC), Untitled, Work set
Model Overview (cum)
R2X(cum)
Q2(cum)
1.00
R2X(cum) & Q2(cum)
0.80
0.60
0.40
0.20
0.00
Comp[1]
Comp[2]
Comp[3]
Comp[4]
Simca-P 8.0 by Umetrics AB 2000-05-30 18:38
La validation croisée conduit à deux composantes.
15
NIPALS : Exemple Voitures
Carte des variables ("les vecteurs propres")
VITESSE
0.6
0.4
PUISSANCE
0.0
Simca-P 3.01 by Umetri AB 1998-11-21 14:26
p[2]
0.2
CYLINDRÉE
-0.2
LONGUEUR
POIDS
-0.4
LARGEUR
0.0
0.1
0.2
0.3
0.4
p[1]
16
Carte des voitures (les 2 premières "composantes principales")
2
citroen
peugeot
bmw 325i
audi 90
seat ibi
peugeot
t[2]
honda ci
peugeot
renault
citroen
ford sie
renault
fiat tip peugeot
fiat uno
0
ford fie
roverbmw
82 530i
renault
ford sco
opel ome
renault
-1
1
nissan
vwv carav
-2
-4
-2
0
2
4
t[1]
Ellipse: Hotelling T2 (0.05)
17
NIPALS : Identification des outliers
Carte de contrôle des distances au modèle normalisées
2.00 DCrit (0.05)
nissan vanet
1.80
1.60
bmw 325ix
ford scorpio
DModX[2]
1.40
1.20
opel omega
honda civic
1.00
0.80
peugeot 205
renault 25
renault 21
peugeot 405
fiat tipo
renault 19
citroen bx
bmw 530i
renault espa
vw caravelle
fiat uno
audi 90 quat
peugeot 405b
ford sierra
0.60
peugeot 205r
0.40
ford fiesta
seat ibiza s
citroen a
rover 827i
0.20
0.00
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Dcrit [2] = 2.00746, Normalized distances, Non weighted residuals
18
25
Calcul de la limite de contrôle
Propriété :
xi
*
DModX =
*
*
d 2 ( x i , yi )
n
yi
*
*
1
2
d
∑ ( x i , yi )
n i=1
*
≈ F( k1 , k 2 )
*
Limite de contrôle :
*
F0.95 ( k1 , k 2 )
19
Probabilité d’appartenir au modèle
Test : H0 : l’observation i appartient au modèle de l’ACP
H1 : l’observation i n’appartient pas au modèle
Décision : On rejette H0 au risque α de se tromper si
DModX ≥
F1−α (k1 , k 2 )
Niveau de signification ou « probabilité d’appartenir au
modèle » :
Plus petit α conduisant au rejet de H0
= Prob (F(k1,k2) ≥ DModX2)
L’individu i est exactement sur la limite de contrôle DCrit(αmin)
20
"Probabilité" d'appartenir au modèle ACP (2 composantes)
1.00
rover 827i
citroen a
seat ibiza s
ford fiesta
0.90
peugeot 205r
0.80
ford sierra
peugeot 405b
M1.PModX[2]
0.70
bmw 530i
citroen bx
0.60
audi 90 quat
renault 19
fiat uno
vw caravelle
fiat tipo
0.50
renault espa
peugeot 405
0.40
renault 21
renault 25
honda civic
peugeot 205
opel omega
0.30
0.20
ford scorpio
bmw 325ix
0.10
nissan vanet
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
M1.Num
PModX(Nissan Vanette) = 0.08
21
II. La régression PLS
• Relier un bloc de variables à expliquer Y à un
bloc de variables explicatives X.
• Il peut y avoir beaucoup plus de variables X que
d’observations.
• Il peut y avoir beaucoup plus de variables Y que
d’observations.
• Meilleure réponse au problème de la
multicolinéarité.
22
La régression PLS : vocabulaire
• Régression PLS1 : un seul Y
• Régression PLS2 : plusieurs Y
• Analyse discriminante PLS :
Y qualitatif transformé en variables
indicatrices des modalités
23
II.1. La régression PLS1 :une idée de l’algorithme
Etape 1 : Recherche de m composantes orthogonales
th = Xah bien explicatives de leur propre groupe et bien
corrélées à y.
Le nombre m est obtenu par validation croisée.
Etape 2 : Régression de Y sur les composantes PLS th .
Etape 3 : Expression de la régression en fonction de X.
24
Objectif de l’étape 1 de la régression PLS1
y
t1
X2
*
**
*
*
*
CPX1
* *
**
*
*
*
X1
CPX1
y
* *
*
***
t1
25
La régression PLS1 : une idée de l’étape 1
lorsqu’il n’y a pas de données manquantes
Pour chaque h = 1 à m, on recherche des
composantes th = Xah maximisant
le critère
Cov (Xah , y)
sous des contraintes de norme (
ah = 1 )
et
d’orthogonalité entre th et les composantes
précédentes t1 ,…, th-1.
26
Propriétés de la régression PLS1
De Cov2(Xah , y) = Cor2(Xah , y)*Var(Xah)*Var(y)
on déduit que la régression PLS1 réalise un
compromis entre la régression multiple de y sur X et
l’analyse en composantes principales de X.
27
Régression PLS1: Étape 1
1. Calcul de la première composante PLS t1 :
t1 = Xa1 = ∑ cor ( y, x j ) × x j
j
Lors de cette étape les
covariances sont égales aux
corrélations, puisque toutes les
données sont centrées réduites
2. Normalisation du vecteur a1= (a11,…,a1k)
3. Régression de y sur t1=Xa1 exprimée en fonction des x
4. Calcul des résidus y1 et X1 des régressions de y et X sur t1 :
y = c1t1 + y1
X = t1p1′ + X1
28
Régression PLS1: Étape 2
1. Calcul de la deuxième composante PLS t2 :
t 2 = X 1b2 = ∑ cov( y1 , x1 j ) × x1 j
j
2. Normalisation du vecteur b2= (b21,…,b2k)
3. Calcul de a2 tel que : t2 = X1b2 = Xa2
4. Régression de y1 sur t2 = Xa2 exprimée en fonction des x
5. Calcul des résidus y2 et X2 des régressions de y et X1
sur t2 :
y1 = c2t2 + y2
X1 = t2p2′ + X2
29
Régression PLS1: Étapes suivantes
• On procède de la même manière pour
les autres composantes.
• D’où le modèle de régression PLS à m
composantes :
y
=
=
=
=
c1t1 + c2t2 + … + cmtm + Résidu
c1Xa1 + c2Xa2 + … + cmXam + Résidu
X(c1a1 + c2a2 + … + cmam) + Résidu
b1x1 + b2x2 + … + bkxk + Résidu
ŷ
30
Calcul de RESSh et PRESSh à l’étape h
Residual Sum of Squares : RESS h = ∑ ( y ( h −1),i − ŷ ( h −1),i ) 2
où
ŷ ( h −1),i = c h t hi
i
est la prévision de y(h-1),i
Les observations sont partagées en G groupes, et on réalise G fois l’étape
courante de l’algorithme sur yh-1 et Xh-1 en enlevant à chaque fois un groupe.
Predicted Residual Sum of Squares :
PRESS h = ∑ ( y ( h −1),i − ŷ ( h −1), −i ) 2
i
où
ŷ ( h −1), −i
est calculé dans l’analyse réalisée sans le groupe
contenant l’observation (i).
31
• On choisit le nombre de composantes
par validation croisée.
• La composante h est retenue si
⇒
Soit :
[PRESSh] ≤ 0.95×[RESSh-1]
PRESS h
Q = 1−
≥ 0.05
RESSh −1
2
32
Q2(cum) et R2(validation croisée)
h
2
[Qcum
]h
PRESS a
= 1− ∏
a =1 RESS a −1
peu différent de
2
Rvalidation
croisée
PRESS h
= 1−
2
(
y
−
y
)
∑ i
i
La composante h est retenue si :
2
2
[Qcum
]h est nettement supérieur à [Qcum
]h −1
Modèle à h composantes acceptable si [Q2cum]h > 0.5
33
Variable Importance in the Prediction
(VIP)
• Composantes PLS : th = Xh-1bh, avec ||bh|| = 1
• Importance de la variable xj (j=1,…, p) pour la
prédiction de y dans un modèle à m composantes :
VIPmj =
p
m
m
2
2
R
(
y
,
t
)
b
∑
h hj
2
h =1
R
(
y
,
t
)
∑
h
h =1
• Moyenne des carrés des VIP = 1
• Variable importante pour la prédiction si VIP > 0.8
34
Régression PLS1 : Exemple Voitures
Problèmes : multicolinéarité, données manquantes
Données complètes
Modèle
Honda Civic
Renault 19
Fiat Tipo
Prix
83700
83800
70100
Cylindrée
1396
1721
1580
Puissance
90
92
83
Vitesse
174
180
170
Poids
850
965
970
Longueur
369
415
395
Largeur
166
169
170
1294
95
184
730
350
160
#
Données incomplètes
Modèle
Honda Civic
Renault 19
Fiat Tipo
Prix
83700
83800
70100
Cylindrée
.
1721
1580
Puissance
90
.
83
Vitesse
174
180
.
Poids
850
965
970
Longueur
369
415
395
Largeur
166
169
170
1294
95
184
730
350
.
#
35
Régression multiple sur les données complètes
R2 = 0.847, F = 15.730 Sig. = 0.0001
Coefficientsa
Model
Unstandardized
Coefficients
B
Std. Error
(Constant)
12070.406
194786.6
CYLINDRE
-1.936
33.616
PUISSANC
1315.906
613.510
VITESSE
-472.507
740.319
POIDS
45.923
100.047
LONGUEUR
209.653
504.152
LARGEUR
-505.429
1501.589
Standardized
Coefficients
Beta
-.018
.888
-.207
.184
.151
-.067
t
.062
-.058
2.145
-.638
.459
.416
-.337
Sig.
.951
.955
.047
.532
.652
.683
.741
a. Dependent Variable: PRIX
36
Corrélations entre les variables
Correlation Matrix
PRIX
CYLINDRE
PUISSANC
VITESSE
POIDS
LONGUEUR
LARGEUR
PRIX
1.000
.852
.891
.720
.813
.747
.611
CYLINDRE
.852
1.000
.861
.693
.905
.864
.709
PUISSANC
.891
.861
1.000
.894
.746
.689
.552
Correlation
VITESSE
.720
.693
.894
1.000
.491
.532
.363
POIDS
.813
.905
.746
.491
1.000
.917
.791
LONGUEUR
.747
.864
.689
.532
.917
1.000
.864
LARGEUR
.611
.709
.552
.363
.791
.864
1.000
37
Régression PLS sur les données incomplètes
autopbis.M1 (PLS), Untitled, Work set
Model Overview (cum)
R2Y(cum)
Q2(cum)
1.00
R2Y(cum) & Q2(cum)
0.80
0.60
0.40
0.20
0.00
Comp[1]
Comp[2]
Comp[3]
On retient une composante PLS
38
R2 = 0.761
Équation sur les données centrées-réduites (CoeffCS)
Pr ix
= 2.18 + 0.183Cylindrée* + 0.206Puissance* + 0.146Vitesse *
σ (Pr ix)
+ 0.165Poids* + 0.153Longueur * + 0.129Largeur *
Équation sur les données d’origine (Coeff)
Prix = -316 462 + 23Cylindrée + 328Puissance + 339Vitesse
+ 40Poids + 205Longueur + 1007Largeur
Équation sur les données d’origine pour Y et centrées pour X (CoeffC)
Prix = 125513 + 23(Cylindrée - 1888) + 328(Puissance - 112) + 339(Vitesse - 182)
+ 40(Poids - 1113) + 205(Longueur - 422) + 1007(Largeur - 168)
39
Résultats de la validation croisée
sur les coefficients de régression PLS
0.24
0.22
Audi 90 Quattro
0.20
0.18
0.16
0.14
0.12
0.10
LARGEUR
LONGUEUR
POIDS
VITESSE
PUISSANC
CYLINDRE
PRIX
40
Résultats de la validation croisée
sur les coefficients de régression PLS
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
B
0.1827
0.2060
0.1465
0.1653
0.1525
0.1286
SE
0.0371
0.0570
0.0430
0.0181
0.0175
0.0299
Student T
4.925
3.614
3.407
9.133
8.714
4.301
p-value
0.0001
0.0005
0.0002
0.0001
0.0001
0.0001
41
Carte des variables
X
Y
PUISSANCE
0.60
0.40
PRIX
VITESSE
POIDS
w*c[2]
0.20
0.00
CYLINDRÉE
-0.20
LONGUEUR
-0.40
-0.60
LARGEUR
-0.80
-0.70
-0.60
-0.50
-0.40
-0.30
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
w*c[1]
42
Validation globale
Autoprib.M1 (PLS): Validate Model
PRIX Intercepts: R2=(0.0, -0.0144), Q2=(0.0, -0.192)
R2
Q2
0.80
0.70
0.60
0.50
0.40
0.30
0.20
0.10
0.00
-0.10
-0.20
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
200 permutations 1 components
- Abscisse : Corrélation entre Y et Y permuté
- Ordonnée : R2 et Q2 de la régression PLS de Y permuté sur X
- Les droites noire et rouge sont les droites des moindres carrés
43
Exemple Voitures
Variable Importance in the Projection (1 composante)
1.20
1.10
1.00
0.90
0.70
0.60
0.50
0.40
0.30
0.20
LARGEUR
VITESSE
LONGUEUR
POIDS
0.00
CYLINDRE
0.10
PUISSANC
VIP[1]
0.80
44
AUTOPRIB.M1 (PLS), Modèle 1, Work set
PRIX, Comp 1(Cum)
250000
audi 90
bmw 325i
200000
Y
renault
150000
vw carav
peugeot
peugeot opel ome
renault
nissan
v ford sie
citroen
100000
50000
bmw 530i
renault
ford sco
rover 82
fiat ford
uno fie
40000
60000
honda ci
renault
peugeot
seat
peugeot
fiatibitip
citroen
80000
100000
120000
140000
160000
180000
200000
220000
240000
Predicted
RMSEE=28979
45
Intervalle de confiance à 95% du prix moyen
(fourni par SIMCA)
300000
200000
PRIX
100000
0
0
100000
200000
300000
prévision
46
Intervalle de prévision à 95% du prix
(à calculer)
300000
audi 90 quattro
200000
PRIX
100000
0
0
100000
200000
300000
prévision
47
Prédiction du prix de la HONDA CIVIC
(Problème : certains X sont manquants)
Prix de vente : 83 700 FF
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
Caractéristiques
de la Honda Civic
?
90
174
850
369
166
Caractéristiques
centrées-réduites
?
-.61009
-.32011
-1.10172
-1.23196
-.32679
48
Prédiction du Prix de la HONDA CIVIC
Régression du Prix sur t1 :
Prix - 125 512
≈ 0.4045789 × t1
57 503
Calcul de tPS1 pour la HONDA CIVIC :
-
Régression : Xj = p1jt1 + erreur, j = 1,…, p
⇒ p1 = (p11, …, p1p)
-
Régression : xi = tPS1ip1 + erreur
sur les données disponibles; d ’où le calcul de tPS1i
⇒ tPS1(Honda Civic) = -1.84262 est l’estimation de t1i
Prédiction du prix de la HONDA CIVIC
-
On utilise tPS1 à la place de t1
⇒ Prédiction du Prix = 82 644.5 FF
49
Prédiction du Prix de la HONDA CIVIC :
calcul de tPS1 (Honda Civic)
Cylindrée
Puissance
Vitesse
Poids
Longueur
Largeur
xHonda
P1
0.48
0.45
0.37
0.39
0.39
0.36
⎡0.48 ⎤
⎛ ? ⎞
⎟
⎜
⎢0.45 ⎥
−
.
61
⎟
⎜
⎥
⎢
⎜ − .32 ⎟
⎢0.37 ⎥
⎟ ≈ tPS1 ( Honda) × ⎢
=⎜
⎥
⎜ − 1.10 ⎟
⎢0.39 ⎥
⎜ − 1.23 ⎟
⎢0.39 ⎥
⎟
⎜
⎥
⎢
⎜ − .33 ⎟
0
.
36
⎥⎦
⎢⎣
⎠
⎝
tPS1(Honda) = -1.84262
50
Régression PLS1 : Cas UOP Guided Wave
Problème : 226 variables X et 26 observations
Les données :
• Y = indice d’octane
• X1, X2, …, X226 :
valeurs d’absorbance à différentes longueurs d’onde
• Données de calibration :
26 échantillons d’essence (dont 2 avec alcool)
• Données de validation :
13 échantillons d’essence (dont 4 avec alcool)
51
Cas UOP Guided Wave
Visualisation des X
-4.469e-03
0.113
0.231
0.349
0.467
0.585
a
m
H17
H36
p
l
S.016
e
s
1100
X
-
1200
a
V
r
1300
i
a
1400
l
b
e
1500
s
Octane - Matrix Plot, Sam.Set: All Samples, Var.Set: Selected Variables
52
Cas UOP Guided Wave
Visualisation des X : Données de calibration
.7
.6
.5
.4
M52
.3
.2
H59
.1
0.0
-.1
1
25
13
49
37
73
61
97
85
121
109
145
133
169
157
193
181
217
205
Sequence number
Les échantillons M52 et H59 contiennent de l ’alcool
53
Cas UOP Guided Wave
Visualisation des X : Données de validation
.7
.6
.5
.4
.3
.2
.1
0.0
-.1
1
25
13
49
37
73
61
97
85
121
109
145
133
169
157
193
181
217
205
Numéro de la longueur d'onde
Les échantillons avec alcool sont en rouge
54
Régression PLS1 : les résultats
• Données de spectroscopie
Les données sont centrées, mais non réduites
• Validation croisée :
3 composantes PLS
55
UOP Guided Wave : Les composantes PLS
OCTANE.M4 (PLS), Untitled, Work set
Scores: t[1]/t[2]
0.40
H39
H12
H24
H27
H20
H11
H17
H38
H36
H32
L13
M18
M05
M01
L21
M02
L37
L40
L35
L29
L06
L14
L31
L15
t[2]
0.20
0.00
-0.20
H59
M52
-0.40
-0.40
-0.30
-0.20
-0.10
0.00
0.10
0.20
0.30
0.40
0.50
0.60
t[1]
- Indice d ’octane : L = Low, M = Medium, H = High
- Les échantillons M52 et H59 contiennent de l’alcool
56
UOP Guided Wave : les composantes PLS
Scores: t[2]/t[3]
0.100
H32
H36 H38
H17
t[3]
0.050
M52
0.000
H59
L31 L40
L15 L14
L29
L06
L35
M02 M05
M18
M01
H11
H20
H27
H24
L21
L37
-0.050
-0.100
-0.50
-0.40
-0.30
-0.20
-0.10
H12
L13
0.00
0.10
0.20
0.30
H39
0.40
0.50
t[2]
Indice d ’octane : L = Low, M = Medium, H = High
57
Cas UOP Guided Wave : Prévision
Données de calibration
OCTANE, Comp 3(Cum)
H38
H39 H17
H24H20
H27
H36
H12
H11
H32
92
91
H59
Y
90
M05
M18
M52
M02 M01
89
88
87
L15
L35 L37L40
L14
L31
L29
L21
L06
87
L13
88
89
90
91
92
Predicted
RMSEE=0.290788
58
Cas UOP Guided Wave : Prévision
Données de validation
OCTANE.M5 (PLS), Untitled, PS-OCTANE
OCTANE, Comp 3 (Cum)
92
S.022S.026
S.010
S.057
S.058
Observed
91
S.016
S.055
S.056
90
89
S.004
S.025
S.003
S.019
88
87
S.034
87
88
89
90
91
92
Predicted
RMSEP=0.256792
Présence d ’alcool : OUI / NON
59
II.2 La régression PLS2
• Relier un bloc de variables à expliquer Y à un
bloc de variables explicatives X.
• Il peut y avoir beaucoup plus de variables X que
d’observations.
• Il peut y avoir beaucoup plus de variables Y que
d’observations.
60
La régression PLS2 : une idée de l’algorithme
th = Xah et m composantes uh= Ybh bien corrélées
entre elles et explicatives de leur propre groupe.
Etape 2 : Régression de Y sur les composantes th .
Etape 3 : Expression de la régression en fonction de X.
61
Objectif de l’étape 1 de la régression PLS2
Y2
t1
X2
**
*
CPX1
*
*
*
CPY1
* *
**
*
*
*
X1
u1
Y1
u1
* *
*
***
t1
62
La régression PLS2 : une idée de l’étape 1
lorsqu’il n’y a pas de données manquantes
Pour chaque h = 1 à m, on recherche des
composantes th = Xah et uh= Ybh maximisant
le critère
Cov (Xah , Ybh )
sous des contraintes de norme et d’orthogonalité
entre th et les composantes précédentes t1 ,…, th-1.
63
Interprétation du critère de Tucker
De Cov2(Xah , Ybh )
= Cor2(Xah , Ybh )* Var(Xah)*Var(Ybh)
on déduit que la régression PLS réalise un
compromis entre l’analyse canonique
de X et Y, une ACP de X, et une ACP
« oblique » de Y.
64
Variable Importance in the Prediction (VIP)
• Composantes PLS : th = Xh-1bh , avec ||bh|| = 1
• Importance de la variable xj (j=1, p) pour la prédiction
des yk (k=1, q) dans un modèle à m composantes :
VIPmj =
p
m
q
m
q
2
2
[
R
(
y
,
t
)
]
b
∑ ∑ k h hj
2
h =1
R
(
y
;
t
)
∑∑ k h
k =1
h =1 k =1
• Moyenne des carrés des VIP = 1
• Variable importante pour la prévision si VIP > 0.8
65
Régression PLS2
Exemple 1: Dégustation de thé
Les données
Obs Température Sucré
1
1
1
2
1
2
3
1
3
Force
1
2
3
Citron
1
1
2
Sujet 1
4
2
6
…
Sujet 6
5
8
6
#
11
1
2
1
1
1
14
3
3
1
2
12
15
#
18
Température
Sucré
1 = Chaud
1 = Pas de sucre
2 = Tiède
2 = 1 sucre
3 = Glacé
3 = 2 sucres
Force
Citron
1 = Fort
1 = Avec
2 = Moyen 2 = Sans
3 = Faible
66
Cas Dégustation de thé
• Bloc X
Variables indicatrices des modalités
de Température, Sucré, Force et Citron
• Bloc Y
Les classements des sujets
67
Résultats de la régression PLS
•
Validation croisée :
3 composantes : th = Xwh* et uh = Ych
•
Équation de régression de Yk sur t1, …, th :
Yk = c1kt1 + c2kt 2+ c3kt3 + c4kt4 + résidu
•
Les variables X et Y sont représentées à l’aide
des vecteurs wh* et ch.
68
Carte des variables
THE.M1 (PLS), régression PLS, Workset
Loadings: w*c[1]/w*c[2]
Y5
0.6
Y3
CHAUD
0.4
CITRON0
FORT
MOYEN
SUCRE1
Y2
SUCRE2
0.0
Y4
GLACÉ
SUCRE0
-0.2
Y6
-0.4
TIEDE
CITRON1
LEGER
-0.6
-0.6
-0.4
-0.2
0.0
w*c[1]
0.2
0.4
0.6
0.8
w*c[2]
0.2
Y1
69
Cas dégustation de thé
Visualisation de la régression PLS de Y1 sur X
THE régression PLS
M1.Y1 (CoeffCS) [4]
Y5
0.6
Y3
0.4
CHAUD
0.0
w*c[1]
0.2
0.4
0.6
0.8
Règle d’interprétation:
Les projections des variables X sur les variables Y reflètent le signe et
l’ordre de grandeur des coefficients de régression PLS des Y sur X.
Le juge 1 aime son thé chaud et rejette le thé tiède
70
-0.2
CITRON0
-0.4
CITRON1
-0.6
-0.6
LEGER
LEGER
-0.6
-0.4
MOYEN
CITRON1
FORT
TIEDE
SUCRE2
Y6
-0.4
-0.2
SUCRE1
-0.2
SUCRE0
Y4
FROID
SUCRE0
0.0
FROID
SUCRE2
0.0
TIEDE
Y2
SUCRE1
w*c[2]
0.2
0.2
Y1
CHAUD
CITRON0
FORT
MOYEN
CoeffCS5[4]
0.4
Validation du modèle pour le juge 1
0.60
0.20
0.00
-0.20
-0.40
CITRON0
CITRON1
LEGER
MOYEN
FORT
SUCRE2
SUCRE1
SUCRE0
FROID
TIEDE
-0.60
CHAUD
CoeffCS[4](Y1)
0.40
Var ID (Primary)
71
Cas dégustation de thé
Visualisation de la régression PLS de Y5 sur X
THE régression PLS
M1.Y5 (CoeffCS) [4]
Y5
0.6
Y3
CHAUD
-0.4
-0.2
0.0
w*c[1]
0.2
0.4
0.6
0.8
Le juge 5 préfère son thé sans citron, fort;
il est indifférent au thé tiède; il rejette le thé léger, avec
du citron.
72
-0.6
CITRON0
-0.6
-0.4
CITRON1
LEGER
LEGER
CITRON1
MOYEN
TIEDE
FORT
-0.4
-0.2
SUCRE2
Y6
SUCRE1
-0.2
0.0
SUCRE0
Y4
FROID
SUCRE0
SUCRE2
0.0
FROID
Y2
SUCRE1
TIEDE
0.2
0.2
Y1
CHAUD
CITRON0
FORT
MOYEN
CoeffCS9[4]
0.4
w*c[2]
0.4
Validation du modèle pour le juge 5
0.40
0.00
-0.20
CITRON0
CITRON1
LEGER
MOYEN
FORT
SUCRE2
SUCRE1
SUCRE0
FROID
TIEDE
-0.40
CHAUD
CoeffCS[4](Y5)
0.20
Var ID (Primary)
73
Carte des produits dans l’espace des juges
Dégustation de thés
Scores: u[1]/u[2]
2
11
8
2
12
18
1
4
14
10
1
3
]
2[ 0
u
9
6
16
-1
13
17
-2
15
-2
7
5
-1
0
1
2
u[1]
74
Variable Importance in the Projection (VIP)
THE.M1 (PLS), Untitled, Work set
VIP, Comp 4(Cum)
1.60
1.40
1.20
0.80
0.60
0.40
SUCRE1
MOYEN
FROID
FORT
CITRON0
CITRON1
LEGER
SUCRE2
SUCRE0
0.00
CHAUD
0.20
TIEDE
VIP[4]
1.00
75
III. Analyse discriminante PLS
• Bloc Y
La variable qualitative Y est remplacée par
l’ensemble des variables indicatrices de ses
modalités.
• Bloc X
Variables numériques ou indicatrices des
modalités des variables qualitatives.
• Régression PLS de Y sur X
76
Analyse discriminante PLS : exemple
Les données
• 16 biopsies de tumeurs de cerveau humain.
• Chaque tumeur est classée par un médecin anatomopathologiste comme bénigne ou maligne.
• Chaque biopsie est analysée par chromatographie en phase
gazeuse : on obtient un profil métabolique de la biopsie
formé de 156 pics.
• Quelques données manquantes
Article:
Jellum E., Bjørnson I., Nesbakken R., Johanson E., Wold S. Classification of
human cancer cells by means of capillary gas chromatography and pattern
recognition analysis. ( Journal of Chromatography, 1981)
77
Analyse discriminante PLS
Profils métaboliques des biopsies
T2
1200
1400
T3
1200
1000
T6
1000
T7
800
T8
N1
800
600
T9
N4
600
N5
T10
400
400
T11
N13
200
200
N14
0
N15
1
17
9
33
25
49
41
65
57
81
73
97
89
113
105
Sequence number
Tumeurs bénignes
129
121
T16
0
1
145
137
T12
153
17
9
33
25
49
41
65
57
81
73
97
89
113
105
129
121
145
137
153
Sequence number
Tumeurs malignes
78
Analyse en composantes principales des 16 biopsies
Composantes principales 1 et 2
EGI1.M4 (PC), Untitled, Work set
Scores: t[1]/t[2]
10
N15
t[2]
5
N13
T8
T12
T6
T7
N1
T3T11
T16
0
N4
N14
T9
-5
T10 T2
N5
-10
-10
0
10
t[1]
79
Analyse en composantes principales des 16 biopsies
Composantes principales 1 et 3
EGI1.M4 (PC), Untitled, Work set
Scores: t[1]/t[3]
N14
10
N5
5
t[3]
T16
T8 T12
T6
T7
0
T9
N13
N15
N1
T3T11
T10
N4
-5
T2
-10
-10
0
10
t[1]
80
Analyse discriminante PLS
Composantes PLS 1 et 2
EGI1.M5 (PLS), Untitled, Work set
Scores: t[1]/t[2]
N14
10
t[2]
5
T8
N15
0
T12
T16
T7T6
T3
T11
T9
-5
T10
N5
N1
N13
N4
T2
-10
-10
0
10
t[1]
81
IV. Régression logistique PLS
• Bonne solution au problème de la
multicolinéarité.
• Il peut y avoir beaucoup plus de variables que
d’observations.
• Il peut y avoir des données manquantes.
• Présentation de trois algorithmes
82
Qualité des vins de Bordeaux
Variables observées sur 34 années (1924 - 1957)
• TEMPERATURE : Somme des températures
moyennes journalières
• SOLEIL
: Durée d’insolation
• CHALEUR
: Nombre de jours de grande chaleur
• PLUIE
: Hauteur des pluies
• QUALITE DU VIN : Bon, Moyen, Médiocre
83
Régression logistique ordinale
Y = Qualité : Bon (1), Moyen (2), Médiocre (3)
PROB(Y ≤ i) =
αi +β1Température+β2Soleil+β3Chaleur+β4Pluie
e
αi +β1Température+β2Soleil+β3Chaleur+β4Pluie
1+ e
84
Résultats SAS
Score Test for the Proportional Odds Assumption
Chi-Square = 2.9159 with 4 DF (p=0.5720)
Analysis of Maximum Likelihood Estimates
Variable
DF
INTERCP1
INTERCP2
TEMPERA
SOLEIL
CHALEUR
PLUIE
1
1
1
1
1
1
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
-2.6638
2.2941
3.4268
1.7462
-0.8891
-2.3668
0.9266
0.9782
1.8029
1.0760
1.1949
1.1292
8.2641
5.4998
3.6125
2.6335
0.5536
4.3931
0.0040
0.0190
0.0573
0.1046
0.4568
0.0361
85
Qualité de prévision du modèle
QUALITE
PREVISION
OBSERVEE
Effectif ‚
1‚
2‚
3‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚
8 ‚
3 ‚
0 ‚
2 ‚
2 ‚
8 ‚
1 ‚
3 ‚
0 ‚
1 ‚
11 ‚
Total
10
12
12
Total
11
11
12
34
Résultat : 7 années mal classées
86
Commentaires
• Le modèle à pentes égales est acceptable
(p = 0.572).
• La chaleur a une influence positive sur la qualité
du vin de Bordeaux, alors qu’elle apparaît comme
non significative et avec un coefficient négatif
dans le modèle.
• C ’est un problème de multicolinéarité.
• Il y a 7 années mal classées.
87
Algorithme 1 : La régression logistique PLS
Th = Xah explicatives de leur propre groupe
et bien prédictives de y.
Etape 2 : Régression logistique de Y sur les
composantes Th .
Etape 3 : Expression de la régression logistique en
fonction de X.
88
Étape 1
1. Régression logistique de y sur chaque xj :
⇒
les coefficients de régression a1j
2. Normalisation du vecteur a1= (a11,…,a1k)
3. Régression logistique de y sur T1=Xa1
exprimée en fonction des X
4. Calcul du résidu X1 de la régression de X sur T1
89
Étape 2
1. Régression logistique de y sur T1 et chaque
résidu x1j :
⇒ les coefficients de régression b2j
2. Normalisation du vecteur b2= (b21,…,b2k)
3. Calcul de a2 tel que : T2 = X1b2 = Xa2
4. Régression logistique de y sur T1= Xa1 et T2 = Xa2
exprimée en fonction des X
5. Calcul du résidu X2 de la régression de X sur T1 , T2
90
• On procède de la même manière pour les autres étapes.
• On choisit le nombre de composantes par
validation croisée : la composante h est retenue si
2
[ χ Pearson
( validation croisée, étape h )]1 / 2
2
1/ 2
[
χ
(
substituti
on,
étape
h
1
)]
≤ 0.95× Pearson
Soit :
Q2 = 1−
2
χ validation
croisée, étape
2
χ substituti
on, étape
h
≥ 0 .0975
h -1
91
Résultats de l’algorithme
• La température de 1924 est supposée inconnue.
• La régression logistique PLS de Y sur X a conduit
à deux composantes PLS T1 et T2 :
T1 = 0.57×Température + 0.63×Soleil + 0.41×Chaleur
- 0.34×Pluie
T2 = - 0.14×Température + 0.45×Soleil - 0.69×Chaleur
- 0.52×Pluie
92
Régression logistique ordinale sur T1, T2
Résultats SAS
Variable
DF
INTERCP1
INTERCP2
T1
T2
1
1
1
1
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
-2.5490
2.1349
3.0797
1.4148
0.8768
0.8955
0.8350
0.8849
8.4507
5.6837
13.6032
2.5563
0.0036
0.0171
0.0002
0.1099
TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE
QUALITÉ
PRÉDICTION
Effectif ‚
1‚
2‚
3‚
1 ‚
9 ‚
2 ‚
0 ‚
2 ‚
1 ‚
9 ‚
1 ‚
3 ‚
0 ‚
1 ‚
11 ‚
Total
10
12
12
Total
11
11
Résultat :
5 années mal classées
12
34
93
Le modèle
Prob (Y≤ i)
−2.55× Bon + 2.14× Moyen + 3.08×T1 +1.42×T2
e
=
1 + e −2.55×Bon +2.14×Moyen +3.08×T1+1.42×T2
e −2.55×Bon +2.14×Moyen +1.57×Temp.+2.73×Soleil +0.26Chaleur −1.77×Pluie
=
1 + e −2.55×Bon +2.14×Moyen +1.57×Temp.+2.73×Soleil +0.26×Chaleur −1.77×Pluie
94
Algorithme 2
Régression logistique sur composantes PLS
(1)
(2)
Régression PLS des indicatrices de Y
sur les X.
Régression logistique de Y sur les
composantes PLS des X.
95
Régression logistique sur les composantes PLS
Résultats
• La température de 1924 est supposée inconnue.
• La régression PLS des indicatrices de Y sur X
a conduit à une seule composante PLS t1
(résultat de la validation croisée).
• t1 = 0.55×Température + 0.55×Soleil +0.48×Chaleur
– 0.40×Pluie
• Pour l’année 1924 :
t1 = (0.55×Soleil +0.48×Chaleur– 0.40×Pluie)/0.69
96
Utilisation de la régression PLS pour la
prévision de la qualité du vin de Bordeaux
The PLS Procedure
Cross Validation for the Number of
Latent Variables
Test for larger
residuals than
minimum
Number of
Root
Latent
Mean
Prob >
Variables
PRESS
PRESS
ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ
0
1.0313
0
1
0.8304
1.0000
2
0.8313
0.4990
3
0.8375
0.4450
4
0.8472
0.3500
Minimum Root Mean PRESS = 0.830422 for
1 latent variable
Smallest model with p-value > 0.1: 1
latent
TABLE OF QUALITE BY PREV
QUALITE
PREV
Frequency‚
1‚
3‚
ƒƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆƒƒƒƒƒƒƒƒˆ
1 ‚
11 ‚
0 ‚
2 ‚
4 ‚
7 ‚
3 ‚
1 ‚
11 ‚
Total
16
18
Choix d’une composante PLS
Total
11
11
12
34
Résultat :
97
Résultats de la régression logistique
de Y sur la composante PLS t1
Variable
DF
INTERCP1
INTERCP2
t1
1
1
1
Parameter
Estimate
Standard
Error
Wald
Chi-Square
Pr >
Chi-Square
-2.1492
2.2845
2.6592
0.8279
0.8351
0.7028
6.7391
7.4841
14.3182
0.0094
0.0062
0.0002
TABLEAU CROISANT QUALITÉ OBSERVÉE ET PRÉDITE
QUALITÉ
PRÉDICTION
Effectif ‚
1‚
2‚
3‚
1 ‚
9 ‚
2 ‚
0 ‚
2 ‚
2 ‚
8 ‚
1 ‚
3 ‚
0 ‚
1 ‚
11 ‚
Total
11
11
12
Total
11
11
Résultat :
12
34
98
Régression logistique sur composantes PLS
Le modèle
Prob (Y≤ i)
−2.15× Bon + 2.28× Moyen + 2.66×t1
e
=
1 + e −2.15×Bon +2.28×Moyen +2.66×t1
e −2.15×Bon+2.28×Moyen+1.47×Temp.+1.46×Soleil+1.28×Chaleur −1.07×Pluie
=
1 + e −2.15×Bon+2.28×Moyen+1.47×Temp.+1.46×Soleil+1.28×Chaleur −1.07×Pluie
99
Conclusion 1: Régression logistique PLS
vs régression logistique sur composantes PLS
• Les deux algorithmes présentés devraient avoir
des qualités comparables.
• L ’algorithme 2 est beaucoup plus simple :
Deux étapes :
(1) Régression PLS des indicatrices de Y sur X
(2) Régression logistique de Y sur les
composantes PLS
100
Conclusion 2:
Le modèle linéaire généralisé PLS
• Le modèle linéaire généralisé PLS peut être
construit selon les mêmes procédures.
• Approche beaucoup plus simple que la
méthode de Brian Marx : « Iteratively
Reweighted Partial Least Square Estimation
for Generalized Linear Regression »,
Technometrics, 1996.
101
Algorithme 3 (données groupées)
Régression PLS du logit de la variable de
réponse sur les prédicteurs
Exemple : Job satisfaction (Zelterman, 1999)
• 9949 employees in the ‘ craft ’ job within a company
• Response : Satisfied/Dissatisfied
• Factors : Sex, Race (White/Nonwhite),
Age (<35, 35-44, >44)
Region (Northeast, Mid-Atlantic, Southern,
Midwest, Northwest, Southwest, Pacific)
• Explain Job satisfaction with all the main effects and
the interactions.
102
Une approche exploratoire
(1)
Régression PLS de
Y1 = Logit(proportion of satisfied people)
Y2 = Logit(proportion of non satisfied people)
sur les 4 facteurs et toutes les interactions.
(2) Élimination itérative des termes à petits
VIP, en vérifiant l’augmentation du
Q2(cum)
(3) Carte des variables finalement retenues
103
Résultat de la Régression PLS sur les logits
MEN
0.30
YOUNG in NORTHEAST
WOMEN in MIDWEST
0.20
NONWHITE WOMEN
NON SATISFIED
NORTHEAST
0.10
OLD WHITE
w*c[2]
YOUNG in MIDWEST
0.00
YOUNG
WOMEN in NORTHEAST
OLD in MID-ATLANTIC
-0.10
SATISFIED
MID-ATLANTIC
YOUNG WHITE
-0.20
WHITE in MID-ATLANTIC
-0.30
YOUNG WOMEN
SOUTHERN
NONWHITE MEN
WOMEN
-0.40
OLD in SOUTHERN
-0.50
-0.30
-0.20
-0.10
0.00
0.10
0.20
0.30
w*c[1]
Y1 = Logit (Proportion of Satisfied)
Y2 = Logit (Proportion of Non Satisfied)
X = Explanatory variables kept after elimination of small VIP terms
104
Quelques références sur les méthodes PLS
Régression PLS
- L. Eriksson, E. Johansson, N. Kettaneh-Wold & S. Wold : Multi- and
Megavariate Data Analysis using Projection Methods (PCA & PLS),
Umetrics, 1999.
- H. Martens & M. Martens : Multivariate Analysis of Quality, Wiley, 2000
- H. Martens & T. Næs : Multivariate calibration, Wiley, 1989
- SIMCA 12.0 : PLS Software, S. WOLD, UMETRI (Sweden),
distribué par SIGMA PLUS
- M. Tenenhaus : La régression PLS, Editions Technip, 1998
Approche PLS (PLS Path modelling)
-
J.-B. Lohmöller : Latent variable path modeling with partial least
squares, Physica-Verlag, 1989
LVPLS 1.8 : Software for Latent variables path analysis with partial
least-squares estimation, J.-B. Lohmöller, 1989
M. Tenenhaus : L’approche PLS, R.S.A., 47 (2), 5-40, 1999
105

Régression logistique PLS

Transcription

Documents pareils

CONDENSATEURS POLYSTYRÈNE POLYSTYRENE CAPACITORS

ingénierie statistique et financière - Mido - Université Paris

La mzère du timps. Dins lu Coutcouloudjoû n° 35 du mwès d`jwin

Li cwârbau èt li r`naud : rimèteuwe à djoû

VENTE AUX ENCHERES PUBLIQUES

Joué lès Tours

MATLAB pour l`ingénieur

Résultats du Rallye des Grands Vins 2013

lettre alliance_jaune_ bovine 41 sept2014

April 28, 2008 - 5 papers

Chapitre 2