Méthodes pour l`analyse des données fonctionnelles

Transcription

Méthodes pour l’analyse des
données fonctionnelles
Cristian P REDA
Polytech’ Lille
Université des Sciences et Technologies de Lille, France
Méthodes pour l’analyse des données fonctionnelles – p.1/44
Google :
- chemometrics :
- functional+ data :
- functional + data + chemometrics :
1050000
70900000
17300
Données fonctionnelles
Exemples :
0.8
70
0.4
60
0.0
50
−0.4
40
−0.8
30
−1.2
20
−1.6
10
−2.0
0
0
400
800
1200
1600
2000
2400
2800
3200
3600
0
Indice d’action boursière
10
20
30
40
50
Marche : angle du genou
3.0
2.6
200
2.8
300
X(t)
X(l)
400
3.2
500
3.4
Données spectrométriques
0
100
200
300
400
time
Pétrissage: résistance de la pâte
850
900
950
1000
1050
long. d’onde (l)
Variable fonctionnelle et donnée fonctionnelle
Définition [Ferraty et Vieu (2006)] : Une variable aléatoire est
dite fonctionnelle si ses valeurs sont dans un espace de
dimension infinie. Une observation d’une variable fonctionnelle
est appelée donnée fonctionnelle
X = {Xt : t ∈ T },
Xt : Ω → R
- T ⊆ R : courbe
- T ⊆ R2 : image
“Tableau” des données :
En pratique, une donnée fonctionnelle est observée dans un
nombre fini d’instants :
0 = t0 < t1 < . . . < tk = T :
{(t0 , Xt0 ), (t1 , Xt1 ), . . . , (tk , Xtk )}.
X
0
t1
T
time
Caractère “fonctionnel” de la courbe :
• interpolation : linéaire, spline, ...
500
300
400
X(t)
600
700
• lissage si les données sont observées avec erreurs
0
100
200
300
400
temps
Lissage utilisant une base de fonctions (B-splines cubiques)
100
200
300
300
400
X(t)
500
400
X(t)
500
600
600
700
700
Exemples :
- lissage :
0
100
200
300
400
0
temps
100
200
300
400
temps
- interpolation :
2.0
2.5
3.0
3.5
X(l)
4.0
4.5
5.0
5.5
850
900
950
1000
1050
long. d’onde (l)
Données fonctionnelles qualitatives
Deville (1982)
Xt ∈ {"Single", "Married", "Divorced", "Widowed"}
15
Divorced
11111111111111111111111111
0000000000000000000000
00001111111
0000000
00000000000000000000001111
1111111111111111111111
00001111111
0000000
00000000000000000000001111
1111111111111111111111
00001111111
0000000
00000000000000000000001111
1111111111111111111111
00001111111
0000000
0000000000000000000000
1111111111111111111111
0000
1111
0000000
1111111
Married
Single 1111111111111111111111
Married
0000000000000000000000
00001111111
1111
0000000
00000000000000000000001111
1111111111111111111111
00001111111
0000000
00000000000000000000001111
1111111111111111111111
00001111111
0000000
00000000000000000000001111
1111111111111111111111
00001111111
0000000
00000000000000000000001111
1111111111111111111111
00001111111
0000000
0000000000000000000000351111
1111111111111111111111
0000381111111
000000045
111111111
000000000
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
000000000
111111111
22
time
Evolution de l’état civil des femmes de 15 à 45 ans.
- E = {1, 2, . . . m} = espace d’états,
- (Ω, A, P ), X = {Xt : t ∈ [0, T ]}, Xt : Ω → E (processus
de sauts).
Mèthodes pour les données fonctionnelles
Deville (1974)
Saporta (1981)
Ramsay et Silverman (1997, 2002, 2005)
Ferraty et Vieu (2006)
- Analyses factorielles
- Modèles de régression
- Classification
Exemples :
Données
ACP
Vecteur de dimension finie
Données fonctionnelles
X = (X1 , X2 , . . . Xp )
X = {Xt }t∈[0,T ]
Matrice de cov. V : ∈ Mp×p (R)
Opérateur de cov. C de noyau C(t,s)
f.p. : u = (u1 , . . . , up ) ∈ Rp :
V u = λu
c.p. : ξ = u1 X1 + . . . + up Xp
Régression
linéaire
E(Y |X = (x1 , . . . , xp )) :
P
β0 + pi=1 βi xi
Z
f.p. : u : T → R :
C(t, s)u(s)ds = u(t)
T
R
c.p. : ξ = T u(t)Xt dt
E(Y |X = {x(t), t ∈ T }) :
Z
β0 +
β(t)x(t)dt
T
ACP des données fonctionnelles
{Xt : t ∈ [0, T ]} :
- E(Xt2 ) < ∞,
- L2 -continu,
- ∀ω ∈ Ω : (Xt (ω))t∈[0,T ] ∈ L2 ([0, T ]),
- E(Xt ) = 0, ∀t ∈ [0, T ].
C : L2 ([0, T ]) → L2 ([0, T ]),
C
f 7−→ g, g(t) =
Z
0
T
C(t, s)f (s)ds, ∀t ∈ [0, T ],
C(t, s) = Cov(Xt Xs ), ∀s, t ∈ [0, T ].
C : autoadjoint, positif, compact et de trace finie.
{λ1 ≥ λ2 ≥ . . .}, {fi }i≥1 :
- λi ≥ 0,
-
lim λi = 0,
i→∞
(fi |fj ) = δi,j .
∞
X
i=1
Cfi = λi fi ,
λi < ∞
Z
ξi =
0
T
fi (t)Xt dt ∀i ≥ 1.
{ξi }i≥1 : Var(ξi ) = λi , Cov(ξi , ξj ) = 0, i 6= j.
W : L2 (Ω) → L2 (Ω),
Wz =
Z
T
0
Xt E(Xt z)dt, ∀z ∈ L2 (Ω).
Wξi = λi ξi , ∀i ≥ 1.
Reconstitution des données en ACP ou décomposition de Karhunen-Loève :
Xt =
X
i≥1
fi (t)ξi , ∀t ∈ [0, T ].
Approximation d’ordre K (K ≥ 1) :
(K)
Xt
=
K
X
i=1
fi (t)ξi , ∀t ∈ [0, T ].
Loève (1945) :
X (K) est la meilleure approximation deX en norme L2 .
V(Xt ) =
Z
T
0
E(Xt2 )dt
λi .
i≥1
V
IK =
= T r(C) =
X
(K)
(Xt
)
V(Xt )
K
X
λi
i=1
= X
λi
≤ 1.
i≥1
Exemple :
X = {Xt , t ∈ [0, T ]} : processus à accroissements stationnaires non corrélés (Poisson, le
mouvement brownien)
C(t, s) = c × min(t, s), c > 0.
4cT 2
, k = 1, . . . , ∞.
- λk =
2
2
(2k − 1) π
- fk (t) =
r
2
sin((k − 12 )π Tt )
T
- I1 = 81.1%
- I2 = 90.1%
- I3 = 93.3%
- I4 = 95.0%
Xt ≈ ξ1 f1 (t) = ξ1
r
2
πt
sin(
)
T
2T
Estimation et approximation de l’ACP
- Estimation
Deville ’74, Dauxois et al. ’82
{X1 , X2 , . . . , XN }
N
1 X
Ĉ(t, s) =
Xi (t)Xi (s), ∀(s, t) ∈ [0, T ] × [0, T ],
N i=1
(Ĉf )(t) =
Z
0
-
T
Ĉ(t, s)f (s)ds, ∀f ∈ L2 ([0, T ]).
lim E(kĈ − Ck2 ) = 0,
N →∞
1
lim E(λ̂i − λi )2 = 0 (o(N − 2 )),
N →∞
1
lim E(kfˆi − fi k2 ) = 0 (o(N − 2 )).
N →∞
- Interpolation
{0 = t1 < t2 < . . . < tp = T }, {Xt0 , Xt2 , . . . , Xtp }.
(Deville ’74 et Besse ’79) : ACP {Xt0 , Xt2 , . . . , Xtp } 6≈ ACP (Xt )t∈[0,T ] .
Interpolation linéaire :
IXt =
p
X
i=0
ci φi (t), ∀t ∈ [0, T ],
{φi }i=0,..,p , est une base dans un espace de fonctions et {ci }i=0..p v.a.r. :
IXti = Xti p.s.
ACP (IXt )t∈[0,T ] ≡ l’ACP {Xt0 , Xt1 , . . . , Xtp } avec pour métrique M = ΦΦ′ , où
Φ = A−1 , A = (ai,j )0≤i,j≤p , ai,j = hφi , φj i.
Le choix des fonctions d’interpolation est équivalent à celui d’une métrique.
Deville ’74 : constantes par morceaux,
Pardoux ’82 : splines linéaires,
Aguilera ’93 : B-splines,
Besse ’89 : splines,
- Lissage
{φ1 , . . . , φp } dans L2 ([0, T ]), lin. indep.
Xt ≈
p
X
αi φ(t).
i=1
ACP de X est equivalente à l’ACP de {α1 , . . . , αp } avec la
métrique Φ = {hφi , φj i}.
Implémentation R
Le package fda
Quelques fonctions utiles :
- création d’une base de fonctions :
create.bspline.basis
- création d’un objet “donnée fonctionnelle” : data2fd
- réalisation de l’ACP fonctionnelle : pca.fd
- régression linéaire avec prédicteur fonctionnel sur les
composantes principales : pcr, pls
−0.04
0.02 0.06
fp[, 2]
0.040
0.025
fp[, 1]
0.055
Exemple. Les facteurs principaux : farines de Danone.
0
100
200
300
400
0
100
400
−0.05
0.05 0.10
fp[, 4]
0.00
−0.05
fp[, 3]
300
bonne[, 1]
0.05
bonne[, 1]
200
0
100
200
300
bonne[, 1]
400
0
100
200
300
400
bonne[, 1]
Régression sur données fonctionnelles
Y = f (X) + ε
Y : - scalaire (R)
- vectorielle scalaire (Rp )
- fonctionnelle (L2 ([0, T ]))
- qualitative
Modélisation paramétrique et non-paramétrique.
Le modèle linéaire
f - linéaire : théorm̀e de représentation de Riesz :
f (X) = hX, βiL2 ([0,T ]) =
Moindres carrés :
E(Y Xt ) =
Z
Z
T
Xt β(t)dt,
0
β ∈ L2 ([0, T ]).
T
E(Xt Xs )β(s)ds
0
(W − H)
En général, c’est un problème mal posé car
Théorème (Picard)
X c2
i
< ∞,
β unique ⇐⇒
2
λ
i≥1 i
ci =
Z
0
T
E(Xt Y )fi (t)dt, {λi }i≥1 , {fi }i≥1 (ACP)
X ci
fi (t), t ∈ [0, T ].
β(t) =
λ
i
i≥1
Exemple : Le processus X est un processus de Poisson sur [0,T] et Y = XT +h , h > 0.
Alors,
X 2
X c2
i
= ∞,
=
2
λ
T
i≥1
i≥1 i
Ŷ = XT et β est la distribution de Dirac en T, δT .
Régularisation des moindres carrés
- réduction de la dimmension :X ≈ XS , S = {φ1 , . . . , φp }
Régression sur les composantes principales (PCR) :
S = {f1 , . . . , fp } - facteurs principaux de l’ACP de X
(Deville (1978), Aguilera (1998), Cardot et al. (1999))
- pénalisation des moindres carrés :
n
1X
(Yi − hXi , βi)2 + λkβ (m) k2
β̂ = arg min
β∈S n i=1
(Ramsay et Silverman (1997), Cardot et al. (2003))
- les moindres carrés partiels (PLS).
β̂P LS
n
1X
1
= arg
min
(Yi − hXi , βi)2 × hXi , βi2
n i=1
n
| {z }
β ∈ L2 ([0, T ])
|
{z
}
kβk = 1
L’approche PLS pour données fonctionnelles
X = {Xt }t∈[0,T ], Y = (Y1 , . . . , Yp ), p ≥ 1.
{ti }i≥1 – variables aléatoires non-corrélées dans L2 (X)
Théorème [Critère de Tucker]
max
w, c
Cov 2
Z
0
T
Xt w(t)dt,
p
X
i=1
ci Yi
!
w ∈ L2 ([0, T ]), kwk = 1
c ∈ Rp , kck = 1
est réalisé pour w et c, les vecteurs propres associés à la plus grande valeur propre des
opérateurs UX , respectivement UY , où UX = CXY ◦ CY X et UY = CY X ◦ CXY .
Les composantes PLS
Soit w1 ∈ L2 ([0, T ]) : UX w1 = λmax w1 ,
t1 =
Z
T
Xt w1 (t)dt
0
Proposition.
WX WY t1 = λmax t1
Itération PLS :
Let X0,t = Xt , ∀t ∈ [0, T ] and Y0,i = Yi , ∀i = 1, ..., p.
(h)
X WY
Au pas h, h ≥ 1 :
Wh−1
h−1 th = λmax th ,
Régression linéaire simple sur th :
Xh,t = Xh−1,t − ph (t)th ,
Yh,i = Yh−1,i − ch,i th ,
{th }h≥1 - variables aléatoires
{ph }h≥1 - fonctions de L2 ([0, T ])
{ch }h≥1 - vecteurs de Rp .
t ∈ [0, T ],
i = 1, ..., p.
Théorème [Décomposition PLS] Pour tout h ≥ 1 :
a) {ti }1≤i≤h – système orthogonal dans L2 (X),
Z T
b) Y = c1 t1 + c2 t2 + . . . ch th +Yh =
Xt βP LS(h) (t)dt + Yh ,
|
{z
}
0
ŶP LS(h)
c) Xt = p1 (t)t1 + p2 (t)t2 + . . . + ph (t)th + Xh,t ,
d) E(Yh,j ti ) = 0, ∀i = 1, ..., h, ∀j = 1, ..., p,
e) E(Xh,t ti ) = 0, ∀t ∈ [0, T ], ∀i = 1, ..., h.
Théorème [Convergence]
lim E kŶP LS(h) − Ŷk2 = 0.
h→∞
Théorème [PLS vs PCR] L’ajustement à l’aide des premières h composantes PLS est
meilleur que celui avec les premières h composantes principales,
R2 (Y, ŶP CR(h) ) ≤ R2 (Y, ŶP LS(h) ).
Remarque :
- analogie avec l’analyse canonique
- prise en compte des relations existant entre les variables
{Yi }i=1,...,p .
- réponse fonctionnelle :Y = {Yt }t∈[0,T ′ ] .
- choix de h en pratique : validation croisée.
PLS et l’analyse discriminante linéaire fonctionnelle
X = {Xt }t∈[0,T ] , Xt : Ω → R,
Y : Ω → {1, . . . , K}, K ≥ 1,
- P(Y = i) 6= 0, ∀i ∈ {1, . . . , K}
Problème :
Déterminer des scores discriminantes linéaires,
Z T
Φ(X) =
Xt β(t)dt,
β ∈ L2 [0, T ],
0
tels que
V(E(Φ(X)|Y ))
max
β∈L2 [0,T ]
V(Φ(X))
(James et Hastie (2001), Ratcliffe et al. (2002), Ferraty et Vieu (2003), Biau et al. (2005))
Réponse binaire : un problème mal posé
Y ∈ {0, 1} :

 p = P(Y = 0), p = 1 − p = P(Y = 1),
0
1
0
 µ0 (t) = E(Xt |Y = 0), µ1 (t) = E(Xt |Y = 1), t ∈ [0, 1].
Soient
- C : l’opérateur de covariance de X
- B : l’opérateur de covariance interclasses définit par
Z T
B
f 7−→ g, g(t) =
B(t, s)f (s)ds,
0
où B(t, s) = p0 p1 (µ0 (t) − µ1 (t))(µ0 (s) − µ1 (s)) = φ ⊗ φ,
√
avec φ = p0 p1 (µ0 − µ1 ).
Alors,
La fonction discriminante, β, vérifie :
Bβ = λCβ,
Recoder Y par :

 0
 1
avec hβ, CβiL2 [0,T ] = 1.
q
−
p1
,
p0
q
p0
p1
Alors, β est solution de l’équation Wiener-Hopf
Z T
E(Y Xt ) =
E(Xt Xs )β(s)ds (W-H)
0
En pratique
q
q
Y ∈ {0, 1} |{z}
=⇒ Y ∈ { pp10 , − pp01 }.
recodage
Régression PLS de Y sur X = {Xt }t∈[0,T ] :
- fonction discriminante : βP LS(h) .
RT
- score discriminant : Φ(X) = 0Xt βP LS(q) (t)dt.
Prédiction :
si Φ(X) ≤ 0 alors Y = 1 sinon Y = 0.
Réponse multiple : K > 2
Y ∈ {1, . . . , K}.
Soit Y = {Y1 , . . . , YK−1 } le vecteur aléatoire dont les
composantes sont les variables indicatrices des modalités
{1, . . . K − 1}.
Méthodologie basée sur l’analogie entre l’analyse canonique et
analyse discriminante :
- régression PLS de Y sur X = {Xt }t∈[0,T ] :
- déterminer les composantes PLS {t1 , . . . , th },
- réaliser l’analyse lináire discriminante classique de Y sur les
composantes PLS.
Modélisation non-paramétrique
Y = f (X) + ε.
Pn
i=1 Yi K(d(x, Xi )/h)
,
fˆ(x) = P
n
K(d(x,
X
)/h)
i
i=1
(Ferraty et al. (2006) ! Convergence :φx (h) = P(d(x, X) < h).
Estimation non-paramétrique de la fonction de répartition conditionnelle et du mode conditionnel.
Précision des viteses de convergences.
f : minimiser le risque empirique :
n
1X
C(Xi , Yi , f (Xi ))
Remp [f ] =
n i=1
Fonction de perte :
C(x, y, f (x)) =
8
2
>
>
< (y − f (x))
>
>
:
max{0, |f (x) − y| − ε}
−yf (x) + log(1 + ef (x) )
- quadratique
- ε - insensible
- logistique (Y ∈ {0, 1})
Risque régularisé
n
1X
C(xi , yi , f (xi )) + λΩ[f ],
Rreg [f ] =
n i=1
où λ > 0 est un paramètre de régularisation et Ω[f ] un terme de stabilisation.
(F, k · k),
n
1X
Rreg [f ] =
C(xi , yi , f (xi )) + λkf k2F .
n i=1
| {z }
pénalité
Im(X) ∈ H (H = L2 ([0, T ]))
F = HK :
K : H × H → R, symétrique et définie positive : HK =
8
d , d∈N
>
hx,
yi
>
H
>
>
<
(c + hx, yiH )d , d ∈ N, c > 0
K(x, y) =
>
kx − yk2H
>
>
>
: − 2σ 2
, σ > 0,
e
(
n
X
i=1
)
ai K(ti , ·), ti∈H, ai∈R, n≥1
polynomial
polynomial non-homogène
gaussien
Régression dans RKHS
Théorème [Représentation] Soit {(xi , yi )}ni=1 , xi ∈ H, yi ∈ R,
n > 0, n ∈ N, λ > 0 et C : H × R × R −→ R une fonction de
perte convexe. Alors, la solution du problème : trouver fˆ ∈ HK
qui minimise
n
1X C xi , yi , fˆ(xi ) + λkfˆk2HK
n i=1
existe, est unique et admet la représentation
fˆ(x) =
n
X
i=1
αi K(x, xi ), ∀x ∈ H,
où αi ∈ R, i = 1, . . . , n.
Exemple.
C (x, y, f (x)) = (y − f (x))2 ,
{(xi , yi )}ni=1 ,
(λnI + [K])α = y,
où α = (α1 , . . . , αn )′ , y = (y1 , . . . , yn )′ , [K] ∈ Mn (R),
[K]i,j = K(xi , xj ), 1 ≤ i, j ≤ n.
Perte logistique, ε - insensitive : méthode du gradient.
Consistance dans RKHS
Théorème [Consistance] Soit C la fonction de perte quadratique ou
logistique et supposons qu’il existe MY > 0 tel que |Y | ≤ MY p.s.
p
Supposons aussi qu’il existe κ tel que ∀x ∈ H, K(x, x) ≤ κ.
Alors, pour la fonction de perte quadratique on a


2
nε


n
n
P Remp [fˆ ] − R[fˆ ] > β + ε ≤ 2 exp − 2  ,
2 nβ + MY √κλ
où β =
8κ2 MY2 1 +
√1
λ
2
,
nλ
et pour la perte logistique,
2
2
2
κ
2nε λ
n
n ˆ
ˆ
≤ 2 exp −
.
P Remp [f ] − R[f ] > ε +
4
nλ
9κ
On a aussi :
Corollaire. Avec les conditions du théorème de représentation
on a :
P
Remp [f opt ] − Remp [fˆn ] −→ 0,
P
n
opt
ˆ
R[f ] − R[f ] −→ 0.
Applications. Données fonctionnelles.
Parkinsoniens et l’angle de flexion du genou. Courbes de marche.
80
70
60
60
50
50
40
40
30
30
20
20
10
10
0
0
0
0
10
20
30
40
10
20
30
40
50
50
Sujets sains – (jeune–rouge, âgé–bleu)
Sujets parkinsoniens.
Question : Pour les sujets sains, l’âge a-t-il un effet sur la marche ?
Courbes moyennes :
70
60
50
40
30
20
10
0
10
20
30
40
50
Méthodes
pour l’analyse des données fonctionnelles – p.38/44
30 sujets jeunes
30 sujets âgés.
Echantillon apprentissage : 40. Echantillon test : 20. Nombre échantillons : 100
Modèle
Aire ROC
PLS_FLDA
PCR_FLog(4))
Gaussien (1)
IP(1,2)
IP(1,3)
λ = 0.12
λ = 0.18
λ = 0.22
0.780
0.790
0.760
0.780
Moyenne de l’aire de la surface sous la courbe ROC.
0.750
Taux moyen de mal classés pour le meilleur modèle ≈ 30%
Les farines de Danone
X = {Xt }t∈[0,480] : résistence de la pâte durant 480s de pétrissage
700
Good
650
Bad
600
Adjustable
Dough resistance
550
500
450
400
350
300
250
200
150
100
0
40
80
120
160
200
240
280
320
360
400
440
480
Time (s)
115 farines ;
Qualité des biscuits : 50 (bonne), 40 (mauvaise), 25 (ajustable)
Good
750
700
Bad
650
Adjustable
Dough resistance
600
550
500
450
400
350
300
250
200
150
100
0
40
80
120
160
200
240
280
320
360
400
440
480
Time (s)
Lissage avec des fonction B-splines cubique avec 16 noeuds
Résultats :
Y ∈ {bonne, mauvaise}
100 échantillons ; (apprentissage : 60 ; test : 30)
Modèle
PLS_FLDA
K-NN(13)
PC_FLDA
Gaussien(6)
LDA
Taux de mal classés
0.112
0.103
0.142
0.108
0.154
Moyenne du taux des mal classés sur un ensemble de 100 échantillons test.
La fonction discriminante Φ(X) = −1.46 +
Beta
PLS
R 480
0
Xt β̂P LS (t)dt.
discriminant coefficient function
1e−004
0e+000
−1e−004
−2e−004
−3e−004
time
−4e−004
0
100
200
300
400
500
Y ∈ {bonne, ajustable, mauvaise}
100 échantillons ; (apprentissage : 70 ; test : 35)
Modèle
PLS_FLDA
K-NN(13)
PC_FLDA
Gaussien(6)
LDA
Taux de mal classés
0.258
0.245
0.262
0.247
0.282
Moyenne du taux des mal classés sur un ensemble de 100 échantillons test.
Bibliographie

Méthodes pour l`analyse des données fonctionnelles

Transcription

Documents pareils

Design Pattern : décorateur - fil

POSTE Secrétaire - Music Action Prod

programme - Département de mathématiques de Nancy

CV TICHIT Marion - MASTER 2 professionnel TIDE

Méthodes locales pour la réparation en ordonnancement de

Construire l`offre autour du produit

Said Bourazza

FICHE DE POSTE CADRE DE SANTE EN UROLOGIE

2007_02 - BABOT E. SAN SEBASTIAN P. - le concept

Fiche de poste psycho ergonome