A survey of kernel and spectral methods for clustering

Transcription

A survey of kernel and spectral methods for clustering
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
A survey of kernel and spectral methods for clustering
Maurizio Filipponea, Francesco Camastra, Francesco Masulli,
Stefano Rovetta
Pattern Recognition, 2008, pp. 176-190
ClasSpec, jeudi 10 janvier 2008
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
Objectifs du papier
Survey des méthodes de clustering
Méthodes de partitionnement en général : partition de Voronoi,
K-means, SOM, gaz neuronal, méthodes floues, méthodes
possibilistes.
Méthodes à noyau : kernel K-means, kernel SOM, SVM à une
classe, methodes floues à noyau, méthodes possibilistes à noyau.
Méthodes spectrales : principe, méthode de Shi et Malik,
méthode de Ng et al., autres façon d’aborder le problème.
Poser les bases d’une preuve d’équivalence
Les méthodes à noyau et les méthodes spectrales reposent sur la
même idée : elles peuvent construire une relation d’adjacence entre
les données sans nécessiter d’a priori sur la forme des clusters.
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
Notations
Données et classes
les patterns x et les centroïdes v sont des éléments de Rd
n patterns X = {x1 , . . . , xn }
c centroïdes V = {v1 , . . . , vc } des clusters Π = {π1 , . . . , πc }
Méthodes à noyau
φ(x) est la caractéristique associée au pattern x
noyau de Mercer : K (xi , xj ) = φ(xi ) · φ(xj )
centroïdes dans l’espace transformé V φ = {vφ1 , . . . , vφc }
Méthodes spectrales
matrice d’affinité A = [aij = h(xi , xj )]
matrice (diagonale) des degrés D = [dii =
Pn
j=1
aij ]
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
Théorie unificatrice ?
Travaux déjà publiés
Bengio et al. : fortes liaisons entre kernel PCA et les méthodes
spectrales.
Dhillon et al. : démonstration de l’équivalence exacte entre le
kernel K-means et le clustering spectral basé sur la fonction
objectif ratio association.
Preuve d’équivalence
Les deux approches exploitent les mêmes informations de base, à
savoir uniquement les relations de similarité ou de dissimilarité
entre deux données.
Dans les deux cas, la solution peut être obtenue par maximisation
de la trace d’une matrice.
Démonstration : définition d’une expression très générale de la
fonction objectif dans les deux cas.
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
Fonction objectif du kernel K-means (1/2)
kernel K-means pondérés
matrice W des poids wk associés aux données xk
P
sommes si des poids dans chaque cluster si = k/xk ∈πi wk
P
centroïdes vφi = k/xk ∈πi wk φ(xk )/si
P P
minimisation de J φ (W , V φ ) = ci=1 k/xk ∈πi wk ||φ(xk ) − vφi ||2
Expression matricielle de la fonction objectif
matrice Z = [zki ] avec zki =
√1
si
si xk ∈ πi (0 sinon)
les colonnes de Z sont des vect. orthogonaux, donc si−1 = (Z T Z )ii
matrice F dont les colonnes sont les φ(xk )
FW a comme colonnes les wk φ(xk ) et
la k ème colonne de FWZZ T définit le centroïde correspondant à xk
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
Fonction objectif du kernel K-means (2/2)
Expression matricielle de la fonction objectif
avec ces matrices la fonction objectif devient :
P
J φ (W , V φ ) = nk=1 wk ||F.k − (FWZZ T ).k ||2 ,
la notation M.k désignant la k ème colonne d’une matrice M.
en notant Y = W 1/2 Z , on obtient :
P
J φ (W , V φ ) = nk=1 wk ||F.k − (FW 1/2 YY T W −1/2 ).k ||2
|| ||F désignant la norme de Frobenius, on a :
J φ (W , V φ ) = ||FW 1/2 − FW 1/2 YY T ||2F
comme ||M||2F = tr(MM T ), la minimisation de cette équation
revient à maximiser
Expression finale (à maximiser)
J φ (W , V φ ) = tr(Y T W 1/2 F T FW 1/2 Y )
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
Fonction objectif pour le spectral clustering
Fonction objectif dans le cas du ratio association
association de deux ensembles de noeuds d’un graphe :
P
assoc(S, T ) = i∈S,j∈T aij
dans le cas du ratio association il faut maximiser :
P
i ,Si )
J(S1 , . . . , Sc ) = ci=1 assoc(S
|S |
i
Expression matricielle de la fonction objectif
vecteur indicateur zi dont la k ème composante vaut 1 si xk ∈ πi
P zT Az
la fonction devient : J(S1 , . . . , Sc ) = i=1 zi T z i
i
en normalisant zi par yi =
z
q i
zTi zi
i
on obtient
Expression finale (à maximiser)
J(S1 , . . . , Sc ) =
Pc
i=1
yTi Ayi = tr(Y T AY )
Objectifs du papier
Partitionnement
Méthodes à noyau
Méthodes spectrales
Vue unifiée des deux approches
Equivalence des deux expressions
Fonctions objectif
kernel : J φ (W , V φ ) = tr(Y T W 1/2 F T FW 1/2 Y )
spectral : J(S1 , . . . , Sc ) = tr(Y T AY )
Cas particuliers d’équivalences
spectral clustering basé sur le ratio association :
W = I, donc équivalence directe avec le kernel K-means (Dhillon)
spectral clustering basé sur le normalized cut :
avec W = D, on a bien Y = D1/2 Z , et avec K = D−1 AD−1 comme
noyau on retrouve :
J(S1 , . . . , Sc ) = tr(Y T D−1/2 AD−1/2 Y )