A survey of kernel and spectral methods for clustering
Transcription
A survey of kernel and spectral methods for clustering
Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches A survey of kernel and spectral methods for clustering Maurizio Filipponea, Francesco Camastra, Francesco Masulli, Stefano Rovetta Pattern Recognition, 2008, pp. 176-190 ClasSpec, jeudi 10 janvier 2008 Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches Objectifs du papier Survey des méthodes de clustering Méthodes de partitionnement en général : partition de Voronoi, K-means, SOM, gaz neuronal, méthodes floues, méthodes possibilistes. Méthodes à noyau : kernel K-means, kernel SOM, SVM à une classe, methodes floues à noyau, méthodes possibilistes à noyau. Méthodes spectrales : principe, méthode de Shi et Malik, méthode de Ng et al., autres façon d’aborder le problème. Poser les bases d’une preuve d’équivalence Les méthodes à noyau et les méthodes spectrales reposent sur la même idée : elles peuvent construire une relation d’adjacence entre les données sans nécessiter d’a priori sur la forme des clusters. Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches Notations Données et classes les patterns x et les centroïdes v sont des éléments de Rd n patterns X = {x1 , . . . , xn } c centroïdes V = {v1 , . . . , vc } des clusters Π = {π1 , . . . , πc } Méthodes à noyau φ(x) est la caractéristique associée au pattern x noyau de Mercer : K (xi , xj ) = φ(xi ) · φ(xj ) centroïdes dans l’espace transformé V φ = {vφ1 , . . . , vφc } Méthodes spectrales matrice d’affinité A = [aij = h(xi , xj )] matrice (diagonale) des degrés D = [dii = Pn j=1 aij ] Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches Théorie unificatrice ? Travaux déjà publiés Bengio et al. : fortes liaisons entre kernel PCA et les méthodes spectrales. Dhillon et al. : démonstration de l’équivalence exacte entre le kernel K-means et le clustering spectral basé sur la fonction objectif ratio association. Preuve d’équivalence Les deux approches exploitent les mêmes informations de base, à savoir uniquement les relations de similarité ou de dissimilarité entre deux données. Dans les deux cas, la solution peut être obtenue par maximisation de la trace d’une matrice. Démonstration : définition d’une expression très générale de la fonction objectif dans les deux cas. Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches Fonction objectif du kernel K-means (1/2) kernel K-means pondérés matrice W des poids wk associés aux données xk P sommes si des poids dans chaque cluster si = k/xk ∈πi wk P centroïdes vφi = k/xk ∈πi wk φ(xk )/si P P minimisation de J φ (W , V φ ) = ci=1 k/xk ∈πi wk ||φ(xk ) − vφi ||2 Expression matricielle de la fonction objectif matrice Z = [zki ] avec zki = √1 si si xk ∈ πi (0 sinon) les colonnes de Z sont des vect. orthogonaux, donc si−1 = (Z T Z )ii matrice F dont les colonnes sont les φ(xk ) FW a comme colonnes les wk φ(xk ) et la k ème colonne de FWZZ T définit le centroïde correspondant à xk Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches Fonction objectif du kernel K-means (2/2) Expression matricielle de la fonction objectif avec ces matrices la fonction objectif devient : P J φ (W , V φ ) = nk=1 wk ||F.k − (FWZZ T ).k ||2 , la notation M.k désignant la k ème colonne d’une matrice M. en notant Y = W 1/2 Z , on obtient : P J φ (W , V φ ) = nk=1 wk ||F.k − (FW 1/2 YY T W −1/2 ).k ||2 || ||F désignant la norme de Frobenius, on a : J φ (W , V φ ) = ||FW 1/2 − FW 1/2 YY T ||2F comme ||M||2F = tr(MM T ), la minimisation de cette équation revient à maximiser Expression finale (à maximiser) J φ (W , V φ ) = tr(Y T W 1/2 F T FW 1/2 Y ) Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches Fonction objectif pour le spectral clustering Fonction objectif dans le cas du ratio association association de deux ensembles de noeuds d’un graphe : P assoc(S, T ) = i∈S,j∈T aij dans le cas du ratio association il faut maximiser : P i ,Si ) J(S1 , . . . , Sc ) = ci=1 assoc(S |S | i Expression matricielle de la fonction objectif vecteur indicateur zi dont la k ème composante vaut 1 si xk ∈ πi P zT Az la fonction devient : J(S1 , . . . , Sc ) = i=1 zi T z i i en normalisant zi par yi = z q i zTi zi i on obtient Expression finale (à maximiser) J(S1 , . . . , Sc ) = Pc i=1 yTi Ayi = tr(Y T AY ) Objectifs du papier Partitionnement Méthodes à noyau Méthodes spectrales Vue unifiée des deux approches Equivalence des deux expressions Fonctions objectif kernel : J φ (W , V φ ) = tr(Y T W 1/2 F T FW 1/2 Y ) spectral : J(S1 , . . . , Sc ) = tr(Y T AY ) Cas particuliers d’équivalences spectral clustering basé sur le ratio association : W = I, donc équivalence directe avec le kernel K-means (Dhillon) spectral clustering basé sur le normalized cut : avec W = D, on a bien Y = D1/2 Z , et avec K = D−1 AD−1 comme noyau on retrouve : J(S1 , . . . , Sc ) = tr(Y T D−1/2 AD−1/2 Y )