Classification non supervisée distribuée et directionnelle

Transcription

Classification non supervisée distribuée et directionnelle
Stage d’initiation à la recherche Master 2
Classification non supervisée distribuée et directionnelle
Contexte de l'étude :
A partir d’une collection de bases de données distribuées sur plusieurs sites différents, le problème de la classification
collaborative consiste à partitionner chacune de ces bases en considérant les données locales et les classifications
obtenues par les autres sites pour améliorer/enrichir la classification locale, sans toutefois avoir recours au partage de
données entre les différents centres.
Dans le cadre de la classification collaborative et selon la structure des bases de données à explorer, on distingue trois
principaux types de collaboration : la collaboration horizontale, verticale et hybride. La collaboration horizontale est
la plus difficile, car dans ce cas les groupes des données sont décrits dans différents espaces : chaque base de données
est décrite par des attributs différents, mais possède les mêmes individus que les autres bases. Dans ce cas le problème
est comment faire collaborer des partitionnements issus d'une collection de classifications à partir de caractéristiques
différentes ? Pour ce problème, la validation des résultats de la collaboration devient très difficile, car tous les
partitionnements peuvent être 'corrects' mais obtenus avec différentes représentations. La collaboration verticale
consiste à faire collaborer des classifications non supervisées issues de différentes bases de données décrites par les
mêmes attributs, mais ne possédant pas les mêmes individus. La collaboration hybride est une combinaison des deux
approches de collaboration : verticale et horizontale. Par ailleurs, la classification directionnelle est similaire à la
classification collaborative, mais dans ce cas le choix des clusters à collaborer et la direction de collaboration devient
une contrainte de la fonction de classification.
Dans le cadre de ce stage, nous étudierons la collaboration entre plusieurs classifications non supervisées issues chacune
d'un algorithme de classification à base de prototypes. Chaque base de données sera classifiée grâce à cette approche,
et afin de simplifier le formalisme, les classifications des différentes bases de données auront le même nombre de
prototypes.
Objectifs :
− Étudier l'état de l'art sur les méthodes de classification distribuée ;
− Proposer et développer une méthode de classification hybride en se basant sur la collaboration horizontale
et verticale ;
− Introduire la notion de « direction » dans la classification collaborative ;
− Valider la méthode sur différents jeux de données.
Bibliographie :
− GROZAVU N., BENNANI Y. (2010), «Topological Collaborative Clustering», in LNCS Springer of
ICONIP'10 : 17th International Conference on Neural Information Processing, 22nd – 25th November
2010 in Sydney, Australia.
− GROZAVU N., BENNANI Y. (2010), «Classification collaborative non supervisée», CAp’10 :
Conférence francophone sur l'apprentissage automatique, 17-19 Mai, Clermont-Ferrand, France.
− P EDRYCZ W. (2002). Collaborative fuzzy clustering. Pattern Recognition Letters, 23(14), 1675–1686.
− P EDRYCZ W. & H IROTA K. (2008). A consensus-driven fuzzy clustering. Pattern Recogn. Lett., 29(9),
1333–1343.
− S TREHL A. & G HOSH J. (2002). Cluster Ensembles – A Knowledge Reuse Framework for Combining
Multiple Partitions. Journal on Machine Learning Research (JMLR), 3, 583–617.
− KOHONEN T. (2001). Self-organizing Maps. Springer Berlin.
Conditions :
Compétences souhaitées :
· Apprentissage Numérique
· Statistique descriptive
· Développement en Matlab et/ou C/C++
· Durée du stage : 4 à 6 mois
· Lieu du stage : LIPN, UMR 7030, Université Paris 13, Villetaneuse
Contact :
- Nistor Grozavu (Maître de conférences) :
mel : [email protected]
web: http://www-lipn.univ-paris13.fr/~grozavu/
- Younès Bennani (Professeur des Universités) :
mel : [email protected]
web : http://www-lipn.univ-paris13.fr/~bennani/