Classification non supervisée distribuée et directionnelle
Transcription
Classification non supervisée distribuée et directionnelle
Stage d’initiation à la recherche Master 2 Classification non supervisée distribuée et directionnelle Contexte de l'étude : A partir d’une collection de bases de données distribuées sur plusieurs sites différents, le problème de la classification collaborative consiste à partitionner chacune de ces bases en considérant les données locales et les classifications obtenues par les autres sites pour améliorer/enrichir la classification locale, sans toutefois avoir recours au partage de données entre les différents centres. Dans le cadre de la classification collaborative et selon la structure des bases de données à explorer, on distingue trois principaux types de collaboration : la collaboration horizontale, verticale et hybride. La collaboration horizontale est la plus difficile, car dans ce cas les groupes des données sont décrits dans différents espaces : chaque base de données est décrite par des attributs différents, mais possède les mêmes individus que les autres bases. Dans ce cas le problème est comment faire collaborer des partitionnements issus d'une collection de classifications à partir de caractéristiques différentes ? Pour ce problème, la validation des résultats de la collaboration devient très difficile, car tous les partitionnements peuvent être 'corrects' mais obtenus avec différentes représentations. La collaboration verticale consiste à faire collaborer des classifications non supervisées issues de différentes bases de données décrites par les mêmes attributs, mais ne possédant pas les mêmes individus. La collaboration hybride est une combinaison des deux approches de collaboration : verticale et horizontale. Par ailleurs, la classification directionnelle est similaire à la classification collaborative, mais dans ce cas le choix des clusters à collaborer et la direction de collaboration devient une contrainte de la fonction de classification. Dans le cadre de ce stage, nous étudierons la collaboration entre plusieurs classifications non supervisées issues chacune d'un algorithme de classification à base de prototypes. Chaque base de données sera classifiée grâce à cette approche, et afin de simplifier le formalisme, les classifications des différentes bases de données auront le même nombre de prototypes. Objectifs : − Étudier l'état de l'art sur les méthodes de classification distribuée ; − Proposer et développer une méthode de classification hybride en se basant sur la collaboration horizontale et verticale ; − Introduire la notion de « direction » dans la classification collaborative ; − Valider la méthode sur différents jeux de données. Bibliographie : − GROZAVU N., BENNANI Y. (2010), «Topological Collaborative Clustering», in LNCS Springer of ICONIP'10 : 17th International Conference on Neural Information Processing, 22nd – 25th November 2010 in Sydney, Australia. − GROZAVU N., BENNANI Y. (2010), «Classification collaborative non supervisée», CAp’10 : Conférence francophone sur l'apprentissage automatique, 17-19 Mai, Clermont-Ferrand, France. − P EDRYCZ W. (2002). Collaborative fuzzy clustering. Pattern Recognition Letters, 23(14), 1675–1686. − P EDRYCZ W. & H IROTA K. (2008). A consensus-driven fuzzy clustering. Pattern Recogn. Lett., 29(9), 1333–1343. − S TREHL A. & G HOSH J. (2002). Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions. Journal on Machine Learning Research (JMLR), 3, 583–617. − KOHONEN T. (2001). Self-organizing Maps. Springer Berlin. Conditions : Compétences souhaitées : · Apprentissage Numérique · Statistique descriptive · Développement en Matlab et/ou C/C++ · Durée du stage : 4 à 6 mois · Lieu du stage : LIPN, UMR 7030, Université Paris 13, Villetaneuse Contact : - Nistor Grozavu (Maître de conférences) : mel : [email protected] web: http://www-lipn.univ-paris13.fr/~grozavu/ - Younès Bennani (Professeur des Universités) : mel : [email protected] web : http://www-lipn.univ-paris13.fr/~bennani/