Sujet de stage Master 2 Recherche, ou école d`Ingénieur 2A-3A

Transcription

Sujet de stage Master 2 Recherche, ou école d`Ingénieur 2A-3A
Sujet de stage Master 2 Recherche, ou école
d’Ingénieur 2A-3A :
Etude de différentes méthodes de combinaison
d’ensembles en clustering collaboratif
Jérémie Sublime et Basarab Matei
[email protected]
Université Paris 13, Sorbonne Paris Cité
LIPN – CNRS UMR 7030
23 février 2016
1
Sujet
Depuis quelques années, le clustering collaboratif est un domaine émergeant
du machine learning qui permet de faire travailler ensemble plusieurs algorithmes afin de combiner leurs points forts pour traiter des jeux de données
complexes. L’intérêt du clustering collaboratif vient de la très grande diversité
des applications potentielles qui en découlent : clustering multi-vue, clustering
de données réparties, clustering multi-expert, transfert de connaissances, clustering de données en grande dimension, clustering de grands jeux de données, etc.
Il existe aujourd’hui de nombreuses méthodes disponibles dans la littérature :
(Pedrycz and Hirota 2008; Ghassany, Grozavu, and Bennani 2012; Sublime et al.
2015; Forestier, Gancarski, and Wemmert 2010).
Il en ressort que la seule façon de faire travailler ensemble des algorithmes
potentiellement très différents est d’utiliser les partitions issues des clusterings
comme langage commun d’échange. Dans ce contexte, le stage que nous proposons consiste à proposer, à comparer, et à tester plusieurs possibles méthodes
de combinaison de partitions de clustering dans le cadre de la collaboration
entre plusieurs algorithmes. En particulier, il faudra s’intéresser à la complexité
calculatoire des méthodes proposées, à leurs avantages et inconvénients, aux
possibilités d’optimiser leurs paramètres, ainsi qu’aux cas d’utilisation potentiels de chacune de ces méthodes. Un autre point important sera de réfléchir à
un critère d’arrêt cohérent permettant de tenir compte de plusieurs algorithmes
tournant en parallèle avec des fonctions objectif différentes.
1
2
Déroulement du stage
— Etat de l’art sur le clustering collaboratif et familiarisation avec les travaux actuels de notre équipe.
— Création d’un package R ou d’un programme en Matlab ou en Python
permettant de tester et comparer plusieurs possibles méthodes de combinaison de partitions.
— Tests sur plusieurs jeux de données
— Proposition d’un article scientifique dans une conférence internationnale
si les résultats sont satisfaisants.
3
Prérequis
— Le stagiaire doit avoir suivi des cours avancé d’apprentissage artificiel, et
en particulier sur l’apprentissage non-supervisé.
— De bonnes bases en R, Matlab ou Python. Des connaissances en C/C++
sont un plus, le code actuel étant en C++.
— Des bases en optimisation sous contraintes sont recommandées.
Références
Forestier, Germain, Pierre Gancarski, and Cédric Wemmert. 2010. “Collaborative clustering with background knowledge.” Data & Knowledge Engineering 69 (2) : 211–228.
Ghassany, Mohamad, Nistor Grozavu, and Younès Bennani. 2012. “Collaborative Clustering using Prototype-Based Techniques.” International Journal
of Computational Intelligence and Applications 11, no. 3.
Pedrycz, Witold, and Kaoru Hirota. 2008. “A consensus-driven fuzzy clustering.” Pattern Recognition Letters 29 (9) : 1333–1343.
Sublime, Jérémie, Nistor Grozavu, Younès Bennani, and Antoine Cornuéjols.
2015. “Collaborative Clustering with Heterogeneous Algorithms.” 2015 International Joint Conference on Neural Networks, IJCNN 2015, Killarney,
Ireland, July 12-18, 2015.
2