Fouille interactive instantanée de motifs évolutifs pour l
Transcription
Fouille interactive instantanée de motifs évolutifs pour l
L ABORATOIRE D ’I NFORMATIQUE DE N ANTES -ATLANTIQUE UMR 6241 É COLE DOCTORALE STIM, N . 503 « Sciences et technologies de l’information et des mathématiques » Sujet de thèse pour 2015 Fouille interactive instantanée de motifs évolutifs pour l’exploration de données d’activité Directeur de thèse N OM, Prénom : P RIÉ, Yannick Équipe d’accueil : DUKe Unité de recherche : LINA (UMR 6241) Unité de rattachement : Université de Nantes Courriel : yannick.prie (at) univ-nantes.fr Taux d’encadrement : 40 % Nombre de thèses en cours : 1 Co-encadrant N OM, Prénom : B LANCHARD, Julien Unité de recherche : Université de Nantes Unité de rattachement : DUKe Taux d’encadrement : 60 % Nombre de thèses en cours : 1 Financement prévu : MESR Sujet de thèse pour 2015 Fouille interactive instantanée de motifs évolutifs pour l’exploration de données d’activité Résumé. Ce sujet s’inscrit dans le contexte des traces d’activité laissées par les utilisateurs de systèmes informatiques. On s’intéresse plus particulièrement aux traces d’interaction et à leur étude par des analystes afin d’y détecter des motifs d’activité récurrents (il y a régularité) ayant la particularité d’évoluer (un utilisateur mènera ses tâches plus vite, changera d’habitude, etc.). On se place donc dans le cadre de la fouille de données temporelles, en s’intéressant à deux problèmes particuliers. Le premier concerne la fouille de motifs dits évolutifs, notion qu’il s’agira de définir précisément et formellement. Le second concerne la fouille interactive dite instantanée, dans laquelle on privilégie une approche où l’analyste peut recevoir des résultats de l’algorithme de recherche et le piloter à tout instant : les algorithmes considérés doivent alors être anytime. Le travail de thèse visera à définir la notion de motif évolutif, à étudier les algorithmes anytime pour la fouille de motifs temporels évolutifs, à proposer des principes d’interaction pour piloter de tels algorithmes anytime, à concevoir et implémenter un ou plusieurs systèmes, enfin à valider ceux-ci du point de vue des performances, de l’utilisabilité, etc. Mots clés. Motifs évolutifs, traces d’activité, fouille de motifs séquentiels, fouille interactive, algorithmes anytime 2 Introduction Contexte et problématique La motivation à l’origine de ce travail est une problématique applicative particulière, qui est celle de la détection de la formation et du développement de pratiques des utilisateurs d’outils numériques. Tout utilisateur développe en effet au cours de son activité des manières d’utiliser une application ou un ensemble d’applications qui dépendent des outils qui lui sont proposés, mais qui lui sont également particulières. On appelle “instrument numérique” une telle manière personnelle d’utiliser un système [BP12], qui est notamment caractérisés par des schèmes, des suites d’actions répétitives particulières à un utilisateur, qu’il a construites au cours de l’appropriation de l’outil. Ces schèmes continuent à évoluer au cours du temps, soit de façon endogène quand l’utilisateur acquiert des automatismes ou que ses buts évoluent, soit exogène quand le système considéré évolue (changement de version) ou que le contexte change (e.g. intégration de nouvelles applications). Etudier ces évolutions permet de mieux comprendre le couplage homme-machine, l’appropriation des outils numérique, mais aussi de proposer des outils permettant de soutenir les utilisateurs [BPT14]1 La collecte et l’analyse des traces d’utilisation du système permettent d’étudier l’apparition et l’évolution de tels schèmes. Ces traces sont constituées d’une séquence temporelle d’événements correspondant aux actions de l’utilisateur et aux objets sur lesquels portent ces actions. La détection de la présence et du développement d’un instrument numérique peut alors baser sur la découverte d’une part de motifs d’activité dans ces traces, d’autre part des évolutions de ces motifs au cours du temps (on parlera de motifs évolutifs). Par ailleurs, l’évaluation de la pertinence d’un motif et de son éventuelle évolution ne peut être réalisée que par un analyste humain, dans une approche interactive permettant de réduire la charge cognitive, de focaliser plus rapidement tout en appréhendant mieux les données [CMS99]. Si cette implication nécessaire de l’utilisateur dans le processus de fouille de données est, en théorie, sous-jacente à de nombreux travaux du domaine, elle reste encore largement perfectible [vL14]. Nous nous orientons donc vers la mise en oeuvre d’un processus de fouille interactive et intuitive des traces d’interaction, dans laquelle l’analyste explore les résultats de la fouille et dirige celle-ci dans la direction de son choix. De façon générale, la problématique est celle de la fouille interactive de données temporelles issues de l’activité humaine pour la détection de motifs évolutifs. Une telle problématique va au-delà de la détection d’instruments numériques, et s’inscrit de façon plus générique dans le contexte actuel de l’exploitation de traces d’activité humaine récoltées par différents senseurs (life logging) en vue d’offrir à un utilisateur des services liées au mouvements du quantified self, de la e-santé, etc. 1 Cf. le projet DSD Digital Skill Development à nouveau soumis à l’ANR cette année, qui regroupe le LINA, le LIRIS, l’INRIA Lille et les entreprises Jamespot et Shazino. L’objectif du projet est de fournir des outils à base de traces pour supporter l’appropriation initiale d’un outil numérique, la montée en expertise, et la réappropriation après changement de version par exemple. 3 Problèmes et opportunités L’extraction de motifs temporels, et plus généralement séquentiels, dans des bases de données est une tâche essentielle de la fouille de données, à laquelle une littérature abondante est consacrée [GLMS14]. Des algorithmes efficaces et passant l’échelle ont été proposés, mais comme rappelé dans l’état de l’art récent de Mooney et Roddick [MR13], il n’existe pas de solution générique. L’effort de recherche porte sur des algorithmes optimisés pour des applications précises, et qui exploitent les contraintes spécifiques des séquences étudiées. Les domaines d’applications les plus étudiés sont les télécommunications et données géo-localisées, la vente à distance, la détection d’intrusion, la bioinformatique, le text mining, le web usage mining, la supervision de systèmes automatiques [GH12]. Dans le cas qui nous occupe, deux problèmes principaux sont considérés : 1/ le caractère évolutif des motifs recherchés, et 2/ le caractère instantané du processus de fouille interactive. 1- Le cas particulier d’extraction de motifs temporels auquel nous nous attaquons ici est celui des motifs temporels évolutifs que l’on va chercher à repérer dans une trace d’événements temporelle. Un motif évolutif est défini comme un motif séquentiel qui évolue suivant la position temporelle ou séquentielle de ses instances dans la trace dont il est extrait. Nous distinguons trois principaux processus d’évolution : • évolution de la syntaxe du motif, essentiellement par ajout ou retrait des événements qui le composent (dans le contexte des instruments numériques, une suite d’actions devient plus efficace en remplaçant des commandes souris par des raccourcis clavier, une action inutile faite par habitude est éliminée, etc.) ; • évolution des instances du motif, par exemple leur durée (une suite d’action est exécutée de plus en plus vite), leur fréquence locale, leur pureté (est-ce que d’autres actions ont lieu en parallèle de l’instance ?) ; • évolution des propriétés du motif, qui concernent par exemple sa significativité, une corrélation avec un autre motif, ou des attributs propres aux évènements. L’extraction de motifs évolutifs dans des données temporelles est un problème difficile qui est peu traité dans la littérature. Ceci peut s’expliquer par le caractère contradictoire que revêt le concept même de motif évolutif : pour pouvoir être détecté dans les données, un motif est nécessairement une structure stable, i.e. capable de se répéter à l’identique. Cette contrainte de stabilité est assouplie dans la plupart des travaux, par exemple en autorisant des éléments génériques (wildcards) dans les motifs [MWW12]. Les règles d’association participent aussi de cet assouplissement puisqu’une règle indique qu’une partie du motif n’apparaît pas de manière systématique [AMS+ 96]. Dans le cas des motifs séquentiels, des plages de variation sont autorisées pour les contraintes temporelles qui régissent les écarts entre évènements [BGG07]. Les contraintes d’ordre dans 4 l’apparition des évènements sont aussi parfois relaxées [Bla14, TC11]. Au final, même si les motifs peuvent présenter des variations, il n’existe pas vraiment de travaux qui s’intéressent à structurer ces variations pour en dégager une tendance d’évolution dans le temps. A notre connaissance, les seuls travaux que l’on peut inscrire dans cette approche concernent les règles d’association [JQZ10, BRNK09, LR05, LML01], et portent uniquement sur l’évolution du support et de la confiance des règles, ce qui impose un cadre très limité pour les éventuelles variations. Ces travaux adoptent un point de vue différent du nôtre puisqu’ils visent soit à détecter des motifs stables dans le temps (dans l’idée qu’ils sont plus robustes), soit à prédire des changements de support et de confiance. Traiter la question des motifs évolutifs dans sa globalité ouvre donc des perspectives inédites. Il est à noter que des propriétés d’évolution de motifs ont été étudiées récemment dans la thèse de Rezwan Ahmed [Ahm14], sur des données de graphes. La notion de motif évolutif n’y est cependant pas traitée comme un objet d’étude à part entière. 2- Nous avons souligné plus haut la nécessaire interactivité liée à la fouille des traces considérées. La coopération entre le système et l’utilisateur est en théorie une partie intégrante du Knowledge Discovery in Databases depuis son avènement dans les années 90 [FPSS96, BA96], mais elle est souvent réduite dans la pratique à des interactions ponctuelles entre deux exécutions d’un algorithme automatique. Au contraire, les travaux en IHM et visualisation d’information recommandent que l’analyste puisse suivre aisément le flux de ses hypothèses et intuitions en association avec le système de fouille, c’est-à-dire sans avoir à mémoriser d’information sur ce qu’il cherche en attendant que le système réponde [KAF+ 08, KKEM10, Hol13]. La clé est donc d’offrir des temps de réponse réduits —quasi temps-réel— qui seront les seuls garants d’une véritable interactivité entre l’utilisateur et le logiciel [Fek13], L’une des solutions suggérée récemment23 , que nous explorerons, est d’adopter des stratégies anytime pour proposer une fouille interactive instantanée (Instant Interactive Datamining). Le principe des algorithmes anytime [GZ96] est qu’ils peuvent fournir une solution valide (mais pas forcément optimale) à un problème à n’importe quel moment, i.e. même s’ils sont interrompus avant la fin de leur exécution. En fouille de données, des approches anytime ont été proposées pour la classification supervisée [SK10] ou le clustering [KABS11], mais il n’existe aucune technique pour l’extraction de motifs. Adopter cette voie peut créer un paradigme nouveau pour la fouille de motifs, en rupture avec les approches actuelles qui visent l’optimalité et/ou la complétude des résultats mais sont bloquantes (batch processing). Cette thèse a pour objectif d’avancer dans les directions novatrices associées aux deux 2 ECML PKDD 2012 Workshop on Instant Interactive Data Mining sur l’introduction de ce concept. Voir aussi les workshops IDEA Interactive Data Exploration and Analytics à ECML-PKDD, ainsi que la proposition de Progressive Visual Analytics [SPG14] dans la communauté Infovis. 3 Atelier Fouille visuelle de données temporelles du groupe de travail EGC/AFIHM “Visualisation d’information, Interaction, et Fouille de données” (2013) dont la conclusion est que prendre la question de la fouille interactive au sérieux nécessite de s’intéresser en même temps aux algorithmes et à l’interaction avec ceux-ci, donc de favoriser des algorithmes anytime. 5 questions principales considérées (motifs évolutifs, processus de fouille interactive instantanée), en profitant de la synergie entre elles : la fouille instantanée est appliquée à un problème particulier, la recherche de motifs évolutifs tire partie du caractère véritablement interactif de la fouille. Travail demandé Objectifs Les objectifs de la thèse sont les suivants : Définir la notion de motif évolutif et ses propriétés, dans le cas général et dans les cas particuliers qui nous concernent (en lien avec les traces dont nous disposons, et la volonté de repérer des schèmes et leurs évolutions). Il s’agit notamment de déterminer où placer le curseur entre stabilité et évolution. Il nous faudra préciser les évolutions acceptables pour un motif et celles qui donnent lieu à un nouveau motif. Il sera utile également de réaliser une première exploration des types d’évolutions présents dans les données visées, et de les classifier : on pourrait s’attendre par exemple à découvrir des évolutions monotones ou cycliques, des évolutions continues ou par paliers ou pics. Étudier les stratégies algorithmiques possibles pour découvrir des motifs évolutifs, par exemple extraction en largeur d’abord (type Apriori) ou en profondeur d’abord (type FP-growth), nombre de passes sur les données, prises en compte de contraintes, recherche d’une évolution future ou passée, etc. Il faudra favoriser les stratégies les plus adaptées aux données de traces dont nous disposons. Étudier les principes d’interaction qu’il est possible de mettre en oeuvre avec les algorithmes anytime afin d’atteindre des résultats satisfaisants. En focalisant sur les stratégies précédentes, on s’intéressera à la visualisation de l’état d’avancement des algorithmes, de leurs résultats, etc. et aux interactions possibles pour modifier des paramètres, sélectionner des motifs comme pertinents ou non pertinents, zoomer sur une tranche temporelle intéressante, changer des directions d’exploration, etc. [MPG+ 14] fournit une base sur l’implication possible de l’utilisateur dans des calculs en cours de déroulement. Étudier l’existence ou non d’algorithmes anytime de la littérature portant sur l’extraction de motifs ou l’analyse de séquences. Il s’agit notamment de pouvoir décider quels algorithmes seraient réutilisables, s’il faudrait rendre anytime des algorithmes classiques d’extraction de motifs temporels, adopter une heuristique, voire concevoir complètement de nouveaux algorithmes. Proposer un ou plusieurs systèmes raisonnablement constructibles mettant en oeuvre algorithmes anytime et manières d’interagir associées, permettant de valider un certain nombre d’avancées sur la recherche de motifs évolutifs et la fouille interactive instantanée. Implémenter ce ou ces systèmes, et les tester dans différentes conditions (e.g. efficacité dans la recherche de patterns, taille des données traitables, utilisabilité par un 6 analyste, etc.). Un objectif supplémentaire est bien entendu l’insertion dans les communautés nationales et internationales autour de ces questions (participation à des workshops, conférences, publications). Le travail prendra place dans un effort mené au sein de l’équipe DUKe sur la fouille de traces et s’articulera aux différents projets associés, notamment les ANR 2014 Episteme (traces de pratiques de recherche en astrophysique) et Hubble (traces liées à l’apprentissage à distance) qui fourniront à la fois traces d’activité et experts. L’ANR 2015 DSD sera prioritairement mobilisé si accepté (traces d’utilisation d’outils numériques pour le travail intellectuel). Notre approche est exploratoire, mais d’après la première étude que nous avons réalisée sur les traces à notre disposition4 , nous ne doutons pas vraiment de la présence de motifs évolutifs dans ces données. Néanmoins, en cas de difficulté à détecter des évolutions, nous pourrions faire évoluer nos objectifs, par exemple en réduisant la capacité d’évolution des motifs, ou en choisissant des autres jeux de données d’activité adaptés (réels ou simulés). A noter également que Vincent Raveneau a entamé fin janvier un stage de M2R portant sur la « Fouille de motifs évolutifs pour étudier l’appropriation dans un LMS (Learning Management System) ». Son travail, qui devrait apporter quelques résultats à la thèse, porte sur la définition de la notion de motifs évolutifs et l’analyse de traces issues de la plateforme d’enseignement de l’Université de Nantes, pour étudier l’appropriation de la plateforme. Les traces considérées portent sur l’ensemble de la promotion PACES (1ère année Santé) entre septembre et décembre 2014, et proviennent du projet TTE (Traces et Technologies Educatives) soutenu par Atlanstic fin 2014. Plan de travail prévisionnel de l’étude La première partie du travail consistera à prendre connaissance de façon poussée des différents domaines visés : traces d’activité humaine et types d’analyse associées, fouille interactive, fouille de motifs séquentiels (en focalisant sur les données d’activité, notamment web usage mining, analyse de la dynamique des réseaux sociaux), algorithmes anytime, etc. ce qui donnera lieu à la rédaction d’un rapport bibliographique. De façon pratique, on prendra également en main différentes traces d’interaction disponibles issues de différents projets (Cinecast, Hubble, TTE, etc.). La seconde partie visera à définir et à formaliser la notion de motif évolutif, à la fois dans le cas général et les cas particuliers des traces d’activité choisis pour l’étude, ce qui sera également l’occasion de préciser les objectifs de la thèse. Cette partie se terminera par des études théoriques et pratiques plus focalisées sur les stratégies algorithmiques possibles, la disponibilité éventuelle d’algorithmes anytime pour la recherche de motifs, la possibilité de rendre anytime des algorithmes existants, et ainsi que la caractérisation des formes d’interaction possibles avec ces algorithmes pour leur pilotage. Ce travail 4 Lors du stage de M1 de Grigori Antipov à Polytech Nantes en juin-juillet 2013. 7 se terminera par la rédaction d’un second rapport (pouvant donner lieu à publication de types workshop), dans la conclusion duquel on proposera à la conception plusieurs système interactifs complets ou partiels, associant clairement objectifs de validation, algorithme(s) anytime et principes d’interaction et de pilotage. La priorisation de ces systèmes en fonction des difficultés de développement et des gains attendus en terme de résultats permettra de lancer la troisième partie du travail, au cours de laquelle seront développés un ou plusieurs prototypes, qui seront évalués du point de vue des performances algorithmiques, de la qualité des résultats obtenus, de l’interaction avec l’analyste, etc. Une ou plusieurs publication permettront de valoriser les résultats. La dernière partie des travaux concernera la rédaction du mémoire, sa soutenance, ainsi que la finalisation des publications engagées. Les deux premières parties du travail devraient prendre au total entre 12 et 14 mois ; la troisième entre 14 et 20 mois et la dernière entre 4 et 6 mois. Candidats Compétences Master en informatique, fouille de données ou statistiques (+ intérêt pour l’interaction homme-machine) ou interaction homme-machine (+ intérêt pour la fouille de données). Bonnes compétences en algorithmie et en programmation. Déclarations de candidature et résultats universitaires connus Vincent Raveneau, actuellement en stage M2R avec Julien Blanchard et Yannick Prié, est candidat sur ce sujet de thèse. Il a été major dans la promo de M1 ALMA en 2013-2014, et devrait être major du M2 ATAL en 2014-2015. 8 Vincent Raveneau Étudiant en Master Informatique, spécialité ATAL 60 rue du Fresche Blanc Cité Fresche Blanc, Chambre 24 44300 Nantes H 06 98 30 26 56 B [email protected] 21 ans – Permis B Formations Actuellement Master 2 Informatique, Université de Nantes (44). Apprentissage et Traitement Automatique du Langage (ATAL) 2013 – 2014 Master 1 Informatique, Université de Nantes (44). Spécialité Architectures Logicielles (ALMA) – Major de promotion 2010 – 2013 Licence Informatique, Université d’Angers (49). Compétences Informatiques Domaines Apprentissage automatique, Traitement automatique de la langue, Fouille de textes et recherche d’information, Architectures logicielles Langages Web Conception Frameworks OS Logiciels Divers Python, Java, C++, C, Scala, SQL, OCaml, R(notions), Java pour Android xHTML, CSS, Javascript, PHP, XML, SPARQL, J2EE UML, Design Patterns, Merise, XUnit UIMA, Qt, SFML Linux (Ubuntu), Windows (XP, 7, 8) Eclipse, Subversion, Git, LATEX Méthodes Agiles (Scrum) Générales Connaissances Notions de gestion et de communication Anglais Compétence professionnelle (lu/écrit/parlé) Expériences Professionnelles Avril - Juillet Développeur stagiaire, Recherche et Développement, Horoquartz, Nantes. 2014 Au sein du département Recherche et Développement de l’entreprise, amélioration de la gestion des règles métier d’un Business Rule Management System (BRMS): { Modélisation de l’architecture des règles { Développement d’interface utilisateur { Analyse automatique du contenu existant { Langages : Java (Swing), SQL, C++ { Outils : MySQL, Eclipse Avril - Juin 2013 Développeur Stagiaire, Université d’Angers, Angers. Dans le cadre du stage de fin de L3, réalisation d’un outil générant procéduralement un monde 3D constitué de blocs de différents types. { Prise en compte des contraintes liées au traitement d’un gros volume de données { Utilisation d’algorithmes de génération procédurale { Langage: C++ { Outils: Qt, OpenGL 2.1, libnoise Centres d’intérêt Cinéma Films et Séries TV en version originale RELEVE DE NOTES Année 2013 / 2014 - Session 1 N° étudiant : 13A071T N° Formation : 5250 M. RAVENEAU, Vincent M1 Informatique, niveau 1, ARCHITECTURES LOGICIELLES X7II010 Génie logiciel (6 ECTS) coef 1 Génie logiciel : 12,00/20 X7II020 Web des données, web sémantique (6 ECTS) coef 1 12,00/20 CC:12,50/20 EX:10,50/20 TPCC:15,00/20 11,80/20 Web des données, web sémantique : 11,80/20 X7II030 Concepts et outils de développement (6 ECTS) coef 1 Concepts et outils de développement : 14,45/20 CC:14,00/20 EX:10,00/20 TPCC:13,00/20 14,45/20 CC:16,50/20 EX:14,00/20 TPCC:12,50/20 Admis/e X7II040 Techniques de communication (1 ECTS) coef 0.33 Techniques de communication : 15,00/20 X7II050 Anglais 1 (3 ECTS) coef 0.67 15,00/20 Admis/e TDCC:15,00/20 15,76/20 Admis/e Anglais 1 : 15,76/20 X7IA030 Programmation Web et Cloud (4 ECTS) coef 1 Programmation Web et Cloud : 12,10/20 CC:15,76/20[CCO: 16,50 TDCCE: 15,00 ] 12,10/20 CC:10,50/20 EX:11,50/20 TPCC:16,00/20 Admis/e X7IA040 Vérification et tests (4 ECTS) coef 1 Vérification et tests : 12,50/20 X8II130 Interfaces homme-machine (5 ECTS) coef 1 12,50/20 CC:15,50/20 EX:12,50/20 TPCC:8,00/20 14,80/20 Interfaces homme-machine : 14,80/20 X8II030 Initiation à la recherche (6 ECTS) coef 1 Introduction à la recherche : 11,50/20 Mémoire de recherche : 14,33/20 X8II040 Connaissances de l'entreprise (1 ECTS) coef 0.33 Connaissances de l'entreprise : 8,00/20 X8II050 Anglais 2 (3 ECTS) coef 0.67 Anglais 2 : 15,61/20 X8IA010 Réseaux et protocoles internet (5 ECTS) coef 1 Réseaux et protocoles internet : 9,98/20 X8IA020 Compilation (5 ECTS) coef 1 Compilation : 17,05/20 X8IA030 Conception de logiciels extensibles (5 ECTS) coef 1 Conception de logiciels extensibles : 16,10/20 CC:12,00/20 EX:16,00/20 TPCC:16,00/20 13,76/20 CMCC:11,50/20 CC:14,00/20 TPCC:14,50/20[TPCCE: 14,00 TPCCP: 15,00 ] 8,00/20 TDCC:8,00/20 15,61/20 CC:15,61/20[CCO: 14,50 TDCCE: 16,75 ] 9,98/20 CC:10,75/20 EX:7,50/20 TPCC:15,00/20 17,05/20 CC:17,00/20 EX:17,50/20 TPCC:16,00/20 16,10/20 CC:14,50/20 EX:17,00/20 TPCC:16,25/20 Admis/e TE S A N N E D TE ER SI Admis/e Admis/e Admis/e Admis/e Valid/Compens. Admis/e Valid/Compens. Admis/e Admis/e Moyenne : 13.6 Résultat : ADMIS(E) (1° sur 16 présents - 12 admis) U N IV Nantes, le 13/05/2014 Le président de l'Université Si vous estimez que la décision prise par l'administration est contestable vous pouvez former un recours gracieux devant Monsieur le Président de l'Université de Nantes (1 quai de Tourville, BP 13522 44035 Nantes Cedex1) et/ou un recours contentieux auprès du tribunal administratif dans les 2 mois suivant la date de la présente notification (Monsieur le Président du Tribunal administratif, 6 allée de l'Ile Gloriette 44000 Nantes). Bibliographie [Ahm14] Rezwan Ahmed. Algorithms for mining evolving patterns in dynamic relational networks. Ph.d. dissertation, University of Minnesota, 2014. [AMS+ 96] Rakesh Agrawal, Hiekki Mannila, Ramakrishnan Srikant, Hannu Toivonen, and A. Inkeri Verkamo. Fast discovery of association rules. In Advances in knowledge discovery and data mining, pages 307–328. American Association for Artificial Intelligence, 1996. [BA96] J.R. Brachman and T. Anand. The process of knowledge discovery in databases : a human-centered approach. In Usama M. Fayyad, Gregory PiatetskyShapiro, Padhraic Smyth, and Ramasamy Uthurusamy, editors, Advances in knowledge discovery and data mining, pages 37–58. AAAI/MIT Press, 1996. [BGG07] Julien Blanchard, Fabrice Guillet, and Regis Gras. On the discovery of significant temporal rules. In Proceedings of the IEEE Conference SMC’2007, pages 443–450. IEEE Computer Society Press, 2007. [Bla14] Julien Blanchard. Motifs récursifs : extraction ascendante hiérarchique d’ensembles d’items ou d’évènements pour le résumé de données transactionnelles ou séquentielles. Revue des Nouvelles Technologies de l’Information, E-26 :443–448, 2014. Actes des journées Extraction et Gestion des Connaissances (EGC) 2014. [BP12] Amaury Belin and Yannick Prié. Diam : Towards a model for describing appropriation processes through the evolution of digital artifacts. In Proceedings of the Designing Interactive Systems Conference, DIS ’12, pages 645–654. ACM, 2012. [BPT14] Amaury Belin, Yannick Prié, and Aurélien Tabard. Supporting the development of digital skills. In Proceedings of Digital Intelligence 2014, 2014. [BRNK09] M. Bottcher, G. Ruß, D. Nauck, and R. Kruse. From change mining to relevance feedback : A unified view on assessing rule interestingness. In Y. Zhao, C. Zhang, and L. Cao, editors, Post-Mining of association rules : Techniques for effective knowledge extraction, page 12–37. IGI Global, 2009. 11 [CMS99] Stuart K. Card, Jock Mackinlay, and Ben Shneiderman. Readings in Information Visualization : Using vision to think. Morgan Kaufmann, 1999. [Fek13] J.-D. Fekete. Visual analytics infrastructures : From data management to exploration. IEEE Computer, 46(7) :22–29, July 2013. [FPSS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery : an overview. In Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy, editors, Advances in knowledge discovery and data mining, pages 1–34. AAAI/MIT Press, 1996. [GH12] M. Gupta and J. Han. Applications of pattern discovery using sequential data mining. In P. Radha Krishna Pradeep Kumar and S. Bapi Raju, editors, Pattern Discovery Using Sequence Data Mining : Applications and Studies, pages 137– –154. IGI-Global, 2012. [GLMS14] Arnaud Giacometti, Dominique H. Li, Patrick Marcel, and Arnaud Soulet. 20 years of pattern mining : A bibliometric survey. SIGKDD Exploration Newsl., 15(1) :41–50, March 2014. [GZ96] Joshua Grass and Shlomo Zilberstein. Anytime algorithm development tools. SIGART Bull., 7(2) :20–27, April 1996. [Hol13] A. Holzinger. Human-computer interaction and knowledge discovery (hcikdd) : What is the benefit of bringing those two fields to work together ? In Proceedings of CD-ARES’13, pages 319–328, 2013. [JQZ10] Feng Jingjing, Zeng Qingfei, and Zhang Zhonglin. A method of mining the meta-association rules for dynamic association rule based on the model of ar-markov. In Networks Security Wireless Communications and Trusted Computing (NSWCTC), 2010 Second International Conference on, volume 2, pages 210–214, April 2010. [KABS11] Philipp Kranen, Ira Assent, Corinna Baldauf, and Thomas Seidl. The clustree : Indexing micro-clusters for anytime stream mining. Knowl. Inf. Syst., 29(2) :249–272, November 2011. [KAF+ 08] Daniel Keim, Gennady Andrienko, Jean-Daniel Fekete, Carsten Görg, Jörn Kohlhammer, and Guy Melançon. Information visualization. chapter Visual Analytics : Definition, Process, and Challenges, pages 154–175. SpringerVerlag, Berlin, Heidelberg, 2008. [KKEM10] Daniel A. Keim, Jörn Kohlhammer, Geoffrey Ellis, and Florian Mansmann. Mastering the Information Age - Solving Problems with Visual Analytics. Eurographics Association, 2010. 12 [LML01] Bing Liu, Yiming Ma, and R. Lee. Analyzing the interestingness of association rules from the temporal dimension. In Data Mining, 2001. ICDM 2001, Proceedings IEEE International Conference on, pages 377–384, 2001. [LR05] Jinfeng Liu and Gang Rong. Mining dynamic association rules in databases. In Yue Hao, Jiming Liu, Yuping Wang, Yiu-ming Cheung, Hujun Yin, Licheng Jiao, Jianfeng Ma, and Yong-Chang Jiao, editors, Computational Intelligence and Security, volume 3801 of Lecture Notes in Computer Science, pages 688– 695. Springer Berlin Heidelberg, 2005. [MPG+ 14] T. Muhlbacher, H. Piringer, S. Gratzl, M. Sedlmair, and M. Streit. Opening the black box : Strategies for increased user involvement in existing algorithm implementations. IEEE Transactions on Visualization and Computer Graphics, 20(12) :1643–1652, December 2014. [MR13] Carl H. Mooney and John F. Roddick. Sequential pattern mining – approaches and algorithms. ACM Comput. Surv., 45(2) :19 :1–19 :39, March 2013. [MWW12] Fan Min, Youxi Wu, and Xindong Wu. The apriori property of sequence pattern mining with wildcard gaps. I. J. Functional Informatics and Personalised Medicine, 4(1) :15–31, 2012. [SK10] J. Shieh and E. Keogh. Polishing the right apple : Anytime classification also benefits data streams with constant arrival times. In Data Mining (ICDM), 2010 IEEE 10th International Conference on, pages 461–470, Dec 2010. [SPG14] C.D. Stolper, A. Perer, and D. Gotz. Progressive visual analytics : User-driven visual exploration of in-progress analytics. IEEE Transactions on Visualization and Computer Graphics, 20(12) :1653–1662, December 2014. [TC11] Nikolaj Tatti and Boris Cule. Mining closed episodes with simultaneous events. In Proceedings of the 17th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’11, pages 1172–1180. ACM, 2011. [vL14] Matthijs van Leeuwen. Interactive data exploration using pattern mining. In Andreas Holzinger and Igor Jurisica, editors, Interactive Knowledge Discovery and Data Mining in Biomedical Informatics, volume 8401 of Lecture Notes in Computer Science, pages 169–182. Springer, 2014. CV du directeur de thèse Voir ci-après. 13 Yannick Prié Né le : 16/11/1971 à Montbéliard (25) Nationalité français Concubin un enfant 06 24 99 48 87 [email protected] http://yannickprie.net 11 rue du coteau 44100 Nantes Poste actuel Professeur en Informatique Université de Nantes - Département Informatique PolytechLaboratoire d'Informatique Nantes Atlantique (LINA UMR 6241) Formation et diplômes Nov. 2011 Déc. 1999 Sept. 1995 Sept. 1995 HDR en Informatique Université Claude Bernard Lyon 1 Vers une phénoménologie des inscriptions numériques : Dynamique de l’activité́ et des structures informationnelles dans les systèmes d’interprétation Doctorat d’Informatique INSA de Lyon (Félicitations) Modélisation de documents audiovisuels en Strates Interconnectées par les annotations pour l’exploitation contextuelle DEA Informatique Université de Rennes 1 (Très bien) Contribution à une clarification des rapports entre Sémantique interprétative et Informatique Ingénieur Informatique Télécom Bretagne, Brest Parcours Sept. 2000 – août 2012 Nov. 1996 - Déc. 1999 Sept. 1995 - août. 1996 MCF Département Informatique Faculté de Sciences et Technologies Laboratoire d'InfoRmatique en Image et Systèmes d'information (LIRIS UMR 5205) – auparavant : LISI (2000-2002) Titulaire PES 2011-2015 Titulaire PEDR 2007-2011 Ingénieur de recherche sur Contrat, INSA de Lyon Thèse de doctorat, Spécialité Informatique. Vacataire à CPE-Lyon et INSA de Lyon Service National, Assistant Scientifique et Technique, Etablissement Principal du Service Hydrographique et Océanographique de la Marine (EPSHOM), Brest. Activités de recherche Ancrage disciplinaire : Interaction homme-machine (IHM), Ingénierie des Connaissances (IC) et ingénierie documentaire, en lien avec les environnements d’apprentissage humain (EIAH), la gestion des connaissances (KM). Interdisciplinarité avec des chercheurs en information et communication, sociologie, psychologie, ergonomie, sciences de l’éducation, médecine, design, lettres, etc. Mots-clés : activité instrumentée, adaptation, annotations, aspects cognitifs de l’utilisation d’outils numériques, hypervidéos, interprétation, learning analytics, multimédia, réflexivité, systèmes d’interprétation, traces numériques. 11 encadrements de doctorants 14 encadrements de DEA et Master recherche 1 22 projets collaboratifs (ANR, FUI, Investissement d’avenir, etc.) – Quelques projets en cours : Episteme (ANR), Hubble (ANR), Musimorphose (ANR), Meta-Education (Investissement d’Avenir) Production 6 publications dans des revues internationales avec comité de lecture 31 articles dans des actes de conférences internationales avec comité de lecture dont 10 longs pour des conférences internationales sélectives 9 articles dans des revues nationales avec comité de lecture 24 articles dans des actes de conférences nationales avec comité de lecture 24 articles dans des workshops internationaux (16) et nationaux (7) avec comité de lecture 4 chapitres d’ouvrages Logiciels : Advene (advene.org), Visu (visu-tutorat.org), COCo (comin-ocw.org), Describe, KTBS Activités d’enseignement Département informatique Polytech • Conception de systèmes d’information • Méthodes et outils pour la gestion de projets • Interation Homme-Machine et visualisation d’information • Algorithmique, langages (C, C++, JAVA, ocaml), • Outils et méthodologie pour la recherche Initiateur et animateur du MOOC @ddict? sur les addictions au numérique (janvier-février 2015) Divers Directeur adjoint du Département Informatique de Polytech Nantes (2014-) Co-responsable du Diplôme Universitaire DESSiiN (DESign de Services Interactifs INnovants Objets communicants & Interfaces tangibles) (2014-) Co-responsable du projet Comin Opencourseware (Labex Cominlabs et Région Pays de Loire) Membre de la commission des thèses du LINA (2012- ) Membre élu du conseil de la recherche Polytech Nantes (2012- ) Responsable des contrats de professionnalisation du Département INFO Polytech (2012-2014) Participation au montage du volet universitaire du Quartier de la Création à Nantes 2 CV du co-encadrant Voir ci-après. 16 Curriculum Vitae Present Position Associate Professor Photo Family name First name(s) Gender (M/F) E-mail Blanchard Julien M Polytech Nantes - Ecole polytechnique de l’université de Nantes Rue C. Pauc – BP 50609 F-44306 Nantes Cedex 3 - France [email protected] Web site http://www.polytech.univ-nantes.fr/blanchard/ Office-Phone Tél : (+33)2 40 68 30 66 Office address Cellular phone Citizen Date of birth French 22/11/1978 Since 2006 : Associate Professor - Polytech Nantes Positions Held Education Memberships and functions within international/national institutions (3 maxi) Year 2005 University Nantes (France) Diploma Ph.D. in Computer Science - since 2009: responsible for Business Intelligence speciality in the Computer Science Department of Polytech Nantes - since 2010: co- responsible for the KDD master in Polytech Nantes. - since 2004: Researcher at the LINA, the Computer Science Laboratory of Nantes-Atlantic (UMR CNRS 6241), in the Data User Knowledge (DUKe) team. Relations with foreign universities in particular in third countries (3 maxi) - Can Tho University (Vietnam) - Hochschule Hof (University of Applied Sciences, Hof - Germany) - Politehnica University of Bucarest (Romania) Contacts and collaborations with industry (2 principal collaborations over the 4 last years) - CIFRE PhD grant with VM Matériaux (France) - CIFRE PhD grant with EDF R&D (France) - Innovative project with Telelogos SAS and VM Matériaux (France) Short description of your expertise in the domain of Data Mining and/or Knowledge Management Frequent pattern mining Sequence mining Knowledge evaluation Knowledge visualization Last publications a – Journals : J. Blanchard, F. Guillet, H. Briand (2007). Interactive visual exploration of association rules with rulefocusing methodology. Knowledge and Information Systems 13(1), Springer, p. 43-75 J. Blanchard, B. Pinaud, P. Kuntz, F. Guillet (2007). A 2D–3D visualization support for humancentered rule mining. Computers & Graphics 31(3), Elsevier Science, p. 350-360 b – Book Chapters : L. Pepin, J. Blanchard, F. Guillet, P. Kuntz, P. Suignard (2014). Visual analysis of topics in Twitter based on co-evolution of terms. In "Data Science, Learning by Latent Structures, and Knowledge Discovery". B. Lausen, S. Krolak-Schwerdt, M. Böhmer (Eds.), Springer Z. Ben Said, F. Guillet, P. Richard, J. Blanchard, F.Picarougne (2012). An Overview of Interaction Techniques and 3D Representations for Data Mining. In "Applications of Virtual Reality". Cecilia Sik Lanyi (Ed.), InTech, p. 185-210 J. Blanchard, F. Guillet, P. Kuntz (2009). Semantics-based classification of rule interestingness measures. In "Post-Mining of Association Rules: Techniques for Effective Knowledge Extraction". Zhao Y., Zhang C., Cao L. (Eds.), IGI Global, p. 56-79 X.-H. Huynh, F. Guillet, J. Blanchard, P. Kuntz, H. Briand, R.Gras (2007). A graph-based clustering approach to evaluate interestingness measures: a tool and a comparative study. In "Quality Measures in Data Mining". H. Hamilton and F. Guillet (Eds.), series "Studies in Computational Intelligence", vol. 43, Springer, p. 25-49 c – Conferences : Z. Ben Said, F. Guillet, P. Richard, F.Picarougne, J. Blanchard (2013). Visualisation of association rules based on a molecular representation. Proc. of the 17th International Conference Information Visualisation IV2013, p. 577-581 T. Piton, J. Blanchard, F. Guillet. (2011). CAPRE: A New Methodology for Product Recommendation Based on Customer Actionability and Profitability. Proc. of 2011 IEEE International Conference on Data Mining Workshops, IEEE Computer Society, p. 466-473 T. Piton, J. Blanchard, H. Briand, F. Guillet (2009). Domain Driven Data Mining to Improve Promotional Campaign ROI and Select Marketing Channels. Proc. of the 18th ACM Conference on Information and Knowledge Management CIKM 2009, ACM, p. 1057-1066 J. Blanchard, F. Guillet, R. Gras (2007). On the discovery of significant temporal rules. In Proc. of the IEEE international conference on Systems, Man and Cybernetics SMC'2007, IEEE Computer Society Press, p. 443-450