Fouille interactive instantanée de motifs évolutifs pour l

Transcription

Fouille interactive instantanée de motifs évolutifs pour l
L ABORATOIRE D ’I NFORMATIQUE DE N ANTES -ATLANTIQUE
UMR 6241
É COLE DOCTORALE STIM, N . 503
« Sciences et technologies
de l’information et des mathématiques »
Sujet de thèse pour 2015
Fouille interactive instantanée de motifs évolutifs pour
l’exploration de données d’activité
Directeur de thèse
N OM, Prénom
: P RIÉ, Yannick
Équipe d’accueil
: DUKe
Unité de recherche
: LINA (UMR 6241)
Unité de rattachement
: Université de Nantes
Courriel
: yannick.prie (at) univ-nantes.fr
Taux d’encadrement
: 40 %
Nombre de thèses en cours : 1
Co-encadrant
N OM, Prénom
: B LANCHARD, Julien
Unité de recherche
: Université de Nantes
Unité de rattachement
: DUKe
Taux d’encadrement
: 60 %
Nombre de thèses en cours : 1
Financement prévu : MESR
Sujet de thèse pour 2015
Fouille interactive instantanée de motifs évolutifs pour
l’exploration de données d’activité
Résumé. Ce sujet s’inscrit dans le contexte des traces d’activité laissées par les utilisateurs de
systèmes informatiques. On s’intéresse plus particulièrement aux traces d’interaction et à leur
étude par des analystes afin d’y détecter des motifs d’activité récurrents (il y a régularité) ayant
la particularité d’évoluer (un utilisateur mènera ses tâches plus vite, changera d’habitude, etc.).
On se place donc dans le cadre de la fouille de données temporelles, en s’intéressant à deux
problèmes particuliers. Le premier concerne la fouille de motifs dits évolutifs, notion qu’il s’agira
de définir précisément et formellement. Le second concerne la fouille interactive dite instantanée,
dans laquelle on privilégie une approche où l’analyste peut recevoir des résultats de l’algorithme
de recherche et le piloter à tout instant : les algorithmes considérés doivent alors être anytime.
Le travail de thèse visera à définir la notion de motif évolutif, à étudier les algorithmes anytime
pour la fouille de motifs temporels évolutifs, à proposer des principes d’interaction pour piloter
de tels algorithmes anytime, à concevoir et implémenter un ou plusieurs systèmes, enfin à valider
ceux-ci du point de vue des performances, de l’utilisabilité, etc.
Mots clés. Motifs évolutifs, traces d’activité, fouille de motifs séquentiels, fouille interactive,
algorithmes anytime
2
Introduction
Contexte et problématique
La motivation à l’origine de ce travail est une problématique applicative particulière, qui
est celle de la détection de la formation et du développement de pratiques des utilisateurs d’outils numériques. Tout utilisateur développe en effet au cours de son activité
des manières d’utiliser une application ou un ensemble d’applications qui dépendent des
outils qui lui sont proposés, mais qui lui sont également particulières. On appelle “instrument numérique” une telle manière personnelle d’utiliser un système [BP12], qui est
notamment caractérisés par des schèmes, des suites d’actions répétitives particulières à
un utilisateur, qu’il a construites au cours de l’appropriation de l’outil. Ces schèmes continuent à évoluer au cours du temps, soit de façon endogène quand l’utilisateur acquiert
des automatismes ou que ses buts évoluent, soit exogène quand le système considéré
évolue (changement de version) ou que le contexte change (e.g. intégration de nouvelles applications). Etudier ces évolutions permet de mieux comprendre le couplage
homme-machine, l’appropriation des outils numérique, mais aussi de proposer des outils
permettant de soutenir les utilisateurs [BPT14]1
La collecte et l’analyse des traces d’utilisation du système permettent d’étudier l’apparition et l’évolution de tels schèmes. Ces traces sont constituées d’une séquence temporelle d’événements correspondant aux actions de l’utilisateur et aux objets sur lesquels
portent ces actions. La détection de la présence et du développement d’un instrument
numérique peut alors baser sur la découverte d’une part de motifs d’activité dans ces
traces, d’autre part des évolutions de ces motifs au cours du temps (on parlera de motifs
évolutifs). Par ailleurs, l’évaluation de la pertinence d’un motif et de son éventuelle évolution ne peut être réalisée que par un analyste humain, dans une approche interactive
permettant de réduire la charge cognitive, de focaliser plus rapidement tout en appréhendant mieux les données [CMS99]. Si cette implication nécessaire de l’utilisateur dans
le processus de fouille de données est, en théorie, sous-jacente à de nombreux travaux
du domaine, elle reste encore largement perfectible [vL14]. Nous nous orientons donc
vers la mise en oeuvre d’un processus de fouille interactive et intuitive des traces d’interaction, dans laquelle l’analyste explore les résultats de la fouille et dirige celle-ci dans la
direction de son choix.
De façon générale, la problématique est celle de la fouille interactive de données
temporelles issues de l’activité humaine pour la détection de motifs évolutifs. Une
telle problématique va au-delà de la détection d’instruments numériques, et s’inscrit de
façon plus générique dans le contexte actuel de l’exploitation de traces d’activité humaine
récoltées par différents senseurs (life logging) en vue d’offrir à un utilisateur des services
liées au mouvements du quantified self, de la e-santé, etc.
1
Cf. le projet DSD Digital Skill Development à nouveau soumis à l’ANR cette année, qui regroupe le
LINA, le LIRIS, l’INRIA Lille et les entreprises Jamespot et Shazino. L’objectif du projet est de fournir des
outils à base de traces pour supporter l’appropriation initiale d’un outil numérique, la montée en expertise,
et la réappropriation après changement de version par exemple.
3
Problèmes et opportunités
L’extraction de motifs temporels, et plus généralement séquentiels, dans des bases de
données est une tâche essentielle de la fouille de données, à laquelle une littérature
abondante est consacrée [GLMS14]. Des algorithmes efficaces et passant l’échelle ont été
proposés, mais comme rappelé dans l’état de l’art récent de Mooney et Roddick [MR13],
il n’existe pas de solution générique. L’effort de recherche porte sur des algorithmes optimisés pour des applications précises, et qui exploitent les contraintes spécifiques des
séquences étudiées. Les domaines d’applications les plus étudiés sont les télécommunications et données géo-localisées, la vente à distance, la détection d’intrusion, la bioinformatique, le text mining, le web usage mining, la supervision de systèmes automatiques
[GH12].
Dans le cas qui nous occupe, deux problèmes principaux sont considérés : 1/ le caractère évolutif des motifs recherchés, et 2/ le caractère instantané du processus de fouille
interactive.
1- Le cas particulier d’extraction de motifs temporels auquel nous nous attaquons ici
est celui des motifs temporels évolutifs que l’on va chercher à repérer dans une trace
d’événements temporelle. Un motif évolutif est défini comme un motif séquentiel qui
évolue suivant la position temporelle ou séquentielle de ses instances dans la trace
dont il est extrait. Nous distinguons trois principaux processus d’évolution :
• évolution de la syntaxe du motif, essentiellement par ajout ou retrait des événements qui le composent (dans le contexte des instruments numériques, une suite
d’actions devient plus efficace en remplaçant des commandes souris par des raccourcis clavier, une action inutile faite par habitude est éliminée, etc.) ;
• évolution des instances du motif, par exemple leur durée (une suite d’action est
exécutée de plus en plus vite), leur fréquence locale, leur pureté (est-ce que d’autres
actions ont lieu en parallèle de l’instance ?) ;
• évolution des propriétés du motif, qui concernent par exemple sa significativité,
une corrélation avec un autre motif, ou des attributs propres aux évènements.
L’extraction de motifs évolutifs dans des données temporelles est un problème difficile qui est peu traité dans la littérature. Ceci peut s’expliquer par le caractère contradictoire que revêt le concept même de motif évolutif : pour pouvoir être détecté dans
les données, un motif est nécessairement une structure stable, i.e. capable de se répéter
à l’identique. Cette contrainte de stabilité est assouplie dans la plupart des travaux, par
exemple en autorisant des éléments génériques (wildcards) dans les motifs [MWW12].
Les règles d’association participent aussi de cet assouplissement puisqu’une règle indique
qu’une partie du motif n’apparaît pas de manière systématique [AMS+ 96]. Dans le cas
des motifs séquentiels, des plages de variation sont autorisées pour les contraintes temporelles qui régissent les écarts entre évènements [BGG07]. Les contraintes d’ordre dans
4
l’apparition des évènements sont aussi parfois relaxées [Bla14, TC11]. Au final, même si
les motifs peuvent présenter des variations, il n’existe pas vraiment de travaux qui s’intéressent à structurer ces variations pour en dégager une tendance d’évolution dans le
temps. A notre connaissance, les seuls travaux que l’on peut inscrire dans cette approche
concernent les règles d’association [JQZ10, BRNK09, LR05, LML01], et portent uniquement sur l’évolution du support et de la confiance des règles, ce qui impose un cadre très
limité pour les éventuelles variations. Ces travaux adoptent un point de vue différent du
nôtre puisqu’ils visent soit à détecter des motifs stables dans le temps (dans l’idée qu’ils
sont plus robustes), soit à prédire des changements de support et de confiance. Traiter la
question des motifs évolutifs dans sa globalité ouvre donc des perspectives inédites.
Il est à noter que des propriétés d’évolution de motifs ont été étudiées récemment
dans la thèse de Rezwan Ahmed [Ahm14], sur des données de graphes. La notion de
motif évolutif n’y est cependant pas traitée comme un objet d’étude à part entière.
2- Nous avons souligné plus haut la nécessaire interactivité liée à la fouille des traces
considérées. La coopération entre le système et l’utilisateur est en théorie une partie intégrante du Knowledge Discovery in Databases depuis son avènement dans les années 90
[FPSS96, BA96], mais elle est souvent réduite dans la pratique à des interactions ponctuelles entre deux exécutions d’un algorithme automatique. Au contraire, les travaux en
IHM et visualisation d’information recommandent que l’analyste puisse suivre aisément
le flux de ses hypothèses et intuitions en association avec le système de fouille, c’est-à-dire
sans avoir à mémoriser d’information sur ce qu’il cherche en attendant que le système
réponde [KAF+ 08, KKEM10, Hol13]. La clé est donc d’offrir des temps de réponse réduits —quasi temps-réel— qui seront les seuls garants d’une véritable interactivité entre
l’utilisateur et le logiciel [Fek13],
L’une des solutions suggérée récemment23 , que nous explorerons, est d’adopter des
stratégies anytime pour proposer une fouille interactive instantanée (Instant Interactive Datamining). Le principe des algorithmes anytime [GZ96] est qu’ils peuvent fournir
une solution valide (mais pas forcément optimale) à un problème à n’importe quel moment, i.e. même s’ils sont interrompus avant la fin de leur exécution. En fouille de données, des approches anytime ont été proposées pour la classification supervisée [SK10]
ou le clustering [KABS11], mais il n’existe aucune technique pour l’extraction de motifs.
Adopter cette voie peut créer un paradigme nouveau pour la fouille de motifs, en rupture avec les approches actuelles qui visent l’optimalité et/ou la complétude des résultats
mais sont bloquantes (batch processing).
Cette thèse a pour objectif d’avancer dans les directions novatrices associées aux deux
2
ECML PKDD 2012 Workshop on Instant Interactive Data Mining sur l’introduction de ce concept. Voir
aussi les workshops IDEA Interactive Data Exploration and Analytics à ECML-PKDD, ainsi que la proposition
de Progressive Visual Analytics [SPG14] dans la communauté Infovis.
3
Atelier Fouille visuelle de données temporelles du groupe de travail EGC/AFIHM “Visualisation d’information, Interaction, et Fouille de données” (2013) dont la conclusion est que prendre la question de
la fouille interactive au sérieux nécessite de s’intéresser en même temps aux algorithmes et à l’interaction
avec ceux-ci, donc de favoriser des algorithmes anytime.
5
questions principales considérées (motifs évolutifs, processus de fouille interactive instantanée), en profitant de la synergie entre elles : la fouille instantanée est appliquée à
un problème particulier, la recherche de motifs évolutifs tire partie du caractère véritablement interactif de la fouille.
Travail demandé
Objectifs
Les objectifs de la thèse sont les suivants :
Définir la notion de motif évolutif et ses propriétés, dans le cas général et dans les
cas particuliers qui nous concernent (en lien avec les traces dont nous disposons, et la
volonté de repérer des schèmes et leurs évolutions). Il s’agit notamment de déterminer
où placer le curseur entre stabilité et évolution. Il nous faudra préciser les évolutions
acceptables pour un motif et celles qui donnent lieu à un nouveau motif. Il sera utile
également de réaliser une première exploration des types d’évolutions présents dans les
données visées, et de les classifier : on pourrait s’attendre par exemple à découvrir des
évolutions monotones ou cycliques, des évolutions continues ou par paliers ou pics.
Étudier les stratégies algorithmiques possibles pour découvrir des motifs évolutifs, par exemple extraction en largeur d’abord (type Apriori) ou en profondeur d’abord
(type FP-growth), nombre de passes sur les données, prises en compte de contraintes,
recherche d’une évolution future ou passée, etc. Il faudra favoriser les stratégies les plus
adaptées aux données de traces dont nous disposons.
Étudier les principes d’interaction qu’il est possible de mettre en oeuvre avec
les algorithmes anytime afin d’atteindre des résultats satisfaisants. En focalisant sur
les stratégies précédentes, on s’intéressera à la visualisation de l’état d’avancement des
algorithmes, de leurs résultats, etc. et aux interactions possibles pour modifier des paramètres, sélectionner des motifs comme pertinents ou non pertinents, zoomer sur une
tranche temporelle intéressante, changer des directions d’exploration, etc. [MPG+ 14]
fournit une base sur l’implication possible de l’utilisateur dans des calculs en cours de
déroulement.
Étudier l’existence ou non d’algorithmes anytime de la littérature portant sur
l’extraction de motifs ou l’analyse de séquences. Il s’agit notamment de pouvoir décider quels algorithmes seraient réutilisables, s’il faudrait rendre anytime des algorithmes
classiques d’extraction de motifs temporels, adopter une heuristique, voire concevoir
complètement de nouveaux algorithmes.
Proposer un ou plusieurs systèmes raisonnablement constructibles mettant en oeuvre
algorithmes anytime et manières d’interagir associées, permettant de valider un certain
nombre d’avancées sur la recherche de motifs évolutifs et la fouille interactive instantanée.
Implémenter ce ou ces systèmes, et les tester dans différentes conditions (e.g.
efficacité dans la recherche de patterns, taille des données traitables, utilisabilité par un
6
analyste, etc.).
Un objectif supplémentaire est bien entendu l’insertion dans les communautés nationales et internationales autour de ces questions (participation à des workshops,
conférences, publications).
Le travail prendra place dans un effort mené au sein de l’équipe DUKe sur la fouille de
traces et s’articulera aux différents projets associés, notamment les ANR 2014 Episteme
(traces de pratiques de recherche en astrophysique) et Hubble (traces liées à l’apprentissage à distance) qui fourniront à la fois traces d’activité et experts. L’ANR 2015 DSD
sera prioritairement mobilisé si accepté (traces d’utilisation d’outils numériques pour le
travail intellectuel).
Notre approche est exploratoire, mais d’après la première étude que nous avons réalisée sur les traces à notre disposition4 , nous ne doutons pas vraiment de la présence de
motifs évolutifs dans ces données. Néanmoins, en cas de difficulté à détecter des évolutions, nous pourrions faire évoluer nos objectifs, par exemple en réduisant la capacité
d’évolution des motifs, ou en choisissant des autres jeux de données d’activité adaptés
(réels ou simulés).
A noter également que Vincent Raveneau a entamé fin janvier un stage de M2R portant sur la « Fouille de motifs évolutifs pour étudier l’appropriation dans un LMS (Learning Management System) ». Son travail, qui devrait apporter quelques résultats à la
thèse, porte sur la définition de la notion de motifs évolutifs et l’analyse de traces issues
de la plateforme d’enseignement de l’Université de Nantes, pour étudier l’appropriation
de la plateforme. Les traces considérées portent sur l’ensemble de la promotion PACES
(1ère année Santé) entre septembre et décembre 2014, et proviennent du projet TTE
(Traces et Technologies Educatives) soutenu par Atlanstic fin 2014.
Plan de travail prévisionnel de l’étude
La première partie du travail consistera à prendre connaissance de façon poussée des
différents domaines visés : traces d’activité humaine et types d’analyse associées, fouille
interactive, fouille de motifs séquentiels (en focalisant sur les données d’activité, notamment web usage mining, analyse de la dynamique des réseaux sociaux), algorithmes
anytime, etc. ce qui donnera lieu à la rédaction d’un rapport bibliographique. De façon
pratique, on prendra également en main différentes traces d’interaction disponibles issues de différents projets (Cinecast, Hubble, TTE, etc.).
La seconde partie visera à définir et à formaliser la notion de motif évolutif, à la fois
dans le cas général et les cas particuliers des traces d’activité choisis pour l’étude, ce qui
sera également l’occasion de préciser les objectifs de la thèse. Cette partie se terminera
par des études théoriques et pratiques plus focalisées sur les stratégies algorithmiques
possibles, la disponibilité éventuelle d’algorithmes anytime pour la recherche de motifs,
la possibilité de rendre anytime des algorithmes existants, et ainsi que la caractérisation des formes d’interaction possibles avec ces algorithmes pour leur pilotage. Ce travail
4
Lors du stage de M1 de Grigori Antipov à Polytech Nantes en juin-juillet 2013.
7
se terminera par la rédaction d’un second rapport (pouvant donner lieu à publication
de types workshop), dans la conclusion duquel on proposera à la conception plusieurs
système interactifs complets ou partiels, associant clairement objectifs de validation, algorithme(s) anytime et principes d’interaction et de pilotage.
La priorisation de ces systèmes en fonction des difficultés de développement et des
gains attendus en terme de résultats permettra de lancer la troisième partie du travail,
au cours de laquelle seront développés un ou plusieurs prototypes, qui seront évalués
du point de vue des performances algorithmiques, de la qualité des résultats obtenus, de
l’interaction avec l’analyste, etc. Une ou plusieurs publication permettront de valoriser
les résultats.
La dernière partie des travaux concernera la rédaction du mémoire, sa soutenance,
ainsi que la finalisation des publications engagées.
Les deux premières parties du travail devraient prendre au total entre 12 et 14 mois ;
la troisième entre 14 et 20 mois et la dernière entre 4 et 6 mois.
Candidats
Compétences
Master en informatique, fouille de données ou statistiques (+ intérêt pour l’interaction
homme-machine) ou interaction homme-machine (+ intérêt pour la fouille de données).
Bonnes compétences en algorithmie et en programmation.
Déclarations de candidature et résultats universitaires connus
Vincent Raveneau, actuellement en stage M2R avec Julien Blanchard et Yannick Prié, est
candidat sur ce sujet de thèse. Il a été major dans la promo de M1 ALMA en 2013-2014,
et devrait être major du M2 ATAL en 2014-2015.
8
Vincent Raveneau
Étudiant en Master Informatique,
spécialité ATAL
60 rue du Fresche Blanc
Cité Fresche Blanc, Chambre 24
44300 Nantes
H 06 98 30 26 56
B [email protected]
21 ans – Permis B
Formations
Actuellement Master 2 Informatique, Université de Nantes (44).
Apprentissage et Traitement Automatique du Langage (ATAL)
2013 – 2014 Master 1 Informatique, Université de Nantes (44).
Spécialité Architectures Logicielles (ALMA) – Major de promotion
2010 – 2013 Licence Informatique, Université d’Angers (49).
Compétences
Informatiques
Domaines Apprentissage automatique, Traitement automatique de la langue, Fouille de textes et
recherche d’information, Architectures logicielles
Langages
Web
Conception
Frameworks
OS
Logiciels
Divers
Python, Java, C++, C, Scala, SQL, OCaml, R(notions), Java pour Android
xHTML, CSS, Javascript, PHP, XML, SPARQL, J2EE
UML, Design Patterns, Merise, XUnit
UIMA, Qt, SFML
Linux (Ubuntu), Windows (XP, 7, 8)
Eclipse, Subversion, Git, LATEX
Méthodes Agiles (Scrum)
Générales
Connaissances Notions de gestion et de communication
Anglais Compétence professionnelle (lu/écrit/parlé)
Expériences Professionnelles
Avril - Juillet Développeur stagiaire, Recherche et Développement, Horoquartz, Nantes.
2014 Au sein du département Recherche et Développement de l’entreprise, amélioration de la gestion
des règles métier d’un Business Rule Management System (BRMS):
{ Modélisation de l’architecture des règles
{ Développement d’interface utilisateur
{ Analyse automatique du contenu existant
{ Langages : Java (Swing), SQL, C++
{ Outils : MySQL, Eclipse
Avril - Juin 2013 Développeur Stagiaire, Université d’Angers, Angers.
Dans le cadre du stage de fin de L3, réalisation d’un outil générant procéduralement un monde
3D constitué de blocs de différents types.
{ Prise en compte des contraintes liées au traitement d’un gros volume de données
{ Utilisation d’algorithmes de génération procédurale
{ Langage: C++
{ Outils: Qt, OpenGL 2.1, libnoise
Centres d’intérêt
Cinéma Films et Séries TV en version originale
RELEVE DE NOTES
Année 2013 / 2014 - Session 1
N° étudiant : 13A071T
N° Formation : 5250
M. RAVENEAU, Vincent
M1 Informatique, niveau 1, ARCHITECTURES LOGICIELLES
X7II010 Génie logiciel (6 ECTS) coef 1
Génie logiciel : 12,00/20
X7II020 Web des données, web sémantique (6 ECTS) coef 1
12,00/20
CC:12,50/20 EX:10,50/20 TPCC:15,00/20
11,80/20
Web des données, web sémantique : 11,80/20
X7II030 Concepts et outils de développement (6 ECTS) coef 1
Concepts et outils de développement : 14,45/20
CC:14,00/20 EX:10,00/20 TPCC:13,00/20
14,45/20
CC:16,50/20 EX:14,00/20 TPCC:12,50/20
Admis/e
X7II040 Techniques de communication (1 ECTS) coef 0.33
Techniques de communication : 15,00/20
X7II050 Anglais 1 (3 ECTS) coef 0.67
15,00/20
Admis/e
TDCC:15,00/20
15,76/20
Admis/e
Anglais 1 : 15,76/20
X7IA030 Programmation Web et Cloud (4 ECTS) coef 1
Programmation Web et Cloud : 12,10/20
CC:15,76/20[CCO: 16,50 TDCCE: 15,00 ]
12,10/20
CC:10,50/20 EX:11,50/20 TPCC:16,00/20
Admis/e
X7IA040 Vérification et tests (4 ECTS) coef 1
Vérification et tests : 12,50/20
X8II130 Interfaces homme-machine (5 ECTS) coef 1
12,50/20
CC:15,50/20 EX:12,50/20 TPCC:8,00/20
14,80/20
Interfaces homme-machine : 14,80/20
X8II030 Initiation à la recherche (6 ECTS) coef 1
Introduction à la recherche : 11,50/20
Mémoire de recherche : 14,33/20
X8II040 Connaissances de l'entreprise (1 ECTS) coef 0.33
Connaissances de l'entreprise : 8,00/20
X8II050 Anglais 2 (3 ECTS) coef 0.67
Anglais 2 : 15,61/20
X8IA010 Réseaux et protocoles internet (5 ECTS) coef 1
Réseaux et protocoles internet : 9,98/20
X8IA020 Compilation (5 ECTS) coef 1
Compilation : 17,05/20
X8IA030 Conception de logiciels extensibles (5 ECTS) coef 1
Conception de logiciels extensibles : 16,10/20
CC:12,00/20 EX:16,00/20 TPCC:16,00/20
13,76/20
CMCC:11,50/20
CC:14,00/20 TPCC:14,50/20[TPCCE: 14,00 TPCCP: 15,00 ]
8,00/20
TDCC:8,00/20
15,61/20
CC:15,61/20[CCO: 14,50 TDCCE: 16,75 ]
9,98/20
CC:10,75/20 EX:7,50/20 TPCC:15,00/20
17,05/20
CC:17,00/20 EX:17,50/20 TPCC:16,00/20
16,10/20
CC:14,50/20 EX:17,00/20 TPCC:16,25/20
Admis/e
TE
S
A
N
N
E
D
TE
ER
SI
Admis/e
Admis/e
Admis/e
Admis/e
Valid/Compens.
Admis/e
Valid/Compens.
Admis/e
Admis/e
Moyenne : 13.6 Résultat : ADMIS(E) (1° sur 16 présents - 12 admis)
U
N
IV
Nantes, le 13/05/2014
Le président de l'Université
Si vous estimez que la décision prise par l'administration est contestable vous pouvez former un recours gracieux devant Monsieur le Président de l'Université de Nantes (1 quai
de Tourville, BP 13522 44035 Nantes Cedex1) et/ou un recours contentieux auprès du tribunal administratif dans les 2 mois suivant la date de la présente notification (Monsieur
le Président du Tribunal administratif, 6 allée de l'Ile Gloriette 44000 Nantes).
Bibliographie
[Ahm14]
Rezwan Ahmed. Algorithms for mining evolving patterns in dynamic relational
networks. Ph.d. dissertation, University of Minnesota, 2014.
[AMS+ 96] Rakesh Agrawal, Hiekki Mannila, Ramakrishnan Srikant, Hannu Toivonen,
and A. Inkeri Verkamo. Fast discovery of association rules. In Advances in
knowledge discovery and data mining, pages 307–328. American Association
for Artificial Intelligence, 1996.
[BA96]
J.R. Brachman and T. Anand. The process of knowledge discovery in databases : a human-centered approach. In Usama M. Fayyad, Gregory PiatetskyShapiro, Padhraic Smyth, and Ramasamy Uthurusamy, editors, Advances in
knowledge discovery and data mining, pages 37–58. AAAI/MIT Press, 1996.
[BGG07]
Julien Blanchard, Fabrice Guillet, and Regis Gras. On the discovery of significant temporal rules. In Proceedings of the IEEE Conference SMC’2007, pages
443–450. IEEE Computer Society Press, 2007.
[Bla14]
Julien Blanchard. Motifs récursifs : extraction ascendante hiérarchique d’ensembles d’items ou d’évènements pour le résumé de données transactionnelles ou séquentielles. Revue des Nouvelles Technologies de l’Information,
E-26 :443–448, 2014. Actes des journées Extraction et Gestion des Connaissances (EGC) 2014.
[BP12]
Amaury Belin and Yannick Prié. Diam : Towards a model for describing appropriation processes through the evolution of digital artifacts. In Proceedings
of the Designing Interactive Systems Conference, DIS ’12, pages 645–654. ACM,
2012.
[BPT14]
Amaury Belin, Yannick Prié, and Aurélien Tabard. Supporting the development of digital skills. In Proceedings of Digital Intelligence 2014, 2014.
[BRNK09] M. Bottcher, G. Ruß, D. Nauck, and R. Kruse. From change mining to relevance feedback : A unified view on assessing rule interestingness. In Y. Zhao,
C. Zhang, and L. Cao, editors, Post-Mining of association rules : Techniques for
effective knowledge extraction, page 12–37. IGI Global, 2009.
11
[CMS99]
Stuart K. Card, Jock Mackinlay, and Ben Shneiderman. Readings in Information Visualization : Using vision to think. Morgan Kaufmann, 1999.
[Fek13]
J.-D. Fekete. Visual analytics infrastructures : From data management to
exploration. IEEE Computer, 46(7) :22–29, July 2013.
[FPSS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From
data mining to knowledge discovery : an overview. In Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth, and Ramasamy Uthurusamy, editors, Advances in knowledge discovery and data mining, pages 1–34. AAAI/MIT
Press, 1996.
[GH12]
M. Gupta and J. Han. Applications of pattern discovery using sequential data
mining. In P. Radha Krishna Pradeep Kumar and S. Bapi Raju, editors, Pattern
Discovery Using Sequence Data Mining : Applications and Studies, pages 137–
–154. IGI-Global, 2012.
[GLMS14] Arnaud Giacometti, Dominique H. Li, Patrick Marcel, and Arnaud Soulet. 20
years of pattern mining : A bibliometric survey. SIGKDD Exploration Newsl.,
15(1) :41–50, March 2014.
[GZ96]
Joshua Grass and Shlomo Zilberstein. Anytime algorithm development tools.
SIGART Bull., 7(2) :20–27, April 1996.
[Hol13]
A. Holzinger. Human-computer interaction and knowledge discovery (hcikdd) : What is the benefit of bringing those two fields to work together ? In
Proceedings of CD-ARES’13, pages 319–328, 2013.
[JQZ10]
Feng Jingjing, Zeng Qingfei, and Zhang Zhonglin. A method of mining the
meta-association rules for dynamic association rule based on the model of
ar-markov. In Networks Security Wireless Communications and Trusted Computing (NSWCTC), 2010 Second International Conference on, volume 2, pages
210–214, April 2010.
[KABS11] Philipp Kranen, Ira Assent, Corinna Baldauf, and Thomas Seidl. The clustree : Indexing micro-clusters for anytime stream mining. Knowl. Inf. Syst.,
29(2) :249–272, November 2011.
[KAF+ 08] Daniel Keim, Gennady Andrienko, Jean-Daniel Fekete, Carsten Görg, Jörn
Kohlhammer, and Guy Melançon. Information visualization. chapter Visual
Analytics : Definition, Process, and Challenges, pages 154–175. SpringerVerlag, Berlin, Heidelberg, 2008.
[KKEM10] Daniel A. Keim, Jörn Kohlhammer, Geoffrey Ellis, and Florian Mansmann.
Mastering the Information Age - Solving Problems with Visual Analytics. Eurographics Association, 2010.
12
[LML01]
Bing Liu, Yiming Ma, and R. Lee. Analyzing the interestingness of association rules from the temporal dimension. In Data Mining, 2001. ICDM 2001,
Proceedings IEEE International Conference on, pages 377–384, 2001.
[LR05]
Jinfeng Liu and Gang Rong. Mining dynamic association rules in databases.
In Yue Hao, Jiming Liu, Yuping Wang, Yiu-ming Cheung, Hujun Yin, Licheng
Jiao, Jianfeng Ma, and Yong-Chang Jiao, editors, Computational Intelligence
and Security, volume 3801 of Lecture Notes in Computer Science, pages 688–
695. Springer Berlin Heidelberg, 2005.
[MPG+ 14] T. Muhlbacher, H. Piringer, S. Gratzl, M. Sedlmair, and M. Streit. Opening the
black box : Strategies for increased user involvement in existing algorithm
implementations. IEEE Transactions on Visualization and Computer Graphics,
20(12) :1643–1652, December 2014.
[MR13]
Carl H. Mooney and John F. Roddick. Sequential pattern mining – approaches and algorithms. ACM Comput. Surv., 45(2) :19 :1–19 :39, March
2013.
[MWW12] Fan Min, Youxi Wu, and Xindong Wu. The apriori property of sequence pattern mining with wildcard gaps. I. J. Functional Informatics and Personalised
Medicine, 4(1) :15–31, 2012.
[SK10]
J. Shieh and E. Keogh. Polishing the right apple : Anytime classification also
benefits data streams with constant arrival times. In Data Mining (ICDM),
2010 IEEE 10th International Conference on, pages 461–470, Dec 2010.
[SPG14]
C.D. Stolper, A. Perer, and D. Gotz. Progressive visual analytics : User-driven
visual exploration of in-progress analytics. IEEE Transactions on Visualization
and Computer Graphics, 20(12) :1653–1662, December 2014.
[TC11]
Nikolaj Tatti and Boris Cule. Mining closed episodes with simultaneous
events. In Proceedings of the 17th ACM SIGKDD International Conference
on Knowledge Discovery and Data Mining, KDD ’11, pages 1172–1180. ACM,
2011.
[vL14]
Matthijs van Leeuwen. Interactive data exploration using pattern mining. In
Andreas Holzinger and Igor Jurisica, editors, Interactive Knowledge Discovery
and Data Mining in Biomedical Informatics, volume 8401 of Lecture Notes in
Computer Science, pages 169–182. Springer, 2014.
CV du directeur de thèse
Voir ci-après.
13
Yannick Prié
Né le : 16/11/1971 à Montbéliard (25)
Nationalité français
Concubin un enfant
06 24 99 48 87
[email protected]
http://yannickprie.net
11 rue du coteau
44100 Nantes
Poste actuel
Professeur en Informatique Université de Nantes - Département Informatique PolytechLaboratoire d'Informatique Nantes Atlantique (LINA UMR 6241)
Formation et diplômes
Nov. 2011
Déc. 1999
Sept. 1995
Sept. 1995
HDR en Informatique Université Claude Bernard Lyon 1
Vers une phénoménologie des inscriptions numériques :
Dynamique de l’activité́ et des structures informationnelles
dans les systèmes d’interprétation
Doctorat d’Informatique INSA de Lyon (Félicitations)
Modélisation de documents audiovisuels en Strates Interconnectées
par les annotations pour l’exploitation contextuelle
DEA Informatique Université de Rennes 1 (Très bien)
Contribution à une clarification des rapports entre Sémantique
interprétative et Informatique
Ingénieur Informatique Télécom Bretagne, Brest
Parcours
Sept. 2000 – août 2012
Nov. 1996 - Déc. 1999
Sept. 1995 - août. 1996
MCF Département Informatique Faculté de Sciences et Technologies
Laboratoire d'InfoRmatique en Image et Systèmes d'information
(LIRIS UMR 5205) – auparavant : LISI (2000-2002)
Titulaire PES 2011-2015
Titulaire PEDR 2007-2011
Ingénieur de recherche sur Contrat, INSA de Lyon
Thèse de doctorat, Spécialité Informatique.
Vacataire à CPE-Lyon et INSA de Lyon
Service National, Assistant Scientifique et Technique, Etablissement
Principal du Service Hydrographique et Océanographique de la
Marine (EPSHOM), Brest.
Activités de recherche
Ancrage disciplinaire : Interaction homme-machine (IHM), Ingénierie des Connaissances (IC) et
ingénierie documentaire, en lien avec les environnements d’apprentissage humain
(EIAH), la gestion des connaissances (KM).
Interdisciplinarité avec des chercheurs en information et communication, sociologie,
psychologie, ergonomie, sciences de l’éducation, médecine, design, lettres, etc.
Mots-clés : activité instrumentée, adaptation, annotations, aspects cognitifs de l’utilisation
d’outils numériques, hypervidéos, interprétation, learning analytics, multimédia, réflexivité,
systèmes d’interprétation, traces numériques.
11 encadrements de doctorants
14 encadrements de DEA et Master recherche
1
22 projets collaboratifs (ANR, FUI, Investissement d’avenir, etc.) – Quelques projets en cours :
Episteme (ANR), Hubble (ANR), Musimorphose (ANR), Meta-Education (Investissement d’Avenir)
Production
6 publications dans des revues internationales avec comité de lecture
31 articles dans des actes de conférences internationales avec comité de lecture dont 10 longs
pour des conférences internationales sélectives
9 articles dans des revues nationales avec comité de lecture
24 articles dans des actes de conférences nationales avec comité de lecture
24 articles dans des workshops internationaux (16) et nationaux (7) avec comité de lecture
4 chapitres d’ouvrages
Logiciels : Advene (advene.org), Visu (visu-tutorat.org), COCo (comin-ocw.org), Describe, KTBS
Activités d’enseignement
Département informatique Polytech
• Conception de systèmes d’information
• Méthodes et outils pour la gestion de projets
• Interation Homme-Machine et visualisation d’information
• Algorithmique, langages (C, C++, JAVA, ocaml),
• Outils et méthodologie pour la recherche
Initiateur et animateur du MOOC @ddict? sur les addictions au numérique (janvier-février 2015)
Divers
Directeur adjoint du Département Informatique de Polytech Nantes (2014-)
Co-responsable du Diplôme Universitaire DESSiiN (DESign de Services Interactifs INnovants Objets
communicants & Interfaces tangibles) (2014-)
Co-responsable du projet Comin Opencourseware (Labex Cominlabs et Région Pays de Loire)
Membre de la commission des thèses du LINA (2012- )
Membre élu du conseil de la recherche Polytech Nantes (2012- )
Responsable des contrats de professionnalisation du Département INFO Polytech (2012-2014)
Participation au montage du volet universitaire du Quartier de la Création à Nantes
2
CV du co-encadrant
Voir ci-après.
16
Curriculum Vitae
Present Position
Associate Professor
Photo
Family name
First name(s)
Gender (M/F)
E-mail
Blanchard
Julien
M
Polytech Nantes - Ecole polytechnique de l’université de Nantes
Rue C. Pauc – BP 50609
F-44306 Nantes Cedex 3 - France
[email protected]
Web site
http://www.polytech.univ-nantes.fr/blanchard/
Office-Phone
Tél : (+33)2 40 68 30 66
Office address
Cellular phone
Citizen
Date of birth
French
22/11/1978
Since 2006 : Associate Professor - Polytech Nantes
Positions Held
Education
Memberships and
functions within
international/national
institutions
(3 maxi)
Year
2005
University
Nantes (France)
Diploma
Ph.D. in Computer Science
- since 2009: responsible for Business Intelligence speciality in the Computer
Science Department of Polytech Nantes
- since 2010: co- responsible for the KDD master in Polytech Nantes.
- since 2004: Researcher at the LINA, the Computer Science Laboratory of
Nantes-Atlantic (UMR CNRS 6241), in the Data User Knowledge (DUKe) team.
Relations with foreign
universities in particular
in third countries
(3 maxi)
- Can Tho University (Vietnam)
- Hochschule Hof (University of Applied Sciences, Hof - Germany)
- Politehnica University of Bucarest (Romania)
Contacts and
collaborations with
industry (2 principal
collaborations over the 4
last years)
- CIFRE PhD grant with VM Matériaux (France)
- CIFRE PhD grant with EDF R&D (France)
- Innovative project with Telelogos SAS and VM Matériaux (France)
Short description of your
expertise in the domain
of Data Mining and/or
Knowledge
Management
Frequent pattern mining
Sequence mining
Knowledge evaluation
Knowledge visualization
Last publications
a – Journals :
J. Blanchard, F. Guillet, H. Briand (2007). Interactive visual exploration of association rules with rulefocusing methodology. Knowledge and Information Systems 13(1), Springer, p. 43-75
J. Blanchard, B. Pinaud, P. Kuntz, F. Guillet (2007). A 2D–3D visualization support for humancentered rule mining. Computers & Graphics 31(3), Elsevier Science, p. 350-360
b – Book Chapters :
L. Pepin, J. Blanchard, F. Guillet, P. Kuntz, P. Suignard (2014). Visual analysis of topics in Twitter
based on co-evolution of terms. In "Data Science, Learning by Latent Structures, and Knowledge
Discovery". B. Lausen, S. Krolak-Schwerdt, M. Böhmer (Eds.), Springer
Z. Ben Said, F. Guillet, P. Richard, J. Blanchard, F.Picarougne (2012). An Overview of Interaction
Techniques and 3D Representations for Data Mining. In "Applications of Virtual Reality". Cecilia Sik
Lanyi (Ed.), InTech, p. 185-210
J. Blanchard, F. Guillet, P. Kuntz (2009). Semantics-based classification of rule interestingness
measures. In "Post-Mining of Association Rules: Techniques for Effective Knowledge Extraction".
Zhao Y., Zhang C., Cao L. (Eds.), IGI Global, p. 56-79
X.-H. Huynh, F. Guillet, J. Blanchard, P. Kuntz, H. Briand, R.Gras (2007). A graph-based clustering
approach to evaluate interestingness measures: a tool and a comparative study. In "Quality
Measures in Data Mining". H. Hamilton and F. Guillet (Eds.), series "Studies in Computational
Intelligence", vol. 43, Springer, p. 25-49
c – Conferences :
Z. Ben Said, F. Guillet, P. Richard, F.Picarougne, J. Blanchard (2013). Visualisation of association
rules based on a molecular representation. Proc. of the 17th International Conference Information
Visualisation IV2013, p. 577-581
T. Piton, J. Blanchard, F. Guillet. (2011). CAPRE: A New Methodology for Product
Recommendation Based on Customer Actionability and Profitability. Proc. of 2011 IEEE
International Conference on Data Mining Workshops, IEEE Computer Society, p. 466-473
T. Piton, J. Blanchard, H. Briand, F. Guillet (2009). Domain Driven Data Mining to Improve
Promotional Campaign ROI and Select Marketing Channels. Proc. of the 18th ACM Conference on
Information and Knowledge Management CIKM 2009, ACM, p. 1057-1066
J. Blanchard, F. Guillet, R. Gras (2007). On the discovery of significant temporal rules. In Proc. of
the IEEE international conference on Systems, Man and Cybernetics SMC'2007, IEEE Computer
Society Press, p. 443-450

Documents pareils