CV - Irisa

Transcription

CV - Irisa
Dr. Nicolas B ÉCHET
1
1
IDENTIFICATION / DONNÉES ADMINISTRATIVES
Identification / Données administratives
1.1
Identification
Prénom
Nicolas
Nom
Béchet
Date de naissance
22 avril 1980
Lieu de naissance
Blois (41)
Adresse
4 lotissement cöet person
56 400 Plumergat
Adresse professionnelle
IRISA/CNRS UMR 6074 Université de Bretagne-Sud
Campus de Tohannic, Rue Yves Mainguy
BP 573 - 56017 Vannes cedex
Téléphone
06 63 36 46 23
Adresse électronique
[email protected]
Situation de famille
Pacsé, sans enfant
Permis B
Fonction actuelle
Maître de Conférences
Affiliation
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Équipe EXPRESSION
Site Web
http://people.irisa.fr/Nicolas.Bechet/
1.2
1.2
Formation
1
IDENTIFICATION / DONNÉES ADMINISTRATIVES
Formation
2006–2009
Doctorat d’Informatique
Extraction et regroupement de descripteurs morpho-syntaxiques
pour des processus de Fouille de Textes
Thèse sous la direction de Jacques Chauché et Mathieu Roche
Université de Montpellier 2 (34)
2005–2006
Master Informatique, Mention Bien, Major de la partie théorique
Université de Tours (37)
2004–2005
Maîtrise d’IUP GEII option informatique et télécommunications
Université de Tours (antenne de Blois)
2003–2004
Licence d’IUP GEII option informatique et télécommunications
Université de Tours (antenne de Blois)
1999–2003
DEUG d’IUP GEII option informatique et télécommunications
Université de Tours (antenne de Blois)
1998–1999
Baccalauréat scientifique
Lycée Augustin Thierry de Blois (41)
1.3
Parcours professionnel
Depuis 2013
Maître de Conférences à l’IRISA, au sein de l’équipe EXPRESSION.
2012–2013
Post-Doctorant au GREYC, au sein de l’équipe CODAG
sous la responsabilité de Antoine Widlöcher.
2011–2012
Post-Doctorant au GREYC, au sein de l’équipe CODAG
sous la responsabilité de Thierry Charnois et Bruno Crémilleux.
2010–2011
Post-Doctorant à l’INRIA Rocquencourt, au sein du projet AxIS
sous la responsabilité de Yves Lechevallier et Marie-Aude Aufaure.
2009–2010
ATER à l’Université Montpellier 1 (192 heures d’enseignement équivalent TD).
2006–2009
Allocataire de recherche au laboratoire LIRMM (Université Montpellier 2 - CNRS).
Financement BDI Région/CNRS.
2006–2009
Moniteur (64 heures équivalent TD par année universitaire) à l’IUT de Béziers, Université Montpellier 2.
2005–2006
Stagiaire au sein du LI de Tours sous la direction de Denis Maurel.
2
2
ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011)
Activités scientifiques (depuis 2011)
Mes travaux de recherche sont focalisés sur le traitement automatique des langues (TAL) et de la fouille de textes.
Je me spécialise plus particulièrement sur l’extraction de connaissances par le biais de la sélection de descripteurs
et la recherche de motifs dans des données textuelles.
J’ai notamment développé des méthodes de sélection et de filtrage de descripteurs pertinents dans les textes. Le
point fort des méthodes proposées est l’émergence de nouvelles connaissances, notamment sémantiques, en se
fondant sur les propriétés morpho-syntaxiques des textes. Elles ont notamment été particulièrement efficaces pour
des tâches d’extraction d’information, de classification ou d’enrichissement de classes conceptuelles (cf. [1]).
J’ai par ailleurs proposé une méthode plus adaptée aux données bruités. Fondé sur l’hybridation d’approches de
type n-grammes et de filtrages grammaticaux afin de sélectionner des descripteurs plus adaptés, cette méthode s’est
montrée particulièrement prometteuse dans le cadre de tâche de classification de documents bruités (textes issus
de blogs et de numérisation OCR). Elle a par la suite été enrichie afin de traiter des problématiques d’alignement
de documents textuelles (cf. [4]).
La fouille de données est également un domaine qui me motive, et plus particulièrement l’hybridation des méthodes de fouille de données avec le TAL. Je poursuis actuellement ces travaux en approfondissant les aspects
fouilles de données par la mise en œuvre d’algorithmes de fouille de motifs séquentiels avec différentes représentations condensées dont les premiers résultats sont prometteurs (cf. [5]). Le point fort ce ces algorithmes de fouille
de motifs séquentiels est la possibilité d’extraire les motifs sous contraintes multiples ayant des propriétés antinomiques comme une contrainte de gap, de longueur, et d’appartenance. Ces travaux sont toujours l’objet de diverses
réflexions et améliorations, notamment d’ordres combinatoire mais également d’un point de vue utilisateur.
Les applications de cet algorithme sont multiples. J’ai par exemple contribué à la proposition d’une méthode permettant d’extraire des patrons linguistiques se fondant sur l’extraction de motifs séquentiels. Il existe peu de travaux
utilisant les motifs séquentiels pour le TAL et nous pensons qu’il s’agit d’une voie originale et prometteuse. Les
applications sont multiples et j’ai notamment travaillé sur la découverte de constituant détachés et la détection de
relations entres des gènes et des maladies rares (cf. [2,6]).
Publications et production scientifique
1 – Kessler R., Béchet N., Roche M., Torres-Moreno J.M., El-Bèze M. A Hybrid-based Approach to Manage Job
Offers and Candidates.
In Information Processing and Management - IPM, 2012.
[Rang A, IF : 1.67 en 2011]
Cet article présente une approche originale liée au profilage des candidatures en fonction d’une offre d’emploi
précise. Cette publication majeure dans une revue reconnue montre mes capacités à m’investir dans un travail
collaboratif. J’ai notamment apporté ma contribution sur les différentes méthodes de sélection de descripteurs développées et utilisées. Ces travaux sont la synthèse de trois années de partenariat avec le LIA Ils ont été à l’origine
de nombreux échanges scientifiques pertinents et enrichissants.
2 – Béchet N., Chauché J., Prince V., Roche M. How to combine text-mining methods to validate induced VerbObject relations ?
In Computer Science and Information Systems, 2014, Volume 11, Issue 1, Pages : 133-155.
[Rang B, IF : 0.54 en 2012]
Cet article développe des approches visant à valider des relations syntaxiques induites de type Verbe-Objet. Ces
approches reposent sur l’utilisation d’information sémantiques et des techniques de Web Mining. Outre la valorisation de cette méthode, cet article me semble pertinent car il est une synthèse de mes travaux réalisés sur la
découverte de descripteurs par des méthodes syntaxiques. Il montre d’une part l’intérêt scientifique des méthodes
présentées mais également des cas applicatifs.
3 – Béchet N., Cellier P., Charnois T., Crémilleux B. Sequence Mining under Multiple Constraints.
In proceedings of the 30th ACM/SIGAPP Symposium On Applied Computing - SAC’2015 ,to appear.
2
ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011)
[Rang B, taux de sélection : 26 % en 2014]
Cet article présente un algorithme d’extraction de motifs séquentiels sous contraintes multiples, permettant de
combiner à la fois les techniques de représentation condensées de motifs séquentiels et celles de la fouille de
données sous contraintes ce qui représente une avancée significative dans le domaine. Cet algorithme est utilisé
dans la plate-forme SDMC (cf. Section Diffusion logicielle).
4 – Béchet N., Cellier P., Charnois T., Crémilleux B. Discovering linguistic patterns using sequence mining.
In proceedings of 13th International Conference on Intelligent Text Processing and Computational Linguistics CICLing’2012.
Cet article présente une approche d’extraction de patrons linguistiques. Elle se fonde sur l’extraction de motifs
séquentiels, puis la validation de ces derniers en tant que patrons linguistiques en exploitant l’ordre partiel des
motifs. Cette publication montre mon intérêt pour la fouille de données, et plus particulièrement l’hybridation de
la fouille avec d’autres types de méthodes comme dans ce cas le TAL, tout en valorisant mon partenariat avec
l’IRISA.
[Rang B, taux de sélection : 23 % en 2012]
5 – Bringay S., Béchet N., Bouillot F., Poncelet P., Roche M., Teisseire M. Towards an On-Line Analysis of Tweets
Processing.
In In proceedings of the 22nd International Conference on Database and Expert Systems Applications - DEXA’2011,
in Proceedings Part II, p. 154-161.
[Rang B]
Dans cet article, nous définissons un modèle d’entrepôt de données, permettant l’analyse d’un large volume de
Tweets par la proposition de mesure permettant l’agrégation de données textuelles. Cette publication est significative, outre ses résultats scientifiques présentés, car valorisant une collaboration avec l’équipe fouille de données du
LIRMM.
Liste des publications depuis 2011
Revues nationales et internationales
[1] Béchet N., Chauché J., Prince V., Roche M. How to combine text-mining methods to validate induced VerbObject relations ?
In Computer Science and Information Systems, 2014, Volume 11, Issue 1, Pages : 133-155.
[2] Béchet N., Cellier P., Charnois T., Crémilleux B. Fouille de motifs séquentiels pour la découverte de relations
entre gènes et maladies rares.
Revue d’Intelligence Artificielle Volume 28(2-3), Pages 245-270 (2014)
[3] Kessler R., Béchet N., Roche M., Torres-Moreno J.M., El-Bèze M. A Hybrid-based Approach to Manage Job
Offers and Candidates.
In Information Processing and Management - IPM, 2012.
[4] Laroum S., Béchet N., Hamza H., Roche M. Hybred : An OCR document representation for the classification
tasks.
In International Journal of Computer Science Issues - IJCSI, 2011
Conférences internationales
[5] Béchet N., Cellier P., Charnois T., Crémilleux B. Sequence Mining under Multiple Constraints.
In proceedings of the 30th ACM/SIGAPP Symposium On Applied Computing - SAC’2015 ,to appear.
[6] Béchet N., Cellier P., Charnois T., Crémilleux B. Sequential Pattern Mining to Discover Relations between
Genes and Rare Diseases.
In proceedings of the 25th IEEE International Symposium on Computer-Based Medical Systems - CBMS’2012.
[7] Béchet N., Cellier P., Charnois T., Crémilleux B. Discovering linguistic patterns using sequence mining.
In proceedings of Springer LNCS, 13th International Conference on Intelligent Text Processing and Computational
Linguistics - CICLing’2012, Vol. 1, p. 154-165.
[8] Béchet N., Csernel M. Comparing Sanskrit Texts for Critical Editions : the sequences move problem.
2.1
Encadrement doctoral et scientifique
2
ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011)
In proceedings of 13th International Conference on Intelligent Text Processing and Computational Linguistics CICLing’2012 (posters proceedings).
[9] Bringay S., Béchet N., Bouillot F., Poncelet P., Roche M., Teisseire M. Towards an On-Line Analysis of Tweets
Processing.
In In proceedings of the 22nd International Conference on Database and Expert Systems Applications DEXA’2011, in Proceedings Part II, p. 154-161.
Workshops internationaux
[10] Ghadfi S., Béchet N., Berio G. : Building Ontologies from Textual Resources : A Pattern Based Improvement
Using Deep Linguistic Information.
In In WOP’2014 (Workshop on Ontology and Semantic Web Patterns) pages 14-25.
[11] Bouillot F., Nhat Hai P., Béchet N., Bringay S., Ienco D., Matwin S., Poncelet P., Roche M., Teisseire M.
How to Extract Relevant Knowledge from Tweets ?
In Springer CCSI (Communications in Computer and Information Science), post proceedings of ISIP’2012 (International Workshop on Information Search, Integration and Personalization).
Conférences nationales
Kessler R., Béchet N., Laplante A., Forest D. : Détection de périodes musicales d’une collection de musique par
apprentissage.
In TALN’2014, papier court.
[13] Béchet N., Cellier P., Charnois T., Crémilleux B. Extraction de motifs séquentiels sous contraintes multiples.
In EGC’2013 (Extraction et Gestion des Connaissances, poster proceedings).
[14] Béchet N., Cellier P., Charnois T., Crémilleux B. Fouille de motifs séquentiels pour la découverte de relations
entre gènes et maladies rares. In 23èmes journées francophones d’Ingénierie des Connaissances (IC 2012).
[15] Bringay S., Béchet N., Bouillot F., Poncelet P., Roche M., Teisseire M. Analyse de gazouillis en ligne.
In EDA’2011 (Entrepôts de Données et l’Analyse en ligne).
[16] Béchet N., Aufaure M.-A., Lechevallier Y. Construction et peuplement de structures hiérarchiques de concepts
dans le domaine du e-tourisme.
In IC’2011 (Ingénierie des connaissances). p.475-490.
Ateliers nationaux
[17] Alatrista Salas H., Béchet N. Fouille de texte : une approche séquentielle pour découvrir des relations spatiales.
In Construction, enrichissement et exploitation de ressources GEOgraphiques pour l’analyse de données (CERGEO’2014), Atelier à EGC’2014.
[18] Béchet N., Cellier P., Charnois T., Crémilleux B., Quiniou S. SDMC : un outil en ligne d’extraction de motifs
séquentiels pour la fouille de textes.
In Démonstration à EGC’2013 (Extraction et Gestion des Connaissances).
2.1
Encadrement doctoral et scientifique
– Lancement d’une thèse CIFRE avec la société Jurismarché (septembre 2015) intitulée “Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de
textes”. Cette thèse sera également co-encadré par Pierre-François Marteau (PR, IRISA), Jeanne Villaneau (MC,
IRISA) et Frédéric Oliveau, Alexandre Garel pour la société Jurismarché.
Nous sommes actuellement en phase de recrutement et avons reçu plusieurs candidatures pertinentes nous permettant d’envisager le démarrage de cette thèse en septembre 2015.
2.2
Diffusion scientifique
2
ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011)
– Stage d’Ines Dabbebi. Étudiante en Master 2 recherche en sciences et techniques de l’informatique décisionnelle, option informatique (ISG Tunis). Ce stage débuté récemment porte sur la fouille de motifs séquentiels émergents afin de caractériser des registres de langue.
Période : du 02/03/2015 au 31/07/2015.
Encadrement à hauteur de 50%. Ce stage est co-encadré par Gwénolé Lecorvé (50%, MC IRISA)
– Stage de Sami Ghadfi. Étudiant préparant un diplôme d’ingénieur à l’ENSIBS, Sami à souhaité réaliser son stage
de fin d’années dans un laboratoire de recherche. Ce stage à porté sur l’amélioration des méthodes d’extraction
automatique des ontologies à partir de données textuelles. Il a été valorisé par une publication [10]. Sami est
actuellement en CDD Ingénieur au LORIA dans l’équipe ORPAILLEUR. Période : du 03/03/2014 au 05/09/2014.
Encadrement à hauteur de 50%. Ce stage a été co-encadré par Giuseppe Berio (50%, PR IRISA).
Suite à ce stage, nous avons déposé un sujet de thèse CDE intitulée “Ontologies du contenu et expressivité dans
les ressources textuelles”.
– Stage de Wissame Laddada. Étudiante en Master 2 DECOL de l’Université Montpellier 2. Ce stage, financé
par le projet ANIMITEX (cf. section Participation à des projets), à porté sur la découverte de nouvelles relations
spatiales par des méthodes de fouille de textes. Nous sommes en préparation d’un article sur ces travaux avec
d’autre partenaire du projet ANIMITEX. Wissame est actuellement doctorante à l’école navale de Brest.
Période : du 06/01/2014 au 25/06/2014.
Encadrement à hauteur de 40%. Ce stage a été co-encadré par Hugo A. Salas (40% Dr/TETIS), Sandra Bringay
(10%, MC UM2/LIRMM) et Mathieu Roche (10%, DR TETIS/LIRMM)
– Stage de Cyril Jimenez. Étudiant en Master 1 DNR2I de l’UCBN. Ce stage à contribué à la création d’un site
web pour les outils de fouille de données du GREYC. Il a en effet contribué à la première version d’un outil
en ligne permettant l’extraction de motifs séquentiels par des utilisateur non spécialiste de fouille de données
(https://sdmc.greyc.fr/). Période : du 06/01/2013 au 25/06/2013.
Encadrement à hauteur de 50%. Ce stage a été co-encadré par Thierry Charnois (50%, PR LIPN).
2.2
Diffusion scientifique
Animation
Comité de programme
Je suis membre du comité de programme de :
— la conférence “International Conference on Application of Natural Language to Information Systems”
(NLDB) en 2014 et 2015,
— la conférence “Rencontres des Jeunes Chercheurs en Intelligence Artificielle” (RJCIA’2014),
— l’atelier “Constitution, enrichissement et exploitation de ressources GEOgraphiques” (CerGEO’2014).
Activité de relecture
— Revue internationale :
JoDI (Journal of Digital Information)
JIIS’2013 (Journal of Intelligent Information Systems)
— Revue nationale :
TSI (Technique et Science Informatiques)
— Conférences internationales :
IDT’2015 (Intelligent Decision Technologies)
ISMIS’2014 (International Symposium on Methodologies for Intelligent Systems)
IDA’2013 et 2014 (International Symposium on Intelligent Data Analysis)
PAKDD’2013 (Pacific Asia Knowledge Discovery and Data Mining)
AI’2012 (Thirty-second SGAI International Conference on Artificial Intelligence)
ICDM’2012 (International Conference on Data Mining)
COLING’2012 (International Conference on Computational Linguistics)
2.3
Responsabilités scientifiques
2
ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011)
— Ateliers internationaux :
QIMIE’2013 (The third Quality issues, measures of interestingness and evaluation of data mining models,
PAKDD Workshop)
I-Pat’2012 (Mining and exploiting interpretable local patterns, ECML/PKDD Workshop)
— Conférences nationales :
FDC’2015 (Fouille de données complexes, Atelier EGC)
RECITAL’2011 et 2008 (Rencontre des Étudiants Chercheurs en Informatique pour le Traitement
Automatique des Langues)
TALN’2009 (Traitement Automatique du Langage Naturel)
CORIA’2007 (Conférence en Recherche d’Information et Applications)
Autre activités
Participation au montage de l’équipe EXPRESSION de l’IRISA (en tant que responsable du sous-axe TEXTE).
L’équipe EXPRESSION auquel j’appartiens a en effet été créée récemment au cours d’un processus de relecture
par des collègues nationaux et internationaux extérieurs au laboratoire. Je me suis plus particulièrement concentré
sur le développement de l’axe “texte” de l’équipe, comprenant trois axe : “parole”, “langue des signes” et donc
“texte”. Cette équipe dirigé par Pierre-François Marteau a officiellement été créer par le conseil de laboratoire de
l’IRISA le 6 février 2015.
Diffusion logicielle
Les différents algorithmes d’extraction de motifs séquentiels présentés dans [2] et [5] ont été mis à disposition
d’utilisateurs spécialistes et non spécialistes de fouille de données sur un site web (https://sdmc.greyc.
fr/). Ce site présente l’outil SDMC [18] (Sequential Data Mining under Constraints) contenant un ensemble
d’outils de fouille de données séquentielles.
Prix et Distinctions
Nominé pour le prix du meilleur article académique aux 23èmes journées francophones d’Ingénierie des Connaissances (IC’2012).
2.3
Responsabilités scientifiques
Participation à des projets
- Soumission d’un projet ANR JCJC TREMOLO (Transfert de motifs langagiers) avec Gwénolé Lecorvé (Porteur, MC/IRISA) et Delphine Battistelli (PR/MoDyCo). Ce projet déposer dans le cadre de l’appel générique ANR
2015 à pour objectif de permettre le transfert de motifs langagiers. Cette dernière est en effet une étape importante
vers l’adaptation et la modulation des interactions humain-machine en offrant la possibilité de reproduire le style,
l’attitude, ou encore l’émotion d’un ensemble de textes de référence sur des textes initialement d’une autre typologie.
Sur le même thème, nous avons également soumis avec les mêmes partenaires un projet dans le cadre de l’appel à
projet PEPS FaSciDo (Fondements et Applications de la Science des Données).
- Soumission d’un projet ANR Blanc ITTI (de l’Image au Texte et du Texte à l’Image pour le suivi des dynamiques
territoriales) avec les laboratoires TETIS, ICUBE, GREYC et les sociétés Bluecham, SIRS. Ce projet est porté
par Maguelonne Teisseire (DR/TETIS). Il vise à proposer des méthodes danalyse multi-échelle de phénomènes
géographiques à partir de flux de données hétérogènes, images et textes, pouvant être entachées d’incertitude.
Sur le même thème, nous avons également soumis avec les mêmes partenaires un projet dans le cadre de l’appel à
projet PEPS FaSciDo : le projet UNIRE (Mise en correspondance d’objets dans des univers hétérogènes).
2.3
Responsabilités scientifiques
2
ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011)
- Participation au projet CNRS MASTODONS Masses de Données Scientifiques ANIMITEX (2013-2015) avec
laboratoires TETIS, LIRMM, ICUBE, GREYC et LIUPPA. Ce projet est porté par Mathieu Roche (DR/TETIS).
Il a pour objectif d’exploiter des données textuelles massives et hétérogènes afin d’apporter des informations
cruciales permettant de compléter l’analyse des images satellites.
– Participation au projet ANR Hybride (2011-2015). Ce projet à pour objectif de combiner des méthodes de
fouilles de données et de traitement automatique des langues afin d’extraire des connaissances relatives aux maladies rares. Mes travaux dans ce projet consiste en l’identification de relations entre gènes et maladies rares, mais
également avec la prise en compte des symptômes.
– Participation au projet ANR ProDescartes (2010-2014). Ce projet a pour objectif la constitution et la mise en
ligne d’un corpus annoté constitué par les œuvres et la correspondance de Descartes et assorti d’outils d’aide à
la lecture. Mes travaux se focalisent sur la tâche “outils d’exploration de corpus”, et plus particulièrement sur la
caractérisation de la langue de Descartes.
– Participation au projet européen IDEAS (2010–2012). Le projet IDEAS vise à valoriser les fondements culturels
des instituts s’occupant de ressources orientalistes. Mes travaux menés dans ce cadre ont concerné les systèmes
de recherche d’information, et plus particulièrement la problématique de l’obtention d’un nombre raisonnable de
résultats lors une requête.
Organisation de congrès
– Co-responsable de la logistique organisationnelle de TALN’2011 (Montpellier).
– Co-organisateur avec Fatiha Saïs et Mathieu Roche de l’atelier EvalECD’2011, Évaluation des méthodes
d’Extraction de Connaissances dans les Données, dans le cadre de la conférence EGC’2011, du 25 au 28 Janvier
2011 à Brest co-organisé avec l’atelier QDC’2011 (http://www.lirmm.fr/~bechet/EvalECD/).
Édition d’un numéro spécial de revue
- Mesurer et évaluer la qualité des données et des connaissances. Azé J., Béchet N., Berti-Equille L., Guillaume S.,
Roche M., Sais F. (Rédacteurs invités) Special issue of RNTI (Revue des Nouvelles Technologies de l’Information),
volume E-22, 2011

Documents pareils