CV - Irisa
Transcription
CV - Irisa
Dr. Nicolas B ÉCHET 1 1 IDENTIFICATION / DONNÉES ADMINISTRATIVES Identification / Données administratives 1.1 Identification Prénom Nicolas Nom Béchet Date de naissance 22 avril 1980 Lieu de naissance Blois (41) Adresse 4 lotissement cöet person 56 400 Plumergat Adresse professionnelle IRISA/CNRS UMR 6074 Université de Bretagne-Sud Campus de Tohannic, Rue Yves Mainguy BP 573 - 56017 Vannes cedex Téléphone 06 63 36 46 23 Adresse électronique [email protected] Situation de famille Pacsé, sans enfant Permis B Fonction actuelle Maître de Conférences Affiliation Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA) Équipe EXPRESSION Site Web http://people.irisa.fr/Nicolas.Bechet/ 1.2 1.2 Formation 1 IDENTIFICATION / DONNÉES ADMINISTRATIVES Formation 2006–2009 Doctorat d’Informatique Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes Thèse sous la direction de Jacques Chauché et Mathieu Roche Université de Montpellier 2 (34) 2005–2006 Master Informatique, Mention Bien, Major de la partie théorique Université de Tours (37) 2004–2005 Maîtrise d’IUP GEII option informatique et télécommunications Université de Tours (antenne de Blois) 2003–2004 Licence d’IUP GEII option informatique et télécommunications Université de Tours (antenne de Blois) 1999–2003 DEUG d’IUP GEII option informatique et télécommunications Université de Tours (antenne de Blois) 1998–1999 Baccalauréat scientifique Lycée Augustin Thierry de Blois (41) 1.3 Parcours professionnel Depuis 2013 Maître de Conférences à l’IRISA, au sein de l’équipe EXPRESSION. 2012–2013 Post-Doctorant au GREYC, au sein de l’équipe CODAG sous la responsabilité de Antoine Widlöcher. 2011–2012 Post-Doctorant au GREYC, au sein de l’équipe CODAG sous la responsabilité de Thierry Charnois et Bruno Crémilleux. 2010–2011 Post-Doctorant à l’INRIA Rocquencourt, au sein du projet AxIS sous la responsabilité de Yves Lechevallier et Marie-Aude Aufaure. 2009–2010 ATER à l’Université Montpellier 1 (192 heures d’enseignement équivalent TD). 2006–2009 Allocataire de recherche au laboratoire LIRMM (Université Montpellier 2 - CNRS). Financement BDI Région/CNRS. 2006–2009 Moniteur (64 heures équivalent TD par année universitaire) à l’IUT de Béziers, Université Montpellier 2. 2005–2006 Stagiaire au sein du LI de Tours sous la direction de Denis Maurel. 2 2 ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011) Activités scientifiques (depuis 2011) Mes travaux de recherche sont focalisés sur le traitement automatique des langues (TAL) et de la fouille de textes. Je me spécialise plus particulièrement sur l’extraction de connaissances par le biais de la sélection de descripteurs et la recherche de motifs dans des données textuelles. J’ai notamment développé des méthodes de sélection et de filtrage de descripteurs pertinents dans les textes. Le point fort des méthodes proposées est l’émergence de nouvelles connaissances, notamment sémantiques, en se fondant sur les propriétés morpho-syntaxiques des textes. Elles ont notamment été particulièrement efficaces pour des tâches d’extraction d’information, de classification ou d’enrichissement de classes conceptuelles (cf. [1]). J’ai par ailleurs proposé une méthode plus adaptée aux données bruités. Fondé sur l’hybridation d’approches de type n-grammes et de filtrages grammaticaux afin de sélectionner des descripteurs plus adaptés, cette méthode s’est montrée particulièrement prometteuse dans le cadre de tâche de classification de documents bruités (textes issus de blogs et de numérisation OCR). Elle a par la suite été enrichie afin de traiter des problématiques d’alignement de documents textuelles (cf. [4]). La fouille de données est également un domaine qui me motive, et plus particulièrement l’hybridation des méthodes de fouille de données avec le TAL. Je poursuis actuellement ces travaux en approfondissant les aspects fouilles de données par la mise en œuvre d’algorithmes de fouille de motifs séquentiels avec différentes représentations condensées dont les premiers résultats sont prometteurs (cf. [5]). Le point fort ce ces algorithmes de fouille de motifs séquentiels est la possibilité d’extraire les motifs sous contraintes multiples ayant des propriétés antinomiques comme une contrainte de gap, de longueur, et d’appartenance. Ces travaux sont toujours l’objet de diverses réflexions et améliorations, notamment d’ordres combinatoire mais également d’un point de vue utilisateur. Les applications de cet algorithme sont multiples. J’ai par exemple contribué à la proposition d’une méthode permettant d’extraire des patrons linguistiques se fondant sur l’extraction de motifs séquentiels. Il existe peu de travaux utilisant les motifs séquentiels pour le TAL et nous pensons qu’il s’agit d’une voie originale et prometteuse. Les applications sont multiples et j’ai notamment travaillé sur la découverte de constituant détachés et la détection de relations entres des gènes et des maladies rares (cf. [2,6]). Publications et production scientifique 1 – Kessler R., Béchet N., Roche M., Torres-Moreno J.M., El-Bèze M. A Hybrid-based Approach to Manage Job Offers and Candidates. In Information Processing and Management - IPM, 2012. [Rang A, IF : 1.67 en 2011] Cet article présente une approche originale liée au profilage des candidatures en fonction d’une offre d’emploi précise. Cette publication majeure dans une revue reconnue montre mes capacités à m’investir dans un travail collaboratif. J’ai notamment apporté ma contribution sur les différentes méthodes de sélection de descripteurs développées et utilisées. Ces travaux sont la synthèse de trois années de partenariat avec le LIA Ils ont été à l’origine de nombreux échanges scientifiques pertinents et enrichissants. 2 – Béchet N., Chauché J., Prince V., Roche M. How to combine text-mining methods to validate induced VerbObject relations ? In Computer Science and Information Systems, 2014, Volume 11, Issue 1, Pages : 133-155. [Rang B, IF : 0.54 en 2012] Cet article développe des approches visant à valider des relations syntaxiques induites de type Verbe-Objet. Ces approches reposent sur l’utilisation d’information sémantiques et des techniques de Web Mining. Outre la valorisation de cette méthode, cet article me semble pertinent car il est une synthèse de mes travaux réalisés sur la découverte de descripteurs par des méthodes syntaxiques. Il montre d’une part l’intérêt scientifique des méthodes présentées mais également des cas applicatifs. 3 – Béchet N., Cellier P., Charnois T., Crémilleux B. Sequence Mining under Multiple Constraints. In proceedings of the 30th ACM/SIGAPP Symposium On Applied Computing - SAC’2015 ,to appear. 2 ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011) [Rang B, taux de sélection : 26 % en 2014] Cet article présente un algorithme d’extraction de motifs séquentiels sous contraintes multiples, permettant de combiner à la fois les techniques de représentation condensées de motifs séquentiels et celles de la fouille de données sous contraintes ce qui représente une avancée significative dans le domaine. Cet algorithme est utilisé dans la plate-forme SDMC (cf. Section Diffusion logicielle). 4 – Béchet N., Cellier P., Charnois T., Crémilleux B. Discovering linguistic patterns using sequence mining. In proceedings of 13th International Conference on Intelligent Text Processing and Computational Linguistics CICLing’2012. Cet article présente une approche d’extraction de patrons linguistiques. Elle se fonde sur l’extraction de motifs séquentiels, puis la validation de ces derniers en tant que patrons linguistiques en exploitant l’ordre partiel des motifs. Cette publication montre mon intérêt pour la fouille de données, et plus particulièrement l’hybridation de la fouille avec d’autres types de méthodes comme dans ce cas le TAL, tout en valorisant mon partenariat avec l’IRISA. [Rang B, taux de sélection : 23 % en 2012] 5 – Bringay S., Béchet N., Bouillot F., Poncelet P., Roche M., Teisseire M. Towards an On-Line Analysis of Tweets Processing. In In proceedings of the 22nd International Conference on Database and Expert Systems Applications - DEXA’2011, in Proceedings Part II, p. 154-161. [Rang B] Dans cet article, nous définissons un modèle d’entrepôt de données, permettant l’analyse d’un large volume de Tweets par la proposition de mesure permettant l’agrégation de données textuelles. Cette publication est significative, outre ses résultats scientifiques présentés, car valorisant une collaboration avec l’équipe fouille de données du LIRMM. Liste des publications depuis 2011 Revues nationales et internationales [1] Béchet N., Chauché J., Prince V., Roche M. How to combine text-mining methods to validate induced VerbObject relations ? In Computer Science and Information Systems, 2014, Volume 11, Issue 1, Pages : 133-155. [2] Béchet N., Cellier P., Charnois T., Crémilleux B. Fouille de motifs séquentiels pour la découverte de relations entre gènes et maladies rares. Revue d’Intelligence Artificielle Volume 28(2-3), Pages 245-270 (2014) [3] Kessler R., Béchet N., Roche M., Torres-Moreno J.M., El-Bèze M. A Hybrid-based Approach to Manage Job Offers and Candidates. In Information Processing and Management - IPM, 2012. [4] Laroum S., Béchet N., Hamza H., Roche M. Hybred : An OCR document representation for the classification tasks. In International Journal of Computer Science Issues - IJCSI, 2011 Conférences internationales [5] Béchet N., Cellier P., Charnois T., Crémilleux B. Sequence Mining under Multiple Constraints. In proceedings of the 30th ACM/SIGAPP Symposium On Applied Computing - SAC’2015 ,to appear. [6] Béchet N., Cellier P., Charnois T., Crémilleux B. Sequential Pattern Mining to Discover Relations between Genes and Rare Diseases. In proceedings of the 25th IEEE International Symposium on Computer-Based Medical Systems - CBMS’2012. [7] Béchet N., Cellier P., Charnois T., Crémilleux B. Discovering linguistic patterns using sequence mining. In proceedings of Springer LNCS, 13th International Conference on Intelligent Text Processing and Computational Linguistics - CICLing’2012, Vol. 1, p. 154-165. [8] Béchet N., Csernel M. Comparing Sanskrit Texts for Critical Editions : the sequences move problem. 2.1 Encadrement doctoral et scientifique 2 ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011) In proceedings of 13th International Conference on Intelligent Text Processing and Computational Linguistics CICLing’2012 (posters proceedings). [9] Bringay S., Béchet N., Bouillot F., Poncelet P., Roche M., Teisseire M. Towards an On-Line Analysis of Tweets Processing. In In proceedings of the 22nd International Conference on Database and Expert Systems Applications DEXA’2011, in Proceedings Part II, p. 154-161. Workshops internationaux [10] Ghadfi S., Béchet N., Berio G. : Building Ontologies from Textual Resources : A Pattern Based Improvement Using Deep Linguistic Information. In In WOP’2014 (Workshop on Ontology and Semantic Web Patterns) pages 14-25. [11] Bouillot F., Nhat Hai P., Béchet N., Bringay S., Ienco D., Matwin S., Poncelet P., Roche M., Teisseire M. How to Extract Relevant Knowledge from Tweets ? In Springer CCSI (Communications in Computer and Information Science), post proceedings of ISIP’2012 (International Workshop on Information Search, Integration and Personalization). Conférences nationales Kessler R., Béchet N., Laplante A., Forest D. : Détection de périodes musicales d’une collection de musique par apprentissage. In TALN’2014, papier court. [13] Béchet N., Cellier P., Charnois T., Crémilleux B. Extraction de motifs séquentiels sous contraintes multiples. In EGC’2013 (Extraction et Gestion des Connaissances, poster proceedings). [14] Béchet N., Cellier P., Charnois T., Crémilleux B. Fouille de motifs séquentiels pour la découverte de relations entre gènes et maladies rares. In 23èmes journées francophones d’Ingénierie des Connaissances (IC 2012). [15] Bringay S., Béchet N., Bouillot F., Poncelet P., Roche M., Teisseire M. Analyse de gazouillis en ligne. In EDA’2011 (Entrepôts de Données et l’Analyse en ligne). [16] Béchet N., Aufaure M.-A., Lechevallier Y. Construction et peuplement de structures hiérarchiques de concepts dans le domaine du e-tourisme. In IC’2011 (Ingénierie des connaissances). p.475-490. Ateliers nationaux [17] Alatrista Salas H., Béchet N. Fouille de texte : une approche séquentielle pour découvrir des relations spatiales. In Construction, enrichissement et exploitation de ressources GEOgraphiques pour l’analyse de données (CERGEO’2014), Atelier à EGC’2014. [18] Béchet N., Cellier P., Charnois T., Crémilleux B., Quiniou S. SDMC : un outil en ligne d’extraction de motifs séquentiels pour la fouille de textes. In Démonstration à EGC’2013 (Extraction et Gestion des Connaissances). 2.1 Encadrement doctoral et scientifique – Lancement d’une thèse CIFRE avec la société Jurismarché (septembre 2015) intitulée “Veille stratégique assistée sur des bases de données d’appels d’offres par traitement automatique de la langue naturelle et fouille de textes”. Cette thèse sera également co-encadré par Pierre-François Marteau (PR, IRISA), Jeanne Villaneau (MC, IRISA) et Frédéric Oliveau, Alexandre Garel pour la société Jurismarché. Nous sommes actuellement en phase de recrutement et avons reçu plusieurs candidatures pertinentes nous permettant d’envisager le démarrage de cette thèse en septembre 2015. 2.2 Diffusion scientifique 2 ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011) – Stage d’Ines Dabbebi. Étudiante en Master 2 recherche en sciences et techniques de l’informatique décisionnelle, option informatique (ISG Tunis). Ce stage débuté récemment porte sur la fouille de motifs séquentiels émergents afin de caractériser des registres de langue. Période : du 02/03/2015 au 31/07/2015. Encadrement à hauteur de 50%. Ce stage est co-encadré par Gwénolé Lecorvé (50%, MC IRISA) – Stage de Sami Ghadfi. Étudiant préparant un diplôme d’ingénieur à l’ENSIBS, Sami à souhaité réaliser son stage de fin d’années dans un laboratoire de recherche. Ce stage à porté sur l’amélioration des méthodes d’extraction automatique des ontologies à partir de données textuelles. Il a été valorisé par une publication [10]. Sami est actuellement en CDD Ingénieur au LORIA dans l’équipe ORPAILLEUR. Période : du 03/03/2014 au 05/09/2014. Encadrement à hauteur de 50%. Ce stage a été co-encadré par Giuseppe Berio (50%, PR IRISA). Suite à ce stage, nous avons déposé un sujet de thèse CDE intitulée “Ontologies du contenu et expressivité dans les ressources textuelles”. – Stage de Wissame Laddada. Étudiante en Master 2 DECOL de l’Université Montpellier 2. Ce stage, financé par le projet ANIMITEX (cf. section Participation à des projets), à porté sur la découverte de nouvelles relations spatiales par des méthodes de fouille de textes. Nous sommes en préparation d’un article sur ces travaux avec d’autre partenaire du projet ANIMITEX. Wissame est actuellement doctorante à l’école navale de Brest. Période : du 06/01/2014 au 25/06/2014. Encadrement à hauteur de 40%. Ce stage a été co-encadré par Hugo A. Salas (40% Dr/TETIS), Sandra Bringay (10%, MC UM2/LIRMM) et Mathieu Roche (10%, DR TETIS/LIRMM) – Stage de Cyril Jimenez. Étudiant en Master 1 DNR2I de l’UCBN. Ce stage à contribué à la création d’un site web pour les outils de fouille de données du GREYC. Il a en effet contribué à la première version d’un outil en ligne permettant l’extraction de motifs séquentiels par des utilisateur non spécialiste de fouille de données (https://sdmc.greyc.fr/). Période : du 06/01/2013 au 25/06/2013. Encadrement à hauteur de 50%. Ce stage a été co-encadré par Thierry Charnois (50%, PR LIPN). 2.2 Diffusion scientifique Animation Comité de programme Je suis membre du comité de programme de : — la conférence “International Conference on Application of Natural Language to Information Systems” (NLDB) en 2014 et 2015, — la conférence “Rencontres des Jeunes Chercheurs en Intelligence Artificielle” (RJCIA’2014), — l’atelier “Constitution, enrichissement et exploitation de ressources GEOgraphiques” (CerGEO’2014). Activité de relecture — Revue internationale : JoDI (Journal of Digital Information) JIIS’2013 (Journal of Intelligent Information Systems) — Revue nationale : TSI (Technique et Science Informatiques) — Conférences internationales : IDT’2015 (Intelligent Decision Technologies) ISMIS’2014 (International Symposium on Methodologies for Intelligent Systems) IDA’2013 et 2014 (International Symposium on Intelligent Data Analysis) PAKDD’2013 (Pacific Asia Knowledge Discovery and Data Mining) AI’2012 (Thirty-second SGAI International Conference on Artificial Intelligence) ICDM’2012 (International Conference on Data Mining) COLING’2012 (International Conference on Computational Linguistics) 2.3 Responsabilités scientifiques 2 ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011) — Ateliers internationaux : QIMIE’2013 (The third Quality issues, measures of interestingness and evaluation of data mining models, PAKDD Workshop) I-Pat’2012 (Mining and exploiting interpretable local patterns, ECML/PKDD Workshop) — Conférences nationales : FDC’2015 (Fouille de données complexes, Atelier EGC) RECITAL’2011 et 2008 (Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues) TALN’2009 (Traitement Automatique du Langage Naturel) CORIA’2007 (Conférence en Recherche d’Information et Applications) Autre activités Participation au montage de l’équipe EXPRESSION de l’IRISA (en tant que responsable du sous-axe TEXTE). L’équipe EXPRESSION auquel j’appartiens a en effet été créée récemment au cours d’un processus de relecture par des collègues nationaux et internationaux extérieurs au laboratoire. Je me suis plus particulièrement concentré sur le développement de l’axe “texte” de l’équipe, comprenant trois axe : “parole”, “langue des signes” et donc “texte”. Cette équipe dirigé par Pierre-François Marteau a officiellement été créer par le conseil de laboratoire de l’IRISA le 6 février 2015. Diffusion logicielle Les différents algorithmes d’extraction de motifs séquentiels présentés dans [2] et [5] ont été mis à disposition d’utilisateurs spécialistes et non spécialistes de fouille de données sur un site web (https://sdmc.greyc. fr/). Ce site présente l’outil SDMC [18] (Sequential Data Mining under Constraints) contenant un ensemble d’outils de fouille de données séquentielles. Prix et Distinctions Nominé pour le prix du meilleur article académique aux 23èmes journées francophones d’Ingénierie des Connaissances (IC’2012). 2.3 Responsabilités scientifiques Participation à des projets - Soumission d’un projet ANR JCJC TREMOLO (Transfert de motifs langagiers) avec Gwénolé Lecorvé (Porteur, MC/IRISA) et Delphine Battistelli (PR/MoDyCo). Ce projet déposer dans le cadre de l’appel générique ANR 2015 à pour objectif de permettre le transfert de motifs langagiers. Cette dernière est en effet une étape importante vers l’adaptation et la modulation des interactions humain-machine en offrant la possibilité de reproduire le style, l’attitude, ou encore l’émotion d’un ensemble de textes de référence sur des textes initialement d’une autre typologie. Sur le même thème, nous avons également soumis avec les mêmes partenaires un projet dans le cadre de l’appel à projet PEPS FaSciDo (Fondements et Applications de la Science des Données). - Soumission d’un projet ANR Blanc ITTI (de l’Image au Texte et du Texte à l’Image pour le suivi des dynamiques territoriales) avec les laboratoires TETIS, ICUBE, GREYC et les sociétés Bluecham, SIRS. Ce projet est porté par Maguelonne Teisseire (DR/TETIS). Il vise à proposer des méthodes danalyse multi-échelle de phénomènes géographiques à partir de flux de données hétérogènes, images et textes, pouvant être entachées d’incertitude. Sur le même thème, nous avons également soumis avec les mêmes partenaires un projet dans le cadre de l’appel à projet PEPS FaSciDo : le projet UNIRE (Mise en correspondance d’objets dans des univers hétérogènes). 2.3 Responsabilités scientifiques 2 ACTIVITÉS SCIENTIFIQUES (DEPUIS 2011) - Participation au projet CNRS MASTODONS Masses de Données Scientifiques ANIMITEX (2013-2015) avec laboratoires TETIS, LIRMM, ICUBE, GREYC et LIUPPA. Ce projet est porté par Mathieu Roche (DR/TETIS). Il a pour objectif d’exploiter des données textuelles massives et hétérogènes afin d’apporter des informations cruciales permettant de compléter l’analyse des images satellites. – Participation au projet ANR Hybride (2011-2015). Ce projet à pour objectif de combiner des méthodes de fouilles de données et de traitement automatique des langues afin d’extraire des connaissances relatives aux maladies rares. Mes travaux dans ce projet consiste en l’identification de relations entre gènes et maladies rares, mais également avec la prise en compte des symptômes. – Participation au projet ANR ProDescartes (2010-2014). Ce projet a pour objectif la constitution et la mise en ligne d’un corpus annoté constitué par les œuvres et la correspondance de Descartes et assorti d’outils d’aide à la lecture. Mes travaux se focalisent sur la tâche “outils d’exploration de corpus”, et plus particulièrement sur la caractérisation de la langue de Descartes. – Participation au projet européen IDEAS (2010–2012). Le projet IDEAS vise à valoriser les fondements culturels des instituts s’occupant de ressources orientalistes. Mes travaux menés dans ce cadre ont concerné les systèmes de recherche d’information, et plus particulièrement la problématique de l’obtention d’un nombre raisonnable de résultats lors une requête. Organisation de congrès – Co-responsable de la logistique organisationnelle de TALN’2011 (Montpellier). – Co-organisateur avec Fatiha Saïs et Mathieu Roche de l’atelier EvalECD’2011, Évaluation des méthodes d’Extraction de Connaissances dans les Données, dans le cadre de la conférence EGC’2011, du 25 au 28 Janvier 2011 à Brest co-organisé avec l’atelier QDC’2011 (http://www.lirmm.fr/~bechet/EvalECD/). Édition d’un numéro spécial de revue - Mesurer et évaluer la qualité des données et des connaissances. Azé J., Béchet N., Berti-Equille L., Guillaume S., Roche M., Sais F. (Rédacteurs invités) Special issue of RNTI (Revue des Nouvelles Technologies de l’Information), volume E-22, 2011