Curriculum vitæ - textmining.biz: Text

Transcription

Curriculum vitæ - textmining.biz: Text
Curriculum vitæ
Mathieu Roche,
Chercheur HDR
TETIS, AgroParisTech, Cirad, Irstea (membre permanent)
LIRMM, UMR 5506, CNRS, Univ. Montpellier (membre associé)
Web : http://textmining.biz/Staff/Roche/MR/
Cursus
• Expérience Professionnelle
– À partir d’octobre 2013 : Chercheur HDR, Cirad (assimilé à Directeur de Recherche 1 )
• Centre de Coopération Internationale en Recherche Agronomique pour le Développement (Cirad2 )
Département Environnements et Sociétés
• UMR Territoires, Environnement, Télédetection et Information Spatiale (TETIS)
Équipe Système d’Information Spatialisée : modélisation, extraction et diffusion des dOnnées et connaissances (SISO)
– 2005-2013 : Maître de Conférences
• Université Montpellier 2, Faculté des Sciences
• UMR Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier (LIRMM)
Équipe Exploration et exploitation de données textuelles (TEXTE)
- En délégation CNRS au LIRMM – 2011-2012.
- Titulaire de la PES (Prime d’Excellence Scientifique) – 2009-2013.
– 2004-2005 : Demi poste d’ATER (Attaché Temporaire de l’Enseignement et de la Recherche)
• Université Paris 11 (Orsay), Faculté des Sciences
• UMR Laboratoire de Recherche en Informatique (LRI)
Équipe Inférence et Apprentissage (IA)
– 2001-2004 : Allocataire de recherche, Moniteur en informatique
• Université Paris 11 (Orsay), Faculté des Sciences
• UMR Laboratoire de Recherche en Informatique (LRI)
Équipe Inférence et Apprentissage (IA)
• Formation
– Décembre 2011 : Habilitation à Diriger des Recherches (HDR) à l’Université Montpellier 2.
Titre : "Fouille de Textes : de l’extraction des descripteurs linguistiques à leur induction".
Jury : N. Aussenac-Gilles (Présidente), E. Gaussier (Rapporteur), G. Lapalme (Rapporteur), S. Matwin
(Rapporteur), P. Gallinari, Y. Kodratoff, V. Prince, M. Teisseire.
– Décembre 2004 : Doctorat en Informatique à l’Université Paris XI, mention Très Honorable.
Titre : "Intégration de la construction de la terminologie de domaines spécialisés dans un processus global
de fouille de textes".
Jury : C. Froidevaux (Présidente), C. Vrain (Rapportrice), A. Napoli (Rapporteur), Y. Toussaint (Rapporteur avec A. Napoli), P. Sébillot (Examinatrice) et Y. Kodratoff (Directeur de thèse).
– 2001 : DEA3 Information Interaction Intelligence à l’Université Paris 11 (Orsay), mention Bien.
1 Cadres scientifiques du Cirad classés en catégorie 8 et au-delà ou en catégorie 7 et titulaires d’une HDR (règle d’équivalence notamment
utilisée dans les rapports d’évaluation AERES).
2 EPIC sous la tutelle du ministère de l’Enseignement supérieur et de la Recherche et du ministère des Affaires étrangères.
3 Diplôme d’Etudes Approfondies.
1
Activités de recherche (depuis 2005)
Après 8 années passées au sein du LIRMM (Laboratoire d’Informatique, de Robotique et de Microélectronique de
Montpellier), j’ai rejoint le laboratoire TETIS (Territoires, Environnement, Télédétection et Information Spatiale) et
le département "Environnements et Sociétés" du Cirad en 2013. Profitant de mon expérience en fouille de textes et
recherche d’information, j’ai pu mettre à profit l’environnement pluridisciplaire offert par TETIS pour proposer de
nouvelles approches innovantes dans le domaine de l’information spatiale, de l’environnement et de l’agronomie. J’ai
ainsi la chance de pouvoir confronter mes propositions à des données réelles, à des collègues eux-mêmes producteurs
de données et porteurs de problématiques bien spécifiques. Une équipe pluridisciplinaire, même réduite à des domaines
scientifiques, reste une source de richesse et d’inspiration.
• Domaines de recherche : Fouille de Textes, Traitement Automatique du Langage Naturel, Recherche
d’Information, Science des Données.
Les méthodes de fouille de textes consistent à modéliser puis mettre en œuvre des méthodologies appliquées aux
données textuelles afin d’en déterminer le sens et/ou découvrir des connaissances nouvelles. Elles s’appuient sur des approches linguistiques et/ou statistiques. Les processus de fouille de textes sont souvent composés d’une phase d’extraction
de descripteurs linguistiques tels que les mots-clés les plus significatifs. Elle est suivie d’une phase d’exploitation de ces
descripteurs. Toutes ces problématiques ouvrent de nouvelles disciplines de recherche comme la Science des Données.
• Extraction de la terminologie et désambiguisation
∗ Terminologie de domaines de spécialité
· Extraction de termes agronomiques (depuis 2014)
avec S. Fortuno (TETIS), J.A. Lossio (thèse LIRMM)
· Extraction et désambiguisation de termes biomédicaux (depuis 2012)
avec J.A. Lossio (thèse LIRMM), C. Jonquet (LIRMM), M. Teisseire (TETIS)
· Extraction d’unités de mesure et d’arguments de relations n-aires (depuis 2012)
avec L. Berrahou (thèse LIRMM), P. Buche (IATE), J. Dibie-Barthélemy (AgroParisTech)
· Extraction de la terminologie dans des textes en Ancien Français (2006-2007)
avec C. Serp (thèse Univ. Montpellier 3), E. Cazal (stage CNAM), M. Teisseire (TETIS), A.
Laurent (LIRMM)
∗ Entités Nommées
· Extraction d’Entités Spatiales (depuis 2012)
avec M. Teisseire (TETIS), E. Kergosien (GERIICO), S. Zenasni (thèse TETIS)
· Identification d’Entités de Nommées pour l’anonymisation (depuis 2011)
avec R. Panckhurst (Praxiling), C. Lopez (Viseo), D. Inkpen (Univ. Ottawa)
· Désambiguisation des acronymes/expansions (depuis 2007)
avec V. Prince (LIRMM), I. Mougenot (LIRMM)
∗ Terminologie et titrage
· Titrage automatique de documents (2008-2013)
avec C. Lopez (thèse LIRMM), V. Prince (LIRMM), M. Faure (société Open-S/EvalAccess)
∗ Relations sémantiques entre termes
· Enrichissement des classes sémantiques (2006-2009)
avec N. Béchet (thèse LIRMM), J. Chauché (LIRMM)
· Extraction automatique de gloses (2006-2013)
avec A. Mela (Univ. Montpellier 3), A. Steuckardt (LPL, Univ. de Provence)
• Recherche d’Information
∗ Analyse de sentiments
· Analyse de sentiments et informations géographiques (depuis 2012)
avec M. Teisseire (TETIS), E. Kergosien (GERIICO), Maurel (TETIS), J.P. Tonneau (TETIS),
E. Valette (TETIS), V. Prince (LIRMM)
· Fouille d’opinion dans la communication écrite médiée (SMS, tweets) (depuis 2015)
avec A. Bouhafs Hafsia (IHEC - Carthage), W. Khiari (stage TETIS)
2
· Fouille de données d’opinion et classification (depuis 2007)
avec P. Poncelet (LIRMM), M. Plantié (LGI2P-EMA), G. Dray (LGI2P-EMA), F. Trousset (LGI2PEMA), B. Duthil (LGI2P-EMA)
∗ Classification de documents
· Classification de données du Web Social (blogs, tweets) (depuis 2007)
avec P. Poncelet (LIRMM), G. Tisserant (thèse LIRMM), J.A. Lossio (thèse LIRMM), N. Verdier
(société PaperBlog), I. Bayoudh (stage ingénieur), B. Rosoor (société Web Report), L. Sebag (société Web Report), S. Bringay (LIRMM)
· Classification de données bruitées et hétérogènes (depuis 2007)
avec F. Bouillot (thèse LIRMM), P. Poncelet (LIRMM), V. Poulain d’Andecy (société ITESOFT),
H. Hamza (société ITESOFT)
· Classification d’offres d’emploi (2008-2010)
avec R. Kessler (thèse LIA), J.M. Torres-Moreno (LIA), M. El-Bèze (LIA), N. Béchet (thèse
LIRMM)
∗ Visualisation de documents
· Visualisation de données textuelles en épidémiologie animale (depuis 2014)
avec A. Sallaberry (LIRMM), F. Ying Wang (Post-doc Numev), R. Lancelot (CMAEE), E. Arsevska
(thèse CMAEE), S. Falala (CMAEE)
· Visualisation de données textuelles biomédicales (2009-2011)
avec S. Bringay (LIRMM), M. Teisseire (TETIS), A. Sallaberry (thèse LABRI & PIKKO)
∗ Entrepôts de données textuelles
· Extraction et agrégation de descripteurs linguistiques pour les entrepôts de données textuelles
(depuis 2009)
avec P. Poncelet (LIRMM), M. Teisseire (TETIS), S. Bringay (LIRMM), F. Bouillot (stage
CNAM), N. Béchet (post-doc)
• Extraction d’information
∗ Extraction d’information dans les logs (2008-2014)
avec H. Saneifar (thèse LIRMM/Satin-Technologies), S. Bonniol (Satin-Technologies), P. Poncelet
(LIRMM)
• Traitement lexical
∗ Mise en correspondance de schémas (2005-2008)
avec F. Duchateau (thèse LIRMM), Z. Bellahsene (LIRMM), F. Pinet (Cemagref )
∗ Détection de tendances (2007-2010)
avec A. Laurent (LIRMM), B. Laurent (société Namae Concept), S. Jaillet (société CrysaLEAD)
Publications Scientifiques
→ DBLP Computer Science Bibliography (102 entrées4 ) :
http://www.informatik.uni-trier.de/∼ley/db/indices/a-tree/r/Roche:Mathieu.html
→ Sélection de 10 productions scientifiques récentes (9 publications et 1 corpus) :
1. F. Ying Wang, A. Sallaberry, K. Klein, M. Takatsuka, M. Roche. SentiCompass: Interactive Visualization
for Exploring and Comparing the Sentiments of Time-Varying Twitter Data. In Proceedings of PacificVis
(IEEE Pacific Visualization Symposium, Hangzhou, China, 2015 [Rang A]
2. R. Panckhurst, C. Détrie, C. Lopez, C. Moïse, M. Roche, B. Verine. 88milSMS. A corpus of authentic
text messages in French. Corpus produit par l’Université Paul-Valéry Montpellier III et le CNRS, en
collaboration avec l’Université catholique de Louvain, financé grâce au soutien de la MSH-M et du Ministère
de la Culture (Délégation générale à la langue française et aux langues de France) et avec la participation
de Praxiling, Lirmm, Lidilem, Tetis, Viseo (http://88milsms.huma-num.fr/). ISLRN : 024-713-187-947-8,
2014 (près de 300 téléchargements effectués).
4à
la date du 15 mai 2015.
3
3. E. Kergosien E., B. Laval., M. Roche, M. Teisseire. Are opinions expressed in land-use planning documents? International Journal of Geographical Information Science, Taylor & Francis, p.739-762, Volume
28, Issue 4, 2014 [Rang A]
4. H. Saneifar, S. Bonniol, P. Poncelet, M. Roche. Enhancing passage retrieval in log files by query expansion
based on explicit and pseudo relevance feedback. Computers in Industry, Elsevier, p.937-951, Volume 65,
Issue 6, 2014
5. C. Lopez, V. Prince, M. Roche. How can catchy titles be generated without loss of informativeness?
Expert Systems with Applications, Elsevier, p.1051-1062, Volume 41, Issue 4, 2014
6. C. Lopez, V. Prince, M. Roche. NOMIT: Automatic Titling by Nominalizing. In Proceedings of NAACL
HLT’12 (North American Chapter of the Association for Computational Linguistics – Human Language
Technologies), Full paper, 274-283, 2012 [Rang A]
7. R. Kessler, N. Béchet, M. Roche, J.M. Torres-Moreno, M. El-Bèze. A Hybrid-based Approach to Manage
Job Offers and Candidates. Information Processing & Management, Elsevier, Volume 48, Issue 6, 11241135, 2012 [Rang A]
8. A. Sallaberry, N. Pecheur, S. Bringay, M. Roche, M. Teisseire. Sequential patterns mining and gene sequence visualization to discover novelty from microarray data. Journal of Biomedical Informatics, Elsevier,
Vol. 44, Issue 5, 760-774, 2011
9. M. Roche, V. Prince. A Web-Mining Approach to Disambiguate Biomedical Acronym Expansions.
Informatica, Vol 34, No 2, p243-253, 2010
10. M. Roche, Y. Kodratoff. Text and Web Mining Approaches in Order to Build Specialized Ontologies.
Journal of Digital Information (JoDI), Vol 10, No 4, 2009 [Rang A en 2009]
→ Synthèse du nombre de publications (depuis 2007) :
Type de publications
Éditions int.
Éditions nat.
Ouvrage
Chapitres de livre
Revues int.
Revues nat.
Actes de conf. int.
Actes de work. int. 1
Actes de conf nat.
TOTAL
2007
2008
1
1
1
3
3
2
11
2009
1
1
2010
2
4
1
8
2
8
24
1
3
9
1
6
20
6
5
15
2011
1
1
2
5
8
16
2012
2013
1
1
3
7
4
3
18
3
6
1
4
15
2014
1
2015
5
4
11
2
3
26
3
1
3
7
TOTAL
2
4
1
2
20
12
56
13
42
152
→ Synthèse des conférences/revues des publications (depuis 2010) :
Type publications
Éditions
Chapitres de livre
Revues int.
Revues nat.
Actes de conf. int.
.
2010
IDA, Informatica (2)
SIGMOD Record
RNTI
2011
CCIS
JBI
IJCSI
SOCPAR, ISVC
IceTAL, MedInfo (2)
KEER, EKAW, ICCS
RANLP
DEXA (2), LTC
WEBIST
IC (3) , TOTH
CORIA, VSST
EGC (2)
INFORSID, EDA
TALN, TOTH
SFC, EGC (3)
Actes de work. int.
Actes de conf nat.
2012
RNTI
2013
TAL
IPM
LI, IJCISIMA
NAACL, EACL
NLDB , DEXA, JADT
AGILE, PAIS
DMHM, GIRT
PLEAD
EGC
SFC
INFORSID
4
TAL, Corela
Epistémé
CICLING, LBM
NLDB, KDIR
WIMS, ICPMF
ISIP
EGC (3)
SAGEO
2014
LNCS
2015
IJGIS, ESA, CI
IJKDB, CSIS
ISI
RNTI (3)
ISMIS, KDIR, CICLING
LREC, ISWC, SimBig
JADT, MTSR, PolTAL, IDEAS
DMNLP
ISA
TALN
EGC (2)
IDA,
JUCS, RIG
PacificVis
CORIA (2)
SHESL-HTL
Exposés invités (depuis 2013)
• Exposés invités de vulgarisation scientifique de grande envergure
– Agora des Savoirs, 16 avril 2014, Centre Rabelais, Montpellier
– Journées ABES (Agence bibliographique de l’enseignement supérieur), mai 2014, Corum, Montpellier
• Exposés invités dans des manifestations scientifiques
– SimBig’2014 et SimBig’2015 (Symposium on Information Management and Big Data), Pérou
– Données de la recherche dans les humanités numériques, avril 2015, Lille
– CARI’2014 (Twelfth African Conference on Research in Computer Science and Applied Mathematics),
octobre 2014, Saint-Louis, Sénégal
– Séminaire transversal LIDILEM, juillet 2014, MSH, Grenoble
– Workshop Fouille d’opinion dans le Web social, avril 2014, Institut des Sciences de l’Homme, Lyon
– Atelier "Extraction et Recherche d’Information Géographique", Sageo 2013, Brest
Animation de la Recherche (depuis 2005)
• Responsable & membre de projets de Recherche
Projet académique en cours d’évaluation :
– Porteur du projet ANR Sentiland 2015 (version longue de l’ANR en cours d’évaluation)
Le projet Sentiland s’inscrit dans le contexte des territoires numériques. Il étudie le triptyque Territoire, Acteur
et Sentiment afin de relever les défis associés à la perception des territoires par les différents acteurs impliqués.
Projets académiques en cours :
– Membre de l’ANR Jeunes Chercheurs SIFR (2013-2016) portée par C. Jonquet (LIRMM).
Indexation sémantique de ressources biomédicales francophones.
– Membre du projet Tectoniq (2014-2015) porté par E. Kergosien (GERIICO, Université Lille 3).
Projet pluridisciplinaire dans le cadres des Projets Exploratoires PluridisciplinaireS (PEPS) mis en place
par le CNRS.
Les technologies de l’information et de la communication au cœur du Territoire numérique pour la valorisation
du patrimoine : analyse des dispositifs et de leurs usages.
– Membre du projet Parlons de nous (2013-2015) porté par S. Bringay (LIRMM, Université Montpellier
3) et F. Galtier (CHU Montpllier).
Projet pluridisciplinaire sélectionné par le Conseil Scientifique de la MSH-M.
Mise en œuvre d’un système d’analyse semi-automatique des récits présents dans les fora de santé sur le Web.
Projets académiques finalisés :
– Porteur du projet Mastodons-CNRS ANIMITEX (2013-2014) – co-responsable scientifique avec
M. Teisseire (TETIS, Irstea). Projet en collaboration avec les laboratoires LIRMM (Montpellier), TETIS
(Montpellier), ICube (Strasbourg), GREYC (Caen), LIUPPA (Pau)
Dans le cadre des Projets Grandes masses de données scientifiques – Mastodons mis en place par le CNRS,
5 projets sur 20 ont été sélectionnés (25%) en 2013.
Analyse d’Images fondée sur des Informations Textuelles.
– Porteur du projet PEPS-CNRS ECOMESS (2013-2014) – co-responsable scientifique avec R. Panckhurst (Praxiling, Université Montpellier 3).
Dans le cadre des Projets Exploratoires PluridisciplinaireS (PEPS) mis en place par le CNRS et de l’appel
HuMaIn : Humanités - Mathématiques - sciences de l’Information, 23 projets sur 113 ont été sélectionnés
(20%).
Analyse contrastive des émotions contenues dans les messages courts.
– Porteur du projet Senterritoire (2012-2014)
Projet pluridisciplinaire sélectionné (2012) et renouvelé (2013) par le Conseil Scientifique de la MSH-M.
Extraction des sentiments véhiculés dans les documents liés à l’aménagement du territoire.
5
– Porteur du projet PEPS-CNRS RESENS (2010) – co-responsable scientifique avec A. Mela (Université Montpellier 3).
Dans le cadre des Projets Exploratoires PluridisciplinaireS (PEPS) mis en place par le CNRS, l’Institut
INS2I a sélectionné 10 projets sur 69 soumis (15%).
Recueil des descriptions spontanées pour accéder automatiquement au sens des mots.
– Membre du projet DGLFLF (2012-2013) porté par R. Panckhurst (Praxiling, Université Montpellier
3).
Projet pluridisciplinaire sélectionné par la Délégation Générale à la Langue Française et aux Langues de
France.
Transcodage d’un corpus de SMS.
– Membre du projet sms4science (2011-2012) porté par R. Panckhurst (Praxiling, Université Montpellier
3).
Projet pluridisciplinaire sélectionné par le Conseil Scientifique de la MSH-M.
Acquisition et traitement d’un corpus conséquent de SMS.
– Porteur du projet ProSigles (2007-2008).
Projet sélectionné par le Conseil Scientifique de l’Université Montpellier 2.
Extraction et gestion des sigles issus de textes plus ou moins spécialisés.
– Porteur du projet TSAL – Traitement Statistique et Algorithmique du Langage (2006).
Projet "Pluridisciplinaires 2006" - Département STICS de l’Université Montpellier 2.
Extraction des connaissances à partir de corpus écrits en français médiéval.
– Membre de l’ANR Forum (2005-2008) portée par Z. Bellahsene (LIRMM).
Extension des techniques d’intégration pour permettre le partage de données dans un environnement à grande
échelle.
• Responsable de projets de transfert de technologie
– Responsable scientifique de Projets Industriels :
∗
∗
∗
∗
∗
∗
∗
Itesoft – 2011-2015 – co-resp. avec P. Poncelet
Succeed Together – 2011-2012 (resp. scientifique)
WebReport – 2010-2011 – co-resp. avec S. Bringay
Nevantropic – 2009/2010 – co-resp. avec P. Poncelet
Expernova – 2009/2011 – co-resp. avec P. Poncelet
Satin – 2008/2011 – co-resp. avec P. Poncelet et A. Laurent
Itesoft – 2008 (resp. scientifique)
– Responsable scientifique de Projets Incubés du Languedoc-Roussillon Incubation :
∗ Darryl (porteur P. Hoton) – incubé en 2012 – co-resp. avec J.P. Prost
∗ Open-S/EvalAccess (porteur M. Faure) – incubé en 2008 – co-resp. avec V. Prince
∗ Namae Concept (porteur B. Laurent) – incubé en 2007 – co-resp. avec A. Laurent
• Responsable & Membre de Comités d’Organisation
– Co-responsable avec M. Teisseire (TETIS) de la session EnGeoData (Environmental and
Geo-spatial Data Analytics) de la conférence internationale IEEE/ACM DSAA (International
Conference on Data Science and Advanced Analytics) en 2014 (Shanghai – Chine) et 2015 (Paris – France)
Présentation de méthodes innovantes combinant informations spatio-temporelles dans le contexte des sciences
des données
– Co-responsable avec P. Lemoisson (TETIS) du thème SI-GL de CARI’2014 (Twelfth African
Conference on Research in Computer Science and Applied Mathematics)
Présentation de méthodes innovantes combinant dans le domaine des Systèmes d’information et du Génie
Logiciel
– Co-responsable avec M. Teisseire (TETIS) du Comité de Programme et du Comité d’Organisation
de la conférence NLDB’2014 (International Conference on Application of Natural Language to Information Systems) à Montpellier
6
La conférence NLDB est considérée comme un véritable lieu d’échanges et de transfert entre scientifiques.
Cette 19ème édition a vu la soumission de 73 articles (61 regular papers et 12 demo papers) issus de 26 pays. Deux
conférenciers invités ont été sollicités : Gabriella Pasi (University of Milano Bicocca, Italy) et Sophia Ananiadou
(University of Manchester, UK). Les communications scientifiques sélectionnées ont été publiées dans les actes
Springer-Verlag : Métais E., Roche M., Teisseire M. (Eds), Lecture Notes in Computer Science (LNCS), Springer
Verlag, Vol. 8455, 268 pages, 2014. Une sélection des meilleurs articles est en cours dans le but de publier un
numéro spécial de la revue internationale de rang A "Data & Knowledge Engineering" (Elsevier).
– Co-responsable avec E. Kergosien (LIRMM-TETIS) de l’atelier CerGeo dans le cadre de la
conférence EGC’14
Construction, enrichissement et exploitation de ressources Géographiques pour l’analyse de donnée
– Co-responsable avec M. Teisseire (TETIS) du workshop international GeoDoc’2012 dans le
cadre de la conférence PAKDD’2012
Présentation de méthodes innovantes combinant informations géographiques et informations issues des données
textuelles
– Co-responsable avec F. Saïs (LRI – Orsay) et N. Béchet (LIRMM – Montpellier / INRIA
Rocquencourt) des ateliers EvalECD’09, EvalECD’10, EvalECD’11 dans le cadre des conférences
EGC’09, EGC’10 et EGC’11
Confrontation des méthodes d’évaluation dans un processus d’Extraction de Connaissances à partir de Données
(ECD)
– Membre du Comité d’Organisation de la conférence TALN’11
Présentation des dernières avancées liées aux méthodes et applications du TALN.
– Membre du Comité d’Organisation des Journées JIGOT’10
Présentation des méthodes d’extraction, de formalisation et d’utilisation de la connaissance dans le domaine
des géosciences.
– Membre du Comité d’Organisation de la conférence EDA’09
Présentation de travaux de recherche innovants liés aux Entrepôts de Données.
– Co-responsable avec P. Poncelet (LGI2P – Nîmes) de l’atelier FODOP’08 (FOuille des Données
d’OPinions) dans le cadre de la conférence INFORSID’08
Développement d’une communauté pluridisciplinaire (fouille de données, aide à la décision, modélisation des
connaissances, TAL, linguistique, etc) qui s’intéresse au traitement des données d’opinion.
– Membre du Comité d’Organisation du challenge "Analyzing Web Traffic" dans le cadre des
conférences ECML/PKDD’07
Classification du trafic HTTP afin de distinguer les différents types d’attaques et le trafic normal.
– Concepteur avec J. Azé (LRI - Orsay) du premier Défi Francophone de Fouille de Textes :
DEFT’05. Responsable avec J. Azé du Comité d’Organisation de DEFT’05 et DEFT’06 (Co-présidents
du Comité de Programme: Y. Kodratoff et V. Prince).
DEFT’05 (DÉfi Fouille de Textes) est le premier défi francophone du domaine. L’édition 2005 de DEFT
consistait à déterminer les phrases issues d’un corpus d’allocutions de F. Mitterrand présentes dans un corpus de
discours de J. Chirac. Onze équipes représentant neuf laboratoires ont participé. La campagne DEFT’06 organisée
dans le cadre de la Semaine du Document Numérique à Fribourg en Suisse avait pour but de déterminer les segments
thématiques à partir de trois corpus de domaines différents (politique, juridique, scientifique). Depuis sa création,
le défi DEFT est organisé annuellement (participation en tant que membre du CP).
• Encadrement de thèses et stages
– Thèses de Doctorat
Thèses en cours :
∗ Thèse bourse algérienne de Nour El Houda Yahi ép. Bererhi – depuis novembre 2014 [co-encadrée
avec H. Belhadef (Univ. Constantine 2, Algérie)]
Encadrement : 30%
Titre : Mise en relation de données textuelles hétérogènes fondées sur des informations sémantiques.
∗ Thèse Averroès de Sarah Zenasni – depuis novembre 2014 [co-encadrée avec M. Teisseire (TETIS) et E.
Kergosien (GERIICO)]
Encadrement : 30%
Titre : Extraction de relations spatiales dans les textes.
7
∗ Thèse INRA-Labex Numev de Soumia Lilia Berrahou – depuis novembre 2012 [co-encadrée avec P.
Buche (INRA) et J. Dibie Barthelemy (AgroParisTech)]
Encadrement : 30%
Titre : Extraction de relations n-aires dans les textes.
∗ Thèse UM2 de Juan Lossio – depuis octobre 2012 [co-encadrée avec C. Jonquet (LIRMM-Smile) et M.
Teisseire (TETIS)]
∗
∗
∗
∗
∗
Encadrement : 30%
Titre : Enrichissement d’ontologies biomédicales en français.
Thèses soutenues :
Thèse Industrielle (avec la société Itesoft) de Flavien Bouillot
2012-2015 [co-encadrée avec P. Poncelet (LIRMM)]
Encadrement : 50%
Titre : Classification de textes : de nouvelles pondérations adaptées aux petits volumes.
Thèse MESR de Guillaume Tisserant
2011-2015 [co-encadrée avec V. Prince (LIRMM-Texte)]
Encadrement : 70%
Titre : Généralisation de données textuelles adaptée à la classification automatique.
Thèse UM2-Région de Cédric Lopez (actuellement Ingénieur de Recherche - Viseo)
2009-2012 [co-encadrée avec V. Prince (LIRMM-Texte)]
Encadrement : 70%
Titre : Titrage automatique de documents textuels.
Thèse CIFRE (avec la société Satin Technologies) de Hassan Saneifar (actuellement MdC)
2008-2011 [co-encadrée avec P. Poncelet (LIRMM-Tatoo)] - Thèse soutenue le 02 décembre 2011
Encadrement : 70%
Titre : Extraction d’information à partir de Logs.
Thèse BDI CNRS-Région de Nicolas Béchet (actuellement MdC)
2006-2009 [co-encadrée avec J. Chauché (LIRMM-Texte)] - Thèse soutenue le 08 décembre 2009
Encadrement : 90%
Titre : Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille
de Textes.
– Stages Recherche (Master 2) :
∗ Wijden Khiari – 2014-2015 [co-encadré avec A. Bouhafs Hafsia (IHEC - Carthage)]
Thème : Fouille de données d’opinion en communication écrite médiée (SMS, tweets)
∗ Guillaume Sallien – 2014-2015 [co-encadré avec S. Fortuno (TETIS), M. Passouant (TETIS)]
Thème : Mise en relation de données hétérogènes
∗ Sara Remini – 2013-2014 [co-encadré avec M. Teisseire (TETIS), E. Kergosien (LIRMM-TETIS)]
Thème : Extraction d’informations thématiques dans des textes liés à l’aménagement du territoire
∗ Ludovic Lebras – 2011-2012 [co-encadré avec P. Buche (INRA), J. Dibie-Barthélemy (AgroParisTech)]
Thème : Extraction d’informations dans les articles scientifiques
∗ Sabiha Tahrat – 2011-2012 [co-encadré avec M. Teisseire (TETIS)]
Thème : Extraction d’informations géospatiales dans les textes
∗ Jérôme Dorado – 2010-2011 [co-encadré avec S. Bringay (LIRMM)]
Thème : Étude lexicale, syntaxique et graphique des tweets
∗ Walid Belhaoues – 2008-2009 [co-encadré avec V. Prince (LIRMM), S. Léon (LIRMM), M. Faure (OpenS/EvalAccess)]
Thème : Titrage automatique de pages Web
∗ Miguel Macias – 2007-2008 [co-encadré avec V. Prince (LIRMM), A. Labadié (LIRMM)]
Thème : Titrage automatique de pages Web
∗ Ali Harb – 2007-2008 [co-encadré avec P. Poncelet (LGI2P) , M. Plantié (LGI2P)]
Thème : Fouille de données d’opinion
∗ Sami Laroum – 2007-2008 [co-encadré avec N. Béchet (LIRMM)]
Thème : Classification de données bruitées issues d’OCR
∗ Nicolas Boffo – 2007-2008 [co-encadré avec A. Laurent (LIRMM), J. Bres (PRAXILING)]
Thème : Extraction de descripteurs linguistiques temporels
∗ Larbi Mesbahi – 2005-2006 [co-encadré avec M. Teisseire (LIRMM), J. Chauché (LIRMM)]
Thème : Utilisation d’informations syntaxiques associées à LSA
8
∗ Tang Yi Fei – 2005-2006 [co-encadré avec Z. Bellahsene (LIRMM)]
Thème : Mise en correspondance de schémas
– Stages de fin d’étude d’Ingénieur :
∗ Stage de fin d’étude de Amin Farvardin – 2013-2014 [co-encadré avec E. Kergosien (LIRMM-TETIS) et M.
Teisseire (TETIS)]
Thème : Mise en œuvre d’un logiciel d’identification d’informations spatiales
∗ Stage d’ingénieur CNAM de Flavien Bouillot – 2010-2011 [co-encadré avec P. Poncelet (LIRMM)]
Thème : Cubes de tweets
∗ Stage d’ingénieur CNAM de Pierre Nghiem – 2009-2010 [co-encadré avec P. Poncelet (LIRMM)]
Thème : Entrepôts de données textuelles
∗ Stage de fin d’étude d’ingénieur d’Ines Bayoudh – INSAT Tunisie / Société Paperblog - 2007-2008
[co-encadré avec N. Béchet (LIRMM)]
Thème : Classification de blogs
∗ Stage d’ingénieur CNAM d’Emmanuel Cazal – 2006-2007 [co-encadré avec A. Laurent (LIRMM), M.
Teisseire (LIRMM)]
Thème : Extraction de la terminologie
– Stage Post Doctoral :
∗ Florence Ying Wang (University of Sydney) 2014-2015 (12 mois) [co-encadré avec A. Sallaberry (LIRMM)]
Thème : Visualisation de données textuelles en épidémiologie animale
∗ Eric Kergosien (Pau – France) - 2012-2013 (18 mois) [co-encadré avec M. Teisseire (TETIS), S. Bringay
(LIRMM)]
Thème : Identification de sentiments liés aux territoires (projet Senterritoire)
∗ Corrado Loglisci (Italie) - 2012 (3 mois) [co-encadré avec M. Teisseire (TETIS), D. Ienco (TETIS)]
Thème : Extraction de relations geospatiales dans les documents
∗ Feirouz Chakkoura (Syrie) - 2008-2009 (3 mois) [co-encadré avec S. Bringay (LIRMM), M. Teisseire
(LIRMM)]
Thème : Prise en compte de connaissances sémantiques pour la Recherche d’Information en biomédecine
– TER stages et projets tutorés (Master 1 et 2) :
∗ Stages de un à quatre étudiants en Master 2 Informatique – 2007-2015
[co-encadrés avec A. Laurent (LIRMM), B. Laurent (Namae Concept), S. Jaillet (CrysaLEAD)]
∗ Projets tutorés et stages d’analyse en Master 1 Informatique (Intégration de Compétences) – 2006-2013
[co-encadrés avec S. Kaci (LIRMM), C. Lopez (Viseo), A. Laurent (LIRMM), B. Laurent (Namae Concept), I.
Mougenot (LIRMM), S. Bringay (LIRMM)]
∗ Stages de quatre étudiants en Master 1 Informatique – 2005-2015
[co-encadrés avec S. Fortuno (TETIS), E. Kergosien (LIRMM-TETIS), A. Mela (Univ. Montpellier 3), A.
Laurent (LIRMM), B. Laurent (Namae Concept), S. Jaillet (CrysaLEAD), M. Hascoët (LIRMM), V. Prince
(LIRMM), M. Faure (Open-S/EvalAccess)]
∗ Stages Polytech – 2005-2009
[co-encadrés avec M. Teisseire (LIRMM), A. Laurent (LIRMM), B. Laurent (Namae Concept)]
• Jury de Doctorat, Master, CST (Comité de Suivis des Thèses)
– Jury d’HDR :
∗ Marc Spaniol (Univ. Caen) – septembre 2014 (rapporteur )
– Jury de Doctorat (hors doctorants co-encadrés) :
∗
∗
∗
∗
∗
∗
∗
∗
Mohamed Dermouche (Univ. Lyon 2) - juin 2015 (examinateur )
Léa Guizol (Univ. Montpellier 2) - novembre 2014 (examinateur )
Aurélien Lauf (INALCO, Paris) - octobre 2014 (rapporteur )
Marie Dupuch (Univ. Paris 6) - septembre 2014 (rapporteur )
Fethi Ferjani (Univ. de Tunis El Manar - Tunisie) - août 2014 (rapporteur )
Francisco López-Orozco (Univ. de Grenoble) – juillet 2013 (rapporteur )
Wei Wang (Univ. Paris 11) – avril 2013 (examinateur )
Nicolas Beauger-Kuchmann (Ecole Centrale Paris) – février 2013 (rapporteur )
9
∗
∗
∗
∗
∗
∗
∗
Benjamin Duthil (Ecole des Mines) – décembre 2012 (examinateur)
Van Tien Nguyen, (Univ. Pau) – novembre 2012 (examinateur)
Rémi Lavalley (Univ. Avignon) – juillet 2012 (examinateur)
Yassine Mrabet (Univ. Paris 11) – juillet 2012 (rapporteur )
Cécile Low Kam (Univ. Montpellier 2) – décembre 2010 (invité)
Dong (Haoyuan) Li (Univ. Montpellier 2) – septembre 2009 (examinateur)
Rémy Kessler (Univ. Avignon) – juillet 2009 (examinateur)
– Rapporteur de stages de M2 Informatique (hors LIRMM/Univ. Montpellier 2) :
∗ Master ECD (Univ. Lyon 2) – depuis 2007 (en moyenne un rapport par an)
∗ Master Recherche (Univ. Rennes) – 2009
– Membre de CST (Comités de suivis de thèse) :
∗
∗
∗
∗
∗
∗
∗
∗
∗
∗
Elena Arsevska – Directeurs de thèse : R. Lancelot, B. Dufour
Mathieu Castets – Directeurs de thèse : P. Degenne, D. Lo Seen, P. Poncelet
Guillaume Surroca – Directeurs de thèse : P. Lemoisson, C. Jonqué, S. Cerri
Luis Adrián Cabrera Diego – Directeurs de thèse : M. El-Bèze, M. Torres, M. SanJuan
Léa Guizol – Directeurs de thèse : M. Croitoru, M. Leclere
Pattataporn Warintarawej – Directeurs de thèse : A. Laurent, P. Pompidor
Aymen Troudi – Directeurs de thèse : A.-D. Seriai, M. Huchard
Dong (Haoyuan) Li – Directeurs de thèse : P. Poncelet, A. Laurent
Cécile Low Kam – Directeurs de thèse : A. Mas, M. Teisseire
Hai Phan – Directeurs de thèse : M. Teisseire, P. Poncelet
• Évaluation de dossiers (projets, équipes et recrutements)
– Evaluations :
∗ depuis 2011 : Évaluation de demandes de crédit d’impôt recherche (CIR) issues de sociétés,
projets ANR et Idex (Sorbonne / Paris Centre, Strasbourg)
∗ 2014 : Membre du prix de la thèse ATALA (Association savante qui se consacre depuis 1959 au
développement du Traitement Automatique des Langues)
∗ 2009 : Évaluation d’équipe associée INRIA
– Comités de sélection/spécialistes :
∗ 2014 : Membre du Jury du recrutement du poste de "Chef de Projet Numérique/Digital à la
DSI", Cirad
∗ 2012 : Membre du Comité de Sélection du poste MC 2524 de l’Université Paris 6
∗ 2007-2008 : Membre de la Commission de Spécialistes de l’Université d’Avignon (CSE 7, 27, 61)
• Autres responsabilités administratives/scientifiques
– Responsabilités dans des organismes régionaux :
∗ Depuis 2012 : Membre du Conseil Scientifique (COSTI) - Axe "Acquisitions de données traitement et visualisation des données numériques - Groupe Numérique" de Transferts LR
– Responsabilités au LIRMM :
∗ 2010-2013 : Co-responsable de l’équipe-projet TEXTE (2010-2012) puis responsable (20122013)
∗ 2010-2012 : Membre élu du Conseil Scientifique
∗ 2011-2012 : Représentant du Conseil Scientifique à la Commission Valorisation
∗ 2007-2013 : Correspondant de l’association SPECIF (Société des Personnels Enseignants et
Chercheurs en Informatique de France)
∗ 2006-2013 : Membre de la Commission bibliothèque – Exposé invité dans le cadre de la conférence
FREDOC’08 rassemblant les documentalistes du CNRS.
10
• Relectures d’articles
– Revues internationales
∗ Membre de Comité Editorial :
Linguisticae Investigationes, Data & Knowledge Engineering,
(special issues)
∗ Membre de Comités de Lecture : IEEE Intelligent Systems, International Journal of HumanComputer Studies, International Journal of Software and Informatics, Journal of Digital Information,
International Journal of Web Applications, Data & Knowledge Engineering, Information Sciences, Computational Intelligence, International Journal of Hybrid Intelligence, Natural Language Engineering,
International Journal of Collaborative Intelligence, International Journal of Computational Intelligence
Systems, Computers in Industry, Artificial Intelligence Review, Transactions on Knowledge and Data
Engineering
– Revues nationales
∗ Membre de Comité Editorial : TAL (numéro spécial "Opinions, sentiments et jugements d’évaluation")
∗ Membre de Comités de Lecture : TSI, ISI, TAL, RNTI (numéro spécial Fouille de données complexes :
complexité liée aux données multiples), I3 (numéro spécial "Information Mining and Retrieval on the Web"
– Conférences et Workshops internationaux
∗ Membre de Comités de Programmes : NLDB’15/14/13 (Senior PC - 2015, PC chair - 2014),
GISTAM’15, DBKDA’15/14/13/12/11/10/09, MTSR’15/14, DMNLP’15/14, SIMBig’15/14, GAST’15,
CARI’14 (session chair), TICAM’2014, LASM’13/14, Hybrid’12 (EACL Workshop), FDO’12 Workshop,
WIMS’11 Workshop, CIRSE’10/09 Workshop, SOCPAR’10
∗ Membre de Comités de Lecture :
CIKM’11, CSNT’11, FQAS’11, AKDM’11, ICDM’10/09,
ECML/PKDD’10/04/03/02, KDIR’10, DEXA’09, ICADIWT’09, APWeb-WAIM’09, SAC’08, MMD’08,
CAISE’07, ISWC’06, LREC’06, ISWC’06
– Conférences et Ateliers nationaux :
∗ Membre de Comités de Programmes : EGC’15/14/13/12/11 (session co-chair in 2014), CORIA’15/14/13/12/07, IN-OVIVE’15/13, RJCIA’15/14, WebPol’15, SI&IA’15, FDC’15/14, ICSanté’14,
SoWeDo’14, RECITAL’14/13/09/08, TALN’11, INFORSID’15/11/06 (membre adj. du CP en 2006,
membre du CP de la session ISIE en 2011), Web Social’11/10, ECS’11, ExCoCo’11, SIDE’10/09/08,
RJCRI’09 (vice-chair of the PC), DEFT’11/10/09/08/07, SOS’13
∗ Membre de Comités de Lecture : TALN’15/14/13/12/10/09/08, EGC’10/09/08/07/05/03, INFORSID’12/10/07, JFO’09, BDA’11/10/09, RFIA’08, LFO’07, EDA’07, MAJECSTIC’07/06/05/04
Enseignement (depuis 2005)
• Responsabilités Administratives d’Enseignement :
– 2008-2011 : Responsable de la Spécialité "Intégration de Compétences" (IC) – Master Informatique
La mention Informatique de l’Université Montpellier 2 comporte deux spécialités (habilitation LMD2). Une
des spécialités, Intégration de Compétences, a pour but d’apporter, au cours d’un cursus de deux ans, les
connaissances en informatique essentielles pour acquérir une double compétence. Cette spécialité comporte trois
parcours : "Compétences Complémentaires en Informatique", "Bioinformatique", "Système d’Information Géographique" et mutualise des modules avec le parcours "Physique-Informatique" de la mention Physique. Elle comporte environ 70 étudiants en M1 et 50 étudiants en M2.
Site web du Master IC : www.lirmm.fr/IC
– 2006-2011 : Responsable du Parcours Compétences Complémentaires en Informatique (CCI)
– Master Informatique Spécialité IC
– 2006-2011 : Responsable des stages de la Spécialité IC – Master Informatique
– 2008-2009 : Responsable du Certificat Professionnel CP09 : "Webmestre : Conception de Sites
Administration et Serveurs Web" – CNAM Languedoc Roussillon
11
• Responsabilités Pédagogiques d’Enseignement (Université Montpellier 2) :
– 2007-2013 : Co-resp. (avec T. Libourel) UE "Systèmes d’Information et Bases de Données –
niveau 2"
Licence Informatique L3
– 2007-2013 : Co-resp. (avec A. Laurent) UE "Extraction de Connaissances dans les Données"
Master Informatique IFPRU
– 2007-2013 : Co-resp. (avec M. Teisseire) UE "Fouille de Données Avancée"
Master Informatique IFPRU
– 2007-2013 : Resp. UE "Fouille de Données"
Master Informatique IC
– 2007-2013 : Co-resp. (avec I. Mougenot et T. Libourel) avec M. Teisseire UE "Administration des Bases
de Données"
Master Informatique IC
– 2006-2013 : Co-resp. (avec I. Mougenot) UE "Systèmes d’Information et Bases de Données"
Master Informatique IC
– 2008-2011 : Co-resp. (avec T. Libourel) UE "Stages d’analyse ou Projets Tutorés"
Master Informatique IC
– 2006-2007 : Co-resp. (avec T. Libourel) UE "Systèmes d’Information et Bases de Données –
niveau 1"
Licence Informatique L2
– 2005-2007 : Resp. UE "Fouille de Données"
Master Professionnel Informatique
• Autres enseignements :
– UE "Algorithmique - programmation - internet" – CNAM (niveau L1)
– UE "Technologies du Web (XML)" – Master Informatique IC - M1
– UE "Programmation Applicative (Scheme)" – Licence Informatique - L2
12
Liste complète des publications
de Mathieu Roche (depuis 2005)
• Éditions de revues, d’actes et d’ouvrages
[1] E. Métais, M. Roche., M. Teisseire. Natural Language Processing and Information Systems - 19th International Conference
on Applications of Natural Language to Information Systems, NLDB 2014, Montpellier, France, June 18-20, 2014. Proceedings.
Lecture Notes in Computer Science (LNCS), Springer Verlag, Vol. 8455, 268 pages, 2014.
[2] A. Farzindar, M. Roche. TAL et réseaux sociaux. Numéro spécial de Traitement Automatique des Langues, Volume 54,
Numéro 3, 2013
[3] J. Azé, N. Béchet, L. Berti-Equille, S. Guillaume, M. Roche, F. Saïs. Mesurer et évaluer la qualité des données et des
connaissances. Numéro spécial de la revue RNTI (Revue des Nouvelles Technologies de l’Information), volume E-22, 2012
[4] V. Prince, M. Roche. Information Retrieval in Biomedicine: Natural Language Processing for Knowledge Integration. IGI
Publishing, Medical Information Science Reference, 460 pages, 2009
[5] M. Roche, P. Poncelet. Fouille de Données d’Opinions. Numéro spécial de la revue RNTI (Revue des Nouvelles Technologies
de l’Information), volume E-17, 202 pages, 2009
[6] V. Prince, Y. Kodratoff, J. Azé, M. Roche. Défi Fouille de Textes : reconnaissance automatique des auteurs de discours
- Campagne DEFT’05 (TALN’05). Numéro spécial de la revue RNTI (Revue des Nouvelles Technologies de l’Information),
volume E-10, 148 pages, 2007
• Livre
[7] M. Roche. Terminologie et Fouille de Textes (publication de la thèse), Éditions universitaires européennes, ISBN : 978-6131-50420-4, 2010
• Chapitres de livre
[8] H. Saneifar, S. Bonniol, A. Laurent, P. Poncelet, M. Roche. How to Rank Terminology Extracted by Exterlog. In Chapter
in Knowledge Discovery, Knowlege Engineering and Knowledge Management, Series: Communications in Computer and
Information Science (CCIS), Springer-Verlag, revised selected paper of KDIR’09, p121-132, 2011
[9] M. Roche. Utilisation des ressources du Web pour la classification conceptuelle. Dans les Techniques de l’Ingénieur (T.I.).
H 7 420, 2007
• Revues internationales avec comité de lecture
[10] H. Saneifar, S. Bonniol, P. Poncelet, M. Roche. From Terminology Extraction to Terminology Validation: An Approach
Adapted to Log Files. Journal of Universal Computer Science, to appear 2015
[11] H. Saneifar, S. Bonniol, P. Poncelet, M. Roche. Recognition of logical units in log files. Intelligent Data Analysis Journal,
p. 431-448, Volume 19, Issue 2, 2015
[12] E. Kergosien, P. Maurel, Roche M., M. Teisseire M. SENTERRITOIRE pour la détection d’opinions liées à l’aménagement
d’un territoire. Revue Internationale de Géomatique, Extended version of SAGEO’13, p.11-34, Volume 25, Issue 1, 2015
[13] Kergosien E., Laval B., M. Roche, M. Teisseire Are opinions expressed in land-use planning documents?
Journal of Geographical Information Science, Taylor & Francis, p.739-762, Volume 28, Issue 4, 2014
International
[14] H. Saneifar, S. Bonniol, P. Poncelet, M. Roche. Enhancing passage retrieval in log files by query expansion based on explicit
and pseudo relevance feedback. Computers in Industry, Elsevier, p.937-951, Volume 65, Issue 6, 2014
[15] J.A. Lossio Ventura, C. Jonquet, M. Roche, M. Teisseire. Towards a mixed approach to extract biomedical terms from text
corpus. International Journal of Knowledge Discovery in Bioinformatics, IGI, p.1-15, Volume 4, Issue 1, 2014
[16] N.. Béchet, J. Chauché, V. Prince, M. Roche. How to Combine Text-Mining Methods to Validate Induced Verb-Object
Relations? Computer Science and Information Systems, p.133-155, Volume 11, Issue 1, 2014
[17] C. Lopez, V. Prince, M. Roche. How can catchy titles be generated without loss of informativeness? Expert Systems with
Applications, Elsevier, p.1051-1062, Volume 41, Issue 4, 2014 [
[18] R. Kessler , N. Béchet , M. Roche, J.-M. Torres-Moreno , M. El-Bèze. A hybrid approach to managing job offers and
candidates. Information Processing & Management, Volume 48, Issue 6, 1124-1135, 2012
[19] P. Accorsi, N. Patel, C. Lopez, R. Panckhurst, M. Roche. Seek&Hide: Anonymising a French SMS corpus using natural language processing techniques. Linguistic æInvestigationes (special issue "SMS Communication: A Linguistic Approach"),
John Benjamins, Vol. 35, Issue 2, 163-180, 2012
13
[20] C. Lopez, V. Prince, M. Roche. How to Title Electronic Documents Using Text Mining Techniques. International Journal
of Computer Information Systems and Industrial Management Applications, revised selected paper of SOCPAR’10, Vol. 4,
p.562-569, 2012
[21] A. Sallaberry, N. Pecheur, S. Bringay, M. Roche, M. Teisseire. Sequential patterns mining and gene sequence visualization
to discover novelty from microarray data. Journal of Biomedical Informatics, Elsevier, Vol. 44, Issue 5, 760-774, 2011
[22] S. Laroum, N. Béchet, H. Hamza, M. Roche. Hybred: An OCR Document Representation for Classification Tasks.
International Journal of Computer Science Issues, Vol. 8, Issue 3, No 2, 2011
[23] H. Li, A. Laurent, P. Poncelet, M. Roche. Extraction of Unexpected Sentences: A sentiment Classification Assessed
Approach. Intelligent Data Analysis Journal (IDA), Vol 14, No 1, p31-46, 2010
[24] Z. Bellahsene, S. Benbernou, H. Jaudoin, F. Pinet, O. Pivert, F. Toumani, S. Bernard, P. Colomb, R. Coletta, E. Coquery,
F. de Marchi, F. Duchateau, M.-S. Hacid, A. Hadjali, M. Roche. FORUM: a Flexible Data Integration System. SIGMOD
Record, Vol 39, No2, p11-18, 2010
[25] M. Roche, V. Prince. A Web-Mining Approach to Disambiguate Biomedical Acronym Expansions. Informatica, Vol 34,
No2, p243-253, 2010
[26] N. Béchet, J. Chauché, V. Prince, M. Roche, M. Roche. Corpus and Web: Two Allies in Building and Automatically
Expanding Conceptual Classes. Informatica, Special Issue on Semantic Informational Technologies, Vol 34, No3, p279-286,
2010
[27] M. Roche, Y. Kodratoff. Text and Web Mining Approaches in Order to Build Specialized Ontologies. Journal of Digital
Information (JoDI), Vol 10, No 4, 2009
[28] G. Dray, M. Plantié, A. Harb, P. Poncelet, M. Roche, F. Trousset. Opinion Mining from Blogs. International Journal of
Computer Information Systems and Industrial Management Applications, Vol 1, p205-213, 2009
[29] M. Roche, V. Prince. Managing the Acronym/Expansion Identification Process for Text-Mining Applications. International
Journal of Software and Informatics, Special issue on Data Mining, Vol 2, No 2, p163-179, 2008
• Revues nationales avec comité de lecture
[30] G. Tisserant., V. Prince, M. Roche. GenDesc : Vers une nouvelle représentation des données textuelles. Special issue of
RNTI, "Fouille de Données Complexes", 2014
[31] M. Roche, M. Teisseire, B. Crémilleux, P. Gancarski, C. Sallaberry et al. (collectif d’auteurs du projet Animitex) Animitex
: Analyse d’Images fondée sur des Informations Textuelles. Ingénierie Des Systèmes d’Information, Numéro spécial "Big
Data", Résumé étendu, Volume 19, no3, p.163-167, 2014
[32] E. Kergosien, B. Laval., M. Roche, M. Teisseire. Opiland : identification de la perception des territoires par la fouille de
texte. Special issue of RNTI, "Fouille de Données & Humanités Numériques", Volume RNTI-SHS-2, p.185-212, 2014
[33] S.L. Berrahou, L. Lebras, P. Buche, J. Dibie-Barthélemy, M. Roche. Enrichissement d’une RTO par l’ajout de termes
spécialisés. Special issue of RNTI, "Des Sources Ouvertes au Web de Données", RNTI-W-2, Version étendue du résumé/poster
d’EGC’13, p.59-74, 2014
[34] A. Farzindar, M. Roche. Les défis de l’analyse des réseaux sociaux pour le traitement automatique des langues (Préface).
Traitement Automatique des Langues, numéro spécial "TAL et réseaux sociaux", Volume 54, Numéro 3, p.7-16, 2013
[35] C. Lopez, V. Prince, M. Roche. Le résumé et le titrage automatique partagent-ils les mêmes objectifs ? Corela, Vol 11,
No1, 2013
[36] R. Panckhurst, C. Détrie, C. Lopez, C. Moïse, M. Roche, B. Verine. Sud4science, de l’acquisition d’un grand corpus de
SMS en français à l’analyse de l’écriture SMS. Revue Epistémé, Liénard (éd.), "Communication électronique et écritures
numériques", Vol 9, 2013
[37] S. Laroum, N. Béchet, H. Hamza, M. Roche. Classification automatique de documents bruités à faible contenu textuel.
Numéro spécial de la revue RNTI, Fouille de Données Complexes, Vol E-18, 2010
[38] A. Harb, M. Plantié, M. Roche, G. Dray, F. Trousset, P. Poncelet. Détection d’opinion. Comment déterminer les adjectifs
d’opinion d’un domaine donné. Revue du Documents Numériques, Vol 11, No 1-2, p37-61, 2008
[39] F. Duchateau, Z. Bellahsene, M. Roche. Improving Quality and Performance of Schema Matching in Large Scale. Revue
ISI (Ingénierie des Systèmes d’Information), Vol 13, No 5, p59-82, 2008
[40] C. Serp, A. Laurent, M. Roche, M. Teisseire. La quête du Graal et la réalité numérique. Revue Corpus, Vol 7, p173-189,
2008
[41] J. Azé, M. Roche, E. Alphonse, A. Amrani, T. Heitz, A.-D. Mezaour. Bilan du premier défi francophone de Fouille de
Textes. Numéro spécial de la revue RNTI, Défi Fouille de Textes : reconnaissance automatique des auteurs de discours Campagne DEFT’05 (TALN’05), Vol E-10, p15-38, 2007
• Actes de Conférences internationales avec comité de lecture
2015
[42] F. Ying Wang, A. Sallaberry, K. Klein, M. Takatsuka, M. Roche. SentiCompass: Interactive Visualization for Exploring
and Comparing the Sentiments of Time-Varying Twitter Data. In Proceedings of PacificVis (IEEE Pacific Visualization
Symposium, Hangzhou, China, 2015
2014
14
[43] G. Tisserant, V. Prince, M. Roche. Mining Tweet Data - Statistic and semantic information for political tweet classification.
In Proceedings of KDIR’14 (International Conference on Knowledge Discovery and Information Retrieval), Text-Mining
Session, p.523-529, Rome, Italy, 2014
[44] F. Bouillot., P. Poncelet., M. Roche. Classification of Small Datasets: Why Using Class-Based Weighting Measures? In
Proceedings of ISMIS’14 (International Symposium on Methodologies for Intelligent Systems), Springer-Verlag, LNCS, p.345354, Roskilde, Denmark, 2014
[45] E. Arsevska, M. Roche, R. Lancelot, P. Hendrikx, B. Dufour. Exploiting Textual Source Information for Epidemiosurveillance.
In Proceedings of Metadata and Semantics Research - 8th Research Conference, MTSR 2014 - Communications in Computer
and Information Science, Volume 478, Springer, p.359-361, Karlsruhe, Germany, November 27-29 2014
[46] C. Lopez , R. Bestandji, M. Roche, R. Panckhurst. Towards Electronic SMS Dictionary Construction: An Alignment-based
Approach. In Proceedings of LREC’14 (International Conference on Language Resources and Evaluation), p.2833-2838,
Reykjavik, Iceland, 2014
[47] E. Kergosien, C. Lopez., M. Roche, M. Teisseire. Looking for Opinion in Land-Use Planning Corpora. In Proceedings
of CICLING’14 (Conference on Intelligent Text Processing and Computational Linguistics), Springer-Verlag, LNCS, Vol 2,
p.128-140, Kathmandu, Nepal, 2014
[48] H. Alatrista Salas, E. Kergosien, , M. Roche, M. Teisseire. ANIMITEX project: Image Analysis based on Textual Information.
In Proceedings of SIMBig’14 (1st Symposium on Information Management and Big Data), Vol-1318, CEUR, p.49-52, Cusco,
Peru, 2014
[49] J.-A. Lossio Ventura, C. Jonquet, M. Roche, M. Teisseire. Looking for Opinion in Land-Use Planning Corpora. n Proceedings
of SIMBig’14 (1st Symposium on Information Management and Big Data), Vol-1318, CEUR, p.58-61, Cusco, Peru, 2014
[50] J.A. Lossio Ventura, C. Jonque, M. Roche, M. Teisseire. Biomedical Terminology Extraction: A new combination of
Statistical and Web Mining Approaches. In Proceedings of JADT’2014 (Journées internationales d’Analyse statistique des
Données Textuelles), p.421-432, Paris, France, 2014
[51] J.A. Lossio Ventura, C. Jonque, M. Roche, M. Teisseire. BIOTEX: A system for Biomedical Terminology Extraction,
Ranking, and Validation. In Proceedings of ISWC (International Semantic Web Conference), Demonstration, p. 157-160,
Trentino, Italy, 2014
[52] J.A. Lossio Ventura, C. Jonque, M. Roche, M. Teisseire. Yet another ranking function for automatic multi-word term
extraction. In Proceedings of PolTAL’2014 (International Conference on Natural Language Processing), Springer-Verlag,
LNCS-LNAI, p.52-64, Warsaw, Poland, 2014
[53] J.A. Lossio Ventura, C. Jonque, M. Roche, M. Teisseire. Integration of linguistic and Web information to improve biomedical
terminology ranking. In Proceedings of IDEAS’2014 (International Database Engineering & Applications Symposium), ACM,
p.265-269, Porto, Portugal, 2014
2013
[54] J.A. Lossio Ventura, C. Jonque, M. Roche, M. Teisseire. Combining C-value and Keyword Extraction Methods for Biomedical
Terms Extraction. In Proceedings of LBM’13 (International Symposium on Languages in Biology and Medicine), p.45-49,
Tokyo, Japan, 2013
[55] S. L. Berrahou, P. Buche, J. Dibie-Barthelemy, M. Roche. Units of measure identification in unstructured scientific documents
in microbial risk in food. In Proceedings of ICPMF’13 (International Conference on Predictive Modelling in Food), Poster
session, extended abstract, Paris, 2013
[56] S. L. Berrahou, P. Buche, J. Dibie-Barthelemy, M. Roche. How to extract unit of measure in scientific documents? In
Proceedings of KDIR’13 (International Conference on Knowledge Discovery and Information Retrieval), Session Text Mining,
Vilamoura, Portugal, 2013
[57] G. Tisserant, V. Prince, M. Roche. GenDesc: Partial generalisation of linguistic features. In Proceedings of NLDB13
(International conference on Applications of Natural Language Processing), Short paper, Springer-Verlag, LNCS, p.343-348,
University of Salford, UK, 2013
[58] S. Tahrat, E. Kergosien, S. Bringay, M. Roche, M. Teisseire. Text2Geo: from textual data to geospatial information. In
Proceedings of WIMS’13 (International Conference on Web Intelligence, Mining and Semantics), Madrid, Spain, 2013
[59] N. Patel, P. Accorsi, D. Inkpen, C. Lopez, M. Roche. Approaches of anonymisation of an SMS corpus. In Proceedings
of CICLING’13 (Conference on Intelligent Text Processing and Computational Linguistics), Springer-Verlag, LNCS, Vol 1,
p.77-88, Samos, Greece, 2013
2012
[60] C. Lopez, V. Prince, M. Roche. NOMIT: Automatic Titling by Nominalizing. In Proceedings of NAACL HLT’12 (North
American Chapter of the Association for Computational Linguistics – Human Language Technologies), p.274-283, Montréal,
Canada, 2012
[61] M. Roche, O.M. Garbasevschi WeMiT: Web-Mining for Translation. In Proceedings of PAIS/ECAI’12 (Conference on
Prestigious Applications of Intelligent Systems), Poster, Sort Paper, Montpellier, p993-994, p993-994weFrance, 2012
[62] A. Mela, M. Roche, A. Bekhtaoui. Lexical knowledge acquistion using spontaneous descriptions in texts In Proceedings of
NLDB’12 (International conference on Applications of Natural Language Processing), Short paper, Springer-Verlag, LNCS,
p.366-371, Groningen, The Netherlands, 2012
[63] C. Loglisci, D. Ienco, M. Roche, M. Teisseire, D. Malerba. An Unsupervised Framework for Topological Relations Extraction
from Geographic Documents. In Proceedings of DEXA’12 (International Conference on Database and Expert Systems
Applications), Springer-Verlag, LNCS, Vol 2, p.48-55, Vienna, Austria, 2012
15
[64] M. Roche. Fonctions de Rang et Fouille du Web pour l’identification et la catégorisation d’Entités Nommées. In Proceedings
of JADT’12 (Journées internationales d’Analyse statistique des Données Textuelles), p.859-870, Liège, Belgique, 2012
[65] F. Bouillot, P. Poncelet, M. Roche. How and why exploit tweet’s location information? In Proceedings of AGILE’12
(International Conference on Geographic Information Science), Short paper, Avignon, France, 2012
[66] C. Lopez, V. Prince, M. Roche. Just Title It! (by an Online Application) In Proceedings of EACL’12 (International
Conference on Geographic Information Science), Demonstration, p.31-34, Avignon, France, 2012
2011
[67] C. Lopez, V. Prince, M. Roche. Automatic titling of Articles Using Position and Statistical Information. In Proceedings of
RANLP’11 (Recent Advances in Natural Language Processing), Poster, p727-732, Hissar, Bulgaria, 2011
[68] C. Lopez, V. Prince, M. Roche. Automatic Generation Approach of Short Titles. In Proceedings of LTC’11 (Language and
Technology Conference), Poznan, Poland, 2011
[69] B. Duthil , F. Trousset, M. Roche, G. Dray, M. Plantié, J. Montmain, P. Poncelet. Towards an Automatic Characterization
of Criteria. In Proceedings of DEXA’11 (International Conference on Database and Expert Systems Applications), Vol 1,
Springer-Verlag, LNCS, p457-465, Toulouse, France, 2011
[70] S. Bringay, N. Béchet, F. Bouillot, P. Poncelet, M. Roche, M. Teisseire. Towards an On-Line Analysis of Tweets Processing.
In Proceedings of DEXA’11 (International Conference on Database and Expert Systems Applications), Vol 2, Springer-Verlag,
LNCS, p154-161, Toulouse, France, 2011
[71] M. Roche. How Statistical Information from the Web can Help Identify Named Entities. In Proceedings of WEBIST’11
(International Conference on Web Information Systems), Session Web and Text Mining, p685-689, Noordwijkerhout, Netherlands, 2011
2010
[72] H. Saneifar, S. Bonniol, A. Laurent, P. Poncelet, M. Roche. Passage Retrieval in Log Files: An Approach Based on Query
Enrichment. In Proceedings of IceTAL’10 (International Conference on Natural Language Processing), Springer-Verlag,
LNCS, p357-368, Reykjavik, Iceland, 2010
[73] A. Sallaberry, N. Pecheur, S. Bringay, M. Roche, M. Teisseire. Discovering Novelty in Gene Data: From Sequential Patterns
to Visualization. In Proceedings of the 6th International Symposium on Visual Computing, Poster, Springer-Verlag, LNCS,
p534-543, Las Vegas, NV, USA, 2010
[74] C. Lopez, V. Prince, M. Roche. Automatic Titling of Electronic Documents by Noun Phrase Extraction. In Proceedings of
IEEE SOCPAR’10 (Soft Computing and Pattern Recognition), Paris, France, 2010
[75] C. Lopez, V. Prince, M. Roche. Text titling application. In Demonstration proceedings of EKAW’10 (Knowledge Engineering
and Knowledge Management by the Masses), Lisbonne, Portugal, 2010
[76] S. Bringay, M. Roche, M. Teisseire, P. Poncelet, R. Abdel Rassoul, J.M. Verdier, G. Devau. Sequential Patterns: application
to micro-arrays data analysis for Alzheimer disease. In Proceedings of MedInfo’10 (International Congress on Medical
Informatics), Cape Town, South Africa, 2010
[77] A. Sallaberry, N. Pecheur, S. Bringay, M. Roche, M. Teisseire. SequenceViewer: visualization of genes sequences. In
Proceedings of MedInfo’10 (International Congress on Medical Informatics), Demonstration (long abstract), Cape Town,
South Africa, 2010
[78] M. Roche. FIN3 E Approach: Identification of Named Entities from Extracted Terms. In Proceedings of ICCS’10 (International Conference on Cognitive Science), Poster (long abstract), p.356-358, Beijing, China, 2010
[79] A. Laurent, B. Laurent, D. Brouillet, S. Martin, M. Roche. Embedding Emotions within Automatically Generated Brand
Names. In Proceedings of KEER’10 (International Conference on Kansei Engineering and Emotion Research), Paris, 2010
2009
[80] R. Kessler, N. Béchet, J.M. Torres-Moreno, M. Roche, M. El-Bèze. Job Offer Management: How Improve the Ranking of
Candidates. In Proceedings of ISMIS’09 (International Symposium on Methodologies for Intelligent Systems), Springer-Verlag,
LNCS, p431-441, Prague, Czech Republic, 2009
[81] H. Saneifar, S. Bonniol, A. Laurent, P. Poncelet, M. Roche. Mining for Relevant Terms from Log Files. In Proceedings
of KDIR’09 (International Conference on Knowledge Discovery and Information Retrieval), p77-84, Funchal - Madeira,
Portugal, 2009
[82] H. Saneifar, S. Bonniol, A. Laurent, P. Poncelet, M. Roche. Terminology Extraction from Log Files. In Proceedings of
DEXA’09 (International Conference on Database and Expert Systems Applications), Springer-Verlag, LNCS, p769-776, Linz,
Austria, 2009
[83] N. Béchet, M. Roche, J. Chauché. A Hybrid Approach to Validate Induced Syntactic Relations. In Proceedings of IEEE
MAW’09 (International Symposium on Mining and Web), p727-732, Bradford, United Kingdom, 2009
[84] N. Béchet, M. Roche, J. Chauché. Towards the Selection of Induced Syntactic Relations. In Proceedings of ECIR’09
(European Conference on Information Retrieval), Springer-Verlag, LNCS, Poster (Short paper), p786-790, Toulouse, France,
2009
[85] P. Salle, S. Bringay, M. Teisseire, F. Chakkoura, M. Roche, G. Devauc, C. Lautier, J.M. Verdier. GeneMining: Identification,
Visualization and Interpretation of Brain Ageing Signatures. In Proceedings of Medical Informatics Europe (MIE), p767-771,
Sarajevo, Bosnia and Herzegovina, 2009
2008
16
[86] N. Béchet, M. Roche, J. Chauché. How the ExpLSA approach impacts the document classification tasks. In Proceedings
of IEEE ICDIM’08 (International Conference on Digital Information Management), p241-246, University of East London,
London, United Kingdom, 2008
[87] A. Harb, M. Plantié, G. Dray, M. Roche, F. Trousset, P. Poncelet. Web opinion mining: How to extract opinions from
blogs? In Proceedings of IEEE/ACM CSTST’08 (International Conference on Soft Computing as Transdisciplinary Science
and Technology), p211-217, Cergy, France, 2008
[88] I. Bayoudh, N. Béchet, M. Roche. Blog classification: Adding Linguistic Knowledge to Improve the K-NN Algorithm.
In Proceedings of IIP’08 (International Conference on Intelligent Information Processing), Springer IFIP, p68-77, Beijing,
China, 2008
[89] M. Plantié, M. Roche, G. Dray, P. Poncelet. Is a Voting Approach Accurate for Opinion Mining? In Proceedings of DaWaK
08 (International Conference on Datawarehousing and Knwoledge Discovery), Springer-Verlag, LNCS, p413-422, Turin, Italy,
2008
[90] H. Li, A. Laurent, M. Roche, P. Poncelet. Extraction of Opposite Sentiments in Classified Free Format Text Reviews. In
Proceedings of DEXA 08 (International Conference on Database and Expert Systems Applications), Springer-Verlag, LNCS,
p710-717, Turin, Italy, 2008
[91] N. Béchet, M. Roche, J. Chauché. ExpLSA: An Approach Based on Syntactic Knowledge in Order to Improve LSA for a
Conceptual Classification Task. In Proceedings of RCS volume - CICLing’08, Poster, p213-224, University of Haifa, Israel,
2008
[92] N. Béchet, M. Roche, J. Chauché. ExpLSA et classification de textes. In Proceedings of JADT’08 (Journées internationales
d’Analyse statistique des Données Textuelles), Vol 1, p167-177, Lyon, France, 2008
[93] C. Serp, E. Cazal, A. Laurent, M. Roche. Tervotiq : un système de vote pour l’extraction de la terminologie d’un corpus
en français médiéval. In Proceedings of JADT’08 (Journées internationales d’Analyse statistique des Données Textuelles),
Vol 2, p1069-1080, Lyon, France, 2008
[94] M. Roche, V. Prince. Évaluation et détermination de la pertinence pour des syntagmes candidats à la collocation. In
Proceedings of JADT’08 (Journées internationales d’Analyse statistique des Données Textuelles), Poster, Vol 2, p1009-1020,
Lyon, France, 2008
2007
[95] M. Roche, V. Prince. AcroDef: A Quality Measure for Discriminating Expansions of Ambiguous Acronyms. In Proceedings
of CONTEXT’07, Springer-Verlag, LNCS, Poster, p411-424, Roskilde University, Denmark, 2007
[96] F. Duchateau, Z. Bellahsene, M. Roche. A Context-based Measure for Discovering Approximate Semantic Matching between
Schema. In Proceedings of Research Challenges in Information Science (RCIS) - IEEE, p9-20, Ouarzazate, Maroc, 2007
[97] W. Guedria, Z. Bellahsene, M. Roche. A Flexible Approach Based on the user Preferences for Schema Matching.
Proceedings of Research Challenges in Information Science (RCIS) - IEEE, p21-26, Ouarzazate, Maroc, 2007
In
2005
[98] J. Azé, M. Roche, Y. Kodratoff, M. Sebag. Preference Learning in Terminology Extraction: A ROC-based approach. In
Proceedings of ASMDA’05 (Applied Stochastic Models and Data Analysis), p209-219, Brest, France, 2005
• Actes de Workshops internationaux avec comité de lecture
[99] J. Rabatel., J. Azé, P. Poncelet, M. Roche. RegExpMiner: Automatically discovering frequently matching regular expressions.
In Proceedings DMNLP workshop (Interactions between Data Mining and Natural Language Processing) - CEUR Vol-1202,
ECML/PKDD workshop, Extended abstract, p.143-144, Nancy, France, 2014
[100] M. Roche. How to exploit paralinguistic features to identify acronyms in text. In Proceedings of ISA Workshop (Interoperable
Semantic Annotation), LREC Workshop, Short paper, p.69-72, Reykjavik, Iceland, 2014
[101] How to Extract Relevant Knowledge from Tweets? F. Bouillot, P.N. Hai, N. Béchet, S. Bringay, D. Ienco, S. Matwin, P.
Poncelet, M. Roche, M. Teisseire. In Proceedings of "Information Search, Integration and Personalization" Workshop,
Revised version in Communications in Computer and Information Science, Volume 146, pp 111-120, 2013
[102] C. Loglisci, D. Ienco, M. Roche, M. Teisseire, D. Malerba. Toward Geographic Information Harvesting: Extraction of Spatial
Relational Facts from Web Documents. In Proceedings of SSTDM Workshop (Spatial and Spatio-Temporal Data Mining),
ICDM Workshop, p.789-796, Brussels, Belgium, 2012
[103] D. Breton, S. Bringay, F. Marques, P. Poncelet, M. Roche. Mining Web Data for Epidemiological Surveillance. In Proceedings
of DMHM Workshop (Data Mining for Healthcare Management Workshop), PAKKD Workshop, Revised Selected Papers,
LNCS, Springer Verlag, p.11-21, Kuala Lumpur, Malaisia, 2012
[104] F. Bouillot, P. Poncelet, M. Roche, D. Ienco, E. Bigdeli, S. Matwin. French Presidential Elections: What are the Most Efficient Measures for Tweets? In Proceedings of PLEAD Workshop (Politics, Elections and Data Workshop), CIKM Workshop,
ACM, p.23-30, Maui, USA, 2012
[105] S. Tahrat S., M. Roche, M. Teisseire. Extraction of Geospatial Information from Documents. In Proceedings of Geographic
Information Retrieval Tutorial - Panel discussion. AGILE Worskshop, 2012
[106] C. Lopez, V. Prince, M. Roche. Managing Personal Information by Automatic Titling of E-mails. In Proceedings of PSD
(Workshop of Personal Semantic Data) - EKAW’10, Lisonne, Portugal, 2010
17
[107] N. Béchet, M. Roche. How to Expand Dictionaries with Web-Mining Techniques. In Proceedings of Cogalex (Cognitive
Aspects of the Lexicon) - COLING’10, Beijing, China, 2010
[108] R. Kessler, N. Béchet, M. Roche, M. El-Bèze, J.M. Torres-Moreno. E-Gen: automatic profiling system for ranking candidates
answers in Human Resources. In Proceedings of QSI workshop (Quantitative Semantic methods for the Internet) - OTM’08,
Springer-Verlag, LNCS, p625-634, Monterrey, Mexico, 2008
[109] C. Raissi, J. Brissaud, G. Dray, P. Poncelet, M. Roche, M. Teisseire M. Web Analyzing Traffic Challenge: Description and
Results. In Proceedings of ECML/PKDD’2007 Discovery Challenge, p47-52, Poland, 2007
[110] N. Béchet, M. Roche, J. Chauché. Improving LSA by expanding the contexts. In Proceedings of Context-Based Information
Retrieval (CIR) workshop - CONTEXT’07, Poster (Short paper), p105-108, Roskilde University, Denmark, 2007
[111] F. Duchateau, Z. Bellahsene, M. Roantree, M. Roche. An Indexing Structure for Automatic Schema Matching. In Proceedings
of the International Workshop on Self-Managing Database Systems (SMDB) - ICDE’07, p485-491, Istanbul, Turkey, 2007
[112] M. Roche, Y. Kodratoff. Pruning Terminology Extracted from a Specialized Corpus for CV Ontology Acquisition. In Proceedings of onToContent’06 workshop (Ontology content and evaluation in Enterprise) - OTM’06, Springer Verlag, LNCS,
p1107-1116, Montpellier, France, 2006
• Actes de Conférences nationales avec comité de lecture
2015
[113] J.A. Lossio Ventura, C. Jonquet, M. Roche, M. Teisseire. Prédiction de la polysémie pour un terme biomédical. In Actes
de la conférence francophone en Recherche d’Information et Applications (CORIA), p.437-452, Paris, 2015
[114] F. Bouillot, P. Poncelet P., M. Roche. Mesurer la proximité entre corpus par de nouveaux méta-descripteurs. In Actes de
la conférence francophone en Recherche d’Information et Applications (CORIA), p.369-383, Paris, 2015
[115] Données authentiques : un grand corpus de SMS en français. R. Panckhurst, M. Roche, C. Lopez. In Actes Colloque
SHESL-HTL 2015 "Corpus et constitution des savoirs linguistiques" (http://shesl-htl2015.sciencesconf.org/), Résumés des
communications, p. 33-35, Janvier 2015, Paris, France
2014
[116] J.A. Lossio Ventura, C. Jonquet, M. Roche, M. Teisseire. Extraction automatique de termes combinant différentes informations. In Actes de la conférence TALN’14 (Traitement Automatique des Langues Naturelles), p.407-412, Article court,
Marseille, 2014
[117] F. Bouillot, P. Poncelet P., M. Roche. De nouvelles pondérations adaptées à la classification de petits volumes de données
textuelles. In Actes de la conférence EGC’14 (Extraction et Gestion des Connaissances), p.131-142, Article long, Rennes,
2014
Article nominé parmi les 6 meilleurs articles applicatifs d’EGC’14.
[118] C. da Costa Pereira, M. Lafourcade., P. Lloret., C. Lopez, M. Roche. Vectorisation paramétrée des données textuelles. In
Actes de la conférence EGC’14 (Extraction et Gestion des Connaissances), Démonstration, p.593-596, Rennes, 2014
2013
[119] E. Kergosien, P. Maurel, M. Roche, M. Teisseire. OPITER : Fouille de données d?opinion pour les territoires In Actes de
la conférence SAGEO’13 (Spatial Analysis and GEOmatics), Brest, 2013
[120] F. Bouillot, O. Gout, P. Magnier, C. Pénin, P. Poncelet, M. Roche. Vers un outil de cartographie : qui est l’expert ? In
Actes de la conférence EGC’13 (Extraction et Gestion des Connaissances), Démonstration (Résumé étendu), Toulouse, 2013
[121] L. Lebras, P. Buche, J. Dibie-Barthélemy, M. Roche. Enrichissement d’une RTO par l’ajout de termes spécialisés. In Actes
de la conférence EGC’13 (Extraction et Gestion des Connaissances), Poster (Résumé étendu), Toulouse, 2013
[122] S. Tahrat, E. Kergosien, S. Bringay, M. Roche, M. Teisseire. Text2Geo : des données textuelles aux informations géospatiales.
In Actes de la conférence EGC’13 (Extraction et Gestion des Connaissances), p.407-412, Article court, Toulouse, 2013
2012
[123] M. Dieye, M.R. Doulache, M. Floussi, J. Chabalier, I. Mougenot, M. Roche. Construction d’un dictionnaire multilingue de
biodiversité à partir de dires d’experts. In Actes de la conférence INFORSID’12, Article court, Montpellier, 2012
[124] H. Saneifar, S. Bonniol, P. Poncelet, M. Roche. Segmentations des fichiers logs.
(Extraction et Gestion des Connaissances), p.381-386, Article court, Bordeaux, 2012
In Actes de la conférence EGC’12
[125] G. Tisserant, V. Prince, M. Roche. Détection de relations sémantiques à partir de texte. In Actes de la conférence SFC’12
(Rencontres de la Société Francophone de Classification), Marseille, 2012
2011
[126] S. Léon, M. Roche. Une étude comparative diachronique du féminisme. In Actes de la conférence Toth’11 (Terminologie &
Ontologie : Théories et Applications), 2011 [version étendue : Rapport de Recherche du LIRMM RR-13010, 2013]
[127] H. Saneifar, S. Bonniol, P. Poncelet, M. Roche.
Identification des divisions logiques de fichiers logs.
SFC’11(Rencontres de la Société Francophone de Classification), Orléans, 2011
In Actes de
[128] S. Bringay, N. Béchet, F. Bouillot, P. Poncelet, M. Roche, M. Teisseire. Analyse de gazouillis en ligne. In Actes de EDA’11
(Journées francophone sur les Entrepôts de Données et l’Analyse), p87-102, Clermont-Ferrand, 2011
18
[129] C. Lopez, M. Roche. Approche de construction automatique de titres courts par des méthodes de Fouille du Web. In Actes
de TALN’11 (Traitement Automatique des Langues Naturelles), p39-50, Montpellier, 2011
[130] C. Lopez, V. Prince, M. Roche. Recherche documentaire par titrage automatique. In Actes d’INFORSID’11, Lille, 2011
[131] A. Mela, M. Roche, M.A. Bekhtaoui. Mixer les moyens pour extraire les gloses. In Actes de la conférence EGC’11 (Extraction
et Gestion des Connaissances), p95-106, Brest, 2011
[132] B. Duthil, F. Trousset, M. Roche, M. Plantié, G. Dray, J. Montmain. Une nouvelle approche pour l’extraction non supervisée
de critères. In Actes de la conférence EGC’11 (Extraction et Gestion des Connaissances), Poster (Résumé étendu), p325-326,
Brest, 2011
[133] B. Rosoor, L. Sebag, S. Bringay, M. Roche A la recherche des tweets porteurs d’informations journalistiques. In Actes de la
conférence EGC’11 (Extraction et la Gestion des Connaissances), Démonstration (Résumé étendu), p283-286, Brest, 2011
2010
[134] M. Roche. Filtrage des Entités Nommées par des méthodes de Fouille de Textes.
(Terminologie & Ontologie : Théories et Applications), Annecy, 2010
In Actes de la conférence Toth’10
[135] B. Rosoor, L. Sebag, S. Bringay, P. Poncelet, M. Roche Quand un tweet détecte une catastrophe naturelle... In Actes de la
conférence VSST’10 (Veille Stratégique Scientifique et Technologique), Toulouse, 2010
[136] C. Lopez, V. Prince, M. Roche. Titrage automatique de documents électroniques par extraction de syntagmes nominaux.
In Actes des Journées francophones d’Ingénierie des Connaissances, p 17-28, Nîmes, 2010
[137] D. Breton, M. Roche, P. Poncelet, F. Marques. Cartographie de dépêches pour analyser le développement d’épidémies. In
Actes des Journées francophones d’Ingénierie des Connaissances, Poster (Article court), p229-234, Nîmes, 2010
[138] D. Breton, M. Roche, P. Poncelet, F. Marques. Analyse de dépêches pour l’épidémiologie. In Actes des Journées francophones
d’Ingénierie des Connaissances, Démonstration (Résumé étendu), p271-273, Nîmes, 2010
[139] H. Saneifar, S. Bonniol, A. Laurent, P. Poncelet, M. Roche. Recherche de passages pertinents dans les fichiers logs par
enrichissement de requêtes. In Actes de la conférence francophone en Recherche d’Information et Applications (CORIA),
p239-254, Sousse, Tunisie, 2010
[140] S. Bringay, A. Laurent, P. Poncelet, M. Roche, M. Teisseire. Bien cube, les données textuelles peuvent s’agréger ! In Revue
RNTI (Revue des Nouvelles Technologies de l’Information), numéro spécial EGC’2010, p585-596, Hammamet, Tunisie, 2010
Article nominé parmi les 8 meilleurs articles applicatifs d’EGC’10.
[141] A. Sallaberry, N. Pecheur, S. Bringay, M. Roche, M. Teisseire. SequencesViewer : Visualisation de séquences ordonnées de
gènes ou comment rendre accessible des motifs séquentiels trop nombreux ? In Revue RNTI (Revue des Nouvelles Technologies
de l’Information), numéro spécial EGC’2010, Article court, p387-392, Hammamet, Tunisie, 2010
2009
[142] H. Saneifar, S. Bonniol, A. Laurent, P. Poncelet, M. Roche. Processus d’extraction et de validation de la terminologie issue
de logs. In Actes des Journées Francophones sur les Ontologies (JFO’2009), Poitiers, 2009
[143] N. Béchet, M. Roche, J. Chauché. Corpus et Web : deux alliés pour la construction de l’enrichissement automatique de
classes conceptuelles. In Actes de la conférence Toth’09 (Terminologie & Ontologie : Théories et Applications), Annecy, 2009
[144] R. Kessler, N. Béchet, J.M. Torres-Moreno, M. Roche, M. El-Bèze. Profilage de candidatures assisté par Relevance Feedback.
In Actes de la conférence TALN’09, Poster, Senlis, 2009
[145] N. Béchet, M. Roche, J. Chauché. Comment valider automatiquement des relations syntaxiques induites. In Revue RNTI
(Revue des Nouvelles Technologies de l’Information), numéro spécial EGC’2009, p169-180, Strasbourg, 2009
Article nominé parmi les 9 meilleurs articles académiques d’EGC’09
[146] O. Djanga, H. Hamzioui, M. Hatchi, I. Mougenot, M. Roche. Regroupement des Définitions de Sigles Biomédicaux.
In Revue RNTI (Revue des Nouvelles Technologies de l’Information), numéro spécial EGC’2009, Démonstration (Résumé
étendu), p487, Strasbourg, 2009
2008
[147] M. Roche, V. Prince.
Fontainebleau, 2008
Processus global d’acquisition et de gestion des sigles.
In Actes de la conférence INFORSID’08,
[148] H. Li, A. Laurent, M. Roche, P. Poncelet. Recherche de sentiments opposés par une approche floue à partir de textes libres.
In Actes de la conférence LFA’08 (Logique Floue et ses Applications), Lens, 2008
[149] N. Béchet, M. Roche, J. Chauché. ExpLSA : utilisation d’informations syntaxico-sémantiques associées à LSA pour améliorer
les méthodes de classification conceptuelle. In Revue RNTI (Revue des Nouvelles Technologies de l’Information), numéro
spécial EGC’2008, p589-600, Sophia-Antipolis, 2008
[150] M. Plantié, M. Roche, G. Dray. Un système de vote pour la classification de textes d’opinion. In Revue RNTI (Revue des
Nouvelles Technologies de l’Information), numéro spécial EGC’2008, Article court, p583-588, Sophia-Antipolis, 2008
[151] V. Matviico, N. Muret, M. Roche. Processus d’acquisition d’un dictionnaire de sigles et de leurs définitions à partir d’un
corpus. In Revue RNTI (Revue des Nouvelles Technologies de l’Information), numéro spécial EGC’2008, Démonstration
(Résumé étendu), p231-232, Sophia-Antipolis, 2008
19
[152] J. Rabatel, Y. Lin, Y. Pitarch, H. Saneif, C. Serp, M. Roche, A. Laurent. Visualisation des motifs séquentiels extraits à
partir d’un corpus en Ancien Français. In Revue RNTI (Revue des Nouvelles Technologies de l’Information), numéro spécial
EGC’2008, Démonstration (Résumé étendu), p237-238, Sophia-Antipolis, France, 2008
2007
[153] F. Duchateau, Z. Bellahsène, M. Roche. BMatch: a Semantically Context-based Tool Enhanced by an Indexing Structure
to Accelerate Schema Matching. In Actes des Journées Bases de Données Avancées (BDA), Marseille, 2007
[154] M. Roche, V. Prince. DefAcro : mesure de qualité pour le choix de la définition des acronymes ambigus. In Actes de la
quatrième conférence francophone en Recherche d’Information et Applications (CORIA), p255-270, Saint-Etienne, 2007
2006
[155] A. Mela, M. Roche. Des gloses de mot aux types de textes : un bilan différencié. In Actes du colloque "Corpus en Lettres
et Sciences sociales : des documents numériques à l’interprétation", Texto! [en ligne] Vol XI, n°2, 2006.
[156] M. Roche, Y. Kodratoff. Choix du taux d’élagage pour l’extraction de la terminologie. Une approche fondée sur les courbes
ROC. Revue RNTI (Revue des Nouvelles Technologies de l’Information) numéro spécial conférence EGC’06, p205-216, Lille,
2006
[157] M. Roche. Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables. Dans Actes des
Journées de Rochebrune (Rencontres interdisciplinaires sur les systèmes complexes naturels et artificiels), p151-161, Megève,
2006
2005
[158] A. Amrani, M. Roche, Y. Kodratoff, O. Matte-Tailliez. Inductive Improvement of Part-of-Speech Tagging and its Effect
on a Terminology of Molecular Biology. In Proceedings of the 18th Conference of the Canadian Society for Computational
Studies of Intelligence, AI 2005, Springer-Verlag, LNCS, p366-376, Victoria, British-Columbia, Canada, 2005
[159] T. Heitz, M. Roche, Y. Kodratoff. Extraction de termes centrée autour de l’expert. Revue RNTI (Revue des Nouvelles
Technologies de l’Information) numéro spécial conférence EGC’05, Démonstration (Article court), p685-690, Paris, 2005
• Vulgarisation scientifique
[160] M. Roche, S. Fortuno. La fouille de textes au service de la documentation. Arabesque, Volume 76, p.13-14, 2014
[161] R. Panckhurst, C. Détrie, C. Lopez, C. Moïse, M. Roche, B. Verine. Une grande collecte de SMS authentiques en français :
démarche, remarques et conseils. Le français à l’université, Volume 19, No3, 2014
• Corpus
[162] R. Panckhurst, C. Détrie, C. Lopez, C. Moïse, M. Roche, B. Verine. 88milSMS. A corpus of authentic text messages in
French. Corpus produit par l’Université Paul-Valéry Montpellier III et le CNRS, en collaboration avec l’Université catholique
de Louvain, financé grâce au soutien de la MSH-M et du Ministère de la Culture (Délégation générale à la langue française et
aux langues de France) et avec la participation de Praxiling, Lirmm, Lidilem, Tetis, Viseo (http://88milsms.huma-num.fr/).
ISLRN : 024-713-187-947-8, 2014 (près de 300 téléchargements effectués).
20

Documents pareils