Proposition de stage niveau Master (lab. ERIC – Université de Lyon
Transcription
Proposition de stage niveau Master (lab. ERIC – Université de Lyon
Proposition de stage niveau Master (lab. ERIC – Université de Lyon) Intitulé : Mise en place d’une plate-forme d’extraction et d’analyse des forums de discussion sur le Web. Supervision : J. Velcin, J. H. Chauchat Contact : [email protected] Localisation : laboratoire ERIC (Université de Lyon) Durée : 6 mois (début dès que possible) Profil recherché : Unix/Linux, programmation Web, text mining Financement : projet CRTT-ERIC (BQR Lyon 2) ∼436 euros par mois Sujet: Le laboratoire ERIC travaille depuis quelques années sur l’analyse automatique des données textuelles (text mining). Plusieurs travaux de recherche ont ainsi concerné l’analyse des forums de discussion sur des sites internet traitant de sujets variés : actualité (http://www. huffingtonpost.fr, http://www.rue89.com/), films et séries télévisées (http://www.televisionwithoutpity. com/), santé (http://www.doctissimo.fr/). Récemment, le Centre de Recherche en Terminologie et Traduction (CRTT) et le laboratoire ERIC ont obtenu de la part de l’université un financement conjoint pour travailler sur les discussions en ligne traitant du domaine de la santé. L’objectif du projet consiste à constituer un corpus textuel numérique sur le domaine de la médecine nucléaire (et des accidents nucléaires), puis à exploiter ce corpus afin d’étudier les formes et usages de la langue médicale (mais aussi scientifique et technique). Il s’agira de prendre en compte les différentes populations concernées : médecins, étudiants en médecine, journalistes, grand public. . . . Dans ce cadre, le laboratoire ERIC propose un stage afin de mettre en place une plate-forme d’extraction et d’analyse des données issues de forums en ligne. Il est envisagé que cette plate-forme soit, dans le futur, mise à la disposition de la communauté scientifique. Ce stage se déroulera en trois phases : i) prise en main du prototype existant au laboratoire, ii) portage (et extension) du prototype sur une nouvelle machine dédiée, iii) premières analyses des données textuelles issues des forums médicaux. Le détail est donné ci-dessous. Prise en main Un premier prototype, déjà bien abouti, a été réalisé lors de projets précédents. Il permet de créer facilement des analyseurs (parsers) dédiés au site internet en cours d’étude, par le biais d’un méta-langage. Les données textuelles sont rapatriées et indexées dans une base de données relationnelle. Plusieurs techniques de fouille de textes peuvent ensuite être appliquées à ces données, entre autres pour permettre une visualisation de l’évolution temporelle des thématiques. La première partie du stage consistera donc à comprendre la logique d’ensemble du système, c’est-à-dire comment les différents modules précédemment développés interropèrent, et à effectuer des premiers tests. Portage Une fois le prototype pris en main, la deuxième partie du stage consistera à porter le système dans son ensemble (moteur de recherche, base de données, algorithmes de fouille de textes) sur une nouvelle machine. En effet, l’achat d’un serveur suffisamment puissant a été prévu dans le cadre du projet ERIC-CRTT. L’étudiant devra veiller à réaliser suffisamment de test pour garantir le bon fonctionnement de l’ensemble. Il est prévu d’utiliser le système d’exploitation Linux. Analyse des forums médicaux en ligne Pour terminer, l’étudiant devra produire une première analyse des données textuelles issues de forums médicaux identifiés pour le projet. Il pourra utiliser les algorithmes déjà implémentés dans le système, notamment ceux permettant d’extraire des thématiques et de les suivre temporellement, mais il est également possible d’utiliser toutes autres techniques que l’étudiant pourrait avoir apprises lors de son Master. Cela peut être par exemple des techniques issues de l’analyse des données (décomposition factorielle) ou de l’apprentissage automatique. 2