Sujet : Extraction d`information générique à partir de textes fondée

Transcription

Sujet : Extraction d`information générique à partir de textes fondée
Sujet : Extraction d'information générique à partir de textes fondée sur une analyse linguistique
profonde
Nom : Ludovic JEAN-LOUIS – [email protected]
Résumé des travaux :
La plus grande partie des informations disponibles librement sur le Web se présentent sous une forme
textuelle, c'est-à-dire sous une forme dite non-structurée. Dans un contexte comme celui de la veille, il
est ainsi très utile de pouvoir présenter les informations issues d'un texte sous une forme structurée en
se focalisant sur celles jugées pertinentes vis-à-vis du domaine d'intérêt considéré. L'extraction
d'information s'inscrit dans cette perspective en identifiant dans des textes les informations concernant
des faits (ou événements) dans la perspective de les stocker dans des structures de données
préalablement définies. Ces structures, appelées template (ou formulaire), résument les informations
pertinentes (entités) en rapport avec un domaine d'intérêt. La thèse se situe dans ce cadre, avec comme
contexte d'application la veille relative aux événements sismiques. L'exemple ci-dessous montre un
template caractéristique de ce domaine ainsi que les informations en relation avec ce template qui sont
extraites d'une partie d'une dépêche sur un tremblement de terre :
Un séisme de magnitude 5,9 sur l'échelle de Richter a frappé samedi la région de Kanto au Japon (dans l'est de
Honshu), a annoncé l'Agence météorologique japonaise. Le séisme s'est produit à 11h19 (02h19 GMT) et a été
fortement ressenti à Tokyo et dans ses régions voisines. Une autre secousse de magnitude 3,9 avait touché le nord du
Japon mercredi dans la matinée.
Événement Magnitude
séisme
5,9
secousse
3,9
Date
Heure
Lieu
samedi 11h19 (02h19 GMT) Kanto au Japon
mercredi
Nord du Japon
Réaliser une telle extraction nécessite de résoudre plusieurs problèmes : détecter les entités, détecter les
événements et en final, associer les entités aux événements. Dans cette thèse, nous nous sommes
principalement focalisés sur ce dernier problème, en l'abordant selon une approche en deux étapes : la
première permet d'identifier les zones de texte sur lesquelles le processus d'extraction doit se focaliser
pour rechercher les entités liées à un événement ; la seconde permet d'associer à chaque événement
principal d'un texte toutes les entités mentionnées dans le texte qui lui sont associées.
L'étape de découpage en zones de texte, appelée aussi segmentation événementielle, repose sur
l'utilisation de modèles d'apprentissage statistique (HMM, Maxent et CRF) exploitant la dimension
temporelle des textes au travers de divers marqueurs (temps des verbes, dates, expressions de
localisation temporelle) et de leur succession dans le cas des modèles de séquence. La seconde étape,
dite de rattachement, utilise le découpage événementiel précédent en deux temps : d'abord pour
identifier les relations entre les entités à un niveau local, c'est-à-dire établir la présence/l'absence de
relations sémantiques entre les entités ou entre les entités et les événements ; ensuite pour construire un
graphe d'entités à partir des entités en relation localement et sélectionner à partir de ce graphe les
entités pertinentes. Les différentes évaluations, sur un ensemble de dépêches de presse en langue
française, ont permis d'obtenir des résultats encourageants : pour la tâche de segmentation
événementielle, en moyenne 80% en termes de F1-mesure pour les types d'événements définis [1] ; en
moyenne 75% en termes de F1-mesure pour l'étape d'association des entités aux événements.
Les perspectives de recherche à court terme concernent principalement l'adaptation à un autre domaine
que le domaine du sismique et la transposition à la langue anglaise.
[1] L. Jean-Louis, R. Besançon, O. Ferret. (2010). Using temporal cues for segmenting texts into
events. 7th International Conference on Natural Language Processing (IceTAL). Reykjavik, Iceland.