Sujet : Extraction d`information générique à partir de textes fondée
Transcription
Sujet : Extraction d`information générique à partir de textes fondée
Sujet : Extraction d'information générique à partir de textes fondée sur une analyse linguistique profonde Nom : Ludovic JEAN-LOUIS – [email protected] Résumé des travaux : La plus grande partie des informations disponibles librement sur le Web se présentent sous une forme textuelle, c'est-à-dire sous une forme dite non-structurée. Dans un contexte comme celui de la veille, il est ainsi très utile de pouvoir présenter les informations issues d'un texte sous une forme structurée en se focalisant sur celles jugées pertinentes vis-à-vis du domaine d'intérêt considéré. L'extraction d'information s'inscrit dans cette perspective en identifiant dans des textes les informations concernant des faits (ou événements) dans la perspective de les stocker dans des structures de données préalablement définies. Ces structures, appelées template (ou formulaire), résument les informations pertinentes (entités) en rapport avec un domaine d'intérêt. La thèse se situe dans ce cadre, avec comme contexte d'application la veille relative aux événements sismiques. L'exemple ci-dessous montre un template caractéristique de ce domaine ainsi que les informations en relation avec ce template qui sont extraites d'une partie d'une dépêche sur un tremblement de terre : Un séisme de magnitude 5,9 sur l'échelle de Richter a frappé samedi la région de Kanto au Japon (dans l'est de Honshu), a annoncé l'Agence météorologique japonaise. Le séisme s'est produit à 11h19 (02h19 GMT) et a été fortement ressenti à Tokyo et dans ses régions voisines. Une autre secousse de magnitude 3,9 avait touché le nord du Japon mercredi dans la matinée. Événement Magnitude séisme 5,9 secousse 3,9 Date Heure Lieu samedi 11h19 (02h19 GMT) Kanto au Japon mercredi Nord du Japon Réaliser une telle extraction nécessite de résoudre plusieurs problèmes : détecter les entités, détecter les événements et en final, associer les entités aux événements. Dans cette thèse, nous nous sommes principalement focalisés sur ce dernier problème, en l'abordant selon une approche en deux étapes : la première permet d'identifier les zones de texte sur lesquelles le processus d'extraction doit se focaliser pour rechercher les entités liées à un événement ; la seconde permet d'associer à chaque événement principal d'un texte toutes les entités mentionnées dans le texte qui lui sont associées. L'étape de découpage en zones de texte, appelée aussi segmentation événementielle, repose sur l'utilisation de modèles d'apprentissage statistique (HMM, Maxent et CRF) exploitant la dimension temporelle des textes au travers de divers marqueurs (temps des verbes, dates, expressions de localisation temporelle) et de leur succession dans le cas des modèles de séquence. La seconde étape, dite de rattachement, utilise le découpage événementiel précédent en deux temps : d'abord pour identifier les relations entre les entités à un niveau local, c'est-à-dire établir la présence/l'absence de relations sémantiques entre les entités ou entre les entités et les événements ; ensuite pour construire un graphe d'entités à partir des entités en relation localement et sélectionner à partir de ce graphe les entités pertinentes. Les différentes évaluations, sur un ensemble de dépêches de presse en langue française, ont permis d'obtenir des résultats encourageants : pour la tâche de segmentation événementielle, en moyenne 80% en termes de F1-mesure pour les types d'événements définis [1] ; en moyenne 75% en termes de F1-mesure pour l'étape d'association des entités aux événements. Les perspectives de recherche à court terme concernent principalement l'adaptation à un autre domaine que le domaine du sismique et la transposition à la langue anglaise. [1] L. Jean-Louis, R. Besançon, O. Ferret. (2010). Using temporal cues for segmenting texts into events. 7th International Conference on Natural Language Processing (IceTAL). Reykjavik, Iceland.