Désambiguisation des Entités Spatiales par apprentissage actif 1

Transcription

Désambiguisation des Entités Spatiales par apprentissage actif 1
Stage Recherche (M2) :
Désambiguisation des Entités Spatiales par apprentissage actif
Mathieu Roche et Maguelonne Teisseire
TETIS & LIRMM, Montpellier
[email protected], [email protected]
1
Contexte
L’identification des territoires reste un problème difficile car leurs pourtours sont propres à chaque communauté ou groupe
d’acteurs impliqués. La difficulté s’accroît selon les différentes régions et cultures car il n’existe pas nécessairement une
délimitation explicite et uniforme. L’extraction d’informations spatiales au sein des documents (Leidner & Lieberman,
2011) est un premier pas pour définir une méthode de découverte automatique de la perception des territoires qui reste un
enjeu majeur dans le contexte de l’aménagement et des débats publics associés (Kergosien et al., 2015).
De nombreuses méthodes de la littérature utilisent des méthodes d’apprentissage supervisé pour l’identification d’entités
nommées en général et des entités spatiales en particulier à partir de données textuelles (Carreras et al., 2003; Zenasni
et al., 2015). D’autres approches reposent sur des méthodes symboliques à base de règles (Moncla et al., 2014). Ce type
d’approche a été mis en place au sein de l’UMR TETIS (Farvardin et al., 2015). De plus, des combinaisons ont été
proposées dans des travaux menés par notre équipe afin de distinguer les Organisations et les Entités Spatiales présentes
dans des textes (Tahrat et al., 2013). Ces combinaisons consistent à intégrer les règles comme descripteurs dans les
approches sac de mots classiquement utilisées en Recherche d’Information (Salton & McGill, 1986).
Dans le cadre de l’identification des Entités Spatiales, un problème difficile est en effet lié à la désambiguisation. Outre
l’ambiguité entre Organisations et Entités Spatiales, il existe des ambiguïtés liées aux toponymes en eux mêmes (Buscaldi,
2009). Par exemple, dans la phrase Elancourt et Maurepas sont des villes proches de Paris, la
localisation Elancourt ne souffre d’aucune ambiguité car elle correspond à une entrée unique dans les différentes
ressources géographiques. A contrario, il existe une ambiguité pour Maurepas qui peut désigner plusieurs communes 1 .
Le travail demandé pour ce stage est de s’attacher à résoudre aussi de telles ambiguïtés dans un objectif d’indexation
(documents textuels) et/ou de recherche d’information (raffinement de requêtes).
Ce travail s’effectue dans le cadre du projet Songes (Science des Données Hétérogènes – Chercheurs d’avenir 2015 –
Région Languedoc Roussillon).
2
Travail à réaliser
Les méthodes d’apprentissage supervisées souffrent d’une importante limite liée à la nécessité d’avoir à disposition des
données étiquetées en quantité importante. Les méthodes non supervisées ont l’inconvénient de n’être, en général, pas
assez exhaustives. Pour pallier chacune de ces limites, des méthodes d’apprentissage actif qui permettent d’intégrer l’expertise des utilisateurs au cœur du processus d’apprentissage, sont tout à fait pertinentes (Settles, 2009).
Quelques travaux ce sont intéressés à l’utilisation d’un tel principe (apprentissage actif) pour la problématique de désambiguisation sémantique (Zhu, 2007; Ménard et al., 2015). Par exemple, (Ménard et al., 2015) s’intéressent au traitement
de la polysémie en appliquant une méthode fondée sur une représentation sac de mots et l’utilisation de la méthode d’apprentissage Random Forest. Notons qu’une des difficultés des méthodes d’apprentissage actif est la condition d’arrêt,
problématique qui a notamment été abordée par (Zhu, 2007).
Nos travaux consisteront à adapter les systèmes classiques d’apprentissage actif pour traiter les deux types de désambiguisations illustrées en section 1, à savoir la désambiguisation des toponymes (c’est-à-dire, un même toponyme peut
correspondre à des lieux différents) et la désambiguisation entre types d’entités nommées (distinction Entités Spatiales
1. notamment en Louisiane aux Etats Unis et dans les Yvelines en France.
/ Organisations). Pour cela, la complexité du contexte et les descripteurs associés devront être pris en compte dans les
modèles d’apprentissage actif à mettre en œuvre. Ce contexte plus riche 2 permettra d’améliorer le système de désambiguisation.
Le stage de recherche proposé s’articulera autour des tâches suivantes. Il s’agira, dans un premier temps, de compléter
l’état de l’art des approches les plus récentes ayant adopté une démarche similaire, puis d’identifier et d’adapter celles
permettant la désambiguisation des entités spatiales par apprentissage actif. Des expérimentations rigoureuses devront
être réalisées sur des données réelles (en français et en anglais).
Références
B USCALDI D. (2009). Toponym ambiguity in geographical information retrieval. In Proceedings of the 32Nd International ACM SIGIR Conference on Research and Development in Information Retrieval, SIGIR ’09, p. 847–847, New
York, NY, USA : ACM.
C ARRERAS X., M ÀRQUEZ L. & PADRÓ L. (2003). A simple named entity extractor using adaboost. In W. DAELE MANS & M. O SBORNE , Eds., Proceedings of CoNLL-2003, p. 152–155 : Edmonton, Canada.
FARVARDIN A., K ERGOSIEN E., ROCHE M. & T EISSEIRE M. (2015). A webtool for analyzing land-use planning
documents. In Proceedings of 14th International Semantic Web Conference (Demos).
K ERGOSIEN E., M AUREL P., ROCHE M. & T EISSEIRE M. (2015). SENTERRITOIRE pour la détection d’opinions
liées à l’aménagement d’un territoire. Revue Internationale de Géomatique, 25(1), 11–34.
L EIDNER J. L. & L IEBERMAN M. D. (2011). Detecting geographical references in the form of place names and
associated spatial natural language. SIGSPATIAL Special, 3(2), 5–11.
M ONCLA L., R ENTERIA -AGUALIMPIA W., N OGUERAS -I SO J. & G AIO M. (2014). Geocoding for texts with fine-grain
toponyms : An experiment on a geoparsed hiking descriptions corpus. In Proceedings of the 22Nd ACM SIGSPATIAL
International Conference on Advances in Geographic Information Systems, SIGSPATIAL ’14, p. 183–192, New York,
NY, USA : ACM.
M ÉNARD P. A., BARRIÈRE C. & Q UIRION J. (2015). Helping term sense disambiguation with active learning. In
Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain), p. 89–97.
S ALTON G. & M C G ILL M. J. (1986). Introduction to Modern Information Retrieval. New York, NY, USA : McGrawHill, Inc.
S ETTLES B. (2009). Active Learning Literature Survey. Computer Sciences Technical Report 1648, University of
Wisconsin–Madison.
TAHRAT S., K ERGOSIEN E., B RINGAY S., ROCHE M. & T EISSEIRE M. (2013). Text2geo : from textual data to
geospatial information. In 3rd International Conference on Web Intelligence, Mining and Semantics, WIMS ’13, Madrid,
Spain, June 12-14, 2013, p.2̃3.
Z ENASNI S., K ERGOSIEN E., ROCHE M. & T EISSEIRE M. (2015). Discovering types of spatial relations with a text
mining approach. In Foundations of Intelligent Systems - 22nd International Symposium, ISMIS 2015, Lyon, France,
October 21-23, 2015, Proceedings, p. 442–451.
Z HU J. (2007). Active learning for word sense disambiguation with methods for addressing the class imbalance problem.
In In Proceedings of ACL, p. 783–790.
2. en comparaison, par exemple, à la fenêtre de 90 caractères utilisée dans (Ménard et al., 2015)