Article Ludovia (de 22 000 à 30000 caractères - Recherche

Transcription

Article Ludovia (de 22 000 à 30000 caractères - Recherche
Générer une emprise de carte à partir des
toponymes d’un texte
Geoffrey Brun1,2, Catherine Dominguès1
1. Université Paris-Est
IGN/SR, COGIT
73 avenue de Paris
94160 Saint-Mandé
2. UMR 8504 Géographie-Cités
Université Paris-Diderot Paris 7
Université Paris 1 Panthéon-Sorbonne
CNRS
RESUME.
Ce travail s’inscrit dans le contexte de création de carte sur mesure à partir d’un texte ; la
génération de l’emprise géographique en constitue l’une des tâches. L’article présente une
méthode permettant de générer cette emprise à partir des noms de lieux du texte. La méthode
se déroule en quatre étapes : i) les entités nommées spatiales sont extraites, ii) elles sont
désambiguïsées via un gazetier afin de les rattacher à des toponymes non-ambigus, iii) les
toponymes sont appareillés à des entités géographiques dont la géométrie (points, lignes et
polygones) est recherchée dans une base de données, iv) la génération de l’emprise est guidée
par ces géométries et s’appuie sur le nombre d’occurrences dans le texte des noms de lieux,
sur les propriétés des toponymes issues du gazetier ainsi que sur les relations spatiales des
entités géographiques.
ABSTRACT. Creating a geographic extent of a map is one of the important tasks while this map
is designed from a text. This paper presents a four step method which aims to create this
extent from location names occurring in the text: i) Spatial Named Entities (SNE) are
extracted from the text, ii) SNE are matched with toponyms stored in a gazetteer, thanks to
disambiguation algorithms, iii) toponyms are matched with complex geographic entities
(points, lines and polygons) stored in a database, iv) map extent creation is guided by the
geometries of geographic entities, and based on the count of location name occurrences in the
text, on toponyms properties extracted from the gazetteer and on the spatial relations of
geographic entities.
MOTS-CLES : cartographie, représentation spatiale, emprise
désambiguïsation de toponymes, entités nommées spatiales.
géographique,
TALN,
KEYWORDS: map design, spatial representation, spatial extent, NLP, toponym disambiguation,
Spatial Named Entities.
2
1. Introduction
Partant de l'affirmation de Lefort (2004) : « une carte n’est qu’un autre langage
pour décrire une réalité que les mots ne décrivent que maladroitement », ce travail
s'inscrit dans le cadre de la création de cartes illustratives d'un texte. L'une des
étapes est alors de définir l'emprise géographique de la carte. Il s'agit dans cet article
de proposer une méthode permettant de générer automatiquement cette emprise.
Intuitivement, l’emprise est la zone géographique représentée par la carte. Dans
les manuels de cartographie (Joly, 1976 ; Brunet, 1987 ; Zanin et Trémélo, 2003 ; Le
Fur, 2007), cette notion est peu ou pas définie, au profit de celle d’échelle
géographique largement abordée dans ces mêmes manuels. Différentes hypothèses
peuvent être avancées : i) l’emprise de la carte est considérée comme une évidence
pour le cartographe professionnel qui « sait » où se situe le phénomène à
cartographier ; ii) la détermination de l’emprise obéit à la fois à des paramètres
techniques et artistiques (en particulier, l’harmonie de la mise en page des différents
éléments de la carte : le titre, la légende, l’échelle, la source, l’indication du nord
géographique, le placement des toponymes, etc.) difficiles à formaliser dans un
manuel ; iii) l’emprise peut être vue comme le résultat de la relation numérique qui
lie emprise, échelle et dimensions de la carte. La définition de l'emprise de la carte
utilisée dans ce travail est opératoire dans le cadre de traitements informatiques :
c’est la surface terrestre et/ou maritime représentée par la carte ; elle est définie
par les coordonnées géographiques maximales au nord, au sud, à l’ouest et à l’est.
Le corpus d'articles de presse sur lequel est fondée la méthode de calcul de
l'emprise de la carte est présenté dans la partie 2 ; puis la méthode et ses différentes
étapes sont détaillées dans les paragraphes 3 à 7, avant de proposer des perspectives.
2. Constitution du corpus de travail
Le corpus est formé de trente articles tirés de la presse écrite nationale : Le
Monde Diplomatique, Courrier International et le magazine Carto. Chaque article
est composé d’un texte (entre 1 000 et 4 000 mots) et de la carte qui l’accompagne.
Les articles sélectionnés partagent la même thématique : la géopolitique des
ressources naturelles ; ils concernent différents espaces du monde à différentes
échelles. Les textes sont orthographiquement et typographiquement corrects ; en
particulier, l’usage des majuscules est signifiant. La structure du texte n'étant pas
prise en compte, la méthode proposée peut s'étendre à tout type de textes (manuels
scolaires, atlas, posters, …) qui présente une dimension géographique. Le corpus est
divisé en deux sous-corpus : corpus de travail et corpus d’évaluation.
Par ailleurs, il est attendu d’une carte qui accompagne un texte qu’elle permette
de localiser les lieux cités dans le texte. Cependant l’observation des articles met en
évidence la diversité des situations lorsqu’une carte accompagne un texte et donc la
diversité des emprises géographiques représentées.
Par exemple, les figures 11 et 22 montrent des exemples de carte accompagnant
un texte. La figure 1 est en fait composée de deux cartes d’échelles différentes ; celle
à grande échelle montre les gisements canadiens et illustre quelques paragraphes du
texte, celle à petite échelle a pour emprise le monde et donne des informations
thématiques sur des lieux peu évoqués dans le texte. La figure 2 est également
composée de deux cartes : celle à petite échelle situe dans le continent africain la
zone cartographiée dans la carte à grande échelle. Deux cas principaux peuvent être
observés : i) des toponymes sont cités dans le texte et ne figurent pas dans la carte ;
ii) des toponymes figurent dans la carte et ne sont pas mentionnés dans le texte. Une
hypothèse est qu'ils permettent de mieux situer ceux mentionnés dans le texte. Par
exemple, dans la figure 2, le toponyme Sao-Tomé-Et-Principe, non cité dans le
texte, est positionné sur la carte. Ce pays étant limitrophe de la Guinée-Équatoriale,
dont les réserves en pétrole constituent le thème principal de la carte, placer SaoTomé-Et-Principe permet de faciliter la localisation de son voisin.
Figure 1. La carte à petite échelle
illustre la thématique de l’amiante dans
le monde entier
Figure 2. La carte à petite échelle permet
de situer la carte à grande échelle
3. Méthode employée
La méthode de génération de l’emprise de la carte s'appuie sur le corpus introduit
en partie 2. Elle se déroule en quatre étapes présentées dans la figure 3.
1. L’amiante, c’est bon pour les exportations, Courrier International, n°1105, 5/1/2012, p. 27.
2. Teodorín Obiang, le fils gâté qui siphonne son pays, Courrier International, n°1119,
12/4/2012, p. 36.
4
Figure 3. Etapes de la génération de l’emprise de la carte à partir d’un texte
4. Étape 1 : reconnaissance des entités nommées spatiales (ENS)
Les ENS constituent un sous-ensemble des entités nommées (EN) dont Ehrmann
(2008) a donné une définition dans sa thèse : « Etant donnés un modèle applicatif et
un corpus, on appelle entité nommée toute expression linguistique qui réfère à une
entité unique du modèle de manière autonome dans le corpus. ».
Cette définition concerne les noms propres de lieux, simples ou composés,
comme Italie ou Fort-de-France. Cependant, cette définition doit être élargie,
comme par exemple dans (Gaio et al., 2012), pour décrire les différents types de
toponymes présents dans le corpus de travail. Ces EN sont les suivants :
– des groupes nominaux (GN) dont le nom tête est un nom commun qui désigne
un lieu : plateau de la Sibérie ;
– des GN contenant un adjectif toponymique : territoire chinois ;
– des GN contenant une indirection : l’est de la Sibérie, Sibérie orientale.
De nombreux outils ont été proposés pour reconnaitre les EN dans des textes
français, par exemple lors de la campagne d’évaluation Quaero3 (2011). Dans notre
travail, la reconnaissance des ENS repose sur l’outil CasEN4, fondé sur le logiciel
Unitex5. Il s’agit d’une cascade de transducteurs qui identifient les EN et leur
ajoutent des étiquettes sémantiques (Maurel et al., 2011) ; ces transducteurs ont dû
être modifiés pour mieux tenir compte du corpus.
3. http://www.quaero.org/
4. http://tln.li.univ-tours.fr/Tln_CasEN.html
5. http://www-igm.univ-mlv.fr/~unitex/
Ces modifications concernent :
– les limites des ENS reconnues :
- des noms de concepts géographiques, issus de l’ontologie topographique
GeOnto (Mustière et al., 2011), ont été intégrés aux patrons afin de reconnaître :
Etat de Washington ou île de Sakhaline ;
- des indirections ont été intégrées afin de reconnaître : l’est de la Sibérie,
l’est du plateau de la Sibérie ;
– les GN dont le nom tête est un gentilé (les Chinois) ont été exclus. Ils sont
considérés comme des ENS par CasEN mais génèrent du bruit avec ce corpus.
D’autre part, l’ordre d’application des transducteurs, qui influence de manière
conséquente les résultats, a été modifié. En effet, les ENS élargies sont plus précises
et/ou moins ambiguës que les noms propres seuls : Washington vs sud de
Washington ou Etat de Washington ou Ville de Washington. Les patrons
reconnaissant les ENS élargies (Etat de Washington) doivent donc être appliqués
avant les patrons identifiant les noms propres (Washington) afin que l'étiquetage
partiel ne perturbe pas l'étiquetage de la séquence complète.
Enfin, les patrons reconnaissant des EN autres que les ENS (institutions, dates,
etc.) ou des ENS inutiles pour ce travail, comme les adresses, ont été désactivés.
A la fin de l’étape 1, deux documents sont produits : le texte initial augmenté des
annotations concernant les ENS, ainsi que la liste des ENS du texte, chacune suivie
de son nombre d’occurrences dans le texte (cf. Tableau 1).
ENS
Nombre
d’occurrences
ENS
Nombre
d’occurrences
République de Mongolie
1
Mongolie
1
province de Zhejiang
1
Nakhodka
5
oblast d'Irkoutskaïa
1
Pékin
2
nord-est de la Chine
1
Shanghaï
1
l'est de la Sibérie centrale
4
Russie
5
Tableau 1. Exemple d’ENS extraites d’un texte
5. Étape 2 : de l’ENS au toponyme, la désambiguïsation des toponymes
Les ENS ne sont que des chaînes de caractères ; pour les représenter dans une
carte, il faut les associer à des toponymes.
La définition d’un toponyme est donnée par Habib et Keulen (2012) : « In
natural language, toponyms are names used to refer to locations without having to
mention the actual coordinates ». Cette définition introduit explicitement la notion
de coordonnées géographiques sur lesquelles repose l'unicité du référent évoquée
6
dans la définition d'Ehrmann (2008). Ainsi, l’ENS Vienne peut faire référence à une
ville en France ou en Autriche, contrairement à un toponyme Vienne qui possède des
coordonnées précises correspondant soit à la ville française, soit à la ville
autrichienne. Trouver le toponyme correspondant à une ENS nécessite de faire appel
à des techniques de désambiguïsation de toponymes que Habib et Keulen
(2012) définissent comme : « the task of determining which real location is referred
to by a certain instance of a name ».
Dans la littérature, la désambiguïsation de toponymes comprend deux tâches
successives et s’appuie sur un gazetier (i.e. un dictionnaire dont les entrées sont des
toponymes définis par leurs coordonnées géographiques et des propriétés : pays
d’appartenance, échelon administratif, population, etc.). La première tâche consiste à
assigner à toutes les ENS qui sont non-ambigües le seul toponyme qui peut leur être
associé dans le gazetier. La seconde tâche s’appuie sur ces ENS non ambiguës pour
désambiguïser les ENS pouvant correspondre à plusieurs toponymes dans le
gazetier. La qualité de la désambiguïsation est donc étroitement liée au gazetier
utilisé : selon la zone couverte et la densité de toponymes dans cette zone, une ENS
peut correspondre à aucun, un seul ou plusieurs toponymes. Dans l’exemple de
l’ENS Vienne, avec un gazetier dont la zone couverte serait la France Vienne
n’aurait qu’une seule possibilité. Dans un gazetier dont la zone serait l’Europe,
Vienne correspondrait, au moins, aux deux toponymes français et autrichiens.
Dans cette étape, c’est le gazetier GeoNames6 qui est utilisé sous sa forme de
service Web. Ce choix est justifié par l'adéquation entre les toponymes évoqués dans
le corpus et la taille de la zone couverte par ce gazetier (le monde entier), par le fait
qu’il propose une organisation hiérarchique des toponymes conforme à la
nomenclature NUTS7 pour bon nombre de pays européens, et la traduction des
entrées en anglais en différentes langues dont le français (par exemple l'entrée
London est associée à Londres).
5.1 Tâche 1 : résoudre les ENS non ambiguës
L’algorithme de recherche de GeoNames n’est pas modifiable et ses
caractéristiques engendrent des résultats bruités qu'il faut ensuite filtrer :
– les entrées renvoyées sont celles dont le nom contient la chaîne recherchée. Par
exemple, interrogé avec l’ENS France, GeoNames renvoie au moins deux
toponymes : France et Fort-de-France, parce que France constitue une sous-chaîne
de Fort-de-France. Le filtrage mis en place sélectionne l’entrée dont le nom
correspond exactement, aux signes diacritiques près, à la chaîne recherchée ;
– deux entités qui couvrent le même territoire mais concernent deux échelons
administratifs différents constituent logiquement deux entrées différentes : par
exemple, Paris est à la fois commune et département français. De plus, les entrées
du niveau administratif correspondant aux villes constituent aussi, pour certains
6. http://www.geonames.org/
7. http://epp.eurostat.ec.europa.eu/portal/page/portal/nuts_nomenclature/introduction
pays, des entrées ayant la propriété populated place. Par exemple, toutes les
communes françaises, allemandes et brésiliennes figurent deux fois dans GeoNames,
une fois en tant qu’entité administrative et une fois en tant que populated place. Le
filtrage mis en place compare les coordonnées géographiques des entrées
concurrentes et en sélectionne une si ces différentes entrées sont localisées dans le
même rectangle (de surface paramétrable).
Pour assigner les toponymes ayant la forme d'un GN dont le nom tête est un nom
géographique, un prétraitement a été mis en place qui sépare le nom tête et son
modifieur. La recherche s’effectue ensuite sur le modifieur en tenant compte de la
nature de l'objet géographique qui, d'après GeoNames, peut lui être associé
(propriété featureCode). Par exemple, pour l’ENS île de Sakhaline où île est le nom
tête et de Sakhaline le modifieur, la recherche s’effectue sur le nom propre
Sakhaline et sur le featureCode correspondant aux hydronymes (H).
5.2 Tâche 2 : résoudre les ENS ambiguës
Les ENS sont ambiguës quand elles correspondent à des toponymes différents
dans le gazetier. Buscaldi (2011) évoque trois approches pour assigner les ENS
ambiguës. La plus ancienne, qui donne les moins bons résultats, consiste à utiliser
les coordonnées des ENS déjà résolues afin de désambiguïser celles qui
correspondent à plusieurs entrées dans le gazetier (Smith et Crane, 2001). Le
toponyme qui sera assigné à l’ENS ambiguë sera alors celui-qui est le plus proche
géographiquement des ENS déjà résolues. Une seconde approche, par exemple « la
méthode de la densité conceptuelle » proposée par Buscaldi (2010), exploite
l'organisation hiérarchique du gazetier. Les connaissances sur les ENS déjà résolues
sont utilisées pour désambiguïser les ENS correspondant à plusieurs toponymes du
gazetier. Dans l’exemple de l’ENS Vienne, si d’autres ENS déjà résolues concernent
la France (propriété : pays d'appartenance), la méthode assignera le toponyme
Vienne en France à cette ENS. Une troisième approche s’appuie sur des méthodes
d’apprentissage (Roberts et al., 2010). L’apprentissage concerne les cooccurrences
entre toponymes et informations non géographiques. Pour le mettre en place, il serait
nécessaire de disposer d'un corpus de référence assez riche pour contenir l’ensemble
des toponymes du corpus de travail.
Dans ce travail, l'algorithme mis en place tient compte de la propriété : pays
d'appartenance des ENS déjà résolues pour localiser les ENS ambiguës. Les
nombres d'occurrences des ENS résolues sont totalisés par pays. Chaque ENS qui
peut correspondre à différentes localisations (chacune disposant de cette propriété :
pays d'appartenance) est alors positionnée dans le pays qui correspond au plus
grand nombre d'occurrences d'ENS déjà résolues. Le résultat de cette étape de
désambiguïsation est une liste de toponymes possédant un nombre d’occurrences
dans le texte analysé, une localisation sous la forme d’un point correspondant à une
longitude et une latitude, ainsi que diverses propriétés comme leur pays
d’appartenance ou leur nom en anglais (cf. Tableau 2).
8
ENS
Toponyme
Code
pays
Latitude
Longitude
Nombre
d'occurrences
Etats-Unis
États-Unis
US
39.76
-98.5
2
Europe
Europe
Pas de
pays
48.6909
9.1406
2
île de
Sakhaline
Sakhaline
RU
51.0
143.0
2
province de
Zhejiang
Zhejiang
Sheng
CN
29.0
120.0
1
Tableau 2. Exemples de toponymes trouvés à partir d’une liste d’ENS
6. Étape 3 : du toponyme à l’entité géographique
Cependant, cette liste de toponymes n’est pas satisfaisante. En effet, les
toponymes sont localisés sous forme ponctuelle, pour les villes mais aussi pour les
fleuves, les pays ou les régions alors que l'emprise de la carte doit tenir compte des
surfaces des différentes entités à représenter. Il est donc nécessaire d’assigner à ces
toponymes des géométries plus précises, comme des linéaires ou des polygones.
Pour cela, il est possible de s’appuyer sur des bases de données spatiales
distribuées librement comme le Global Administrative Areas8 ou le Natural Earth9.
La première recense la quasi-totalité des pays du monde, ainsi que leurs cinq
premiers niveaux administratifs. La seconde base de données contient de
nombreuses entités géographiques non administratives : des îles, des mers, des
sommets, des chaînes montagneuses, etc.
Ces bases de données étant en langue anglaise, l’appariement entre leurs entrées
et les toponymes du texte (en français) ne peut se faire directement. Il est prévu
d'apparier les différentes formes graphiques en utilisant le nom anglais du toponyme,
son pays d’appartenance à travers son code ISO, son niveau administratif et/ou ses
coordonnées géographiques. Le résultat de cet appariement sera une liste d’entités
géographiques d'implantation ponctuelle, linéaire ou polygonale.
7. Étape 4 : générer l’emprise de la carte à partir des entités géographiques
L'emprise de la carte est générée à partir des géométries des toponymes déjà
résolus en tenant compte de leur nombre d'occurrences dans le texte et de leur
répartition spatiale. La génération d'une première emprise est fondée sur le nombre
d'occurrences des toponymes qui permet de distinguer les entités géographiques
8. http://www.gadm.org/
9. http://www.naturalearthdata.com/
pertinentes des non pertinentes. Il peut être calculé de différentes manières :
occurrences des entités elles-mêmes ou bien occurrences des entités regroupées
selon une propriété, comme par exemple le pays d’appartenance. Une analyse
spatiale permet d'affiner cette première emprise. Elle est fondée sur l'analyse des
intersections entre la première emprise et les entités non pertinentes. Les entités non
pertinentes qui intersectent la première emprise peuvent soit la renforcer soit
l'affiner. Enfin, les entités jugées non pertinentes sont en première approche rejetées.
Figure 4. Génération de l’emprise à partir de la liste des entités géographiques
8. Perspectives
La méthode présentée dans cet article permet de générer une emprise de carte.
Néanmoins le travail n'est pas terminé et des améliorations sont en cours de
développement. Tout d'abord, une mesure d'évaluation de l'emprise générée par
rapport à l'emprise de la carte de l'article doit être mise en place. Elle sera fondée sur
les écarts entre les centres des emprises, leurs surfaces, leurs coordonnées
géographiques maximales (cf. définition dans 1. Introduction) et sur leurs surfaces
d'intersection. Le corpus d'évaluation, où une emprise sous la forme des
coordonnées maximales de la carte de l'article est associée à chaque texte, a été
construit pour mettre en place cette évaluation.
Ensuite, les ENS contenant des indirections devront être considérées pour affiner
l’emprise de la carte préalablement générée ; cette amélioration est surtout
pertinente pour des pays dont l'emprise est étendue. Par exemple, pour un texte
traitant de la Russie orientale, il faudra pouvoir identifier les ENS du texte contenant
des indirections telles que l’est de la Russie ou Russie orientale pour ne sélectionner
que la partie pertinente de la Russie lors de la génération de l’emprise.
Enfin, il serait judicieux de tenir compte de la thématique du texte, la
géopolitique des ressources naturelles, pour générer son emprise. Cette thématique
est caractérisée par un champ lexical auquel appartiennent des termes comme
gazoduc, raffinerie, pétrole, etc. La prise compte du nombre d'occurrences des
10
entités géographiques du texte et leur analyse spatiale pourraient être guidées par un
poids plus important donné aux ENS qui cooccurrent avec les termes thématiques du
texte.
Références
Brunet R. (1987). La carte, mode d’emploi, Fayard, Paris.
Buscaldi D. (2010). Toponym Disambiguation in Information Retrieval. Thèse en philosophie,
Universidad Politécnica de Valencia.
Buscaldi D. (2011). Approaches to disambiguating toponyms. SIGSPATIAL Special, vol. 3,
n°2, p. 16-19.
Ehrmann M. (2008). Les entités nommées, de la linguistique au TAL : statut théorique et
méthodes de désambiguïsation. Thèse en linguistique théorique, descriptive et
automatique, Université de Paris 7.
Gaio M., Sallaberry C., Nguyen V.-T. (2012). Typage de noms toponymiques à des fins
d’indexation géographique. TAL, vol . 53, n°2, p. 143-176.
Habib M.-B., Keulen M. v. (2012). Improving Toponym Disambiguation by Iteratively
Enhancing Certainty of Extraction, Proceedings of Knowledge Discovery and Information
Retrieval 2012, Barcelona.
Joly F. (1976). La cartographie, Presses universitaires de France, Paris.
Lefort J. (2004). L’aventure cartographique, Belin, Paris.
Le Fur A. (2007). Pratiques de la cartographie, Armand Colin, Paris.
Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de
transducteurs autour de la reconnaissance des entités nommées. TAL, vol. 52, n°1, p. 6996.
Mustière S., Abadie N., Aussenac-Gilles N., Bessagnet M.-N., Kamel M., Kergosien E.,
Reynaud C., Safar B., Sallaberry C. (2011). Analyses linguistiques et techniques
d’alignement pour créer et enrichir une ontologie topographique. Revue Internationale de
Géomatique, vol. 21, n°2, p. 155-180.
Roberts K., Beja C. B., Harabagiu S. (2010). Toponym Disambiguation Using Events.
Proceedings of the Twenty-Third International Florida Artificial Intelligence Research
Society Conference, Daytona Beach.
Smith D. A., Crane G. (2001). Disambiguating Geographic Names in a Historical Digital
Library. Research and Advanced Technology for Digital Libraries. Berlin, Springer,
p. 127-137.
Zanin C., Trémélo M.-L. (2003). Savoir aire une carte : aide à la conception et à la
réalisation d’une carte thématique univariée, Belin, Paris.