Article Ludovia (de 22 000 à 30000 caractères - Recherche
Transcription
Article Ludovia (de 22 000 à 30000 caractères - Recherche
Générer une emprise de carte à partir des toponymes d’un texte Geoffrey Brun1,2, Catherine Dominguès1 1. Université Paris-Est IGN/SR, COGIT 73 avenue de Paris 94160 Saint-Mandé 2. UMR 8504 Géographie-Cités Université Paris-Diderot Paris 7 Université Paris 1 Panthéon-Sorbonne CNRS RESUME. Ce travail s’inscrit dans le contexte de création de carte sur mesure à partir d’un texte ; la génération de l’emprise géographique en constitue l’une des tâches. L’article présente une méthode permettant de générer cette emprise à partir des noms de lieux du texte. La méthode se déroule en quatre étapes : i) les entités nommées spatiales sont extraites, ii) elles sont désambiguïsées via un gazetier afin de les rattacher à des toponymes non-ambigus, iii) les toponymes sont appareillés à des entités géographiques dont la géométrie (points, lignes et polygones) est recherchée dans une base de données, iv) la génération de l’emprise est guidée par ces géométries et s’appuie sur le nombre d’occurrences dans le texte des noms de lieux, sur les propriétés des toponymes issues du gazetier ainsi que sur les relations spatiales des entités géographiques. ABSTRACT. Creating a geographic extent of a map is one of the important tasks while this map is designed from a text. This paper presents a four step method which aims to create this extent from location names occurring in the text: i) Spatial Named Entities (SNE) are extracted from the text, ii) SNE are matched with toponyms stored in a gazetteer, thanks to disambiguation algorithms, iii) toponyms are matched with complex geographic entities (points, lines and polygons) stored in a database, iv) map extent creation is guided by the geometries of geographic entities, and based on the count of location name occurrences in the text, on toponyms properties extracted from the gazetteer and on the spatial relations of geographic entities. MOTS-CLES : cartographie, représentation spatiale, emprise désambiguïsation de toponymes, entités nommées spatiales. géographique, TALN, KEYWORDS: map design, spatial representation, spatial extent, NLP, toponym disambiguation, Spatial Named Entities. 2 1. Introduction Partant de l'affirmation de Lefort (2004) : « une carte n’est qu’un autre langage pour décrire une réalité que les mots ne décrivent que maladroitement », ce travail s'inscrit dans le cadre de la création de cartes illustratives d'un texte. L'une des étapes est alors de définir l'emprise géographique de la carte. Il s'agit dans cet article de proposer une méthode permettant de générer automatiquement cette emprise. Intuitivement, l’emprise est la zone géographique représentée par la carte. Dans les manuels de cartographie (Joly, 1976 ; Brunet, 1987 ; Zanin et Trémélo, 2003 ; Le Fur, 2007), cette notion est peu ou pas définie, au profit de celle d’échelle géographique largement abordée dans ces mêmes manuels. Différentes hypothèses peuvent être avancées : i) l’emprise de la carte est considérée comme une évidence pour le cartographe professionnel qui « sait » où se situe le phénomène à cartographier ; ii) la détermination de l’emprise obéit à la fois à des paramètres techniques et artistiques (en particulier, l’harmonie de la mise en page des différents éléments de la carte : le titre, la légende, l’échelle, la source, l’indication du nord géographique, le placement des toponymes, etc.) difficiles à formaliser dans un manuel ; iii) l’emprise peut être vue comme le résultat de la relation numérique qui lie emprise, échelle et dimensions de la carte. La définition de l'emprise de la carte utilisée dans ce travail est opératoire dans le cadre de traitements informatiques : c’est la surface terrestre et/ou maritime représentée par la carte ; elle est définie par les coordonnées géographiques maximales au nord, au sud, à l’ouest et à l’est. Le corpus d'articles de presse sur lequel est fondée la méthode de calcul de l'emprise de la carte est présenté dans la partie 2 ; puis la méthode et ses différentes étapes sont détaillées dans les paragraphes 3 à 7, avant de proposer des perspectives. 2. Constitution du corpus de travail Le corpus est formé de trente articles tirés de la presse écrite nationale : Le Monde Diplomatique, Courrier International et le magazine Carto. Chaque article est composé d’un texte (entre 1 000 et 4 000 mots) et de la carte qui l’accompagne. Les articles sélectionnés partagent la même thématique : la géopolitique des ressources naturelles ; ils concernent différents espaces du monde à différentes échelles. Les textes sont orthographiquement et typographiquement corrects ; en particulier, l’usage des majuscules est signifiant. La structure du texte n'étant pas prise en compte, la méthode proposée peut s'étendre à tout type de textes (manuels scolaires, atlas, posters, …) qui présente une dimension géographique. Le corpus est divisé en deux sous-corpus : corpus de travail et corpus d’évaluation. Par ailleurs, il est attendu d’une carte qui accompagne un texte qu’elle permette de localiser les lieux cités dans le texte. Cependant l’observation des articles met en évidence la diversité des situations lorsqu’une carte accompagne un texte et donc la diversité des emprises géographiques représentées. Par exemple, les figures 11 et 22 montrent des exemples de carte accompagnant un texte. La figure 1 est en fait composée de deux cartes d’échelles différentes ; celle à grande échelle montre les gisements canadiens et illustre quelques paragraphes du texte, celle à petite échelle a pour emprise le monde et donne des informations thématiques sur des lieux peu évoqués dans le texte. La figure 2 est également composée de deux cartes : celle à petite échelle situe dans le continent africain la zone cartographiée dans la carte à grande échelle. Deux cas principaux peuvent être observés : i) des toponymes sont cités dans le texte et ne figurent pas dans la carte ; ii) des toponymes figurent dans la carte et ne sont pas mentionnés dans le texte. Une hypothèse est qu'ils permettent de mieux situer ceux mentionnés dans le texte. Par exemple, dans la figure 2, le toponyme Sao-Tomé-Et-Principe, non cité dans le texte, est positionné sur la carte. Ce pays étant limitrophe de la Guinée-Équatoriale, dont les réserves en pétrole constituent le thème principal de la carte, placer SaoTomé-Et-Principe permet de faciliter la localisation de son voisin. Figure 1. La carte à petite échelle illustre la thématique de l’amiante dans le monde entier Figure 2. La carte à petite échelle permet de situer la carte à grande échelle 3. Méthode employée La méthode de génération de l’emprise de la carte s'appuie sur le corpus introduit en partie 2. Elle se déroule en quatre étapes présentées dans la figure 3. 1. L’amiante, c’est bon pour les exportations, Courrier International, n°1105, 5/1/2012, p. 27. 2. Teodorín Obiang, le fils gâté qui siphonne son pays, Courrier International, n°1119, 12/4/2012, p. 36. 4 Figure 3. Etapes de la génération de l’emprise de la carte à partir d’un texte 4. Étape 1 : reconnaissance des entités nommées spatiales (ENS) Les ENS constituent un sous-ensemble des entités nommées (EN) dont Ehrmann (2008) a donné une définition dans sa thèse : « Etant donnés un modèle applicatif et un corpus, on appelle entité nommée toute expression linguistique qui réfère à une entité unique du modèle de manière autonome dans le corpus. ». Cette définition concerne les noms propres de lieux, simples ou composés, comme Italie ou Fort-de-France. Cependant, cette définition doit être élargie, comme par exemple dans (Gaio et al., 2012), pour décrire les différents types de toponymes présents dans le corpus de travail. Ces EN sont les suivants : – des groupes nominaux (GN) dont le nom tête est un nom commun qui désigne un lieu : plateau de la Sibérie ; – des GN contenant un adjectif toponymique : territoire chinois ; – des GN contenant une indirection : l’est de la Sibérie, Sibérie orientale. De nombreux outils ont été proposés pour reconnaitre les EN dans des textes français, par exemple lors de la campagne d’évaluation Quaero3 (2011). Dans notre travail, la reconnaissance des ENS repose sur l’outil CasEN4, fondé sur le logiciel Unitex5. Il s’agit d’une cascade de transducteurs qui identifient les EN et leur ajoutent des étiquettes sémantiques (Maurel et al., 2011) ; ces transducteurs ont dû être modifiés pour mieux tenir compte du corpus. 3. http://www.quaero.org/ 4. http://tln.li.univ-tours.fr/Tln_CasEN.html 5. http://www-igm.univ-mlv.fr/~unitex/ Ces modifications concernent : – les limites des ENS reconnues : - des noms de concepts géographiques, issus de l’ontologie topographique GeOnto (Mustière et al., 2011), ont été intégrés aux patrons afin de reconnaître : Etat de Washington ou île de Sakhaline ; - des indirections ont été intégrées afin de reconnaître : l’est de la Sibérie, l’est du plateau de la Sibérie ; – les GN dont le nom tête est un gentilé (les Chinois) ont été exclus. Ils sont considérés comme des ENS par CasEN mais génèrent du bruit avec ce corpus. D’autre part, l’ordre d’application des transducteurs, qui influence de manière conséquente les résultats, a été modifié. En effet, les ENS élargies sont plus précises et/ou moins ambiguës que les noms propres seuls : Washington vs sud de Washington ou Etat de Washington ou Ville de Washington. Les patrons reconnaissant les ENS élargies (Etat de Washington) doivent donc être appliqués avant les patrons identifiant les noms propres (Washington) afin que l'étiquetage partiel ne perturbe pas l'étiquetage de la séquence complète. Enfin, les patrons reconnaissant des EN autres que les ENS (institutions, dates, etc.) ou des ENS inutiles pour ce travail, comme les adresses, ont été désactivés. A la fin de l’étape 1, deux documents sont produits : le texte initial augmenté des annotations concernant les ENS, ainsi que la liste des ENS du texte, chacune suivie de son nombre d’occurrences dans le texte (cf. Tableau 1). ENS Nombre d’occurrences ENS Nombre d’occurrences République de Mongolie 1 Mongolie 1 province de Zhejiang 1 Nakhodka 5 oblast d'Irkoutskaïa 1 Pékin 2 nord-est de la Chine 1 Shanghaï 1 l'est de la Sibérie centrale 4 Russie 5 Tableau 1. Exemple d’ENS extraites d’un texte 5. Étape 2 : de l’ENS au toponyme, la désambiguïsation des toponymes Les ENS ne sont que des chaînes de caractères ; pour les représenter dans une carte, il faut les associer à des toponymes. La définition d’un toponyme est donnée par Habib et Keulen (2012) : « In natural language, toponyms are names used to refer to locations without having to mention the actual coordinates ». Cette définition introduit explicitement la notion de coordonnées géographiques sur lesquelles repose l'unicité du référent évoquée 6 dans la définition d'Ehrmann (2008). Ainsi, l’ENS Vienne peut faire référence à une ville en France ou en Autriche, contrairement à un toponyme Vienne qui possède des coordonnées précises correspondant soit à la ville française, soit à la ville autrichienne. Trouver le toponyme correspondant à une ENS nécessite de faire appel à des techniques de désambiguïsation de toponymes que Habib et Keulen (2012) définissent comme : « the task of determining which real location is referred to by a certain instance of a name ». Dans la littérature, la désambiguïsation de toponymes comprend deux tâches successives et s’appuie sur un gazetier (i.e. un dictionnaire dont les entrées sont des toponymes définis par leurs coordonnées géographiques et des propriétés : pays d’appartenance, échelon administratif, population, etc.). La première tâche consiste à assigner à toutes les ENS qui sont non-ambigües le seul toponyme qui peut leur être associé dans le gazetier. La seconde tâche s’appuie sur ces ENS non ambiguës pour désambiguïser les ENS pouvant correspondre à plusieurs toponymes dans le gazetier. La qualité de la désambiguïsation est donc étroitement liée au gazetier utilisé : selon la zone couverte et la densité de toponymes dans cette zone, une ENS peut correspondre à aucun, un seul ou plusieurs toponymes. Dans l’exemple de l’ENS Vienne, avec un gazetier dont la zone couverte serait la France Vienne n’aurait qu’une seule possibilité. Dans un gazetier dont la zone serait l’Europe, Vienne correspondrait, au moins, aux deux toponymes français et autrichiens. Dans cette étape, c’est le gazetier GeoNames6 qui est utilisé sous sa forme de service Web. Ce choix est justifié par l'adéquation entre les toponymes évoqués dans le corpus et la taille de la zone couverte par ce gazetier (le monde entier), par le fait qu’il propose une organisation hiérarchique des toponymes conforme à la nomenclature NUTS7 pour bon nombre de pays européens, et la traduction des entrées en anglais en différentes langues dont le français (par exemple l'entrée London est associée à Londres). 5.1 Tâche 1 : résoudre les ENS non ambiguës L’algorithme de recherche de GeoNames n’est pas modifiable et ses caractéristiques engendrent des résultats bruités qu'il faut ensuite filtrer : – les entrées renvoyées sont celles dont le nom contient la chaîne recherchée. Par exemple, interrogé avec l’ENS France, GeoNames renvoie au moins deux toponymes : France et Fort-de-France, parce que France constitue une sous-chaîne de Fort-de-France. Le filtrage mis en place sélectionne l’entrée dont le nom correspond exactement, aux signes diacritiques près, à la chaîne recherchée ; – deux entités qui couvrent le même territoire mais concernent deux échelons administratifs différents constituent logiquement deux entrées différentes : par exemple, Paris est à la fois commune et département français. De plus, les entrées du niveau administratif correspondant aux villes constituent aussi, pour certains 6. http://www.geonames.org/ 7. http://epp.eurostat.ec.europa.eu/portal/page/portal/nuts_nomenclature/introduction pays, des entrées ayant la propriété populated place. Par exemple, toutes les communes françaises, allemandes et brésiliennes figurent deux fois dans GeoNames, une fois en tant qu’entité administrative et une fois en tant que populated place. Le filtrage mis en place compare les coordonnées géographiques des entrées concurrentes et en sélectionne une si ces différentes entrées sont localisées dans le même rectangle (de surface paramétrable). Pour assigner les toponymes ayant la forme d'un GN dont le nom tête est un nom géographique, un prétraitement a été mis en place qui sépare le nom tête et son modifieur. La recherche s’effectue ensuite sur le modifieur en tenant compte de la nature de l'objet géographique qui, d'après GeoNames, peut lui être associé (propriété featureCode). Par exemple, pour l’ENS île de Sakhaline où île est le nom tête et de Sakhaline le modifieur, la recherche s’effectue sur le nom propre Sakhaline et sur le featureCode correspondant aux hydronymes (H). 5.2 Tâche 2 : résoudre les ENS ambiguës Les ENS sont ambiguës quand elles correspondent à des toponymes différents dans le gazetier. Buscaldi (2011) évoque trois approches pour assigner les ENS ambiguës. La plus ancienne, qui donne les moins bons résultats, consiste à utiliser les coordonnées des ENS déjà résolues afin de désambiguïser celles qui correspondent à plusieurs entrées dans le gazetier (Smith et Crane, 2001). Le toponyme qui sera assigné à l’ENS ambiguë sera alors celui-qui est le plus proche géographiquement des ENS déjà résolues. Une seconde approche, par exemple « la méthode de la densité conceptuelle » proposée par Buscaldi (2010), exploite l'organisation hiérarchique du gazetier. Les connaissances sur les ENS déjà résolues sont utilisées pour désambiguïser les ENS correspondant à plusieurs toponymes du gazetier. Dans l’exemple de l’ENS Vienne, si d’autres ENS déjà résolues concernent la France (propriété : pays d'appartenance), la méthode assignera le toponyme Vienne en France à cette ENS. Une troisième approche s’appuie sur des méthodes d’apprentissage (Roberts et al., 2010). L’apprentissage concerne les cooccurrences entre toponymes et informations non géographiques. Pour le mettre en place, il serait nécessaire de disposer d'un corpus de référence assez riche pour contenir l’ensemble des toponymes du corpus de travail. Dans ce travail, l'algorithme mis en place tient compte de la propriété : pays d'appartenance des ENS déjà résolues pour localiser les ENS ambiguës. Les nombres d'occurrences des ENS résolues sont totalisés par pays. Chaque ENS qui peut correspondre à différentes localisations (chacune disposant de cette propriété : pays d'appartenance) est alors positionnée dans le pays qui correspond au plus grand nombre d'occurrences d'ENS déjà résolues. Le résultat de cette étape de désambiguïsation est une liste de toponymes possédant un nombre d’occurrences dans le texte analysé, une localisation sous la forme d’un point correspondant à une longitude et une latitude, ainsi que diverses propriétés comme leur pays d’appartenance ou leur nom en anglais (cf. Tableau 2). 8 ENS Toponyme Code pays Latitude Longitude Nombre d'occurrences Etats-Unis États-Unis US 39.76 -98.5 2 Europe Europe Pas de pays 48.6909 9.1406 2 île de Sakhaline Sakhaline RU 51.0 143.0 2 province de Zhejiang Zhejiang Sheng CN 29.0 120.0 1 Tableau 2. Exemples de toponymes trouvés à partir d’une liste d’ENS 6. Étape 3 : du toponyme à l’entité géographique Cependant, cette liste de toponymes n’est pas satisfaisante. En effet, les toponymes sont localisés sous forme ponctuelle, pour les villes mais aussi pour les fleuves, les pays ou les régions alors que l'emprise de la carte doit tenir compte des surfaces des différentes entités à représenter. Il est donc nécessaire d’assigner à ces toponymes des géométries plus précises, comme des linéaires ou des polygones. Pour cela, il est possible de s’appuyer sur des bases de données spatiales distribuées librement comme le Global Administrative Areas8 ou le Natural Earth9. La première recense la quasi-totalité des pays du monde, ainsi que leurs cinq premiers niveaux administratifs. La seconde base de données contient de nombreuses entités géographiques non administratives : des îles, des mers, des sommets, des chaînes montagneuses, etc. Ces bases de données étant en langue anglaise, l’appariement entre leurs entrées et les toponymes du texte (en français) ne peut se faire directement. Il est prévu d'apparier les différentes formes graphiques en utilisant le nom anglais du toponyme, son pays d’appartenance à travers son code ISO, son niveau administratif et/ou ses coordonnées géographiques. Le résultat de cet appariement sera une liste d’entités géographiques d'implantation ponctuelle, linéaire ou polygonale. 7. Étape 4 : générer l’emprise de la carte à partir des entités géographiques L'emprise de la carte est générée à partir des géométries des toponymes déjà résolus en tenant compte de leur nombre d'occurrences dans le texte et de leur répartition spatiale. La génération d'une première emprise est fondée sur le nombre d'occurrences des toponymes qui permet de distinguer les entités géographiques 8. http://www.gadm.org/ 9. http://www.naturalearthdata.com/ pertinentes des non pertinentes. Il peut être calculé de différentes manières : occurrences des entités elles-mêmes ou bien occurrences des entités regroupées selon une propriété, comme par exemple le pays d’appartenance. Une analyse spatiale permet d'affiner cette première emprise. Elle est fondée sur l'analyse des intersections entre la première emprise et les entités non pertinentes. Les entités non pertinentes qui intersectent la première emprise peuvent soit la renforcer soit l'affiner. Enfin, les entités jugées non pertinentes sont en première approche rejetées. Figure 4. Génération de l’emprise à partir de la liste des entités géographiques 8. Perspectives La méthode présentée dans cet article permet de générer une emprise de carte. Néanmoins le travail n'est pas terminé et des améliorations sont en cours de développement. Tout d'abord, une mesure d'évaluation de l'emprise générée par rapport à l'emprise de la carte de l'article doit être mise en place. Elle sera fondée sur les écarts entre les centres des emprises, leurs surfaces, leurs coordonnées géographiques maximales (cf. définition dans 1. Introduction) et sur leurs surfaces d'intersection. Le corpus d'évaluation, où une emprise sous la forme des coordonnées maximales de la carte de l'article est associée à chaque texte, a été construit pour mettre en place cette évaluation. Ensuite, les ENS contenant des indirections devront être considérées pour affiner l’emprise de la carte préalablement générée ; cette amélioration est surtout pertinente pour des pays dont l'emprise est étendue. Par exemple, pour un texte traitant de la Russie orientale, il faudra pouvoir identifier les ENS du texte contenant des indirections telles que l’est de la Russie ou Russie orientale pour ne sélectionner que la partie pertinente de la Russie lors de la génération de l’emprise. Enfin, il serait judicieux de tenir compte de la thématique du texte, la géopolitique des ressources naturelles, pour générer son emprise. Cette thématique est caractérisée par un champ lexical auquel appartiennent des termes comme gazoduc, raffinerie, pétrole, etc. La prise compte du nombre d'occurrences des 10 entités géographiques du texte et leur analyse spatiale pourraient être guidées par un poids plus important donné aux ENS qui cooccurrent avec les termes thématiques du texte. Références Brunet R. (1987). La carte, mode d’emploi, Fayard, Paris. Buscaldi D. (2010). Toponym Disambiguation in Information Retrieval. Thèse en philosophie, Universidad Politécnica de Valencia. Buscaldi D. (2011). Approaches to disambiguating toponyms. SIGSPATIAL Special, vol. 3, n°2, p. 16-19. Ehrmann M. (2008). Les entités nommées, de la linguistique au TAL : statut théorique et méthodes de désambiguïsation. Thèse en linguistique théorique, descriptive et automatique, Université de Paris 7. Gaio M., Sallaberry C., Nguyen V.-T. (2012). Typage de noms toponymiques à des fins d’indexation géographique. TAL, vol . 53, n°2, p. 143-176. Habib M.-B., Keulen M. v. (2012). Improving Toponym Disambiguation by Iteratively Enhancing Certainty of Extraction, Proceedings of Knowledge Discovery and Information Retrieval 2012, Barcelona. Joly F. (1976). La cartographie, Presses universitaires de France, Paris. Lefort J. (2004). L’aventure cartographique, Belin, Paris. Le Fur A. (2007). Pratiques de la cartographie, Armand Colin, Paris. Maurel D., Friburger N., Antoine J.-Y., Eshkol-Taravella I., Nouvel D. (2011). Cascades de transducteurs autour de la reconnaissance des entités nommées. TAL, vol. 52, n°1, p. 6996. Mustière S., Abadie N., Aussenac-Gilles N., Bessagnet M.-N., Kamel M., Kergosien E., Reynaud C., Safar B., Sallaberry C. (2011). Analyses linguistiques et techniques d’alignement pour créer et enrichir une ontologie topographique. Revue Internationale de Géomatique, vol. 21, n°2, p. 155-180. Roberts K., Beja C. B., Harabagiu S. (2010). Toponym Disambiguation Using Events. Proceedings of the Twenty-Third International Florida Artificial Intelligence Research Society Conference, Daytona Beach. Smith D. A., Crane G. (2001). Disambiguating Geographic Names in a Historical Digital Library. Research and Advanced Technology for Digital Libraries. Berlin, Springer, p. 127-137. Zanin C., Trémélo M.-L. (2003). Savoir aire une carte : aide à la conception et à la réalisation d’une carte thématique univariée, Belin, Paris.