L`appariement pour la constitution de bases de données

Transcription

L`appariement pour la constitution de bases de données
L'appariement pour la constitution de bases
de données géographiques multi-résolutions
Vers une interprétation des différences de
représentation
David Sheeren
Laboratoire COGIT / Institut Géographique National
2-4, Avenue Pasteur, 94165 Saint-Mandé Cedex
[email protected]
LIP6 - Pôle IA, Équipe ACASA
Université Pierre & Marie Curie (Paris 6)
8, Rue du capitaine Scott, 75015 Paris
L’utilisation de plusieurs bases de données géographiques sur une même portion du
territoire conduit à manipuler des représentations du monde qui diffèrent en fonction des
spécifications, de l’échelle de saisie, de la qualité, de l’actualité. Ces différences sont
susceptibles d’engendrer des réponses contradictoires à une requête formulée dans un
système multi-résolutions suivant la représentation utilisée. L’objectif de cet article est
d’exposer les premiers éléments d’une méthodologie d’interprétation automatique des
différences de représentation, et de déterminer si celles-ci sont justifiées ou non au regard des
spécifications. La méthodologie repose sur un processus d’appariement qui permet de relier
les données, mais qui peut aussi aider à identifier des concepts communs et extraire de
nouvelles connaissances.
RESUME.
Using simultaneous datasets resulting from several databases provides different
representations according to their specifications, scales, quality and actuality. These
differences generate inconsistency answers when queries are formulated in a multi-scales
database. The aim of this paper is first to set out the base elements of a methodology to
interpret automatically the differences of representation, and then to determine whether those
latter are justified or not in comparison with the specifications. The methodology is based on
matching techniques wich connects corresponding elements of differents datasets and can
also help to identify common concepts and to highlight new knowledge.
ABSTRACT.
MOTS-CLES :
multi-représentation, appariement, incohérence, interprétation, apprentissage
automatique.
KEYWORDS : multi-representation,
learning.
spatial data matching, inconsistency, interpretation, machine
2
Revue internationale de géomatique, volume X - n°x/2002
1. Introduction
Le passage du monde réel à une carte ou à une base de données géographiques
implique une réduction volontaire de la complexité et de l'exhaustivité de la réalité.
Le cartographe fait abstraction d'une série de phénomènes et crée son modèle de
l'univers qui répond à une série de spécifications préalablement établies. Une carte
représente ainsi une vision subjective de la réalité exprimée dans un langage de
représentation.
Avec la disponibilité croissante de données géographiques numériques, il est
devenu courant de disposer de plusieurs représentations d’un même territoire (cf.
figure1). La mise en correspondance de celles-ci est aujourd'hui recherchée car elle
présente de multiples intérêts.
a
b
Figure 1. Illustration de différences de représentation entre une portion de carte au
1:25.000 (a) et une portion de carte au 1:100.000 (b).
Si aujourd'hui des modèles élaborés capables de supporter la représentation
multiple commencent à émerger [BER et al. 01; VAN 01], leur instanciation à partir
de bases de données existantes reste un problème délicat. L'intégration est difficile
car le rapprochement des données fait apparaître des incompatibilités géométriques,
topologiques et sémantiques entre les objets des différentes bases. De plus, ces
différences sont susceptibles d’engendrer des réponses contradictoires à des requêtes
formulées suivant la représentation utilisée.
Dans ce contexte d'intégration et de multi-résolutions (sémantique et
géométrique), nous nous intéressons à l'interprétation des différences de
représentation et au maintien de la cohérence entre celles-ci. Notre objectif consiste
à définir une méthodologie permettant d'évaluer et de qualifier les différences en
faisant appel aux informations et contraintes présentes dans les spécifications des
bases. Cette méthodologie repose sur un processus d'appariement qui permet de
relier les données et qui peut aider à identifier des concepts communs. L’utilisation
Appariement et interprétation
3
des techniques d’apprentissage est envisagée pour faciliter les phases d’appariement
et d’interprétation.
Après un bref rappel des différents contextes dans lequel l'appariement peut être
mis en œuvre (§2), nous exposons les principales raisons pour lesquelles cet
appariement doit être évalué (§3). La problématique étant définie, nous décrivons les
propositions référencées dans la littérature traitant de l'intégrité et du maintien de la
cohérence entre plusieurs représentations (§ 4). Nous présentons ensuite les premiers
éléments de notre méthodologie (§5) et nous discutons des difficultés associées à
cette interprétation automatique. Nous concluons enfin en présentant les
perspectives de recherche (§6).
2. Les contextes d'utilisation de l'appariement de données géographiques
L'appariement n'est pas un processus nouveau. Il est envisagé chaque fois que
l'on souhaite mettre en correspondance des objets géographiques se rapportant aux
mêmes phénomènes du monde réel mais provenant de jeux de données différents.
Les techniques d’appariement ont déjà fait l'objet d'un certain nombre de travaux
[LEM 96; BEL 01; WAL & FRI 99]. De manière schématisée, un processus
d’appariement consiste à calculer des ressemblances géométriques, topologiques et
sémantiques entre les jeux de données de manière indépendante ou coordonnée. Il
utilise des mesures différentes suivant le type géométrique des objets à comparer
(point, ligne, polygone) et établit des liens de correspondance qui peuvent être de
plusieurs cardinalités : 0-1, 1-1, 1-n, n-m. L'application de ces outils et la
paramétrisation des algorithmes se fait généralement par tâtonnement pour atteindre
un appariement optimal.
2.1. Apparier pour évaluer la qualité d'un jeu de données
Les techniques d'appariement sont généralement utilisées dans un contexte de
contrôle de qualité d'une base de données géographiques. L'estimation de la qualité
d'un jeu de données nécessite en effet l'utilisation d’échantillons de données de
référence, assimilées au terrain nominal. Pour comparer ces deux jeux de données, il
est nécessaire de les mettre en correspondance.
Par exemple, [BEL 01] a récemment proposé une méthode d’appariement
géométrique d’objets surfaciques dans le cadre d’une évaluation de leur qualité. De
nouvelles métriques associées à différents espaces de représentation (notamment les
moments mathématiques) ont été définies pour mieux caractériser les écarts de
forme et de position entre des polygones.
4
Revue internationale de géomatique, volume X - n°x/2002
2.2. Apparier pour extraire et intégrer des mises à jour
L’appariement peut être utilisé dans un contexte de mise à jour de bases de
données géographiques lorsqu’aucune trace des modifications entre les différentes
versions n’existe. La mise en correspondance des données permet la détection des
différences entre les versions et facilite la déduction des évolutions subies [BAD
00].
2.3. Apparier pour fusionner des données issues de plusieurs bases
Il est fréquent de vouloir fusionner des données provenant de différentes sources.
Cela permet d'une part de les enrichir à moindre coût et d'autre part, d'élargir leurs
champs d'utilisation. Dans ce contexte, l'appariement est également utilisé pour
identifier les objets candidats à la fusion.
La fusion peut prendre la forme d’un transfert de l'information sémantique d'une
base sur les éléments géométriques d'une autre base [WAL & FRI 99]. Ceci permet
de combiner la richesse sémantique de la première avec la précision géométrique de
la seconde. La fusion peut également aboutir à la création d'un produit composite
issu de l'unification de plusieurs géométries. On suppose dans ce cas que les
modèles de données des deux bases sont très proches.
2.4. Apparier pour intégrer et créer des bases de données multi-résolutions
L'intégration de plusieurs bases de données est un problème émergent dans les
organismes producteurs de données. Afin d’optimiser leur production, d'assurer une
meilleure cohérence entre les représentations et d’éviter une mise à jour différée,
ceux-ci souhaitent aujourd'hui établir des liens entre leurs bases. L'appariement peut
être utilisé sous deux formes pour répondre à ce besoin : un appariement
automatique pour matérialiser les correspondances utiles entre les bases existantes,
et un appariement en temps réel durant les phases routinières de saisie de nouvelles
données.
Du point de vue des utilisateurs, la manipulation simultanée d'objets
géographiques représentés à différentes échelles et selon différents points de vue est
fréquemment recherchée. Ceux-ci souhaiteraient pouvoir effectuer des traitements
sur leurs données à différents niveaux d'analyse et naviguer entre les représentations.
L’appariement peut être utilisé pour relier les objets homologues et instancier un
schéma à représentation multiple [DEV 97].
Appariement et interprétation
5
3. Problématique. Pourquoi évaluer l'appariement ?
L'intérêt d'évaluer l'appariement – ou plutôt d'interpréter les différences de
représentation entre les objets mis en correspondance car il ne s'agit pas ici d'évaluer
la qualité des liens d'appariement – dépend du contexte dans lequel l’appariement
est mis en œuvre.
Pour un contrôle qualité, l’interprétation des différences est immédiate. Les deux
jeux de données sont saisis en suivant les mêmes spécifications et tout écart par
rapport à la référence s'interprète comme une erreur ou une faute.
Dans le cadre d'une mise en correspondance des données pour une détection des
mises à jour, l'analyse de l'appariement présente un intérêt plus marqué. En fonction
du type de liens détectés, il est possible d'interpréter la nature des évolutions
géométriques intervenues dans la base. Les liens caractérisés par une cardinalité 0-1
ou 1-0 indiquent respectivement la création ou la destruction d'un objet. Les liens de
type 1-n ou n-1 peuvent résulter respectivement d'un processus de fusion ou de
scission. Les liens n-m indiquent un phénomène d'agrégation. La stabilité se
caractérise par un appariement 1-1 si les tests d’égalité géométrique et sémantique
sont positifs [BAD 00].
Dans ce contexte de mise à jour, l’analyse des différences permet donc de
déduire les évolutions spatio-temporelles entre les deux versions de la même base, et
l’interprétation se traduit par la qualification de ces évolutions.
Lorsque l'appariement est utilisé pour intégrer des données provenant de
différentes sources et pour créer des systèmes à représentation multiple,
l'interprétation est essentielle et doit nécessairement faire appel aux spécifications de
chacune des bases. Ceci permet d'assurer une cohérence entre les représentations et
d'éviter d'avoir des réponses contradictoires lorsqu'une requête est lancée (§ 3.1.).
L'évaluation de l'appariement peut aussi aider à intégrer des schémas et
éventuellement enrichir les spécifications par l'extraction et la découverte de
nouvelles connaissances. Ces points sont développés dans les sections suivantes
(3.2. & 3.3.).
3.1. Évaluer pour assurer la cohérence entre les représentations dans un système
multi-échelles
L'utilisation simultanée de jeux de données issus de plusieurs sources et se
rapportant à un même territoire met en évidence des différences entre les
représentations. Ces différences s'expliquent par des critères de saisie et de contenu
différents entre les bases (échelle, degré de généralisation, modélisation, qualité)
6
Revue internationale de géomatique, volume X - n°x/2002
mais résultent aussi d'erreurs de saisie (complétude, inexactitude), d'actualités
différentes ou encore de différences d’interprétation de spécifications peu explicites.
Les différences sont de plusieurs natures. Elles concernent à la fois la géométrie
(position, taille, forme, modes d'implantation), les relations spatiales (topologie,
distances, orientation) et la sémantique (classes absentes, structures différentes,
domaines d'attributs différents, etc.). Elles se caractérisent aussi par la présence et
l'absence de certains éléments dans une des bases. Enfin, les différences concernent
plusieurs niveaux d’analyse : l’objet lui-même (ex : une maison), les groupes
d’objets (ex : l’ensemble des maisons d’un îlot urbain) et la population d’objets (ex :
l’ensemble des maisons de la base) [RUA 99]. Un exemple d’îlot urbain au 1:25.000
issu de la BDTOPO de l’IGN et son correspondant généralisé par le prototype
AGENT [BAR et al. 01] pour une carte au 1:50.000 est donné en figure 2. On
remarque des différences entre les deux îlots (principalement l’agencement des
bâtiments). L’évaluation des différences pour cet exemple doit être appréhendée au
niveau de l’îlot (densité du bâti notamment) et pas au niveau des bâtiments. En effet,
les bâtiments représentés au 1:50.000 sur cet extrait n’ont pas de réalité physique. Ils
sont représentatifs des bâtiments réels figurant sur la carte au 1:25.000. Ceci est dû
au fait que chaque échelle retranscrit différents phénomènes géographiques de
manière distincte.
a
b
Figure 2. Îlot urbain issu de la BDTOPO au 1:25.000 (a) et son homologue
généralisé pour une représentation au 1:50.000 (b).
Il est utile et nécessaire de cataloguer automatiquement ces différences de
représentation car un utilisateur peut s’étonner d’obtenir des réponses
contradictoires suivant la représentation qu’il utilise lorsqu'il interroge le système.
Ces différences sont susceptibles de se produire chaque fois qu'une requête est
lancée en faisant appel à une mesure (distance, intersection, calcul d'itinéraires,
densité, …) ou à une information attributaire. Par exemple, le système doit être
capable de signaler la différence de représentation des ronds-points, symbolisés dans
une première base par leur pourtour (pour peu que le diamètre excède 30 mètres), et
Appariement et interprétation
7
dans une seconde base par des objets ponctuels (figure 3a). Dans cet exemple, la
différence de représentation est légitime étant donnés les critères de saisie des deux
bases et il est nécessaire de le faire savoir à l'utilisateur, mais cette différence peut
aussi être issue d'une erreur de saisie. La figure 3b illustre un autre exemple, dans
lequel des différences de saisie expliquent des différences dans la représentation des
routes à chaussées séparées par une borne centrale. Selon la base, les critères de
saisie de ce type de chaussée peuvent consister à relever chaque axe de la route quel
que soit la largeur du séparateur, ou à dédoubler les voies dans la mesure où la
largeur du séparateur excède 15 mètres.
Base 1
Base 2
Superposition
a
b
Figure 3. Illustration d’équivalences, d’erreurs et/ou d’incohérences entre tronçons
issus de différentes bases de résolutions identiques (ronds-points et routes à
chaussées séparées).
Trois cas essentiels sont donc rencontrés. Soit les représentations sont différentes
mais équivalentes car les spécifications le justifient. Soit les représentations sont
différentes mais ne sont pas équivalentes parce que la différence résulte d’une erreur
de saisie. Soit les représentations sont différentes et incohérentes car aucun critère
de saisie et de contenu ne permet de l'expliquer. La phase d'interprétation doit
permettre de qualifier chacune de ces situations afin d'éviter toute incompréhension
chez l'utilisateur. Elle doit aussi guider l’intégration pour déterminer quelle(s)
représentation(s) choisir.
3.2. Évaluer pour faciliter l’intégration des schémas
Lorsqu'on envisage d'intégrer plusieurs bases de données, il convient
préalablement d'élaborer un schéma commun, intégré ou fédéré (selon la stratégie
adoptée), qui se dérive des schémas initiaux et des spécifications des bases. La tâche
8
Revue internationale de géomatique, volume X - n°x/2002
d'intégration des schémas s'avère complexe car un certain nombre de conflits
apparaissent [DEV 97] et la prise de connaissance approfondie des spécifications est
fastidieuse. Dans cette optique, l'appariement des données pourrait être utilisé pour
assister le concepteur à mettre en correspondance les schémas et pas uniquement
pour relier les données lors de l’intégration des géométries. Par exemple, si un
appariement géométrique met en relation des tronçons de route classés en autoroute
dans une des bases avec des tronçons de route classés en routes principales dans
l’autre base, on peut supposer que les autoroutes et les routes principales sont des
concepts équivalents et on peut envisager de les relier au niveau du schéma. En
analysant la sémantique des données appariées, il serait donc possible d'alléger la
phase d'étude des spécifications et d'identifier plus facilement les classes à relier et
les conflits à résoudre.
3.3. Évaluer pour extraire de nouvelles connaissances et enrichir les spécifications
L'évaluation de données appariées peut aussi être réalisée dans une optique de
découverte, d'extraction et de clarification de connaissances, ceci à la fois pour la
géométrie, l’information attributaire et les relations spatiales.
Il est fréquent que les critères de saisie et de contenu d'une base de données
soient peu explicites. Par exemple, pour les voies en impasses présentes dans des
zones de lotissement, les spécifications de la BDTOPO indiquent que celles-ci
sont représentées si leur longueur est supérieure à 50m et « que la représentation du
paysage ou la levée d'une ambiguïté le justifie » [IGN 94]. Un tel critère de saisie est
vague et la décision de représenter l'objet sera laissée à l'appréciation du restituteur
en fonction de ses connaissances et de son expérience. En utilisant une autre base de
données possédant un modèle et une résolution comparables, on peut tenter de
mieux formaliser cette spécification. Si on imagine que toutes les impasses sont
saisies dans cette deuxième base et qu'on analyse systématiquement par comparaison
le contexte dans lequel l'objet est – ou n'est pas – restitué dans la première, on peut
envisager de clarifier la spécification.
4. Recherches relatives au maintien de la cohérence et à l’interprétation dans
les systèmes à représentation multiple
La nécessité de maintenir l’intégrité et la cohérence entre les données dans un
système multi-représentations a été identifiée depuis longtemps. Ainsi, [BUT et
DEL 89] mentionnent déjà qu’il s’agit d’un des principaux problèmes à résoudre,
particulièrement lorsqu’on intègre des données provenant de sources multiples.
Cependant, il existe très peu de méthodes répondant à ce problème [CAI 00].
Appariement et interprétation
9
[JEN 99] a étudié l’évolution des relations spatiales lors d’un changement
d’échelle pour différents types d’objets et a établi l’ensemble des changements
valides pour chaque relation topologique en s’appuyant sur certaines contraintes. Il
introduit la relation R-analogue. Il s’agit d’une relation telle que le changement de R
à R’ (ensemble des relations topologiques à grande échelle vers l’ensemble des
relations à petite échelle) est valide. Cette relation lui permet d’obtenir une réponse
cohérente à une requête quelle que soit la représentation utilisée.
Une proposition a été faite par [EGE et al. 94] pour assurer une cohérence
topologique entre des données représentées à différentes résolutions. Ils introduisent
les notions de similarité entre objets et relations. Ces similarités sont exprimées à
partir de l’examen des différences d’invariants : la dimension des intersections, la
séquence des intersections entre objets, le type d’intersection (touch, cross, …), le
nombre d’enclaves (pour les polygones), etc. Les degrés de similarité sont définis en
fonction d’une déviation plus ou moins grande par rapport à la représentation
homéomorphique. Cette déviation est évaluée en introduisant des propriétés d’ordre
pour certains invariants.
Cette proposition a été étendue aux relations métriques (orientation et distance)
en se fondant sur le concept d’évolution graduelle [BRU et EGE 96]. Le nombre
minimum de transformations nécessaires pour passer d’une configuration à une autre
à travers le graphe conceptuel permet de fixer un degré de similarité qualitatif entre
scènes.
[PAI 98] propose aussi un modèle permettant de vérifier l’équivalence
topologique entre deux scènes à différentes résolutions. Son travail s’inscrit dans la
même lignée que ceux de [EGE et al. 94]. L’auteur expose le relation-based model
qui se fonde sur la description des scènes sous forme de graphes et sur la recherche
des configurations isomorphiques entre ceux-ci. Il présente une série d’indicateurs
de similarité qui concerne entre autre la dimension spatiale, le nombre d’objets
adjacents à un autre et le nombre de niveaux hiérarchiques (nombre de graphes
internes).
[GOY 00] s’est intéressé plus spécifiquement à l’évaluation de la similarité des
directions cardinales entre objets spatiaux. Sa méthode est fondée sur le calcul d’une
distance entre matrices de directions cardinales, utilisant aussi la notion de voisinage
conceptuel (graphe à 4 et 8 connections). La distance à partir de laquelle le degré de
similarité est dérivé est définie par le coût minimum de transformation pour passer
d’une matrice à l’autre.
Dans la plupart de ces travaux, les auteurs définissent des méthodes qui
permettent de déterminer un degré de similarité entre scènes, c’est-à-dire une
« distance » par rapport à des configurations qui seraient identiques. Notre objectif
est différent. Nous souhaitons pouvoir expliquer et qualifier chaque différence de
10
Revue internationale de géomatique, volume X - n°x/2002
représentation, qu’elle soit topologique, géométrique ou sémantique, en terme
d’équivalence, d’erreur ou d’incohérence, à partir des spécifications de chacune des
bases. La partie suivante présente les premiers éléments de notre méthodologie
d’interprétation automatique.
5. Vers une interprétation automatique des différences de représentations
La méthodologie d’interprétation que nous proposons se décompose en plusieurs
étapes (figure 4) : création des bases de spécifications, étude du respect des
spécifications, création des bases de règles de saisie et de contenu, appariement,
interprétation de l’appariement et enrichissement des spécifications.
5.1. Création des bases de spécifications
Au cours de la première étape, les spécifications de chacune des bases de
données sont informatisées et introduites dans une base d’informations qu’on
nomme base de spécifications (BS). Chaque BS repose sur le même modèle
générique qui permet de représenter l’ensemble des contraintes de saisie et de
contenu des BD : contraintes d’existence d’un objet (ex : un bâtiment est saisi si sa
superficie réelle est supérieure à 100 m²), contraintes de modélisation (ex : les
rivières sont représentées par un objet linéaire si leur largueur est inférieure à 30m),
contraintes de représentativité (ex : si le réseau d’allées est dense, elles sont
confondues en un seul objet) et contraintes sur la valeur des attributs (ex : si la
modalité de l’attribut état chaussée est en construction, l’attribut importance prend
la valeur quelconque). La modélisation et l’instanciation du modèle à partir des
spécifications des BD de l’IGN sont en cours d’élaboration. Notre modèle, orientéobjet, s’appuie sur certaines méta-classes définies dans les travaux de normalisation
(ISO19109, General Feature Model - Rules for application schema).
Il conviendra également à ce stade de mettre en commun les schémas des bases
de données à relier à partir des similitudes entre les spécifications pour créer un
schéma à représentation multiple. Cette mise en correspondance des schémas fait
l’objet d’un autre travail de recherche au laboratoire COGIT [GES 01]. Il s’agit
d’une étape importante du processus.
Appariement et interprétation
Fédérer
Spec2
Modéliser &
Instancier
Modéliser &
Instancier
BD1
BD2
Extraire
BS2
Extraire
Jeu 1
ETUDE DU RESPECT DES
SPECIFICATIONS
BS1
Jeu 2
Étudier
Étudier
Écarts
constatés
Écarts
constatés
BR1
BR2
const.
const.
BR1
inter.
Apparier
Apprendre
Jeux appariés
- Préparer
- Sélectionner
- Mesurer
- Filtrer
- Regrouper
- Analyser
BR2
BR2
CREATION DES
BASES DE REGLES
Produire
inter.
APPARIEMENT
Produire
BR1
CREATION DES BASES DE
SPECIFICATIONS
Spec1
11
Interpréter
Différences interprétées
(incohérences et équivalences
locales et globales)
BD = Base de données
BS = Base de spécifications
BR = Base de règles (saisie et contenu)
BR const. = Base de règles constatées
BR inter = Base de règles interprétation
INTERPRETATION ET
ENRICHISSEMENT
Apprendre
Spécifications enrichies (BS1 et
BS2) et qualité des données
améliorée
Figure 4. Méthodologie d’interprétation des différences de représentations entre
deux bases de données.
12
Revue internationale de géomatique, volume X - n°x/2002
5.2. Étude du respect des spécifications des bases
La deuxième phase consiste à étudier, pour chaque jeu de données à intégrer issu
des BD, ses écarts par rapport aux spécifications (écarts constatés). Elle permet de
vérifier que les données respectent les spécifications, car tous les critères de saisie ne
sont pas examinés lors du contrôle qualité (ex : on ne vérifie pas que le diamètre
d’un rond-point modélisé par son pourtour respecte le seuil minimum de saisie). Elle
donne aussi une idée sur l’adéquation des spécifications aux données effectivement
saisies et permet de remettre éventuellement en cause les BS. Si après examen des
données on constate par exemple que les critères d’un type d’objet ne sont jamais
respectés, on peut faire l’hypothèse que la spécification n’est pas adaptée à l’objet
(on ne considère pas toutes les données comme fausses). La vérification portera
principalement sur les domaines attributaires et sur certaines caractéristiques
géométriques (les critères qui ne nécessitent pas de jeu de référence comme par
exemple, la taille minimale de saisie des bâtiments). Cette étape a donc pour objectif
d’enrichir les données de métadonnées (il s’agit principalement ici d’informations
sur la qualité du jeu de données) et si besoin est, d’ajuster les spécifications. Cette
analyse permettra par la suite de qualifier plus justement le type de différence
constatée (équivalence, erreur ou incohérence) lors de la phase d’interprétation.
5.3. Création des bases de règles de saisie et de contenu
Afin de pouvoir interpréter plus facilement les différences de représentations de
manière automatique, les BS vont être réexprimées sous la forme de bases de règles.
La création de bases de règles (BR) à partir de chaque BS et des écarts constatés
constitue à ce titre la troisième étape. Deux bases de règles peuvent être produites :
les règles « théoriques » qui sont issues directement des spécifications et les règles
« constatées » produites après l’examen des jeux de données et des écarts constatés.
Ces deux bases de règles devront servir à créer une troisième base de règles
nécessaires à l’interprétation (BR inter) dont les règles et les seuils seront fixés à
partir des règles théoriques et constatées. Cette troisième base est nécessaire car
d’une part, la base de règles théoriques est complète mais ces règles ne sont pas
systématiquement adaptées aux données, et d’autre part, la base des règles
constatées est plus « vraie » mais ne contient pas tous les critères de saisie et de
contenu. La base BR inter sera donc composée de l’ensemble des règles objectives à
respecter, autrement dit, des nouvelles spécifications. Celles-ci seront utilisées lors
de la phase d’interprétation automatique. Elles devront être définies dans un langage
facilement manipulable par une machine.
Par exemple, pour une classe représentant les bâtiments en ruine, si les
spécifications indiquent que ceux-ci n’existent dans la base que si leur plus grande
dimension est supérieure à 10m, la contrainte d’existence pour cette classe exprimée
sous forme de règle pourrait être la suivante : SI plus grande dimension > 9m
Appariement et interprétation
13
ALORS l’objet ruine existe. La contrainte est une contrainte géométrique
d’existence qui est définie dans le modèle des spécifications. Le seuil fixé à 9m
reflète l’ajustement des spécifications lors de l’étape précédente : après examen des
données, il s’est avéré que sur l’ensemble des ruines existant dans le base, un grand
nombre de ruines possédaient un côté compris entre 9 et 10m.
5.4. Appariement des données
L’étape suivante est l’appariement. Le processus pourra s’appuyer sur les
méthodes et mesures développées depuis quelques années au laboratoire COGIT de
l’IGN [DEV 97 ; BAD 00 ; BEL 01]. Il est décomposé en six phases :
l’enrichissement (préparation des données à apparier), la sélection des objets
candidats, le calcul des mesures d’appariement, le filtrage ou la prolongation, le
regroupement et l’analyse du résultat (vérification des contraintes).
Si le processus actuel est relativement générique, il présente néanmoins quelques
faiblesses. L’utilisateur doit encore déterminer l’ordre des sélections, choisir les
outils d’appariement (mesures), choisir les paramètres des algorithmes et fixer la
stratégie à adopter (filtrage ou prolongation). Le choix des mesures dépend du type
d’appariement recherché, de la proximité des objets, de leur similarité de forme et
des relations topologiques qu’ils entretiennent avec des données déjà appariées
[DEV 97].
Pour améliorer le processus, on envisage actuellement d’utiliser les techniques
d’apprentissage supervisé issues du domaine de l’IA (Intelligence Artificielle) [MIT
97]. Il s’agit d’un mécanisme d’induction qui vise à déterminer un concept
(l’hypothèse ou fonction cible) à partir d’un sous-ensemble de son extension (les
exemples). Pour notre problème, la tâche à apprendre désigne le choix des outils à
utiliser pour apparier et la détermination de leurs paramètres. Cette tâche doit être
apprise à partir d’exemples constitués de couples d’objets appariés manuellement et
contenant des mesures les décrivant. Un algorithme d’apprentissage du type C4.5
[QUI 93] pourrait être utilisé pour réaliser la tâche. Les mesures composant les
exemples sont celles utilisées par le module d’appariement. Il s’agit notamment,
pour les éléments linéaires, de la distance moyenne (rapport de l’aire séparant les
polylignes à apparier sur la moyenne de leur longueur) et de la distance de
Hausdorff. Pour les polygones, il s’agit entre autre de la fonction de ressemblance et
de la distance surfacique. Pour davantage de détails sur l’éventail des mesures
existant dans le module d’appariement ainsi que sur leur définition, on peut se
référer à [BAD et LEM 02].
Les techniques d’apprentissage supervisé symbolique semblent très prometteuses
pour améliorer le processus d’appariement au vu des résultats obtenus par [MUS 01]
dans le cadre de la généralisation cartographique automatique. L’auteur cherche à
14
Revue internationale de géomatique, volume X - n°x/2002
déterminer quels algorithmes doivent être appliqués à un objet caractérisé par une
série de mesures pour le généraliser. Le processus d’apprentissage a été contraint par
des connaissances du domaine grâce à la définition d’une méthode de résolution de
problème. Peu d’exemples contenant un grand nombre de mesures ont été utilisés.
Une étape d’abstraction des mesures (définition d’attributs symboliques à partir de
plusieurs attributs numériques) a été nécessaire pour réduire la taille de l’espace des
hypothèses et améliorer le processus d’apprentissage. L’approche symbolique a été
retenue afin d’obtenir des hypothèses facilement compréhensibles et directement
interprétables (contrairement à l’approche numérique).
5.5. Interprétation de l’appariement
A l’issue du processus d’appariement, les correspondances entre les données
seront stockées dans une table en utilisant les identifiants de chaque objet. L’étape
suivante consiste à interpréter les différences de représentation pour chaque groupe
d’éléments appariés (lien 1-1, 1-n ou n-m) et non appariés (lien 1-0 ou 0-1). Ces
différences portent sur la géométrie et les attributs des objets et sur les relations
spatiales qu’entretiennent les objets entre eux. Elles doivent être examinées pour
chaque niveau d’analyse (cf. §3.1).
Si des objets sont mis en correspondance, cela indique qu’ils représentent le
même phénomène dans la réalité de l’appariement. Cela indique aussi que les
différences, si elles existent, ont été acceptées puisque les données sont appariées.
Encore faut-il maintenant comprendre et expliquer ces différences. Par exemple, on
peut très bien apparier un rond-point modélisé par un nœud avec un rond-point
modélisé par son pourtour, sans pour autant savoir si les différences de
représentations sont justifiées au regard des spécifications.
Une première sélection des règles d’interprétation peut être envisagée à ce
niveau en utilisant la cardinalité du lien d’appariement. Pour les données non
appariées par exemple, l’absence d’un des deux éléments peut être justifiée en
parcourant uniquement les règles d’interprétation relatives aux contraintes
géométriques d’existence (cf. § 5.1.). Ainsi, si un bâtiment d’une superficie de
100m² est présent dans la première base mais que les spécifications de la seconde
indiquent que la taille minimale d’un bâtiment est de 200m², il est normal que ce
bâtiment n’ait pas d’équivalent apparié dans la seconde base. Si le non appariement
s’explique par un écart de position trop important entre les objets (dépassant le seuil
fixé dans les outils d’appariement géométrique), seule l’information relative à la
précision planimétrique des classes d’objets sera utilisée pour qualifier la différence.
Encore faut-il être capable de détecter ces « non-correspondances ». Pour ce faire,
on peut envisager à l’issue du processus, de traiter les données appariées séparément
des données non appariées. Pour ces dernières, les algorithmes d’appariement
peuvent être réappliqués avec des paramètres différents pour tenter de mettre en
Appariement et interprétation
15
correspondance des objets homologues qui seraient trop éloignés. Les objets n’ayant
pas de correspondants seront alors les derniers étudiés.
Les règles issues des BR inter ainsi que les résultats des mesures réalisées pour
chaque situation seront donc utilisées et comparées à cette étape. A chaque règle
d’interprétation seront associées une ou plusieurs mesures qui peuvent être internes
à l’objet (aire, périmètre, longueur,…) ou s’appliquer entre les objets (distance,
intersection,...). Par exemple, dans le cas des ronds-points, il sera nécessaire de
mesurer le diamètre du pourtour pour vérifier que les spécifications ont bien été
respectées ou non. Il conviendra alors de qualifier la situation d’équivalence (si la
différence est justifiée), d’erreur (si la différence n’est pas justifiée) ou
d’incohérence (si la différence n’est pas interprétable sans information
supplémentaire).
Pour certains caractères tels que l’écart de position entre les objets, on utilisera
les résultats des mesures effectuées durant le processus d’appariement (composante
de la distance de Hausdorff par exemple). Il faut noter que pour cette caractéristique,
toutes les relations d’appariement peuvent être considérées comme des équivalences.
En effet, l’appariement géométrique se fonde sur des mesures de proximité et le
seuil de recherche des objets homologues repose sur la connaissance des échelles et
de l’erreur moyenne quadratique de position des objets.
L’interprétation des différences présentera sans doute davantage de difficultés
pour les groupes d’objets car ces objets ne sont généralement pas représentés dans
les BD (ex : agglomération, quartier,… ) et peu d’informations existent dans les
spécifications pour cette échelle d’analyse. Les caractéristiques des groupes d’objets
seront évaluées statistiquement à partir d’échantillons. On s’inspirera des mesures
proposées dans [AGE 99] pour comparer leurs caractéristiques géométriques.
Les résultats de l’interprétation, c’est-à-dire le type de différence (équivalence,
erreur ou incohérence) et le détail des règles d’interprétation utilisées, seront stockés
dans la table d’appariement. Il sera nécessaire de fournir une évaluation globale de
chaque situation par agrégation des résultats locaux. A ces résultats devront être
systématiquement associées des informations sur la précision et la certitude de
qualification. Ces informations sont indispensables car d’une part, les limites entre
les classes de différences ne devraient pas être rigides, et d’autre part, la
qualification est entâchée d’incertitudes.
D’une manière générale, on envisage actuellement de recourir aussi à
l’apprentissage pour faciliter l’interprétation automatique car la définition a priori
de règles de classification des différences pour chaque situation est difficile et cette
classification n’est pas binaire. A partir d’exemples classés contenant les écarts par
rapport aux règles fixées dans les BR inter, la tâche à apprendre consisterait à
qualifier automatiquement les autres cas appariés et non appariés en définissant pour
16
Revue internationale de géomatique, volume X - n°x/2002
chaque classe (situation faiblement incohérente / totalement équivalente, …) leurs
limites. Ces techniques ont déjà été utilisées pour des tâches d’interprétation de
bases de données spatiales mais dans un contexte différent [SES 98]. Les
applications ont porté sur des données cadastrales et des cartes topographiques. Pour
les données cadastrales, le processus visait à interpréter les données pour reconnaître
les parcelles et les distinguer des routes. Pour les cartes topographiques, la tâche
d’apprentissage consistait à déterminer les conditions requises pour qu’une
agrégation de données apparaisse lors d’une généralisation à une échelle plus petite.
5.6. Découverte et enrichissement des spécifications
L’interprétation permettra d’améliorer la cohérence entre les données mises en
correspondance puisque des erreurs de saisie et de contenu dans les deux bases vont
être détectées, mais son intérêt est plus large. Au terme de l’interprétation, les
spécifications initiales pourront être enrichies de nouvelles spécifications. Par
exemple, si pour la classe d’objet bâtiment, les spécifications indiquent dans la
première base que toutes les cours intérieures sont saisies et que dans la seconde
base, aucun critère de saisie n’existe, on peut utiliser la première base comme
référence pour rechercher les critères de saisie de l’objet dans la seconde. Sans
l’utilisation de cette base de référence, aucune indication ne permettrait de vérifier
que toutes les cours intérieurs ont été représentées dans la seconde ou que le nombre
de cours représentées augmente avec leur superficie ou encore, que les cours
intérieurs ne sont saisies que sous certaines conditions (longueur > 15m et largeur
> 5m par exemple).
La mise en correspondance des données va également permettre de clarifier et de
mieux formaliser certains critères de saisie imprécis. La figure 5 illustre des
spécifications utilisant des termes flous (« si les bâtiments sont trop nombreux,
seules les principaux sont retenus »). Un examen systématique du contexte dans
lequel les objets sont ou ne sont pas représentés – et ceci pour un ensemble
d’échantillons – permettra d’expliciter cette contrainte d’existence. Pour de telles
analyses, on aura probablement recours à des techniques de Data Mining Spatial
[MIL & HAN 01].
Appariement et interprétation
17
Figure 5. Exemple de spécifications qui pourraient être clarifiées dans la
seconde base après à la mise en correspondance des deux jeux de données et
l’évaluation de leurs différences.
6. Conclusion et perspectives
Nous avons exposé dans cet article la problématique du maintien de la cohérence
entre plusieurs représentations d’un même objet dans un système multireprésentations et justifié le besoin d’évaluer et interpréter les différences entre ces
représentations à plusieurs niveaux d’analyse. Les premiers éléments d’une
méthodologie d’interprétation ont été présentés. Elle commence à être mise en
œuvre sur des bases de données géographiques de l’IGN. La méthodologie se
décompose en plusieurs phases : création de bases de spécifications, étude du
respect des spécifications des jeux de données à relier, création des bases de règles
de saisie et de contenu, appariement, interprétation de l’appariement et
enrichissement des spécifications. A l’issue du processus, le système devra être
capable de cataloguer chaque situation en terme d’équivalence, d’erreur ou
d’incohérence suivant que les différences de représentation sont justifiées ou non par
les spécifications. Il s’agira d’introduire une certaine souplesse dans la
caractérisation de chaque différence étant donné que les limites entre les classes sont
imprécises. Des modificateurs linguistiques permettant de moduler une description
tels que ceux utilisés en logique floue pourraient être utilisés [BOU 99]. Cette
interprétation permettra d’enrichir les spécifications de chacune des bases et
d’améliorer la qualité des données. Elle servira à expliquer toutes les réponses
contradictoires à une requête formulée dans un système à représentation multiple.
Les techniques d’apprentissage supervisé sont envisagées pour améliorer le
processus d’appariement existant et pour aider à fixer les seuils de classification des
différences. L’apprentissage devrait permettre de faire des hypothèses plus justes sur
les correspondances entre les données et sur les métadonnées des BD.
18
Revue internationale de géomatique, volume X - n°x/2002
7. Bibliographie
[AGE 99] Agent Project, ESPRIT LTR 24939, Specifications for measures on meso level &
organisations, Final Report, http://agent.ign.fr, 1999.
[BAD 00] Badard T., Propagation des mises à jour dans les bases de données géographiques
multi-représentations par analyse des changements géographiques, Thèse de doctorat,
Université de Marne-la-Vallée, 2000.
[BAD et LEM 02] Badard T. & Lemarié C., Associer des données : l’appariement.
Généralisation et représentation multiple, Ruas A. (ed.), Traité Information
Géographique et Aménagement du territoire, Hermès Science Publication, 2002 (à
paraître).
[BAR et al. 01] Barrault M., Regnauld N, Duchêne C., Haire K., Baeijs C., Demazeau Y.,
Hardy P., Mackaness W., Ruas A., Weibel R., Integrating multi-agent, object-oriented,
and algorithmic techniques for improved automated map generalization, Proceedings of
the 20th International Cartographic Conference, Beijing, Chine, 2001.
[BER et al. 01] Bernier E., Bédard Y. & Devillers R., Automatic generalization and multiple
representation for Spatial OLAP, Séminaire Geo Information Fusion and Revision,
Université Laval, Quebec, CA 9-12 avril, 2001.
[BEL 01] Bel Hadj Ali A., Qualité géométrique des entités surfaciques. Application à
l’appariement et définition d’une typologie des écarts géométriques, Thèse de doctorat,
Université de Marne-la-Vallée, 2001.
[BOU 99] Bouchon-Meunier B., La logique floue, Que sais-je ?, Presses Universitaires de
France, 3ème édition, 1999.
[BRU et EGE 96] Bruns T.H. & Egenhofer M.J., Similarity of spatial scenes, Proceedings of
the 7th International Symposium on Spatial Data Handling SDH’96, Delft, The
Netherlands, pp. 173-184.
[BUT et DEL 89] Buttenfield B.P. & Delotto J.S., Multiple representations, Report for the
specialists meeting, National Center for Geographic Information and Analysis (NCGIA),
Technical paper 89-3, 1989.
[CAI 00] Cai G., Spatial data integration under conceptuel and geometric incompatibility,
Proceedings of the 9th International Symposium on Spatial Data Handling SDH’2000,
Beijing, China, pp. 44-57.
[DEV 97] Devogele T., Processus d’intégration et d’appariement de bases de données
Géographiques. Application à une base de données routières multi-échelles, Thèse de
doctorat, Université de Versailles, 1997.
[EGE et al. 94] Egenhofer M.J., Clementini E. & DiFelice P., Evaluating inconsistencies
among multiple representations, Proceedings of the 6th International Symposium on
Spatial Data Handling SDH’94,, Edinburgh, Scotland, pp. 901-920.
[GES 01] Gesbert N., Étude de la fédération de schémas dans les bases de données
géographiques, Rapport de stage de DEA SIG, Université de Marne-la-Vallée, 2001.
Appariement et interprétation
19
[GOY 00] Goyal R.K., Similarity assessment for cardinal directions between extended spatial
objects, PhD Thesis in Spatial Information and Engineering, University of Maine, 2000.
[IGN 94] IGN, Spécifications détaillées de la BDTOPO, version 3.1., St Mandé, 1994.
[JEN 99] Jen T., Formalisation des relations spatiales topologiques et application à
l’exploitation des bases de données géographiques, Thèse de doctorat, Université de
Paris-Sud, 1999.
[LEM 96] Lemarié C., État de l’art sur l’appariement, Rapport technique DT/9600022/SRAP, juillet 1996, IGN, Service de la Recherche.
[MIT 97] Mitchell T.M., Machine Learning, McGraw-Hill International Editions, Singapour,
1997.
[MIL & HAN 01] Miller H.J. & Han J. (eds), Geographic Data Mining and knowledge
discovery, Taylor & Francis, 2001.
[MUR 01] MurMur Project, Multi-representations and multi-resolutions in geographic
databases, http://lbdwww.epfl.ch/e/MurMur/, 2001.
[MUS 01] Mustière S., Apprentissage supervisé pour la généralisation cartographique, Thèse
de doctorat, Université Pierre et Marie Curie, Paris 6, 2001.
[PAI 98] Paiva J.A., Topological equivalence and similarity in multi-representation
geographic databases, PhD Thesis in Spatial Information and Engineering, University of
Maine, 1998.
[QUI 93] Quilan J.R., C4.5 : Programs for machine learning, Morgan Kaufmann, 1993.
[RUA 99] Ruas A., Modèle de généralisation de données géographiques à base de contraintes
et d’autonomie, Thèse de doctorat, Université de Marne-la-Vallée, 1999.
[SES 98] Sester M., Interpretation of spatial databases using matching learning techniques,
Proceedings of the 8th International Symposium on Spatial Data Handling SDH’98,
Vancouver, pp. 88-97.
[VAN 01] Vangenot C., Multi-représentation dans les bases de données géographiques, Thèse
de doctorat n°2430, École Polytechnique Fédérale de Lausanne, 2001.
[WAL & FRI 99] Walter V. & Fritsch D., Matching spatial data sets : a statistical approach,
International Journal of Geographical Information Science, vol. 13, n°5, 1999, pp. 445473.