3. Chaîne de production de données

Transcription

3. Chaîne de production de données
Copie No :_________
DÉVELOPPEMENT DES TECHNOLOGIES
GÉOSPATIALES.
Livrable 1- Définition d’une chaîne de production de données
multidimensionnelles géospatiales
Marie-Josée Proulx, M.Sc., professionnelle de recherche,
Suzie Larrivée, B.Sc.A., professionnelle de recherche,
Éveline Bernier, M.Sc., professionnelle de recherche,
Yvan Bédard, PhD., professeur-chercheur
Titulaire de la chaire de recherche industrielle CRSNG en bases de données
Centre de recherche en géomatique, Université Laval,
géodécisionnelles de l’Université Laval.
Chaire de recherche industrielle CRSNG en bases de
données géodécisionnelles, Centre de recherche en
géomatique, Université Laval
2006-05-25
http://mdspatialdb.chair.scg.ulaval.ca/
Table des matières
1.
Mise en contexte............................................................................................................ 9
2.
Rappel des concepts multidimensionnels. ................................................................... 11
3.
Chaîne de production de données multidimensionnelles géospatiales ........................ 12
3.1.
3.2.
4.
Chaîne de production de données................................................................... 12
3.1.1.
Démarrage: ........................................................................................ 13
3.1.2.
L’élaboration du système: ................................................................. 14
3.1.3.
Construction du système: .................................................................. 15
3.1.4.
Transition du système:....................................................................... 16
Spécificités de la chaîne de production pour les données décisionnelles ....... 17
Analyse des fonctionnalités de logiciels d’accès aux données. ................................... 18
4.1.
Syntell 4i (Syntell):......................................................................................... 20
4.2.
JMAP Spatial OLAP (Kheops-Technologies)................................................ 21
4.3.
OLAP Add-On for ArcGIS (ESRI) ................................................................ 22
4.4.
SAS 9.9- SAS Web OLAP Viewer for Java (SAS)........................................ 23
4.5.
Cognos 8 BI (Cognos) .................................................................................... 24
4.6.
Proclarity 2.0 ................................................................................................. 25
5.
Analyse du potentiel des solutions déjà utilisées par RDDC pour produire des données
géospatiales.................................................................................................................. 27
6.
Solutions logicielles d’un grand intérêt pour l’extraction, le traitement et le
chargement des données dans une application SOLAP............................................... 29
6.1.
Trois outils d’un grand intérêt pour l’ETL ..................................................... 30
6.1.1.
6.1.2.
Produits FME .................................................................................... 30
6.1.1.1.
FME ............................................................................... 30
6.1.1.2.
Spatialdirect - FME Web Services................................. 31
6.1.1.3.
FME Data Servers.......................................................... 31
6.1.1.4.
FME Developer Tools ................................................... 31
Produits de Vivid Solutions............................................................... 31
6.1.2.1.
JUMP Unified Mapping Platform.................................. 31
6.1.3.
6.2.
6.1.2.2.
JTS Topology Suite ....................................................... 32
6.1.2.3.
RoadMatcher.................................................................. 32
6.1.2.4.
JCS Conflation Suite...................................................... 32
GEOXYGENE .................................................................................. 33
Opérations ETL .............................................................................................. 34
6.2.1.
Sélection et extraction ....................................................................... 34
6.2.2.
Nettoyage des données ...................................................................... 36
6.2.3.
Intégration de données....................................................................... 37
6.2.4.
Intégration informatique.................................................................... 38
6.2.5.
Intégration sémantique ...................................................................... 38
6.2.6.
Fusion multisource ............................................................................ 38
6.2.7.
Intégration horizontale ...................................................................... 39
6.2.8.
Intégration verticale........................................................................... 40
6.2.9.
Intégration géospatiale ...................................................................... 40
6.2.10. Passage de primitives à objet explicite. ............................................. 40
6.2.11. Passage d’attributs graphiques textuels à des attributs descriptifs. ... 40
6.2.12. Intégration temporelle ....................................................................... 41
6.2.13. Généralisation cartographique des données ...................................... 41
6.2.13.1.
Raffinement ................................................................... 42
6.2.13.2.
Agrégation des données ................................................. 43
6.2.13.3.
Reclassification.............................................................. 44
6.2.13.4.
Réduction de dimension................................................. 46
6.2.13.5.
Simplification des données ............................................ 47
6.2.13.6.
Resymbolisation............................................................. 48
6.2.13.7.
Caractérisation ............................................................... 48
6.2.13.8.
Exagération symbolique ................................................ 49
6.2.13.9.
Déplacement .................................................................. 49
6.2.13.10. Déformation ................................................................... 49
6.2.13.11. Lissage ........................................................................... 49
6.2.14. Traitement des images....................................................................... 50
6.2.15. Traitements des données 3D.............................................................. 50
6.2.16. Autres opérations intéressantes ......................................................... 50
6.3.
Conclusion...................................................................................................... 51
7.
8.
Nouveaux outils produits dans le cadre de la chaire de recherche industrielle en bases
de données géospatiales décisionnelles. ...................................................................... 53
7.1.
Méthode et outils d’analyse des besoins des utilisateurs................................ 53
7.2.
Outils supportant l’élaboration de systèmes................................................... 54
7.3.
Outils supportant la construction de systèmes................................................ 55
7.4.
Outils supportant la transition du système...................................................... 56
Intégration des différents outils dans la chaîne de production de données
multidimensionnelles proposée. .................................................................................. 58
8.1.
Bilan de la situation organisationnelle: .......................................................... 58
8.2.
Exploration des données:................................................................................ 58
8.3.
8.4.
8.2.1.
Inventorier les données :.................................................................... 58
8.2.2.
Évaluer les besoins et produire une maquette : ................................. 60
Conception du système :................................................................................. 62
8.3.1.
Modéliser les systèmes opérationnel et multidimensionnel : ............ 62
8.3.2.
Définir les contraintes d’intégrité...................................................... 63
Réalisation du système : ................................................................................. 64
8.4.1.
Choix des plateformes et implantation de l’architecture du système. 64
8.4.2.
Développer le système....................................................................... 66
8.4.3.
Extraire, transformer et charger les données : ................................... 68
8.4.4.
8.4.3.1.
Données descriptives : ................................................... 68
8.4.3.2.
Données géospatiales :................................................... 69
Tester la validité du processus ETL. ................................................. 72
9.
Conclusion................................................................................................................... 75
10.
Références ................................................................................................................... 76
Annexe A- Lecture suggérée 1. ................................................................................................ 78
Annexe B : Lecture suggérée 2................................................................................................ 96
Annexe C : Formats matriciels supportés par ArcGIS. .......................................................... 100
Annexe D : Formats de données supportés par GDAL. ......................................................... 103
Annexe E - Formats supportés par FME 2006 ....................................................................... 106
Annexe F – Formats supportés par Spatialdirect.................................................................... 114
Annexe G – Synthèse des opérateurs de généralisation cartographique présenté par Martel
[1999] ........................................................................................................................ 116
Liste des figures
Figure 1. Chaîne de production de données introduites dans les phases de développement de la
méthode UP. ...................................................................................................................... 13
Figure 2. Application CITS-Gestion d’inventaire cartographique. ................................... 20
Figure 3. Application SOLAP-Sport ........................................................................................ 21
Figure 4. OLAP Add-ON for ArcGIS (ESRI). ......................................................................... 22
Figure 5. SAS 9.9- SAS Web OLAP Viewer for Java ............................................................. 23
Figure 6. Cognos 8 BI .............................................................................................................. 24
Figure 7. Proclarity 2.0 ........................................................................................................... 25
Figure 8 : Architecture de la plate-forme GeOxygene avec des exemples de composantes
logiciels. [Extrait de Badard, 2005] .................................................................................. 33
Figure 9. Exemple de l’utilisation des opérateurs d’extraction et sélection de FME. .............. 35
Figure 10. Exemple en (a) de découverts et (b) de chevauchement. Extrait de JCS Conflation
Suite User Guide. .............................................................................................................. 36
Figure 11. Déplacement latéral entre deux jeux de données de type polygone. Extrait de JCS
Conflation Suite User Guide. ............................................................................................ 40
Figure 12. Différence entre l’opérateur Aggregator et Dissolver de FME............................... 44
Figure 13. Exemple de classification de la dimension « marges de recul » dans un SOLAP. . 45
Figure 14. Classification d’un attribut discret avec FME. L’opérateur ValueMapper classifie
le nombre d’étages en 3 catégories, soit 1 à 3, 4 à 6 et 7 à 9 étages.................................. 45
Figure 15. Classification d’un attribut continu avec FME. Les opérateurs
ExpressionEvaluator, AttributeFilter et AttributeCreator sont utilisés pour créer les
classes d’étages 30 et moins, 30 à 70 et 70 et plus............................................................ 46
Figure 16. Distinction entre les opérateurs CenterOfGravityReplacer, CenterLineReplacer ,
CenterPointReplacer.......................................................................................................... 47
Figure 17. Exemple de resymbolisation. À gauche, représentation simplifiée (l’ensemble des
objets ont le même symbole) et à droite représentation plus détaillée (symboles différents
selon le type de bâtiment).................................................................................................. 48
Figure 18. Outils pouvant être utilisés dans la chaîne de production des données aux étapes
d’exploration des données................................................................................................. 61
Figure 19. Outils pouvant être utilisés dans la chaîne de production des données aux étapes de
conception de système....................................................................................................... 64
Figure 20. Différentes architectures OLAP possibles pour la réalisation du système.............. 66
Figure 21. Outils pouvant être utilisés dans la chaîne de production des données à l’étape
d’implantation de la structure multidimensionnelle. ......................................................... 68
Figure 22. Outils pouvant être utilisés dans la chaîne de production des données à l’étape
d’extraction, de transformation et d’intégration................................................................ 71
Figure 23. Outils pouvant être utilisés dans la chaîne de production des données à l’étape des
tests de validation. ............................................................................................................. 72
Liste des tableaux
Tableau 1. Syntell 4i (Syntell).................................................................................................. 20
Tableau 2. JMAP Spatial OLAP (Kheops-Technologies) ....................................................... 21
Tableau 3. OLAP Add-ON for ArcGIS (ESRI)....................................................................... 22
Tableau 4. SAS 9.9- SAS Web OLAP Viewer for Java .......................................................... 23
Tableau 5. Cognos 8 BI (Cognos) ............................................................................................ 24
Tableau 6. Proclarity 2.0......................................................................................................... 25
Tableau 7. Tableau synthèse des outils clients ......................................................................... 26
Tableau 8. Domaines d’application des types d’opérateurs de généralisation. Extrait de Martel
[1997]. ............................................................................................................................... 42
Tableau 9. Synthèse de la planification de développement des outils..................................... 57
1. Mise en contexte
« Partout dans le monde, de nombreuses organisations dépensent des sommes
colossales en acquisition de données localisées sur le territoire. La production
cartographique, l'établissement de relations avec les bases de données internes à
l’organisation et l'analyse spatiale de ces données relèvent du domaine de la
géomatique qui représente un marché annuel de plusieurs dizaines de milliards de
dollars. Cependant, les données ainsi produites sont surtout de nature opérationnelle et
par conséquent difficiles à exploiter à des fins décisionnelles, fins qui demandent des
informations multisources, agrégées, des comparaisons dans l'espace et le temps, des
synthèses, des mesures de tendances, des réponses rapides à des requêtes imprévues,
etc. D'importants efforts sont déployés depuis une quinzaine d'années pour mettre en
place des systèmes d'aide à la décision géospatiale, mais ces systèmes reposent sur les
systèmes d'information géographique (SIG) et les approches transactionnelles
habituelles (OLTP) pour produire l'information géodécisionnelle, souvent avec des
délais inacceptables, voire des coûts prohibitifs au point d'en laisser tomber la
production. Cette situation nuit à la prise de décision tactique/stratégique (ex.
déploiement des ressources, de nouvelles infrastructures) et devient particulièrement
problématique en situation d'urgence où tout retard peut avoir des impacts majeurs.
Cette difficulté de produire l'information géospatiale décisionnelle provient de cinq
problèmes : (1) des méthodes inadéquates de conception de bases de données
géospatiales à fins décisionnelles, (2) la difficulté d'agréger et synthétiser des données
cartographiques hétérogènes, (3) la difficulté d'évaluer la qualité de l'information
géospatiale agrégée, (4) une sous-exploitation des technologies de l'information et des
communications, et (5) un manque de technologies décisionnelles géospatiales
efficaces ». (Bédard,Y., M.J. Proulx & S. Rivest, 2005)
La présente étude vise à identifier les besoins spécifiques pour la mise en place d’un
système multidimensionnel qui s’introduit dans une démarche d’envergure d’entrepôt
de données ou de petits comptoirs de données. Indépendamment de l’orientation prise,
plusieurs technologies entrent en liste lorsque vient le temps de préparer les données
multidimensionnelles à partir de plusieurs sources. De plus, le processus de production
de ces données est directement influencé par la richesse des fonctions analytiques
désirées.
Par conséquent, cette étude vise à proposer une chaîne de production utilisant
différents outils et méthodes afin de réaliser un système multidimensionnel. Les
aspects suivants seront abordés. D’abord un rappel des concepts multidimensionnels
est nécessaire pour permettre au lecteur de comprendre la suite du document (cf.
section 2). La définition en temps que telle d’une chaîne de production des données
multidimensionnelles sera introduite (cf. section 3). L’analyse de différentes
architecture de données multidimensionnelles sera présenter et des solutions
commerciales présentées (cf. section 4). Ensuite, l’analyse des solutions déjà utilisées
par RDDC pour produire des données géospatiales seront évaluation pour la
production de données multidimensionnelles (cf. section 5). De nouvelles solutions
pouvant être d’un grand intérêt pour RDDC seront aussi proposées (cf. section 6).
Ensuite, la présentation des outils logiciels planifiés dans le programme de R&D de la
chaire de recherche pouvant être d’intérêt pour RDDC seront présenter afin de les
intégrer lorsque souhaitable dans la chaîne de production (cf. section 7). Finalement,
l’intégration de tous les outils discutés précédemment sera faite à l’intérieur de la
chaîne de production (cf. section 8). Nous couvrirons l’ensemble du processus, depuis
la conception jusqu’à la l’exploitation et l’analyse des données multidimensionnelles,
en passant par l’extraction, la transformation, le chargement des données et la gestion
des données multidimensionnelles spatiales. Cette chaîne de production s’arrimera
ainsi avec les technologies utilisées au RDDC.
2. Rappel des concepts multidimensionnels.
Les concepts multidimensionnels s’orientent autour de deux aspects fondamentaux: les
cube de données ainsi que les technologies d’analyse en ligne (ou OLAP) et leur
architecture.
L’approche des bases de données multidimensionnelles introduit des concepts qui
diffèrent des concepts reliés aux bases de données communément utilisées qui sont
qualifiées de transactionnelles. La technologie d’analyse en ligne permet la
visualisation cartographique des données, la navigation cartographique dans la carte
elle-même ou dans les symboles affichés sur cette carte et ceci selon différents types
de forage.
La lecture des références suivante qui se trouve en annexe au présent rapport est
recommandée.
Révision des concepts multidimensionnels et aperçu des applications possibles.
Bédard Y., M.J. Proulx & S. Rivest, 2005, Enrichissement du OLAP pour l'analyse
géographique : exemples de réalisation et différentes possibilités technologiques,
Revue des Nouvelles Technologies de l'Information - Entrepôts de données et l'Analyse
en ligne, sous la direction de F. Bentayeb, O. Boussaïd, J. Darmont et S. Loudcher,
Cépaduès-Éditions, France, pp. 1-20.
3. Chaîne de production de données
multidimensionnelles géospatiales
3.1. Chaîne de production de données.
Afin de produire efficacement des données décisionnelles, il est primordial d’avoir en
tête une chaîne de production permettant d’illustrer les étapes clés dans la production
de données en général.
La chaîne de production présentée dans cet ouvrage est basée sur la méthode de
développement UP (Unified Process). Cette méthode est une vision itérative et
incrémentale de développement de système où chaque phase est définie partiellement a
priori puis raffinée durant sa réalisation. Il existe quatre phases de développement de
système selon la méthode UP.
•
Le démarrage : Cette phase consiste en une étude de faisabilité ou une enquête
minimale afin de supporter la décision de continuer ou d’arrêter le
développement.
•
L’élaboration : Cette phase consiste l’identification de la majorité des besoins
et de la portée du système, on procède à l’implantation du cœur de
l’architecture de façon itérative et où les risques élevés sont atténués.
•
La construction : Cette phase consiste en l’implantation itérative des éléments
les plus simples et les moins risqués. Elle vise à compléter le développement
(incluant la documentation et le manuel à l’usager) et à préparer les tests et le
déploiement.
•
Transition : Tests, déploiement, formation, migration de l’ancien vers le
nouveau système et mise en opération.
Il est alors possible de positionner les étapes de la chaîne de production de données en
regard à ces différentes phases de développement. D’abord un premier groupe d’étapes
a pour objectif de dresser le bilan organisationnel, autrement dit identifier les
ressources pour le projet. Le second groupe a pour objectif d’explorer les données
existantes et d’analyser les besoins. Troisièmement, la conception du système focus
sur les étapes de conception et de modélisation du système et des processus.
Finalement, la réalisation en soi du système inclut les étapes clés telles que
l’implantation, l’extraction et la transformation des données. Cette chaîne de
production de données est illustrée dans la figure suivante en regard aux phases de
développement de système selon la méthode UP.
Figure 1. Chaîne de production de données introduites dans les phases
de développement de la méthode UP.
Dans la section 3.1.1 et suivantes, chaque étapes de la chaîne de production est discutée.
3.1.1.
Démarrage:
Les premières observations à faire lors du développement d’une application
géospatiale décisionnelle est d’analyser la situation organisationnelle en
termes de ressources disponibles et de contraintes matérielles. L’application
souhaitée doit s’arrimer aux systèmes déjà en place, mais elle doit aussi
cadrer avec les contraintes et recommandations organisationnelle en termes
d’architecture et de logiciel.
Il est primordial de déterminer au départ les ressources humaines disponibles
dans l’organisation, soit l’expertise technique et les types d’usagers ciblés
pour l’application. Les ressources matérielles en place permettent de savoir
sur quelle architecture (systèmes opérationnels, entrepôt de données, marchés
de données, systèmes décisionnels, applications maison) et systèmes en place
(SGBD, GIS, ETL, etc.) il faudra s’arrimer.
L’étude du contrôle de sécurité et de la confidentialité des données doit aussi
être faite.
À cette étape, peu de choses sont directement liées au développement à
proprement dit et à la production des données géospatiales décisionnelles, mis
à part, si une architecture d’entrepôt de données décisionnel existe déjà sur
place, on pourrait tenir compte des plateformes utilisées pour identifier des
formats de données à produire.
3.1.2.
L’élaboration du système:
Au tout début de la chaîne de production de données, il est essentiel de
procéder à l’analyse des besoins des utilisateurs. De plus, il est souhaitable de
refaire cette étape dans le cadre d’une mise à jour du système afin d’en
assurer l’évolutivité. Cette analyse peut être réalisée à l’aide d'observations,
interviews, questionnaires et revues de documentation ou encore par
maquettage et prototypage. Diverses études ont démontré qu’il est difficile
pour la clientèle d’exprimer ses besoins pour les applications géomatiques.
Ce constat est d’autant plus vrai lorsqu’il s’agit d’applications
multidimensionnelles. La nouveauté du potentiel géodécisionnel, sa
dimension analytique et exploratoire ainsi que sa convivialité soulèvent
souvent des attentes nouvelles, évolutives et hétérogènes à l’intérieur même
d’un projet. Il devient alors avantageux d’utiliser des exemples visuels et
concrets à l’aide de prototype et de maquette. Cette pratique est réputée la
plus efficace pour découvrir les besoins des utilisateurs lors du
développement de systèmes décisionnels.
Parmi les étapes clés de l’exploration des besoins, notons, l’inventaire
préliminaire des sources de données utilisées actuellement (formulaires,
graphiques, cartes, atlas) qui permettent de comprendre la thématique
d’analyse des usagers. Un inventaire détaillé des sources existantes autant
descriptives que géospatiales permettra d’identifier les sources externes à
l’organisation nécessaire pour construire l’application. Cette étude est
essentielle afin d’évaluer si les usagers utilisent déjà des données
décisionnelles ou non. Dans l’affirmative, les usagers seront en mesure
d’exprimer assez clairement leur attentes. Dans la négative, l’objectif de
l’exploration des besoins est de concrétiser des besoins décisionnels à partir
des données actuelles utilisées par les usagers. Ces besoins sont souvent
présentés par l’équipe de développement puisque les usagers ont peu ou pas
de connaissance en analyses décisionnelles.
Par conséquent, il est nécessaire de définir des analyses multidimensionnelles
types en proposant des analyses de nature spatiale et de nature
multidimensionnelle. Par cette première étude, l’équipe de développement
sera en mesure de définir les indicateurs d’analyse, les classifications, les
thématiques et les vues appropriées pour les données.
Généralement, une maquette (ou une liste) illustrant les besoins des
utilisateurs est produite afin de valider une dernière fois la compréhension de
l’équipe de développement. La maquette permet très souvent aux usagers
d’exprimer de nouveaux besoins par la visualisation concrète de leur
application potentielle.
Plus loin lors de l’élaboration du système, la modélisation est essentielle à la
mise en place des bases de données ainsi qu’à la définition de l’ontologie de
l’application (i.e. vocabulaire). Pour les données transactionnelles, il existe
plusieurs formalismes bien établis dont le standard UML avec ou sans
extensions pour les données géospatiales. Du côté décisionnel, il existe
quelques propositions de formalismes non-spatiaux. Cependant, la
modélisation formelle des opérations de transformation des données sources
et d’agrégation spatiales permettant la production de données agrégées,
résumées à différents niveaux de granularité est encore inexistante dans ces
formalismes.
À partir des résultats de l’inventaire précédent, il sera possible de concevoir
l’architecture du système. Il peut s’agir d’une architecture 1 tiers, 2 tiers avec
entrepôt de données, 2 tiers sans entrepôts de données ou 3 tiers.
La conception des modèles conceptuels et d’implantation du système
opérationnel peuvent être nécessaire, car pour certaines applications
décisionnelles, il n’y a pas de système opérationnel existant au préalable. La
compréhension du système opérationnel permet ensuite la conception des
modèles conceptuels et d’implantation multidimensionnels (définition des
mesures, des dimensions et des niveaux).
3.1.3.
Construction du système:
La mise en place d’une base de données géospatiales décisionnelles implique
d’abord l’intégration de données provenant de différentes sources
transactionnelles. Toute intégration de données nécessite une sélection a
priori des sources à intégrer, souvent dans un contexte de redondance,
d'hétérogénéité et d’incompatibilité. Il s'agit d'un des principaux problèmes
des bases de données géospatiales décisionnelles. Afin d’assurer une
information de qualité, il devient nécessaire d’identifier les meilleures sources
de données en considérant leur nature et les efforts d'intégration requis pour
une organisation.
Les bases de données décisionnelles utilisent des données agrégées à
différents niveaux afin de supporter les vues globales et locales désirées par
l'utilisateur. L'agrégation des données non-spatiales est prise en charge par le
serveur OLAP ou des outils statistiques. Cependant, les agrégations
géospatiales doivent être effectuées à l’aide d’outils spécialisés. L’étude des
choix de fonctions de fusion, d’agrégation, de synthèse et de développement
d’indicateurs font aussi partie de cette étape.
Afin de peupler le cube de données de qualité, il faut implanter des
contraintes d'intégrité lors de l'intégration et de l'agrégation des données
sources. Il faut évaluer les contraintes techniques reliées aux systèmes actuels
et à l’organisation et choisir les logiciels pour l’implantation de l’application
reposant sur l’architecture proposée ou déjà en place.
L’évaluation et sélection des sources de données spatiales et descriptives est
une étape qui permet de choisir efficacement les données à utiliser dans
l’application décisionnelle.
Il faut toutefois prendre soin de définir les métadonnées de transformation des
données sources dans le dictionnaire de données au fur et à mesure que les
transformations seront effectuées afin de documenter adéquatement le futur
système. Pour les même raisons, la définition des métadonnées relatives aux
agrégations des données multidimensionnelles est tout aussi importante.
Si nécessaire, le développement du système opérationnel consistera en
l’extraction des sources de données spatiales et descriptives, leur
transformation et leur chargement dans le système opérationnel qui peut être
implanté sous la forme d’un entrepôt de données ou non.
Le développement du système décisionnel (base de données
multidimensionnelle) consiste tant qu’à lui à l’extraction des données du
système opérationnel, leur transformation, agrégation et chargement des
données dans la base de données multidimensionnelle. Par la suite, un choix
sera fait sur l’architecture retenue pour la structuration des données
descriptives (Multidimensionnelle OLAP ou Relationnelle OLAP).
Ensuite, la structuration des données spatiales (par généralisation
cartographique ou représentation multi-échelle) pour chaque niveau
cartographiable des dimensions spatiales sera requise.
3.1.4.
Transition du système:
Finalement, des tests sur la validité des résultats de transformation et
d’agrégation des données doivent être faits afin d’assurer un système de
qualité.
3.2. Spécificités de la chaîne de production pour les
données décisionnelles
Lorsque vient le temps de présenter une chaîne de production pour des données
décisionnelles, il faut tenir compte des particularités de ce type de système.
Premièrement, l’étape d’analyse des besoins se doit d’être plus exhaustive que lors de
la définition d’un système transactionnel. Les besoins doivent cernés précisément
puisque les données requises pour ces analyses doivent être précalculées et souvent
stockées dans le système. Par conséquent, pour mieux définir les besoins des usagers,
la création d’une maquette est souhaitable. Le maquettage est une technique qui
permet de surmonter des difficultés de spécification dues au manque de précision dans
l'expression des besoins. Elle est un outil permettant de faciliter la communication
entre l’analyste et les utilisateurs. Cette activité consiste à développer rapidement une
ébauche du futur système que les analystes utiliseront pour valider leur compréhension
des besoins exprimés par les usagers. Le processus de maquettage est itératif.
Différentes versions de la maquette peuvent être produites pour parvenir ultimement à
l’illustration complète et fidèle des besoins des usagers. Par conséquent, la définition
d’une maquette prend du temps et ces efforts doivent être considérés dans le plan de
développement d’une application décisionnelle si l’on souhaite atteindre plus
précisément les besoins des usagers.
Deuxièmement, l’étape de transformation des données est plus vaste. Selon la
littérature, cette étape de production de données est plus couteuse en temps et en
énergie que d’autres étapes. «Data acquisition and preparation often accounts for over
70% of a typical data integration project, and results in project delays of two to three
times the original estimate. » (Exeros, 2005). Très souvent les organisations possèdent
peu de documentation sur les données qu’elles possèdent et encore moins sur la
compréhension des relations ou transformations que les données ont subies avec le
temps. Trop souvent les experts qui comprenaient les données ont quittés
l’organisation ou ne sont pas disponibles pour participer au processus actuel
d’intégration. De plus, cette étape qui est très complexe à réaliser en soi doit se faire
généralement d’une manière manuelle. Peu d’outils existent pour automatiser
entièrement la chaîne de production de données non-spatiale, par conséquent, la chaîne
de production de données spatiale en ressent les contrecoups.
En plus d’extraire et de transformer les données sources pour les rendre cohérentes et
homogènes entres-elles, il faut produire des données à des niveaux agrégés. Ces
données agrégées spatiales ou non sont le résultat de traitements qui doivent être
préalablement modélisés et documentés. Leur création requiert généralement des
processus de calculs complexes et produisent un volume de données important.
Cependant, bien que des efforts supplémentaires soient requis au niveau de la
définition des besoins et de l’agrégation des données, les efforts totaux pour
développer une application décisionnelle sont moindres que les efforts totaux requis
pour le développement de l’application transactionnelle sur laquelle est basé le
système décisionnel.
4. Analyse des fonctionnalités de logiciels d’accès
aux données.
L’objectif de cette section est de détailler les fonctionnalités des logiciels d’accès aux
données multidimensionnelles du marché afin de permettre ultérieurement d’analyser
les besoins génériques de la production de données multidimensionnelles à partir de
ces technologies.
Cette section décrit, à partir d’un article publié récemment (Bédard et al, 20051), trois
familles de solutions technologiques pour le développement et l’implantation d’une
application SOLAP, basées sur les technologies utilisées et les fonctionnalités
disponibles. Ce regroupement en trois familles origine de la diversité des technologies
pouvant être utilisées pour remplir les fonctions descriptives et cartographiques d’une
application SOLAP. Les fonctions du volet descriptif peuvent évidemment être
supportées par un serveur OLAP conventionnel ou par un SGDB relationnel ou objetrelationnel avec structure en étoile, en flocon ou en constellation. Les avantages d'un
serveur OLAP pour le volet descriptif incluent les fonctionnalités d’agrégation de
données et les capacités optimisées d’accès aux données, ce qui augmente la rapidité
d’analyse pour les grands volumes de données. Les fonctions du volet cartographique
peuvent, quant à elles, être supportées par un logiciel de visualisation cartographique,
un logiciel de cartographie assistée par ordinateur (CAO) ou un SIG.
Les trois familles de solutions basées sur les technologies et fonctionnalités
disponibles sont : (1) les solutions OLAP dominant, (2) les solutions SIG dominant, et
(3) les solutions intégrées ou hybrides qui font appel autant aux fonctions OLAP que
SIG [LGS Group 2000]. Au sein de cette classification, c'est l’outil dominant qui
offre ou qui fait appel à certaines fonctionnalités minimales de l’autre outil. Parfois,
l'outil dominant fournit l’unique interface graphique de l’application SOLAP, parfois
l'interface unique peut être développée avec un langage de programmation (ex. Java,
VB, C++). Pour les deux premières familles, un groupe de fonctionnalités domine
largement l'autre groupe et l'application est développée autour de l'outil dominant.
Inversement, dans le cas de la solution intégrée, les fonctionnalités tant OLAP que SIG
sont offertes à un niveau supérieur, l'interface graphique principale est unique et
construite au-dessus des technologies sous-jacentes (i.e. OLAP et SIG) et l'application
SOLAP est développée pour tirer profit de l'intégration des fonctions OLAP et SIG.
Dans ce dernier cas, lorsque ces fonctionnalités et l'interface principale forment un
produit logiciel autonome (ex. JMap Spatial OLAP Extension [KHEOPS 2005]), nous
parlons d'une technologie SOLAP (similairement à la situation relative à la
technologie SIG vs le couplage des technologies CAO et SGBD). Les trois familles de
solutions répondent à des besoins différents. Dans le premier cas, le volet
cartographique n'est qu'accessoire. Dans le deuxième cas, c'est le volet OLAP qui est
1 Pour plus de détails sur les types de solutions SIG domainant, OLAP dominant et intégrée, le lecteur est invité à
lire l’article (Bédard et al., 2005) présentée en annexe.
accessoire. Dans le dernier cas, les deux volets sont jugés importants et leur
coordination ou synchronisation est une particularité clé de cette technologie.
Les technologies étudiées dans cette section sont :
•
Syntell 4i (Syntell), une solution classée dans la famille des OLAP dominants,
mais qui est avant tout un environnement de développement d’applications
analytiques de tableaux de bord spatiaux. Un élément distinctif entre les
applications standard OLAP et les tableaux de bord est que, le tableau de bord
permet l’accès à un éventail de données tant transactionnelles que
multidimensionnelles (OLAP). Le tableau de bord peut ainsi faciliter l’accès
aux différents systèmes de l’organisation par un accès unique, contrairement à
une application SOLAP où l’application permet typiquement l’accès à des
cubes multidimensionnels. De grandes distinctions existent aussi entre ces
deux types de solutions au niveau de la navigation dans les données et de la
conception de l’application2.
•
JMAP Spatial OLAP (Kheops-Technologies), la solution intégrée de
l’Université Laval;
•
OLAP Add-On for ArcGIS (ESRI), une solution plutôt limitée de SIG
dominant;
•
SAS 9.9- SAS Web OLAP Viewer for Java (SAS), une solution OLAP
dominant dont les capacités de traitement statistiques sur les données sont très
avancées.
•
Cognos 8 BI (Cognos), une solution OLAP dominant très populaire dans le
marché des OLAP;
•
et Proclarity 9.0 (Proclarity), une solution OLAP dominant qui vient d’être
achetée récemment par le géant Microsoft.
Ces technologies illustrent bien les architectures multidimensionnelles disponibles sur
le marché tant Multidimensionnelle OLAP (MOLAP) que Relationnelle OLAP
(ROLAP)3. Les aspects étudiés seront axés sur les structures supportées par ces
architectures ainsi que les formats descriptifs. De plus le volet cartographique sera
analysé en regard aux engins de visualisation cartographiques et formats géométriques
supportés. Un tableau synthèse résume les critères d’analyse.
2 Pour plus d’information sur les tableaux de bord, le lecteur est encouragé à lire le rapport de recherche (Proulx,
Bernier & Bédard, 2006) sur les tableaux de bord et le SOLAP.
3 Afin de bien comprendre l’évaluation des technologies, le lecteur est encouragé à lire la section
suivante du rapport rédigée en 1997 pour le CRDV portant sur les architectures multidimensionnelles
OLAP qui se trouve en annexe au présent rapport.
4.1. Syntell 4i (Syntell):
http: //www.syntell.com
La technologie SYNTELL 4i est basée sur
les règles d'affaires de l'entreprise. Ceci
implique que l'application analytique en
entier soit décrite à l'aide de règles
d'affaires. Ce sont ces règles qui
produiront l'application. La technologie
Syntell 4i supporte une architecture
MOLAP utilisant son propre serveur
Syntell ou les serveurs OLAP populaires.
Cette
technologie
permet
aussi
d’interfacer des bases de données
relationnelles pour effectuer du reporting,
le tout encapsulé dans une application
analytique (type tableau de bord). Il s’agit d’une technologie dont l’une de ses composantes
est l’OLAP. Elle intègre aussi des visualisateurs cartographiques plus ou moins évolués selon
les besoins de navigation exprimés par les usagers.
Figure 2. Application CITS-Gestion d’inventaire cartographique.
Tableau 1. Syntell 4i (Syntell)
Type de solution: OLAP Dominant
Type d’interface : Client html
Architecture multidimensionnelle : HOLAP
Engin OLAP supportés :
Syntell 4i OLAP Server, SQL Server OLAP Services, Hyperion Essbase,
IBM BD2 OLAP Services, SAP BW et tout OLE DB pour OLAP.
Structure ROLAP supportées :
Via modélisation étoile.
Engin de visualisation cartographique supporté : Connecteur SIG-ESRI
Formats de données géométriques
ShapeFile
supportés :
Engin de visualisation cartographique supporté : JMAP 3.0 (Kheops-technologies)
Formats de données géométriques
supportés :
Formats matriciels supportés :
Autres formats :
Oracle 10g Spatial, Shape (ESRI), MapInfo, AutoCad, MicroStation,
Digital Exchange Format, Personal geodatabase et ArcSDE (ESRI)
TIFF et GEOTIFF
SVG (Scalable Vector Graphics, WMS (Open GIS consortium)
Navigation dans les données spatiales : De minimale à avancée, selon la programmation faite dans l’application
analytique.
Outils facilitant la mise en place du système : Suite Syntell 4i
Outils de modélisation :
Outils ETL :
Rafraîchissement des données :
Gestion des métadonnées :
Repository Modeler
SynLoader
SynLoader
Repository Syntell 4i et CatalogOLAP
4.2. JMAP Spatial OLAP (Kheops-Technologies)
http://www.kheops-tech.com/en/jmap/solap.jsp
JMAP Spatial OLAP est la toute première
technologie Web qui intègre complètement
les dimensions géospatiales dans un
environnement d'aide décisionnelle en
intelligence d'affaires. Il offre une interface
graphique intuitive permettant à des nontechniciens d'accéder très facilement à leurs
données géospatiales pour les visualiser ou
les analyser. Les interfaces utilisateur
peuvent inclure plusieurs cartes thématiques,
des diagrammes statistiques (diagrammes à
barres, camemberts, etc.) et des tableaux
affichés en fonction d'une symbologie
définie pour les valeurs ou les membres de la
classification.
Figure 3. Application SOLAP-Sport4
Tableau 2. JMAP Spatial OLAP (Kheops-Technologies)
Type de solution : Solution intégrée
Type d’interface: Client Java
Architecture multidimensionnelle : ROLAP sans serveur
Engin OLAP supportés :
Aucun
Structure ROLAP supportées :
Modèle en étoile, en flocon, en constellation et la structure parent-enfant.
Toutes bases de données possédant une connexion Java Database
Conection (JDBC). (ex. Oracle, Acces, SQL Server).
Engin de visualisation cartographique supporté : JMAP 3.0 (Kheops-technologies)
Formats de données géométriques
supportés :
Formats matriciels supportés :
Autres formats :
Oracle 10g Spatial, Shape (ESRI), MID/MIF (MapInfo), DWG (AutoCad),
DGN (MicroStation), DXF (Digital Exchange Format), Personal
geodatabase et ArcSDE (ESRI)
TIFF et GEOTIFF
WMS (OGC)
Navigation dans les données spatiales : Avancée
Outils facilitant la mise en place du système : Aucun
Outils de modélisation :
Outils ETL :
Rafraîchissement des données :
Gestion des métadonnées :
4
Centre recherche en bases de données géospatiales multidimensionnelles (31-01-2006.)
4.3. OLAP Add-On for ArcGIS (ESRI)
http://www.esri.com/software/arcgis/extensions/olap/about/overview.html
L’extension OLAP pour ArcGIS permet
aux utilisateurs de serveur OLAP (ex.
Microsoft SQL Server, SAS OLAP
Server et SAP BW) de visualiser leurs
données dans l’environnement ArcGIS
sous la forme d’une vue en lecture
seulement. L’outil offre un utilitaire
permettant d’effectuer manuellement la
connexion d’une vue OLAP sauvegardée
à une couche cartographique ArcGIS. Les
vues OLAP doivent être connectées une à
une dans ArcGIS et la navigation n’est
possible que sur les données OLAP
descriptives. La navigation Spatiale
OLAP n’est pas supportée. Cette solution
demeure par conséquent la solution la
plus limitée présentée.
Figure 4. OLAP Add-ON for ArcGIS (ESRI)5.
Tableau 3. OLAP Add-ON for ArcGIS (ESRI)
Type de solution : SIG Dominant
Type d’interface: Client Desktop
Architecture multidimensionnelle : MOLAP
Engin OLAP supportés :
Microsoft SQL Server, SAS OLAP Server et SAP BW
Engin de visualisation cartographique supporté : ArcGIS Web Server 9.0 (ESRI)
Formats de données géométriques
supportés :
Formats matriciels supportés :
DB2 with Spatial type,Informix with Spatial type, SQL Server ,Oracle with
Spatial or Locator, Personal geodatabases (Microsoft Access)
Voir annexe C
Navigation dans les données spatiales : Aucune
Outils facilitant la mise en place du système : Aucun
Outils de modélisation :
Outils ETL :
Rafraîchissement des données :
Gestion des métadonnées :
5
tiré de http://www.esri.com/software/arcgis/extensions/olap/about/overview.html (31-01-2006)
4.4. SAS 9.9- SAS Web OLAP Viewer for Java (SAS)
http://www.sas.com/technologies/bi/query_reporting/webolapviewer/factsheet.pdf
A map is one form of a graphical representation of data, in addition to bar charts, tile charts or
line charts, that lets users explore data by drilling up and down hierarchies and slicing through
data. Maps from ESRI’s ArcGIS
Server can be used to display SAS
OLAP data just like other views of
the data. SAS Web OLAP Viewer
for Java can display OLAP data as
color coding on top of ESRI maps
within its standard feature set.
Users can drill on map regions to
visualize information from an
OLAP data source in real time.
SAS OLAP supports synchronized
drill and display for map and table
view. Users can drill on regions in
the map visualizing information
from an OLAP data source in real
time, enabling a zoom down to the level of individual houses on a road.
Figure 5. SAS 9.9- SAS Web OLAP Viewer for Java6
Tableau 4. SAS 9.9- SAS Web OLAP Viewer for Java
Type de solution: OLAP Dominant
Type d’interface: Client Java
Architecture multidimensionnelle : MOLAP
Engin OLAP supportés :
Structure ROLAP supportées :
Connection OLE DB pour: SAP BW, SAS Olap server , SQL server
Aucune
Engin de visualisation cartographique supporté : ArcGIS Web Server 9.0 (ESRI)
Formats de données géométriques
supportés :
Formats matriciels supportés :
DB2 with Spatial type,Informix with Spatial type, SQL Server ,Oracle with
Spatial or Locator, Personal geodatabases (Microsoft Access)
Voir annexe C
Navigation dans les données spatiales : Avancée.
Outils facilitant la mise en place du système : SAS Enterprise BI
Outils de modélisation :
Outils ETL :
SAS Enterprise ETL Server
Rafraîchissement des données :
SAS Enterprise BI Server
Gestion des métadonnées :
SAS Information Map Studio (metadata)
6
tiré de http://www.sas.com/technologies/bi/query_reporting/webolapviewer/factsheet.pdf (31-01-2006)
4.5. Cognos 8 BI (Cognos)
http://www.cognos.com/pdfs/factsheets/fs_c8bi_analysis.pdf
Analysis with Cognos 8 Business Intelligence
(BI) is based on the industry’s acknowledged
best-selling OLAP and analysis software,
Cognos PowerPlay®. The new analysis
capability with Cognos 8 BI expands this
functionality to cover a complete range of data
sources and to provide seamless movement
among reports, queries, and analysis. Cognos 8
Business Intelligence offers reporting, query,
and analysis; dashboards and scorecarding;
event lifecycle management; and the unifying
power of centralized metadata in one product, on
a single, proven service oriented architecture.
Cognos 8 BI delivers all of these capabilities
through a 100 percent Web browser interface for all users.
Figure 6. Cognos 8 BI 7
Tableau 5. Cognos 8 BI (Cognos)
Type de solution: OLAP Dominant
Type d’interface : Client Web
Architecture multidimensionnelle : HOLAP
Engin OLAP supportés :
PowerCubes PowerPlay, SSAS, BD2 OLAP, Essbase et serveur OLAP
populaires SQL Server, Oracle, SAp BW, IBM, Sybase, ODBC.
Structure ROLAP supportées :
Modèle étoile et BD relationnelle forme normale.
IBM DB2 Cube Views, Oracle Materialized Views, and Teradata.
Engin de visualisation cartographique supporté : Plusieurs
Visualizer 1.5 ou MapX (MapInfo)
Formats de données géométriques
supportés :
Formats matriciels supportés :
Non
ARCGIS Server
Formats de données géométriques
supportés :
Formats matriciels supportés :
DB2 with its Spatial type ,Informix with its Spatial type, SQL Server ,Oracle
,Oracle with Spatial or Locator ,Personal geodatabases (Microsoft Access).
Voir annexe C
Format TAB (MapInfo) structuré dans un « geoset ».
Navigation dans les données spatiales : Minimale
Outils facilitant la mise en place du système : Cognos 8i Suite
Outils de modélisation :
Outils ETL :
Rafraîchissement des données :
Gestion des métadonnées :
7
Cognos Transformer
Cognos Integration
Cognos Integration
Cognos 8 BI Metadata
Tiré de http://www.cognos.com/c8demo/content/launcher.html (31-01-2006)
4.6. Proclarity 2.0
http://www.proclarity.com/products/
ProClarity, de la compagnie
Knosys, est un logiciel client
OLAP qui permet de manipuler
des cubes de données créés à
l’aide d’Analysis Services de
Microsoft
SQL
Server.
ProClarity permet de visualiser
les données descriptives d’un
cube sous différentes formes
graphiques telles que des
tableaux
ou
d’autres
diagrammes. Récemment, cette
compagnie a été achetée par
Microsoft.
Figure 7. Proclarity 2.0 8
Tableau 6. Proclarity 2.0
Type de solution: OLAP Dominant
Type d’interface : Client desktop ou Web (version light du desktop)
Architecture multidimensionnelle : MOLAP
Engin OLAP supportés :
Cube Analysis Services de Microsoft SQL Server exclusivement.
Structure ROLAP supportées :
Aucune
Engin de visualisation cartographique supporté : KMapX (Proclarity)
Le plugiciel KMapX, développé à l’aide de MapX de la compagnie MapInfo, permet la visualisation, sous forme
cartographique, des données géométriques associées à une dimension spatiale géométrique d’un cube.
Formats de données géométriques
Format TAB (MapInfo) structuré dans un « geoset » utilisable par
supportés :
KMapX.
Formats matriciels supportés :
Aucun (car le logiciel utilise des « geosets » MapInfo. Aucun format
matriciel actuellement supporté par MapInfo ne permet de relier des
attributs aux pixels).
Navigation dans les données spatiales : Avancée.
Outils facilitant la mise en place du système : Aucun
Outils de modélisation :
Outils ETL :
Rafraîchissement des données :
Gestion des métadonnées :
8
Tirée de site Web Centre recherche en bases de données géospatiales multidimensionnelles (31-01-2006)
Tableau 7. Tableau synthèse des outils clients
Outils clients
Syntell 4i
OLAP Add-On for
ArcGIS (ESRI)
SIG Dominant
SAS 9.9- SAS Web
OLAP Viewer for Java
OLAP Dominant
Cognos 8 BI
Proclarity 2.0
OLAP dominant
JMAP Spatial OLAP
Kheops-Technologies
Solution intégrée
Type de solution:
OLAP Dominant
OLAP Dominant
Type d’interface
Client html
Client Java
Client Desktop
Client Java
Client Web
Architecture
multidimensionnelle :
Engin OLAP supportés :
HOLAP
ROLAP sans serveur
MOLAP
MOLAP
HOLAP
Client desktop ou
Web
MOLAP
Syntell 4i OLAP Server,
SQL Server OLAP
Services, Hyperion
Essbase, IBM BD2 OLAP
Services, SAP BW
Toutes sources conformes
à la norme OLE DB OLAP
Via modélisation étoile.
Aucun
Microsoft SQL Server,
SAS OLAP Server et
SAP BW
Connection OLE DB
pour: SAP BW via readonly tables, SAS Olap
server , MSQL server
Modèle en étoile, en
flocon, en constellation et
la structure parent-enfant.
Toutes bases de données
(JDBC). (ex. Oracle,
Access, SQL Server).
JMAP 3.0 (Kheopstechnologies)
Aucune
Aucune
ArcGIS Web Server 9.0
(ESRI)
ArcGIS Web Server 9.0
(ESRI)
Avancée
Aucune
Avancée
PowerCubes™
multidimensionnel
PowerPlay, SSAS, BD2
OLAP, Essbase et serveur
OLAP populaires SQL
Server, Oracle, SAp BW,
IBM, Sybase, ODBC.
Modèle étoile et BD
relationnelle forme
normale: IBM DB2 Cube
Views, Oracle
Materialized Views, and
Teradata.
Visualizer 1.5 (Cognos)
MapX (MapInfo)
ARCGIS Server
Minimale
Aucune
Aucune
SAS Enterprise BI
Cognos 8i Suite
Structure ROLAP
supportées :
Engin de visualisation
cartographique supporté :
Navigabilité dans les
données spatiales
Outils facilitant la mise en
place du système :
Outils de modélisation :
Outils ETL :
Rafraîchissement des
données :
Gestion des métadonnées :
Connecteur SIG-ESRI
JMAP 3.0 (Kheopstechnologies)
(de minimale à avancée)
Programmable dans
l’application analytique
Suite Syntell 4i
Repository Modeler
SynLoader
SynLoader
SAS Enterprise ETL
Server
SAS Enterprise BI Server
Repository Syntell 4i et
CatalogOLAP
SAS Information Map
Studio (metadata)
Cognos Transformer
Cognos Integration
Cognos Integration
Cognos 8 BI Metadata
Cube Analysis
Services de Microsoft
SQL Server
exclusivement.
Aucune
KMapX (Proclarity)
Avancée
Aucune
5. Analyse du potentiel des solutions déjà utilisées par
RDDC pour produire des données géospatiales.
RDDC est un intégrateur de données important et il produit des données dans
différents formats que ce soit civil ou militaire. Pour ces raisons, il utilise un éventail
d’outils pour la production de celles-ci. Cette section dressera donc partiellement la
liste des outils utilisés par RDDC ainsi que les formats militaires utilisés afin de les
inclure éventuellement dans la chaîne de production de données.
Un premier produit utilisé par RDDC est la libraire Open Source ‘Geospatial Data
Abstraction’ (GDAL). Il s’agit d’un traducteur de fichiers matriciels. Cette librairie
est utilisée entre autre par les applications telles que MapServer et GRASS. Les
formats supportés par GDAL sont multiples et sont listés en annexe à ce rapport.
Un sous-projet de la librairie appelé ‘OGR Simple Feature Library’ est une librairie
permettant de lire (et parfois d’écrire) dans des formats vectoriels incluant ESRI
Shapefiles, S-57, SDTS, PostGIS, Oracle Spatial, et Mapinfo mid/mif et TAB.
RDDC utilise aussi l’Open Geographic Data Store Interface (OGDI) pour accéder à
des données géospatiales de différents formats d’une manière neutre. OGDI est une
API qui utilise des méthodes d'accès standardisées pour travailler en conjonction avec
des progiciels GIS et des produits de données géospatiaux divers. OGDI utilise une
architecture de client/serveur pour faciliter la diffusion de données géospatiales sur
n'importe quel réseau TCP/IP et une approche ‘driver-oriented’ pour faciliter l’accès à
différents formats de données vectoriels et matriciels géospatiaux.
L’organisation utilise évidemment des formats de données géospatiaux militaires,
comme le Vector Map (VMap). Les jeux de données VMap utilisent "le format de
produit vectoriel" (vpf) utilisé d'abord par l' US Defense Mapping Agency et plus tard
par son successeur, le National Imagery and Mapping Agency (NIMA). Ce jeu de
données représente un nombre énorme de fichiers organisés dans des bibliothèques
selon différents niveaux de détails.
•
VMap Level 0 – Représente un niveau d’information équivalent aux échelles 1:1
million- 1:2 millions des cartes papier.
•
VMap Level 1 - Représente un niveau d’information équivalent à l’échelle
1:250,000 des cartes papier.
•
VMap Level 2 - Représente un niveau d’information équivalent aux échelles
1:50,000-1:100,000 des cartes papier.
Du coté des données matricielles, le format ‘Compressed ARC Digitized Raster
Graphics’ (CADRG) est utilisé. Celui-ci est une représentation digitalisée de produits
papier. Le CADRG est dérivé directement du format ADRG et de d’autres sources
après des traitements de compression et de filtrage. CADRG est produit à différentes
échelles, soient les cartes opérationnelles de navigation ARC1 1:1 000 000, les cartes
tactiques de pilotage ARC2 1: 500 000, les graphiques d’opérations ARC5 1:250 000
et les cartes topographiques ARC6 1:100 000 et ARC7 1:50 000.
Finalement, le format de modèle numérique d’élévation Digital Terrain Elevation
Data (DTED) de l’armée américaine est utilisé. Ce format, développé par le National
Imagery and Mapping Agency (NIMA), se définit comme une matrice uniforme de
valeurs d’élévation de terrain qui fournit des données quantitatives de base pour des
systèmes et les applications qui exigent l'élévation du terrain, la pente, et-ou des
informations sur l’état superficielle de la surface du terrain.
Aucune information sur les outils d’inventaires de données, les outils modélisation de
données, les systèmes de gestion de bases de données et les systèmes d’information
géographiques utilisés au RDDC n’ont été transmis lors de ce projet. Après
vérification, il semble plutôt qu’une grande variété de ceux-ci soit en fait utilisée dans
l’organisation, ce qui fait en sorte que le choix définitif de ces outils sera à faire pour
la production de données géospatiales décisionnelles.
6. Solutions logicielles d’un grand intérêt pour
l’extraction, le traitement et le chargement des
données dans une application SOLAP
Les outils SOLAP sont reconnus pour leur grande facilité de composition des requêtes
et leur rapidité d’affichage des résultats. Cependant, pour avoir cette facilité et
rapidité, il faut au préalable structurer et charger les données. Cette tâche peut être très
longue à réaliser dépendamment de l’effort d’intégration nécessaire pour obtenir des
données homogènes ainsi que de l’efficacité des outils utilisés pour agréger et
généraliser les données des différents niveaux des dimensions et pour calculer les
mesures. Ces opérations d’extraction, de structuration, de transformation et de
chargement des données sont effectuées par des outils d’alimentation ou ETL tools
(Extract, Transform and Load). Ces outils se composent d’un ensemble d’opérations
permettant d’effectuer ces tâches décrites dans le présent rapport.
Les outils ETL spatiaux ont vu le jour avec la disponibilité massive des données et ce
dans tous les formats. Cette abondance des données engendre plusieurs problèmes
d’intégration des jeux de données entre eux soit au niveau informatique (format des
données), géospatial (projection cartographique), sémantique (cohérence des attributs),
temporelle, etc. Le rôle de ces outils est donc de rendre les données accessibles par les
applications SIG et homogènes entre elles. Les SIG et les outils ETL sont donc des
outils complémentaires.
Les applications SOLAP de par leur nature où tout doit être calculé à l’avance,
requièrent beaucoup plus de traitements ETL que les applications SIG. Premièrement,
tout comme dans les applications SIG, il est nécessaire de charger les données
détaillées dans la base de données. À ce niveau, les traitements ETL à réaliser pour les
deux types d’applications sont les mêmes. Ils consistent principalement à extraire les
données des jeux de données sources, à les nettoyer et à les intégrer. Les deux types
d’applications se distinguent au niveau des données agrégées car une application
SOLAP a obligatoirement plusieurs niveaux d’abstraction tandis que ce que n’est pas
toujours le cas pour une application SIG. Les opérations de généralisation sont alors
grandement utilisées afin de générer les géométries pour les niveaux d’abstraction plus
élevés de même que pour les valeurs d’attribut, généralisées par une moyenne par
exemple.
Cette section décrira premièrement, de façon générale, trois outils pouvant être utiles
pour l’ETL des données dans un cube multidimensionnel spatial. Par la suite, les
principales fonctions de ces outils seront présentées selon des catégories d’opérations
d’ETL spatiales utilisées pour le développement d’une application SOLAP.
6.1. Trois outils d’un grand intérêt pour l’ETL
Les outils ETL ou outils d’alimentation sont définis par l’Office de la langue française
comme étant un: “outil informatique qui est destiné à extraire des données de diverses
sources (bases de données de production, fichiers, Internet, etc.), de les transformer et
de les charger dans un entrepôt de données. » [OLF, 2000]. Cette définition est
précisée par cette note : « Tous les auteurs ne découpent pas cette phase du processus
de construction et d'entretien d'un entrepôt de données de la même manière, car les
outils qui existent, sur le marché, ne possèdent pas tous les mêmes fonctionnalités.
Toutefois, on peut dire que l'alimentation d'un entrepôt de données renferme, grosso
modo, les étapes suivantes : l'acquisition ou collecte des données (qui implique leur
sélection et leur extraction des diverses sources), leur transformation (qui implique
leur nettoyage, leur intégration et parfois leur agrégation) et enfin leur chargement ou
leur migration. » [OLF, 2000].
Cette section décrira les produits FME de la compagnie Safe Software, les produits
Open-source de la compagnie Vivid Solutions et la plate-forme logicielle GeOxygene.
6.1.1.
Produits FME
Les produits FME sont développés par la compagnie Canadienne Safe
Software, fondée en 1993 en Colombie-Britannique. Cette compagnie a
développé quatre logiciels, soit : FME, FME Web Services (Spatialdirect),
FME Data servers et FME Developer Tools, que nous présenterons dans les
paragraphes qui suivent.
6.1.1.1.
FME
FME (Feature Manipulation Engine) est une collection intégrée d’outils ETL
spatiaux nommés transformers, utilisée pour la transformation et la
translation des données. Il permet:
•
•
•
•
de combiner plusieurs sources de données en une seule opération de
translation;
de joindre des données de systèmes différents;
de transformer des données d’un format à un autre;
d’effectuer des tests permettant d’assurer la qualité des données
spatiales.
Le logiciel FME comprend trois composantes:
Workbench: permet d’effectuer des traitements ETL très sophistiqués.
Universal Viewer: permet une vue rapide des données pouvant être dans l’un
des nombreux formats de données supportés par FME.
Universal Translator: permet le transfert rapide de système de coordonnées et
de format de données (150 différents) d’un jeu de données.
6.1.1.2.
Spatialdirect - FME Web Services
Ce produit permet d’effectuer le transfert de système de coordonnées et de
format de données (54 différents) via une application Web. Celui-ci peut-être
utilisé via une interface HTML ou sous forme de plugiciel (plug-in) offrant
ainsi aux serveurs Web de données spatiales du marché, la possibilité de
distribuer leurs données sous différents formats et systèmes de coordonnées.
6.1.1.3.
FME Data Servers
Ce produit fournit aux applications OLE DB client un accès direct à plus de
100 formats de données. Il existe présentement une solution pour les logiciels
MapGuide d’Autodesk et GeoMedia WebMap d’Intergraph. Ce produit offre
la possibilité de publier les données client en format natif sans avoir besoin de
les convertir. Les transferts de format et projection sont effectués à la volée
afin d’afficher de manière intégrée, des jeux de données de formats et
systèmes de coordonnées hétérogènes.
6.1.1.4.
FME Developer Tools
Ce produit consiste en un ensemble de librairies servant au développement
d’application incorporant les fonctionnalités de FME. Par exemple, la
compagnie ESRI a incorporé la technologie FME dans son extension
« ArcGIS Data Interoperability » à l’aide de la librairie d’objets de FME.
6.1.2.
Produits de Vivid Solutions
La compagnie Vivid Solutions est une compagnie Canadienne localisée à
Vancouver et fondée en 1996. Cette compagnie a développé entre autres, une
suite de produits Open Source en collaboration avec la communauté R&D en
géomatique qui sont utilisés partout à travers le monde. Ces produits sont :
JUMP Unified Mapping Platform, RoadMatcher, JTS Topology Suite et JCS
Conflation Suite.
6.1.2.1.
JUMP Unified Mapping Platform
C’est une application ayant une interface utilisateur graphique (GUI)
permettant la visualisation et le traitement des données spatiales. Elle procure
un cadre d’applications (application framework) utilisé pour le
développement et l’exécution d’applications personnalisées de traitements
spatiaux.
6.1.2.2.
JTS Topology Suite
Ce produit est une interface de programmation (API) 100% JAVA fournissant
des prédicats 2D spatiaux et des fonctions pour des opérations géométriques
fondamentales, conformes avec le modèle géométrique de la norme Simple
Features Specification for SQL de l'OpenGIS Consortium (OGC). Les
fonctions fournies sont :
•
•
•
•
•
•
Les prédicats spatiaux (basé sur le modèle DE-9IM (Dimensionally
Extended Nine-Intersection Model)
Fonctions de superposition (intersection, différence, union, différence
symétrique),
Zone tampon,
Enveloppe convexe,
Fonctions de distance et d’aire,
Validation de la topologie.
JTS fournit une fondation solide pour la construction d’applications spatiales
telles un visualiseur, un programme général de requêtes spatiales et des outils
pour la validation, le nettoyage et l’intégration des données spatiales.
6.1.2.3.
RoadMatcher
Cette application réduit grandement le temps nécessaire à la fusion de jeux de
données routières linéaires en fournissant un ensemble d’outils assistant la
fusion multisource automatique et manuelle. Cette application utilise la
plateforme JUMP.
6.1.2.4.
JCS Conflation Suite
Ce produit est une interface de programmation 100% JAVA construite à
partir de l’API JTS et utilisant la plateforme JUMP. Elle permet la fusion
multisource de jeux de données spatiales et opère indépendamment des
logiciels commerciaux. Elle ne supporte pas les formats natifs des outils SIG
et utilise le format GML en entrée et sortie. JCS permet principalement la
fusion multisource de données polygonales et comprend aussi un menu Roads
permettant la fusion des routes. Cependant, RoadMatcher offre plus
d’opérations pour les réseaux routiers linéaires. JCS offre :
•
•
•
plusieurs traitements de fusion multisource de données géospatiales
tels le nettoyage de zones adjacentes, l’alignement de zones
adjacentes et l’appariement des routes;
des fonctions d’assurance de la qualité permettant la détection et
l’affichage des erreurs ainsi que des fonctions de nettoyage
automatiques et manuelles pour ajuster la géométrie
des outils d’édition manuelle pour la fusion des données ne pouvant
être exécutée automatiquement.
6.1.3.
GEOXYGENE
GeOxygene est « une plate-forme logicielle, ouverte et modulaire dédiée aux
applications en information géographique, avec une architecture et un modèle
de données communs, permettant le partage des codes, leur documentation et
leur maintenance. » [Badard et Braun, 2005]. Ce projet Open-source est issu
des développements menés au laboratoire COGIT de l’Institut Géographique
National (IGN, France) par ses auteurs M. Thierry Badard, maintenant
professeur au département des sciences géomatiques à l’Université Laval et
M. Arnaud Braun. La plate-forme GeOxygene est développée en JAVA et
permet le déploiement d’application sous la forme de service Web. Elle
s’appuie sur les standards de l’ISO et l’OGC et permet l’implémentation de la
norme ISO 19107 ainsi que des spécifications relatives à la notion de feature
(Features, Feature Collection et Relationships between features). Elle est un
bon point de départ pour l’utilisation de JAVA Data Objects (JDO) pour les
bases de données géographiques. Cette plate-forme constitue ainsi une base à
la construction de solutions logicielles, s’appuyant sur des données
géographiques, réellement interopérables car implémentant l’ensemble des
spécifications OGC et normes ISO.
Figure 8 : Architecture de la plate-forme GeOxygene avec des exemples de composantes logiciels.
[Extrait de Badard, 2005]
Les composants de l’architecture inclus dans la distribution open-source sont
les suivants:
•
un schéma orienté-objet compatible avec les spécifications et normes de
l’OGC et de l’ISO permettant de modéliser et manipuler toutes les
facettes de l’information géographique (sémantique, géométrie,
topologie, métadonnées). Les utilisateurs modélisent leur application en
UML et la code en Java, en s’appuyant sur ce schéma.
•
•
•
des scripts SQL permettant de manipuler la BD (Oracle avec sa cartouche
spatiale et PostGIS (open source) avec sa sur-couche géographique
PostgreSQL sont supportés). Les données sont stockées dans un SGBD
relationnel afin d’assurer des temps de réponse et d’accès rapides.
un composant open-source, OJB (ObJect relational Bridge, de la
fondation Apache) assure le « mapping » (i.e. « telle classe Java
correspond à telle table ») entre le schéma objet et les tables
relationnelles. Les utilisateurs ont ainsi une perception entièrement objet
de l’information qu’ils manipulent.
les opérateurs géographiques codés dans des bibliothèques séparées, afin
d’assurer l’indépendance des développements. Ces algorithmes
proviennent du Web (ex. : la bibliothèque open-source JTS pour les
calculs de géométrie algorithmique.) ou d’anciens développements déjà
réalisés au COGIT.
Deux outils ont aussi été inclus dans la distribution open-source. Il s’agit d’un
visualisateur d’objets géographiques (Geotools version 1) et un navigateur
graphique permettant l’affichage des propriétés des objets et le
déclenchement dynamiquement des méthodes.
6.2. Opérations ETL
Cette section décrira des catégories d’opérations ETL pouvant être utilisées dans le
développement d’application SOLAP et regroupera sous ces catégories les principales
opérations ETL disponibles dans FME et JTS/JCS.
6.2.1.
Sélection et extraction
Cette catégorie regroupe toutes les opérations permettant de filtrer les
données afin de pouvoir n’en récupérer qu’une partie.
Les outils FME supportent la sélection descriptive et spatiale des données
ainsi que leurs extractions. Voici quelques exemples de ces transformers:
•
AttributeFilter: permet de filtrer les enregistrements suivant les valeurs
possibles d’un attribut. Les valeurs de cet attribut doivent être discrètes
car cet opérateur supporte uniquement l’opérateur « = ».
•
GeometryFilter : permet de filtrer les géométries suivants leur type (point,
ligne, polygone).
•
AggregateFilter : permet de séparer les géométries étant des agrégats des
géométries simples.
•
SpatialFilter : permet de comparer chaque enregistrement d’un jeu de
données Candidat avec tous les enregistrements d’un jeu de données Base
afin de récupérer uniquement les objets candidats satisfaisant la relation
topologique spécifiée avec les objets Bases.
•
Joiner: effectue une jointure entre enregistrements de deux jeux de
données via un ou des champs communs.
•
SQL executor: Permet de filtrer les enregistrements d’une base de
données via une requête SQL. Les formats SIG tel Shapefile, MapInfo,
etc. sont non supportés par cet opérateur.
•
Clipper : Permet de récupérer les données se retrouvant à l’intérieur ou à
l’extérieur de zones.
•
ExpressionEvaluator : Permet d’évaluer si une expression mathématique
est vraie ou fausse. L’opérateur AttributeFilter doit ensuite être utilisé
pour diriger les enregistrements ayant la valeur « vraie » et ceux ayant la
valeur « fausse » vers des destinations différentes.
•
AreaCalculotor, LengthCalculator : Le premier permet de calculer l’aire
de polygones et le second de calculer en 2D ou 3D, la longueur des lignes
ou bien le périmètre d’un polygone. L’aire, le périmètre et la longueur
peuvent ensuite être utilisés comme critère de sélection.
L’exemple de la figure ci-bas montre comment il est possible d’extraire les
bâtiments, du fichier ShapeFile de gauche, ayant une superficie calculée
supérieure à 100 000 m². Le premier opérateur calcule la superficie, le second
évalue si oui ou non (1 ou 0), cette superficie est supérieure à 100 000m² et le
dernier récupère uniquement les enregistrements ayant satisfait la requête
précédente, i.e dont la valeur au champ « _result » est égal à 1.
Figure 9. Exemple de l’utilisation des opérateurs d’extraction et sélection de FME.
FME permet aussi d’extraire uniquement les attributs voulus. Par exemple,
dans l’exemple de la figure ci-haut, le champ « Comment » n’a pas été
récupéré. Il est possible aussi de renommer les attributs. Dans l’exemple de la
Figure 9, les attributs ID_COURANT et _AREA ont été renommés en
ID_BAT et SUPERFICIE.
Le cadre d’applications JUMP permet de sélectionner les objets
géographiques tout comme un SIG, soit :
•
•
•
•
•
objet par objet à l’aide de la souris dans la fenêtre cartographique.
à l’aide d’un rectangle dessiné dans la fenêtre cartographique et
permettant la sélection de plusieurs objets.
à l’aide de la souris dans la fenêtre affichant les enregistrements;
à l’aide de la souris et en mode édition afin de sélectionner qu’une partie
de la géométrie d’un agrégat ou bien le trou d’un polygone.
à l’aide d’une clôture préalablement dessinée.
JTS fournit des opérations géométriques qui pourraient être utilisées pour
l’extraction des données par rapport à leurs types de géométrie et leurs
relations spatiales avec d’autres objets.
6.2.2.
Nettoyage des données
Le nettoyage des données géométriques consiste à rendre les données
exemptes d’incohérences de nature spatiale comme les dépassements
(overshoot), les espacements (undershoot), les découverts (gaps) et les zones
de chevauchement (overlaps).
“Gaps are places where two adjacent polygons are separated by a small
amount along some or all of their boundary (see Figure 10a below). Since
some coverages can contain legitimate spaces between polygons, gaps are
always defined relative to a specified distance tolerance. Only spaces which
have the adjacent line segments separated by less than the distance tolerance
are considered to be gaps”.[JCS, 2003]
“Overlaps are places where two polygons overlap (see Figure 10b below).
No distance tolerance is needed, since any overlap is always considered to be
an error in a coverage.” [JCS, 2003]
Figure 10. Exemple en (a) de découverts et (b) de chevauchement. Extrait de JCS Conflation Suite
User Guide.
“Overshoot is the portion of an arc digitized past its intersection with another
arc.” [ESRI, 2006]
“Undershoot is a line that falls short of another line that it should intersect.”
[ESRI, 2006]
FME comprend :
•
Snapper qui permet d’accrocher les nœuds de lignes ou bien les
sommets de lignes et polygones se retrouvant à distance inférieure à
la distance de tolérance spécifiée. Il permettra de corriger les
dépassements et les espacements.
•
SelfIntersector : Permet du supprimer les intersections de l’objet sur
lui-même.
•
DuplicateRemover permet de filtrer selon les valeurs d’un attribut clé
afin d’éliminer les enregistrements doublons.
JUMP permet d’effectuer une série de tests permettant de valider la topologie
d’une couche spatiale. Entre autres, s’assurer : que les segments ont une
longueur minimum, qu’un polygone ou une ligne ne s’intersecte pas avec luimême.
JCS comprend la fonction Find Coverage Gaps et Remove Coverage Gaps
qui permettent de trouver et détruire les erreurs de découvert. Les
chevauchements peuvent être trouvés grâce à la fonction Find Coverage
Overlaps. Ils doivent cependant être corrigés manuellement. Cependant, les
plus petits d’entre eux ont pu être détectés et corrigés avec les commandes
Find Coverage Gaps et Remove Coverage Gaps. Certains de ces
chevauchements sont aussi dus à des objets géométriques dupliqués.
RoadMatcher comprend aussi des fonctions permettant de corriger les
espacements et les dépassements, mais ces fonctions ne permettent pas de
traiter le jeu de données au complet de façon automatique. Chaque erreur doit
être corrigée l’une après l’autre en utilisant la commande Extend/clip segment
afin d’allonger ou raccourcir le segment jusqu’au segment à intersecter qui
sera scindé en deux. Il est possible cependant à l’aide d’une requête de
trouver les segments en défaut.
6.2.3.
Intégration de données
Lorsque le système se compose de données provenant de sources
hétérogènes, il est inévitable de faire face à des problèmes d’intégration de
données. Avant de charger ces données dans le système, il faut les rendre
homogènes entre elles et les intégrer.
L’intégration multisource est définie selon l’Office québécois de la langue
française comme étant : « Opération qui consiste à transformer les données
qui proviennent de sources hétérogènes (bases de données de production
d'une entreprise, bases de données externes, Internet, etc.), de manière
qu'elles forment un tout cohérent et homogène, au moment où elles sont
versées dans l'entrepôt de données, pour alimenter ou rafraîchir celui-ci. »
[OLF, 2002].
6.2.4.
Intégration informatique
L’intégration informatique des données géospatiales consiste à convertir les
formats de données géométriques des systèmes sources en celui du système
cible. Par exemple, convertir le format DGN en format .SHP d’ESRI. FME
supporte plus de 150 formats différents.
Pour les données descriptives issues des bases de données, elles peuvent
facilement être lues et transférées vers un autre outil via l’interface ODBC
(Open Database Connectivity). Il est aussi possible de convertir les données
descriptives en format ASCII et de pouvoir les importer dans tout système de
gestion de base de données et même dans la plupart des SIG. Les données de
géométrie ponctuelle en format ASCII peuvent aussi être importées
directement dans la plupart des SIG.
6.2.5.
Intégration sémantique
Opération consistant à assurer une cohérence entre le nom des classes (ex. :
bâtiment, construction), le nom des attributs (no civique, numéro civique) et
les valeurs de domaine d’attributs (vrai/faux, oui/non). L’intégration
sémantique comprend aussi la fusion et la scission de classes, le recodage
d’attributs, la généralisation et la spécialisation de classes d’objets.
Les opérateurs ValueMapper et SchemaMapper de FME peuvent être utilisés
pour faire le « mapping » des schémas de deux jeux de données ainsi que des
valeurs des domaines de valeurs. Le « mapping » des noms d’attribut est fait
directement avec l’interface du Workbench de FME.
6.2.6.
Fusion multisource
La fusion multisource (conflation) est un type particulier d’intégration
sémantique utilisant la géométrie des objets pour apparier les sources entre
elles. Selon l’Office de la langue française, elle est définie
comme: « Traitement géomatique qui consiste à transposer les attributs d'une
carte thématique sur une carte géographique de référence, en utilisant
comme points de repère leurs entités géométriques communes. » [OLF,
2001]. ESRI la définit aussi comme étant: « A set of procedures that aligns
the features of two geographic data layers and then transfers the attributes of
one to the other. » La fusion multisource est un processus irréversible, i.e.
qu’il n’est pas possible de reproduire les sources dans leurs états initiaux
puisque seuls les attributs sont conservés.
FME comprend les opérations RubberSheeter et AffineWarper qui
permettent d’ajuster un ensemble d’objets géométriques cibles afin qu’ils
correspondent mieux à la géométrie d’objets géométriques sources. Une fois
les géométries appariées, les attributs peuvent être transférés d’une source à
une autre via l’opérateur Matcher. Dans le cas où, les classes d’objets ont un
attribut commun, l’opérateur FeatureMerger peut être utilisé dans le but de
copier les attributs de la source dans la classe d’objets cible.
Road Matcher de Vivid Solutions a été conçu dans le but de permettre la
fusion multisource de données linéaires de réseaux routiers. Cet outil permet
de créer un nouveau réseau routier à partir de deux sources différentes en
récupérant les segments de la source de meilleure qualité lorsqu’il y a
appariement et d’inclure ou non les segments non appariés dans le jeu de
données résultant. Cet outil comprend donc toutes les opérations nécessaires
pour la fusion multisource de données linéaires.
JCS permet d’apparier des données polygonales ayant une couverture
continue telle les lots cadastraux, les limites administratives, etc. Il permet
aussi l’appariement des routes.
6.2.7.
Intégration horizontale
Elle consiste en l’intégration des jeux de données couvrant des territoires
adjacents et ayant le même contenu, i.e. les mêmes thèmes.
JCS permet d’aligner des données polygonales provenant de plusieurs
sources :
•
Boundary Alignment : permet d’éliminer les découverts et les zones de
chevauchements entre données surfaciques pouvant provenir de deux
jeux de données différents. Cet outil pourrait entre autre permettre
d’aligner les limites administratives de deux jeux de données adjacents.
•
Offset Boundary Corner finder : permet de détecter les déplacements
latéral (offset) entre deux jeux de données polygonales.
Figure 11. Déplacement latéral entre deux jeux de données de type polygone. Extrait de JCS
Conflation Suite User Guide.
6.2.8.
Intégration verticale
Ce type d’intégration consiste à rendre cohérent des jeux de données couvrant
le même territoire mais ayant un contenu différent. Dépendamment des
relations spatiales possibles entre les deux jeux de données à apparier,
plusieurs opérations décrites dans cette section pourraient être utilisée.
6.2.9.
Intégration géospatiale
L’intégration géospatiale fait référence au changement de systèmes de
coordonnées. FME supporte plusieurs systèmes de coordonnées et il est facile
et rapide de convertir les données d’un système de référence à un autre à
l’aide d’Universal Translator.
6.2.10.
Passage de primitives à objet explicite.
Les fichiers CAD sont composés de primitives linéaires et les objets
surfaciques y sont rares. Lorsque l’on récupère de telles données, on doit
construire les surfaces à partir de lignes qui les composent. Il faut parfois
ajouter des lignes virtuelles pour fermer ces polygones, comme dans le cas de
lac.
FME comprend l’opération PolygonBuilder qui permet de contruire
automatiquement des polygones à partir de lignes fermées. Il peut être
préalable à cette opération, d’utiliser les opérations Snapper, Intersector et
SelfIntersector pour nettoyer les données.
6.2.11. Passage d’attributs graphiques textuels à des attributs
descriptifs.
Souvent certaines données descriptives sont uniquement graphiques, visibles
sur la carte sous forme d’étiquette et non rattachées à l’objet géométrique
principal, comme dans le cas du numéro de lot inscrit au centre du polygone
de lot. Lorsque l’on sélectionne les attributs du lot, on ne retrouve pas le
numéro inscrit en étiquette. Il faut donc utiliser des fonctions qui permettent
de lire ces valeurs d’attribut graphique et de les stocker dans un attribut
descriptif rattachée à l’objet géométrique principal.
FME comprend :
•
PointOnAreaOverlay : Chaque point reçoit les attributs du polygone
qui l’inclut et chaque polygone reçoit les attributs de chaque point
qu’il inclut.
•
6.2.12.
NeighborFinder : Apparie les géométries les plus près de deux classes
d’objets. Il est possible de spécifier une distance maximum. Dans ce
cas, il est possible qu’il y ait des géométries non appariées.
Lorsqu’apparié, les attributs des la seconde classe sont copiés dans la
première classe. La géométrie de la première classe est conservée.
Intégration temporelle
L’intégration temporelle peut être au niveau de la donnée elle-même et au
niveau des spécifications de la donnée. Par exemple, un attribut « nombre
d’étage » a été ajouté en mars 2000 au spécification de la classe d’objets
Bâtiment. Donc tous les bâtiments ayant été saisis avant 2000 n’auront pas
cet attribut. Au niveau de la donnée, si la source de données de bâtiments est
plus récente que la source des rues par exemple, on pourrait avoir comme
résultat des bâtiments sans accès à aucune rue.
FME comprend les operations suivantes relatives à l’intégration temporelle :
•
Matcher : Permet de détecter si les objets de deux jeux de données
correspondent au niveau de la géométrie, de leurs valeurs d’attributs ou
bien les deux. Il est possible de définir une tolérance au-delà de laquelle
les sommets de deux géométries seront considérés comme différents.
•
ChangeDetector: Ce transformer ressemble beaucoup à Matcher à
l’exception qu’il catégorise les objets n’ayant pas de correspondance,
comme étant « ADDED » s’ils proviennent du jeu de données le plus à
jour et « DELETED » s’ils proviennent du jeu de données à mettre à jour.
6.2.13.
Généralisation cartographique des données
Selon l’OLF, la généralisation cartographique est : « L’action de simplifier les
éléments cartographiques et leur représentation, en fonction d'un besoin
particulier et selon des règles précises. La généralisation cartographique fait
appel à la simplification des formes, à la modification de la position des
entités spatiales et à la suppression ou au regroupement d'entités spatiales.
Elle est utilisée notamment pour le passage à une échelle cartographique
inférieure. »
Puisque cette opération ETL comprend plusieurs opérateurs, il est important
de les catégoriser. De plus, ces catégories nous permettrons de mieux décrire
ces opérateurs très importants dans le développement d’une application
SOLAP. Nous utiliserons donc les types d’opérateurs définis par Martel
[1997] afin de classifier les différents opérateurs des outils à l’étude (voir
l’annexe F pour une synthèse de ces opérateurs). Le tableau suivant montre
les types d’opérateurs ainsi que les types de géométrie, temporalité et
sémantique auxquels ils s’appliquent.
0D
Vectoriel
Temporel
Sémantique
1D 2D 0D 1D Objet Attribut Relation
Raffinement
Agrégation
Reclassification
Réduction de dimension
Simplification
Resymbolisation
Caractérisation
Exagération symbolique
Déplacement
Déformation
Lissage
Tableau 8. Domaines d’application des types d’opérateurs de généralisation. Extrait de Martel
[1997].
6.2.13.1.
Raffinement
Le raffinement consiste à supprimer des détails afin de conserver
que ce qui est important sans toutefois le modifier. Au niveau
géométrique, il serait possible par exemple de supprimer sur une
carte topographique les lacs ayant une superficie inférieure à un
certain seuil, de supprimer les bâtiments de géométrie ponctuelle
afin que conserver uniquement ceux de géométrie surfacique. Au
niveau temporel, les événements de plus courte durée pourrait être
supprimés, par exemple, on supprime les feux ayant durée moins
de 15 minutes. On pourrait aussi supprimer les événements ayant
une durée de vie instantanée et conserver uniquement ceux ayant
une vie durable dans le cas où la classe d’objets à une temporalité
alternative, i.e. soit instantanée soit durable. Au niveau
sémantique, on pourrait, par exemple, supprimer toutes les routes
dont la classification n’est pas autoroute.
Il est aussi possible de raffiner la structure du jeu de données en
supprimant des attributs ou des relations non essentiels. La
géométrie et la temporalité pouvant aussi être considérées comme
des attributs pourraient être supprimées afin d’éliminer des détails.
Par exemple, la géométrie des bâtiments pourrait être supprimée,
sachant qu’il est possible de déduire par la suite sa position
approximative à partir de son adresse ou bien son code postal.
Le raffinement s’apparentant à la sélection et l’extraction, les
mêmes opérateurs des outils à l’étude, peuvent être utilisés pour
réaliser cette opération de généralisation.
6.2.13.2.
Agrégation des données
L’agrégation permet de combiner plusieurs objets pour n’en
former qu’un seul (i.e. une relation de type n:1) dans le but de
simplifier la représentation lorsque la densité devient trop grande.
Il en résulte une nouvelle classe d’objets dont le niveau
d’abstraction est supérieur et qui conserve l’apparence générale de
la classe d’objets originale. Les objets d’origine peuvent
appartenir à une même classe d’objets (p.ex. plusieurs petits
bâtiments qui s’agrègent pour en former un plus significatif) ou à
des classes différentes (p.ex. l’agrégation des pistes et bâtiments
pour former l’aéroport).
Cet opérateur peut aussi être utilisé au niveau temporel. Dans ce
cas, il combine des événements ponctuels et/ou linéaires pour
former des événements de plus longue durée.
FME comprend les opérations d’agrégation suivantes:
•
Aggregator : Cette opération permet de combiner différentes
géométries en un agrégat. Les géométries sont agrégées selon
leurs valeurs d’attributs.
•
Deaggregator : Permet de décomposer un agrégat en ses
composantes.
•
Dissolver : Génère des polygones de plus grandes superficies
en supprimant les limites communes de polygones adjacents.
Cette opération pourrait être utilisée pour générer les limites
du pays à partir des limites des provinces.
•
NeighborhoodAggregator : Crée un agrégat d’objets basé sur
leurs proximités.
Figure 12. Différence entre l’opérateur Aggregator et Dissolver de FME.
Dans la partie du haut de la figure 12, les peuplements forestiers
sont agrégés sans supprimer les limites entre les peuplements
contrairement à ceux de l’exemple du bas. Dans les 2 cas, les
géométries sélectionnées correspondent à un enregistrement de la
base de données.
6.2.13.3.
Reclassification
La reclassification est l’une des opérations de généralisation les
plus utilisées dans le développement d’un SOLAP. Chaque niveau
hiérarchique, supérieur au niveau détaillé d’une dimension d’un
cube, doit être reclassifié. Par exemple, l’attribut discret type
d’utilisation des bâtiments dont le contenu est détaillé (maison
mobile, maison unifamilial, commerce de restauration, etc.) peut
être reclassifé à un niveau d’abstraction supérieur selon les
valeurs: résidentiel, commercial et industriel. Un attribut continu
tel la marge de recul, peut être classifié selon les catégories :
moins de 2m, 2 à 5m, 5 à 10m, 10 à 30m et plus de 50m tel
qu’illustré dans l’exemple suivant.
Figure 13. Exemple de classification de la dimension « marges de recul » dans un SOLAP.
La principale difficulté de cette tâche est de définir les classes de
chaque niveau. Une fois les classes définies, l’opérateur
ValueMapper peut être utilisé dans le cas d’un attribut discret, afin
d’associer à chaque valeur possible, la valeur du niveau supérieur.
L’exemple ci-bas montre le cas de l’attribut « nombre d’étages »
ayant un domaine de valeurs possibles de 1 à 9 étages, classifié en
3 catégories, soit de 1 à 3 étages, de 4 à 6 étages et de 7 à 9 étages.
Figure 14. Classification d’un attribut discret avec FME. L’opérateur ValueMapper classifie le nombre
d’étages en 3 catégories, soit 1 à 3, 4 à 6 et 7 à 9 étages.
Dans
le
cas
d’attributs
continus,
les
opérateurs
ExpressionEvaluator, AttributeFilter et AttributeCreator doivent
être utilisés pour générer les catégories. L’exemple ci-bas reprend
le même exemple que la Figure 14, mais cette fois-ci le domaine
de valeurs du nombre de d’étages est de 1 à 120. Afin de
catégoriser les enregistrements en 3 classes, les opérateurs
ExpressionEvaluator sont utilisés. Ensuite, les opérateurs
AttributeFilter permettent de récupérer les enregistrements dont la
valeur du champ « _result » est à 1 (vrai), donc ayant satisfait
l’expression définie dans l’opérateur ExpressionEvaluator. Les
opérateurs AttributeCreator permettent par la suite de créer un
nouvel attribut « Clas_Etag » qui contiendra les valeurs 1, 2 ou 3,
soit l’identifiant de nos trois catégories d’étage.
Figure 15. Classification d’un attribut continu avec FME. Les opérateurs ExpressionEvaluator,
AttributeFilter et AttributeCreator sont utilisés pour créer les classes d’étages 30 et moins, 30 à 70 et
70 et plus.
Lorsque la reclassification a un impact sur la géométrie, on doit en
plus utiliser un opérateur d’agrégation spatiale afin de générer la
géométrie agrégée résultante. Si la géométrie résultante doit être
des agrégats de géométries l’opérateur Agregate doit être utilisé.
Si par contre les limites adjacentes entre les objets doivent être
supprimées afin de générer de nouveaux objets simples,
l’opérateur Dissolver est à utiliser. Il est aussi possible d’utiliser
les deux commandes dans le cas où on aurait besoin d’agréger les
objets généralisés générés par Dissolver selon le même attribut (si
les objets ayant la même valeur ne sont pas tous adjacents) ou
bien sur un attribut différent.
6.2.13.4.
Réduction de dimension
Cette opération consiste à réduire la dimension de l’objet. Par
exemple, une classe d’objets surfacique à grande échelle, telle une
route, pourrait être représentée par une ligne à petite échelle. La
dimension de l’univers pourrait aussi être réduit, par exemple,
passer d’un univers 3D (x, y, z) à un univers 2D (x, y).
Pour réduire la dimension de l’univers d’un fichier, on a qu’à
diriger un fichier source 3D vers un fichier de destination en 2D et
la coordonnée Z sera automatiquement supprimée. Pour la
réduction de dimension de la géométrie des objets, FME
comprend les opérateurs suivants :
•
CenterLineReplacer : Remplace la géométrie d’une surface
par une ligne traversant le centre du polygone.
•
CenterPointReplacer : Remplace la géométrie linéaire ou
surfacique par un point se trouvant au centre du rectangle
englobant minimum de celle-ci. Dans le cas d’une surface, il
est possible que le point se retrouve à l’extérieur de celle-ci.
•
CenterOfGravityReplacer : Remplace la géométrie par un
point se retrouvant au centre de gravité de celle-ci. Le centre
de gravité correspond à la position obtenu de la moyenne des
coordonnées x, y et possiblement z. Dans le cas d’une surface,
il est possible que le point se retrouve à l’extérieur de celle-ci.
•
LabelPointReplacer : Remplace la géométrie de l’objet par un
point. Si la géométrie est linéaire, le point correspondra au
centre de la ligne. Si la géométrie est une surface, le point se
retrouvera quelque part à l’intérieur de la surface et à
l’extérieur d’un trou.
Figure 16. Distinction entre les opérateurs CenterOfGravityReplacer, CenterLineReplacer ,
CenterPointReplacer..
6.2.13.5.
Simplification des données
La simplification consiste à supprimer des parties de la géométrie
de l’objet tout en conservant la forme générique de celui-ci.
Contrairement au raffinement qui s’applique à la classe d’objets,
la simplification s’applique à l’objet. Un objet ponctuel ne peut
donc pas être simplifié mais une classe d’objets ponctuelle peut
être raffinée. Au niveau temporel, des événements avec présence
ou fonction discontinue peuvent être simplifiés.
FME comprend les opérations suivantes pouvant servir à
simplifier les géométries:
6.2.13.6.
•
AreaGeneralizer: Réduit la densité de sommets composant la
limite des polygones de manière à préserver la couverture
topologique originale.
•
LineGeneralizer : Réduit la densité des sommets d’une
polyligne.
Resymbolisation
Cette opération combinée à une opération de reclassification, est
aussi très importante dans une application SOLAP afin d’associer
à des géométries ponctuelles, une symbologie différente
dépendamment du niveau d’agrégation sur lequel elles sont
représentées.
FME ne comprend pas d’opérateur permettant d’attribuer une
symbologie à des géométries. Cet aspect est géré directement dans
les outils SIG et SOLAP.
Figure 17. Exemple de resymbolisation. À gauche, représentation simplifiée (l’ensemble des objets
ont le même symbole) et à droite représentation plus détaillée (symboles différents selon le type de
bâtiment).
6.2.13.7.
Caractérisation
La caractérisation est similaire au raffinement, car elle est utilisée
lorsqu’il y a trop d’éléments pas assez significatifs
individuellement et trop denses. Cependant, contrairement au
raffinement, il ne s’applique pas au domaine sémantique mais
créer un motif (pattern) représentatif des éléments originaux. La
position exacte et le nombre exact de géométries sont alors
abandonnés.
Il n’existe pas d’opérateurs permettant d’exécuter ce type
d’opération automatiquement dans les outils à l’étude.
6.2.13.8.
Exagération symbolique
Cette opération est gérée automatiquement par les SIG. La
dimension du symbole à l’écran de l’ordinateur est déterminée en
fonction de l’échelle d’affichage et des paramètres fournis par
l’usager.
6.2.13.9.
Déplacement
Sur des cartes numériques, le déplacement est une opération de
généralisation moins importante que lorsqu’on utilisait des cartes
papiers. Cependant, si l’on a à imprimer une carte à petite échelle,
les géométries très près l’une de l’autre peuvent se chevaucher. Le
déplacement peut alors être utilisé dans le but de rendre la carte
lisible.
FME comprend la commande OffSetter qui permet de décaler la
géométrie suivant une distance en x, y et/ou z.
6.2.13.10.
Déformation
Contrairement à l’exagération où c’est le symbole qui subit un
agrandissement, la déformation implique une modification (forme
et dimension) de l’entité géométrique elle-même afin d’améliorer
la lisibilité. Cette opération intervient par exemple lorsqu’il s’agit
d’élargir l’entrée d’un port afin de ne pas créer un lac en réduisant
l’échelle. Cet opérateur n’a pas d’application temporelle.
Cette opération doit être réalisée de façon manuelle et n’est pas
très utilisée dans une application SOLAP.
6.2.13.11.
Lissage
Cette opération consiste à déplacer les sommets d’un objet
géographique pour simplifier la forme de l’objet et ne retenir que
les tendances générales. Elle est semblable à la simplification à la
différence que les sommets sont déplacés plutôt qu’éliminés.
Cette opération a une forte connotation esthétique puisqu’elle
améliore l’apparence de l’objet géographique en diminuant les
pics et les fluctuations moins importantes.
Nous n’avons pas eu l’occasion d’utiliser cette opération de
généralisation dans le cadre de nos projets SOLAP.
6.2.14.
Traitement des images
JUMP comprend des transformations affines et de rubber-sheet pour la
correction des images.
FME comprend les opérations suivantes :
•
RasterLineExtractor: convertit tous les objets de format raster en des
lignes individuels.
•
RasterPointExtractor: convertit tous les objets de format raster en des
points individuels.
•
RasterResampler: Redimensionne un fichier raster.
•
RasterSegmenter : Segmente un fichier raster en analysant l’histogramme
des composantes et en identifiant les unités qui sont homogènes avec la
technique fuzzy c-means.
6.2.15.
Traitements des données 3D
FME comprend les transformers suivants pour la transformation des données
3D :
•
ContourGenerator: génère des courbes de niveaux à partir d’un modèle
numérique de terrain.
•
DEMGenerator: Genère un modèle numérique de terrain de format Raster
à partir de points, lignes de cassures et lignes 3D.
•
SurfaceDraper: Pour chaque coordonnée composant la géométrie des
objets d’une classe d’objets, dérive les coordonnées z d’une surface 3D.
•
SurfaceModeler : Permet de générer un modèle numérique de structure
TIN à partir de plusieurs sources de données, tels des points, des lignes de
cassure, des courbes de niveaux, etc..
•
TINGenerator: Génère un modèle numérique de format TIN.
•
VoronoiDiagrammer: Génère un diagramme de type Voronoi.
6.2.16.
Autres opérations intéressantes
FME comprend d’autres opérations de transformations des données pouvant
être utile dans le développement d’une application SOLAP :
•
UUIDGenerator: Calcule un identifiant de type UUID pour chaque objet.
Le UUID est composé 32 chiffres hexadécimaux.
•
TimeStamper : Ajoute un attribut de type horodatage et donne à chaque
objet la date d’aujourd’hui.
•
GOIDGenerator : Calcule un GOID (Geographic Object Identifier) pour
chaque objet.
•
StatisticCalculator: Cet opérateur peut être d’un grand intérêt dans le
développement d’une application SOLAP afin de calculer les mesures du
cube.
6.3. Conclusion
Cette section a permis de monter le nombre impressionnant d’opérations ETL pouvant
être utilisées dans le développement d’une application SOLAP. La technologie
d'intégration de données géospatiales la plus répandue et qui nous apparaît la plus
complète présentement sur le marché est le logiciel FME (Feature Manipulation
Engine) de la compagnie Safe Software de Vancouver. Elle est très rapide et offre
plusieurs fonctions avancées utiles pour faire du ETL-Spatial. Par contre, comme toute
technologie, elle ne couvre pas tous les besoins et les résultats produits devraient être
testés avant d'être intégrés dans une chaîne de production de cubes de données
géospatiales. Les produits de Vivid Solutions sont quant à eux complémentaires : JTS
est utilisé pour effectuer des relations spatiales entre objets, JCS et Road Matcher pour
la fusion de données et JUMP comme une plateforme offrant les fonctions SIG de base
ainsi qu’une interface graphique aux produits JCS et RoadMatcher. GeOxygene
comprend une librairie de classes permettant le chargement, la gestion et l’affichage
des données géospatiales sous forme de classes JAVA définies selon les normes ISO et
OGC.
Tel que spécifié dans cette section, ce sont les opérations de généralisation qui sont les
plus utilisées par rapport à une application SIG, afin de pouvoir charger l’information
des niveaux d’abstraction moins élevés. Cependant, le développement d’application
SOLAP peut nécessiter l’utilisation de fonctions agrégatives qui ne sont pas offertes
par les outils ETL du commerce, et ce, malgré leur grand éventail d’opérateurs.
Généralement, le processus d’agrégation implique l’utilisation d’un opérateur sur les
membres d’une seule dimension spatiale. Cependant, il peut s’avérer fort intéressant
de représenter la relation existante entre deux, voire même N dimensions spatiales
d’un même hypercube de données, telle que l’adjacence, l’inclusion ou l’intersection.
De plus, des opérateurs agrégatifs mixtes, résultant de la combinaison d’opérateurs
spatiaux et non-spatiaux, permettent d’obtenir des résultats numériques pour une
analyse spatiale comme le dénombrement des intersections, la moyenne d’adjacence
ou la somme des superficies, et ce, par région. Il est également possible d’y ajouter la
notion de temporalité en effectuant les calculs selon les périodes représentées. Il reste
donc un large éventail de travaux de recherche à effectuer dans ce domaine tels que
détaillés dans la section suivante.
7. Nouveaux outils produits dans le cadre de la chaire
de recherche industrielle en bases de données
géospatiales décisionnelles.
L’objectif de cette section est de mettre en perspective les travaux planifiés de la
chaire de recherche industrielle en bases de données géospatiales décisionnelles
(http://mdspatialdb.chair.scg.ulaval.ca) du Dr Bédard qui cadrent dans les processus de
production de données multidimensionnelles géospatiales. Plusieurs outils sont
actuellement en conception ou en développement et seront vraisemblablement
disponibles aux partenaires de la chaire d’ici trois ans, soit pour la fin de la Chaire
industrielle. Les outils planifiés ne sont présentement pas disponibles sur le marché et
permettront de compléter ou remplacer avantageusement les tâches manuelles
actuelles ou encore les outils existants qui sont sans référence spatiale, le tout pour le
processus de production de données multidimensionnelles.
La mise en place d’un référentiel informatique enrichi ,intégrant les données spatiotemporelles avec les données décisionnelles (c.f. Projet 1 : Référentiel ISTory), est la
pierre angulaire d'un environnement intégré de méthodes, services web et logiciels
interopérables de conception, traitement et exploitation de la donnée géodécisionnelle.
La mise en place d'un tel référentiel assurera l'évolutivité des systèmes développés au
sein de la chaire de recherche. Ce référentiel, baptisé ISTory (Information SpatioTemporelle + RepositORY, ou en anglais Integrated Spatio-Temporal RepositORY)
contiendra les connaissances sur le domaine géospatial et géodécisionnel
(métastructures transactionnelle, décisionnelle ontologique et de spécifications,
registre d'applications, métadonnées, contraintes d’intégrité, gestion multilingue, etc.).
Il intégrera, les concepts normalisés facilitant l'interopérabilité des systèmes (cf.
normes ISO, OGC, OMG et W3C). Ce nouveau référentiel et ses concepts théoriques
unifiés constituent la recherche fondamentale servant de base à l'ensemble des projets
et des outils qui seront développés dans la chaire. Le résultat sera matérialisé par une
métastructure fédérée XML accessible via des API et des services web. Aucune
technologie similaire n’existe à ce jour ou n’est présentée dans les conférences
académiques. Quoique des projets géodécisionnels soient réalisés depuis peu, ce
nouvel environnement va permettre d’améliorer de façon notable le processus complet
de conception-traitement-exploitation sur les plans méthodologique et technologique.
Afin de positionner adéquatement les méthodes et outils de la chaire de recherche,
nous procéderons à leur présentation en suivant le cycle de développement d’un
système dont la première étape consiste à l’analyse des besoins des utilisateurs.
7.1. Méthode et outils d’analyse des besoins des utilisateurs.
La chaire de recherche industrielle vise le développement d’outil de définition des
besoins géodécisionnels sous la forme d’outil de maquettage et de prototypage rapides
(cf. Projet 2). L’environnement de cet outil sera divisé en trois volets : (1) un volet
didacticiel sur le web permettant de se familiariser avec les applications
géodécisionnelles, (2) un volet maquettage très flexible permettant de simuler
rapidement une solution pour un échantillon de besoins des utilisateurs, et (3) un volet
participatif pour encadrer les discussions, recueillir les commentaires des utilisateurs et
prioriser leurs besoins. Deux niveaux d’analyse des besoins seront distingués : un
niveau global permettant de définir les grandes lignes du système grâce au maquettage
et un niveau détaillé permettant de définir les spécifications détaillées grâce au
prototypage rapide. La recherche et le développement pour cette méthode et ces outils
est déjà en cours. Le volet (1) devrait être terminé pour l’automne 2006 (du moins en
français) et sera accessible aux partenaires de la chaire industrielle dans un premier
temps (incluant RDDC). Le volet (2) a fait l’objet de recherches théoriques depuis le
début de la chaire ainsi que l’objet d’une expérimentation avec Syntell à l’hiver 2006.
Suite à ces travaux, il est prévu qu’un projet soit fait avec l’outil de maquettage RAPT
de Syntell pour enrichir celui-ci dans un contexte de maquettage rapide. Le volet (3) a
été discuté dans le mémoire de MSc de Louis-Étienne Guimond et sera potentiellement
poursuivi ultérieurement s’il s’avérait prioritaire.
7.2. Outils supportant l’élaboration de systèmes
Un projet vise à définir un formalisme de modélisation multidimensionnelle avec le
langage UML étendu pour la référence spatiale et de définir un outil de modélisation
multidimensionnelle (cf. Projet 13). Il en résultera la publication d'un formalisme
supportant la modélisation des différents types de dimensions spatiales d'états et
d'évolutions spatio-temporels, 3D, en temps réel et pour applications mobiles. Ce
projet vise aussi à développer des générateurs automatiques de code pour des outils du
marché, servant ainsi à tout développement d'applications géodécisionnelles. De plus
la modélisation formelle des opérations d’agrégation spatiales permettant la production
de données agrégées, résumées à différents niveaux de granularité telles que la fusion,
la généralisation et la représentation multiple des données multidimensionnelles sera
intégrée à l’outil par le bais du projet 5 (cf. Enrichissement du formalisme de
modélisation multidimensionnel des processus de production de l’information
géodécisionnelle). Ce projet débutera par une étude des fonctions de fusion,
d’agrégation, de synthèse et de développement d’indicateurs. La recherche et le
développement spécifique est débuté et se déroulera jusqu’en 2007. La recherche et le
développement pour l’outil de modélisation est également débutée et se déroulera
jusqu’à 2009 avec différentes dates de livraison pour les différents modules. Plus
particulièrement, cela donnera lieu à 3 versions de Perceptory : Perceptory for
databases, Perceptory for datacubes, Perceptory for GeoWeb services.
Finalement, depuis la définition du web sémantique, la gestion des ontologies est
devenue d’intérêt dans la communauté géomatique. L'équipe de la chaire y travaille
aussi depuis quelques années avec ses partenaires, dont principalement Ressources
Naturelles Canada et Intélec. L’outil ontologique géospatial (cf. Projet 4) fera partie
des outils exploitant le référentiel ISTory (cf. Projet 1) qui sera enrichi d’une structure
d'ontologie, des fonctionnalités d'échange et d'intégration d'ontologies en XML ainsi
qu'un générateur de code OWL. La recherche et le développement de cet outil est
débuté et se déroulera jusqu’en 2008. Une très grande interopérabilité avec les outils
de modélisation objet (ex. les 3 versions de Perceptory) et les méthodes de
spécification fait partie intégrante de ce projet.
7.3. Outils supportant la construction de systèmes
Une méthode d'évaluation et de sélection de données sources (cf. Projet 3) sera
développée et sera compatible avec les normes internationales ISO (ISO TC211 2004)
et OGC (OGC 2004). Il est présentement trop tôt pour affirmer qu’il en résultera un
outil pour assister la méthode, voire pour planifier la forme même de cet outil.
Cependant, cette méthode utilisera le référentiel ISTory (cf. Projet 1) et des services
web externes d’accès aux données et métadonnées (d’où dépend la forme du logiciel
potentiel). Cette méthode et son outil permettront d'évaluer le potentiel
d'interopérabilité et les efforts d'intégration/agrégation des différents jeux de données.
La recherche et le développement de cet outil se déroule de 2005 à 2009.
Un autre projet (cf. Projet 21) vise à développer un outil d’intégration et d’agrégation
des données géospatiales en utilisant l’information du référentiel ISTory (i.e. la
modélisation UML cf. projet 5, l’information ontologique cf. projet 4, ou le contenu de
spécifications cf. partie du projet 1), les résultats de recherche en généralisation
cartographique et représentation multiple du projet GEMURE et fonctionnant pardessus les meilleurs outils d'intégration actuels FME (Safe Software 2004) et JUMP
(Vivid Solutions 2003). La recherche et le développement de cet outil a débuté par le
développement d’extensions spatiales au langage MDX (en collaboration avec Syntell)
et se déroulera jusqu’en 2008.
Plus particulièrement, un outil très spécialisé (sous-ensemble du projet 21, fait en
collaboration avec un projet GEOIDE) est présentement en phase design et son
développement devrait débuter à l’été 2006. Cet outil, appelé RN-ETL (Road Network
ETL), est spécialisé dans la production de cubes de données pour les réseaux
(particulièrement routiers, mais potentiellement génériques). La recherche en cours
vise le volet transactionnel (cf. partie GEOIDE du projet), i.e. la resegmention
personnalisée d’un réseau sur demande et la modification sur demande du système de
référence spatiale (linéaire ou cartographique). La partie multidimensionnelle sera
réalisée en 2007 (i.e. volet agrégatif et analyses spatiales avancées).
Afin de peupler les cubes avec des données de qualité, il faut implanter des contraintes
d'intégrité lors de l'intégration et de l'agrégation des données sources. Dans un premier
temps, peu de méthodes formelles existent pour définir les contraintes d'intégrités
géospatiales, peu d’outils les supportent (ex. Radius Technology de LaserScan,
certaines fonctions réseau de SIG, JCS, etc.) mais aucune ne traite le volet agrégatif
des cubes. Les contraintes d’intégrité utilisent abondamment les matrices topologiques
d’Egenhofer et Herring (1994) ou de Clementini et Di Felice (1995) maintenant
reconnues dans la norme ISO-TC211 ou les capacités d'expression formelle en
langages UML, OCL ou autre. Cependant, rien n'a été fait à ce jour pour définir les
contraintes d'intégrité agrégatives géospatiales (il faut ici mentionner que
contrairement aux données non-spatiales, les données géospatiales agrégées peuvent
provenir d'une source distincte des données détaillées). Ce projet (cf. Projet 16) vise
donc à reprendre les travaux de notre équipe ayant conduit au prototype CSory, puis de
les adapter aux problèmes multidimensionnels. L’outil d'assurance qualité
décisionnelle a priori (i.e. CSory multidimensionnel) sera intégré à la suite de
prototypes basés sur le référentiel ISTory (projet 1). Les pictogrammes de Perceptory
seront également intégrés à la matrice ISO pour en accroître la capacité d’expression.
La recherche et le développement de cet outil sont débutés et se déroulent jusqu’en
2007.
7.4. Outils supportant la transition du système
Lors de l’opération du système, une des difficultés pour les utilisateurs est d'apprécier
la qualité des données qu'ils emploient. Cette problématique apporte plusieurs soucis
quant aux risques d'utilisation inadéquate, d'interprétation fautive, de résultats
incorrects voire de répercussions juridiques (Gervais 2003; Bédard et al. 2004). Les
méthodes actuelles reposent sur l'exploitation simple des métadonnées tant dans le
monde décisionnel que géomatique transactionnel. Un projet (cf. Projet 11) de
recherche conduira à un outil pour évaluer la qualité décisionnelle a posteriori qui
conseillera l'usager sur la qualité globale des données géospatiales visualisées, sur la
valeur d'indicateurs spécifiques de qualité, sur la qualité d'un type de données, pour un
secteur donné, pour une époque donnée, et ainsi de suite selon des critères qu'il aura
définis préalablement. Il s’agit d’une continuité du projet MUM pour lequel un article
de l’équipe du Dr Bédard vient de remporter le ESRI Award 2006 de l’American
Society of Photogrammetry and Remote Sensing. La recherche et le développement de
cet outil sont débutés et se dérouleront jusqu’en à 2007.
Des travaux sont en cours pour permettre des services web de création de minicubes
géospatiaux pour utilisation sur PDA. L’outil en résultant sera un module de services
web spécialisés (cf. projets 8 et 10).
D’autres travaux visant à améliorer les fonctions géodécisionnelles (ex. projets 7, 9 12,
17 et 22) sont présentement à leurs débuts, particulièrement concernant l’intégration de
métadonnées dans les cubes, la modification en temps réel du contenu de cubes, la
prise en charge des évolutions sémantiques pour de longues périodes temporelles,
l’utilisation de structures spatiales matricielles et de fonctions de Data Mining pour
peupler les cubes SOLAP. Il est probable que certaines de ces fonctions se
retrouveront dans les technologies utilisées par les partenaires de la chaire pour leurs
applications (ex. GEOLAP, JMap SOLAP, M3Cat, M3GO).
Tableau 9. Synthèse de la planification de développement des outils.
Projet
R&D
1
Nom de l’outil
Référentiel ISTORY
2005
●
2006
●
Échéancier
2007 2008
●
●
2009
●
2
Outil de définition des besoins géodécisionnels
●
●
●
●
●
3
Outil d'évaluation et de sélection de données sources (si
jugé approprié pour supporter la méthode)
●
●
●
●
●
4
Outil ontologique géospatial
●
●
●
●
●
●
●
●
●
8 et 10
Module de service web de création de minicubes
11
Outil pour évaluer la qualité décisionnelle a posteriori
●
●
●
13
Outil de modélisation multidimensionnelle
●
●
●
●
●
- Enrichissement des processus de production de
l’information (projet 5)
16
CSory, outil d'assurance qualité décisionnelle a priori
(contrainte d’intégrité spatio-temporelles pour cubes)
●
●
●
21
Outil d’intégration et d’agrégation des données
géospatiales
●
●
●
●
●
●
●
●
●
- RN-ETL spécialisé pour réseau routier
plusieurs
Fondations pour l’amélioration d’outils des partenaires
de la Chaire
●
●
8. Intégration des différents outils dans la chaîne de
production de données multidimensionnelles
proposée.
Dans cette section, l’ensemble des étapes de la chaîne de production des données
multidimensionnelles seront discutées en regard des outils utiles pour procéder à ces
étapes. La chaîne de production ayant déjà été introduite à la section 3.0, nous
discuterons directement des outils utiles pour produire les données
multidimensionnelles.
8.1. Bilan de la situation organisationnelle:
Cette étape consiste à évaluer les ressources humaines et matérielles de l’organisation
et d’évaluer les aspects de sécurité et de confidentialité des données.
À cette étape, peu de choses sont directement liées à proprement parler à la production
des données géospatiales décisionnelles, mis à part, si une architecture d’entrepôt de
données décisionnelles existe déjà sur place, on pourrait tenir compte des plateformes
utilisées pour identifier des formats de données à produire.
8.2. Exploration des données:
Cette étape consiste à inventorier les données, évaluer les besoins et si nécessaire
produire une maquette. Le résultat de l’analyse des besoins permet de produire la liste
des indicateurs et des analyses types.
8.2.1.
Inventorier les données :
L’étape d’inventaire des données est semblable au processus d’inventaire
relatif au développement d’une application transactionnelle, c’est pourquoi
les outils existant dans l’organisation pour produire un inventaire de données
descriptifs et spatiaux peuvent être utilisés.
De plus en plus, les produits commerciaux offrent un outil spécifique pour la
saisie des métadonnées des fichiers graphiques qui est intégré ou
complémentaire à leur outil SIG. Par exemple ESRI®ArcCatalogue permet
de saisir les métadonnées selon les normes ISO-TC211 et de les visualiser
ensuite selon différentes normes telle la norme Content Standard for Digital
Geospatial Metadata (CSDGM) du Federal Geographic data Committee
(FGDC). Aussi l’équivalent existe avec Geomedia® 6.0, il s’agit de Spatial
Metadata Management System (SMMS) qui permet la gestion des
métadonnées spatiales selon la norme CSDGM.
Il est aussi possible de se procurer un outil de gestion de métadonnées
disponible en gratuiciel sur le Web, tels Metadata Parser (US Geological
Survey), MetaScribe (NOAA Services Center) ou M3Cat®9 (Intelec
Géomatique). Ce dernier est développé par une compagnie québécoise
partenaire de notre Chaire industrielle et permet de documenter les
métadonnées des normes reconnues et de se développer un profil de
métadonnées personnel. Conçu sur une base de métamodèle, il offre un
niveau de flexibilité supérieur ainsi qu’un lien avec un outil de gestion des
ontologies également développé par Intélec (N.B. notre équipe a contribué
grandement à la conception de cet outil). Il existe des évaluations de certains
outils de métadonnées gratuits sur le site du Federal Geospatial Data
Committee10 .
Finalement, le développement d’un outil de gestion de métadonnées maison
est toujours intéressant puisqu’il permet de compléter plus facilement les
normes de métadonnées par des informations utiles pour le développement de
l’application. Au Centre de recherche en géomatique, un outil de gestion de
métadonnées a été développé l’été dernier pour le projet de recherche sur la
gestion intégrée des données géospatiales et non géospatiales multi-sources
pour le suivi environnemental des sites en érosion le long des infrastructures
routières en Gaspésie et aux Îles-de-la-Madeleine pour le Ministère des
Transports. Dans cet outil, des indications sur la nature des données ont été
ajoutées afin d’identifier facilement quelles données avaient un potentiel
multidimensionnel (ex. quelles pouvaient être agrégées, quelles avaient des
niveaux hiérarchies, quelles pouvaient définir un indicateur). Donc, par un
développement maison simple autour de MS-Access, nous avons ajusté
l’inventaire aux besoins multidimensionnels. Il faut noter ici que nous
n’avions pas besoin de prendre en compte une représentation graphique de la
couverture spatiale de chaque jeu de données (comme le fait M3Cat ou autres
outils de saisie de métadonnées pouvant servir également de géorépertoires).
Donc, à chaque occasion, il faut évaluer les besoins en terme d’inventaire et
ressources disponibles et choisir entre les trois options suivantes: utiliser tel
quel un outil existant, modifier un outil existant (lorsqu’ils le permettent) ou
en construire un. Chaque situation est différente.
De plus, plusieurs infrastructures de données géospatiales tant canadiennes
(Infrastructure canadienne de données géospatiales (ICDG)11 qu’américaines
(National Spatial Data Infrastructure (NSDI12) permettent de télécharger
gratuitement des jeux de données géospatiaux ainsi que leurs métadonnées. Il
est ainsi possible de compléter facilement les données que possède
l’organisation par celles-ci. Ceci peut même se faire automatiquement avec la
mise en place de services Web permettant la découverte automatique de jeux
9
http://www.intelec.ca/technologie_f.html#m3cat
10
http://www.fgdc.gov/metadata/geospatial-metadata-tools
11
http://www.geoconnexions.org/ICDG.cfm/fuseaction/aboutGcs.welcome/gcs.cfm
12
http://www.fgdc.gov/nsdi/nsdi.html
de données spatiaux à partir des métadonnées. Les spécifications OGC pour
les services de catalogue (OGC Catalogue Services Specification 2.0.1) Cette
spécification décrit les interfaces d'accès de services de catalogues. Ces
services permettent la publication de catalogues de métadonnées sur des
données spatiales, sur des services et autres ressources ainsi que la recherche
parmi les entrées de catalogues. Les services de catalogues permettent la
découverte de ressources enregistrées au sein d'une communauté.
Puisqu’aucun outil d’inventaire de données n’a été identifié par RDDC
comme étant à privilégier dans cette étude, un choix définitif devra être fait
lors de l’implantation de la chaîne de production de données géospatiales
décisionnelles.
8.2.2.
Évaluer les besoins et produire une maquette :
À cette étape, il est nécessaire de définir des analyses multidimensionnelles
types avec les usagers afin d’être en mesure de définir les indicateurs
d’analyse, les classifications, les thématiques et les vues appropriées pour les
données. La procédure normale d’évaluation des besoins des usagers consiste
à des entrevues avec les usagers. Malheureusement, aucun outil n’assiste
l’équipe dans ce processus, seule l’expérience de l’équipe de développement
est garante du succès de cette étape. Par conséquent, la chaire de recherche en
simplement dessiner sa maquette dans Powerpoint® en prenant soin de
dessiner les interfaces voulues dans un outil de dessin.
Lorsque les besoins des usagers sont définis, on poursuit généralement avec
la production d’une maquette qui permet de valider ces besoins avant le
développement de l’application. Les outils de maquettage permettent de
produire une maquette selon le visuel propre de l’application résultante. Pour
faire une maquette, on peut utiliser des outils bureautiques connus tels
Word®13 ou Visio® qui contiennent des gabarits de modélisation dont un
d’interfaces Windows permettant de maquetter rapidement une application
composée de fenêtres, boutons et menus déroulants. Autrement, on peut
simplement dessiner sa maquette dans Powerpoint® en prenant soin de
dessiner les interfaces voulues dans un outil de dessin.
Finalement, des outils de maquettage spécifiques peuvent être utilisés comme
Toolbook Instructor® ou Macromedia Director® qui permettent de créer des
animations interactives et des simulations de logiciels et de les distribuer sous
forme de pages web. Avec ces outils, l’équipe de développement peut créer
une simulation de l’application logicielle, y insérer des comportements, des
animations et de la navigation. L’équipe de développement peut par la suite
récupérer l’interface simulée pour l’appliquer pour le développement d’une
nouvelle maquette. Le degré de réutilisation des composantes de la maquette
13
Utiliser la barre d’outils « Contrôle toolbox » de Word.
devient alors plus important que dans le cas de maquettes dessinées avec des
outils bureautiques.
Il existe aussi des outils de maquettage dédiés à des technologies spécifiques.
L’équipe de la chaire a eu recours à l’outil de maquettage RAPT® (Syntell
4i) l’hiver dernier pour maquetter une application de tableau de bord. Ce
genre d’outil permet de produire rapidement une illustration des besoins des
usagers pour le développement d’un tableau de bord spatial. Par conséquent,
si l’outil de maquettage est flexible et extensible, une adaptation des gabarits
visuels de ces outils peuvent permettre de maquetter des applications pour
d’autres technologiques que la technologie dédiée. Ainsi, le développement
d’un gabarit visuel SOLAP permettrait l’utilisation de cet outil pour le
maquettage d’une telle application (il est actuellement limité à l’approche
tableau de bord et le volet spatial est limité aux fonctions de base). Ceci
constitue une orientation technologique à insérer dans les projets de la chaire
et permettra de tirer davantage profit des travaux de L.E. Guimond à ce sujet.
Aucun outil de définition des besoins et de maquettage semble être
actuellement utilisé au RDDC. Un choix définitif devra alors être fait lors de
l’implantation de la chaîne de production de données géospatiales
décisionnelles. La figure suivante fait la synthèse des outils pouvant être
utilisés dans la chaîne de production aux étapes d’exploration des données.
Figure 18. Outils pouvant être utilisés dans la chaîne de production des
données aux étapes d’exploration des données.
8.3. Conception du système :
8.3.1.
Modéliser les systèmes opérationnel et
multidimensionnel :
La modélisation est essentielle à la mise en place de bases de données
efficaces. Pour les données transactionnelles, il existe plusieurs formalismes
bien établis dont le standard UML avec ou sans extension pour les données
géospatiales. Par conséquent, plusieurs outils commerciaux existent et
assistent l’usager dans cette tâche, comme Micosoft Visio® avec son gabarit
UML, Oracle® Designer 2000, IBM® Rational Rose et Borland ®Together.
Par contre, afin d’accroître la productivité de la modélisation des données
spatiales transactionnelles, différentes solutions ont été avancées (ex.
Perceptory, MADS, ArgoGEOUML, GEOFRAME) mais seulement
Perceptory développé par l’équipe du Dr Bédard est utilisé dans plusieurs
pays pour des projets à l’extérieur du milieu académique. Plusieurs fonctions
propres aux données spatiales permettent d’améliorer l’offre des produits
UML standards (ex. modèles plus efficaces à créer et éditer, génération de
code pour SIG, génération de documents de spécifications, compatibilité
accrue avec les normes ISO-TC211)
Du côté décisionnel, aucun logiciel commercial ne semble couvrir cette tâche.
Il existe des propositions de formalisme conceptuel dans les projets de
recherche, mais rien encore de concret n’a été proposé à la communauté. Par
conséquent, la chaire BDGD travaille actuellement à intégrer à leur outil de
modélisation conceptuel Perceptory14 un formalisme de modélisation
multidimensionnel basé sur le formalisme UML étendu à la référence
spatiale. Actuellement, même sans le support d’un outil de modélisation, les
composantes UML actuelles de Perceptory peuvent être utilisées pour
modéliser tous les éléments multidimensionnels (cube, dimension, mesure,
niveau et membre). Les paquetages sont utilisés pour les cubes et les
dimensions alors que les classes sont utilisées pour décrire les mesures, les
niveaux et les membres. La méthode de modélisation prévoit trois niveaux
d’abstraction, soit les niveaux Cube (1), Dimension (2) et Membre (3). Le
premier niveau permet la description générale du ou des cube(s) de
l’application ainsi que de ses composantes (dimensions et mesures). Le
deuxième niveau permet la description détaillée des dimensions (hiérarchies
et niveaux). Finalement, le troisième niveau permet de décrire plus
spécifiquement les membres des dimensions. Pour de plus amples
information sur le formalisme et son application se référer au livrable 2 de ce
projet (cf. Rapport et démonstrateur technologique pour la création de
données, des métadonnées et leur utilisation).
Le support d’un outil de modélisation multidimensionnelle assistera l’usager
dans cette tâche en permettant de:
14
http://sirs.scg.ulaval.ca/perceptory
•
gérer la syntaxe du modèle (liens entre les cubes, dimensions,
niveaux et membres);
•
documenter les métadonnées de transformation et d’agrégation;
•
créer les modèles multidimensionnels à partir de modèles
transactionnels ou de bases de données source;
•
générer l’implantation (en schéma en étoile);
•
générer le code d’implantation de la base de données.
Ce sera la première solution du genre, i.e. intégrant à la fois les
préoccupations multidimensionnelles et spatiales et de plus, à partir d’UML.
Puisqu’aucun outil de modélisation de données n’a été identifié par RDDC
comme étant à privilégier dans cette étude parmi l’ensemble des outils
utilisés, un choix définitif devra être fait lors de l’implantation de la chaîne de
production de données géospatiales décisionnelles.
8.3.2.
Définir les contraintes d’intégrité
Afin de peupler le cube de données de qualité, il faut implanter des
contraintes d'intégrité lors de l'intégration et de l'agrégation des données
sources. Dans un premier temps, peu de méthodes formelles existent pour
définir les contraintes d'intégrités géospatiales. Plusieurs sont définies durant
la modélisation de la base de données (cf. étape précédente), mais cette façon
de faire est rapidement limitée et doit être réalisée de manière distincte pour
être efficace, particulièrement dans le cas des données géospatiales où des
milliers de possibilités existent et des choix stratégiques doivent être faits (ex.
outil CSory/G6 développés au CRG il y a quelques années suite aux projets
avec Géomatique Canada et Ressources Naturelles Québec sur des BD
d’envergure). Il s’agit alors d’un exercice en soi qui doit être supporté par une
méthode et un outil appropriés tel que démontré par différents travaux de
recherche antérieurs et actuels.
Dans un deuxième temps, rien n'a été fait à ce jour pour définir les contraintes
d'intégrité agrégatives géospatiales telles que retrouvées dans les cubes. Il
faut ici mentionner que contrairement aux données non-spatiales, les données
géospatiales agrégées peuvent provenir d'une source distincte des données
détaillées, les contraintes d’intégrités entre celles-ci deviennent d’autant plus
complexes à décrire. Pour ces raison, un outil d'assurance qualité
décisionnelle a priori (contrainte d’intégrité spatiale) est en cours de
conception et de développement dans le cadre de la chaire de recherche, le
tout basé sur CSOry/G6 et la matrice topologique 3x3 ISO enrichie des PVL
de Perceptory afin d’exprimer ce qu’elle ne peut exprimer présentement.
Aucun outil de définition de gestion des contraintes d’intégrités semble être
actuellement utilisé au RDDC. Un choix définitif devra alors être fait lors de
l’implantation de la chaîne de production de données géospatiales
décisionnelles
La figure suivante fait la synthèse des outils pouvant être utilisés dans la
chaîne de production à l’étape de conception.
Figure 19. Outils pouvant être utilisés dans la chaîne de production des
données aux étapes de conception de système.
8.4. Réalisation du système :
8.4.1.
Choix des plateformes et implantation de l’architecture
du système.
À cette étape, il faut choisir l’architecture OLAP qui supportera le système et
par conséquent les plateformes logicielles (SGBD, OLAP) associées.
Toutefois, les efforts reliés au calcul des agrégations et à la gestion des mises
à jour de la base de données multidimensionnelle varieront selon le type
d’architecture OLAP choisi. Si l’architecture retenue est Multidimensionnelle
ou Hybride OLAP, le serveur OLAP assistera l’usager dans la structuration
de la base de données multidimensionnelle, effectuera le calcul des
agrégations des données et permettra la gestion des mises à jour de la base de
données multidimensionnelle. Ces serveurs ne disposent toutefois pas
d’opérateurs spatiaux et ne permettent pas souvent de lier des primitives
géométriques pour supporter la cartographie. Si par contre l’architecture
retenue est relationnelle OLAP, il n’y a pas de serveur OLAP d’impliqué
mais le lien avec les primitives cartographiques ainsi que l’utilisation
d’opérateurs spatiaux est alors possible. La base de données doit être
structurée sans assistance et le recours à une équipe d’analystes expérimentée
est souhaitable. Ensuite, les agrégations devront être précalculées et stockées
dans la table de faits. Selon la complexité du cube de données, le nombre de
combinaisons impliquées et le volume de données total, le calcul des
agrégations peut rapidement devenir une tâche longue et complexe.
L’utilisation des index relationnels permet d’optimiser l’accès aux données,
mais la taille du cube ROLAP demeure assez importante.
Finalement, sans serveur OLAP la mise à jour incrémentielle de la base de
données multidimensionnelle requiert des programmes maison afin de lancer
périodiquement les calculs d’agrégations des données selon la fréquence de
rafraîchissement souhaitée par les usagers. Cette tâche devient rapidement un
obstacle à l’utilisation des structures ROLAP si la fréquence de
rafraîchissement des données est plus courte que le temps de calcul requis
pour effectuer les agrégations et les indexer. Il devient alors avantageux
d’utiliser un serveur MOLAP qui gère le rafraîchissement des agrégations, en
réduit le temps de traitement et leur volume de par sa structure optimisée. Par
contre, aucun serveur MOLAP ne supporte les données spatiales et les
opérateurs spatiaux. Il faut donc une structure parallèle pour le stockage des
données spatiales. Des travaux de la chaire ont toutefois débuté afin
d’extensionner le langage multidimensionnel MDX (utilisé par SQL-Server,
Syntell 4i, Mondrian, etc.) avec des opérateurs spatiaux et ainsi permettre de
tenir compte automatiquement des données spatiales dans un serveur
MOLAP.
Puisqu’aucun système de gestion de bases de données (SGBD) et systèmes
d’information géographiques (SIG) n’ont été identifié par RDDC comme
étant à privilégier dans cette étude, un choix définitif devra être fait lors de
l’implantation de la chaîne de production de données géospatiales
décisionnelles. Par contre, le choix définitif d’une technologie SGBD fera en
sorte de limiter le choix de l’architecture OLAP possible pour l’application.
Par contre, les technologies OLAP de Syntell 4i et JMAP ont déjà été testées
par RDDC dans le projet GEOLAP comme serveur d’application analytique.
La figure suivante fait la synthèse des différentes architectures OLAP
possibles pour la réalisation du système selon les technologies OLAP et
SOLAP étudiées à la section 4.0.
Figure 20. Différentes architectures OLAP possibles pour la réalisation du
système.
8.4.2.
Développer le système
Peu importe le choix de l’architecture retenue, une application OLAP se doit
d’être structurée selon ce type de modèle à la base. Des opérations
particulières sont donc nécessaires afin de structurer les données selon la
structure multidimensionnelle (ex. modèle étoile, en flocon ou en
constellation) modélisée au préalable. D'abord, il faut importer les données
composant les membres des dimensions dans leurs tables respectives.
Ensuite, il faut stocker les identifiants des éléments parents afin de concrétiser
la relation de hiérarchie entre les niveaux de la dimension. Par la suite, à
l’aide des données du système transactionnel, il faut peupler la table des faits.
Pour se faire, il faut créer les identifiant uniques, peupler les identifiants des
niveaux inférieurs (i.e. les plus détaillés) de toutes les dimensions et les
informations correspondants aux mesures du cube (ex. nombre de bâtiments,
nombre de personnes et nombre de lignes électriques). Il faut aussi gérer
l’évolutivité des données et l’historique de celles-ci, c’est pourquoi dans
l’implantation de structures multidimensionnelles complexes, le recours à une
équipe de développement expérimentée est nécessaire.
À notre connaissance, il n’existe pas encore d’outil permettant de générer une
structure multidimensionnelle à partir de la modélisation faite au préalable.
C’est pourquoi l’outil de modélisation Perceptory développé par la Chaire
permettra par son générateur de code de produire cette structure selon le
SCGB relationnel choisi (cf. 8.3.1). Par contre, l’ensemble des outils de
modélisation du marché pourrait être utilisé pour la modélisation
multidimensionnelle en prenant soin de générer manuellement la structure
multidimensionnelle requise.
Le module « administrateur » du logiciel OLAP retenu permet d’effectuer les
configurations de la base de données multidimensionnelle. Par exemple, dans
le cas de la technologie JMAP® Spatial OLAP, l’administrateur permet de
configurer la connexion à la base de données source structurée selon une
structure multidimensionnelle ROLAP et configurer les cubes en définissant
leurs composantes (i.e. définir les dimensions, les hiérarchies, lier les
dimensions à la table de fait et déterminer les mesures). Il est aussi possible à
partir de l’administrateur de créer de nouvelles mesures (dites calculées) dans
le cube de données à partir des mesures de base stockées.
Puisqu’aucun outil de modélisation de données n’a été identifié par RDDC
comme étant à privilégier dans cette étude, un choix définitif devra être fait
lors de l’implantation de la chaîne de production de données géospatiales
décisionnelles.
La figure suivante fait la synthèse des outils pouvant être utilisés dans la
chaîne de production à l’étape d’implantation de la structure
multidimensionnelle.
Figure 21. Outils pouvant être utilisés dans la chaîne de production des
données à l’étape d’implantation de la structure multidimensionnelle.
8.4.3.
Extraire, transformer et charger les données :
8.4.3.1.
Données descriptives :
L’étape d’extraction, de transformation et de chargement (ETL) des données
est une étape cruciale dans le processus de production de données
décisionnelle (cf. section 6.0). Plusieurs outils ETL commerciaux existent
pour traiter les données descriptives. Très souvent, les serveurs de bases de
données multidimensionnelles en possèdent un qui lui est intégré, comme
c’est le cas de Microsoft SQL Server® avec Data transformation Services.
Aussi, les serveurs OLAP incluent très souvent dans leur suite de produits un
outil ETL comme Cognos ® Data Integration ou SAS® Enterprise ELT
Server. Aussi, la documentation des transformations appliquées sur les
données est primordiale si on veut bien comprendre le résultat des analyses
produites. Ces outils commerciaux ont souvent un outil de métadonnées
intégré au serveur OLAP ou un outil complémentaire réalisant cette tâche,
comme Cognos® BI Metadata Integration. Malheureusement, à ce jour,
aucun outil ETL pour les cubes de données n’existe et les outils non-spatiaux
ne peuvent pas traiter les données spatiales. Il s’agit ici d’un important
élément de recherche de notre chaire industrielle.
Comme mentionné précédemment les efforts reliés à la réalisation, la
structuration des données multidimensionnelle et à l’agrégation des données
varient selon le type d’architecture OLAP choisi. Sans serveur OLAP, les
agrégations doivent être précalculées et stockées dans la table de faits. Pour
précalculer les agrégations des données, l’usager peut avoir recours à un
logiciel statistique comme SAS® ou développer son programme d’agrégation
maison. À l’aide d’un algorithme combinant les dimensions entre-elles, il est
possible de faire calculer la somme, la moyenne, le minimum ou le maximum
d’une mesure et de la stocker à la suite des autres faits dans la table de faits.
A ce jour cependant, aucun calcul spatial n’est effectué.
8.4.3.2.
Données géospatiales :
Suite à ces constats, il faut tout d’abord faire judicieusement le choix des
sources de données spatiales et non spatiales à intégrer car elles auront un
impact important sur les efforts déployés et la qualité des résultats. En regard
aux différentes contraintes (budget, délais, expertise), il faut identifier les
sources de données de qualité qui nous permettront avec un minimum
d’efforts et de temps d’obtenir la donnée résultante souhaitée avec la qualité
souhaitée. De toute évidence, il n’existe pas encore d’outil qui permettraient
d’assister l’usager dans ces choix et d’évaluer ainsi la meilleure source de
données géospatiales à utiliser selon ses besoins. C’est pourquoi un tel outil
d'évaluation et de sélection de données sources est prévu dans le
développement de la Chaire de recherche, lequel supportera la méthode
actuellement en cours de développement.
Les produits ETL pour le traitement des données spatiales sont plus rares et le
traitement de ces données est beaucoup plus complexe. Lorsque vient le
temps de structurer les données géospatiales, un outil comme Feature
Manipulation Engine (FME) de Safe Software (cf. section 6.0) est tout
indiqué pour produire les données géospatiales décisionnelles.
Quoiqu’aucunement destiné au peuplement de cubes de données spatiales, il
peut être utilisé pour plusieurs fonctions. Plusieurs manipulations simples
peuvent également être faites dans un outil SIG (ex. changement de format de
données, de projection et de datum, fusion de polygones), par contre l’outil
FME permet de décrire le processus de transformation appliqué sur les
données à l’aide d’une séquence de processus qui peut servir à elle seule de
documentation. Différentes opérations doivent être réalisées afin d’intégrer
les données géospatiales, comme uniformiser le datum et le système de
projection de tous les jeux de données.
Comme le processus d’agrégation de données géospatiales nécessaires pour
produire les couches spatiales requises pour les dimensions spatiales des
SOLAP peuvent être complexes, le développement d’un outil d’intégration et
d’agrégation des données géospatiales est planifié dans les travaux de la
Chaire afin de couvrir spécifiquement cette tâche au lieu d’utiliser des outils
SIG ou d’intégration de données comme FME. Ceci permettra d’automatiser
davantage l’ensemble des opérations requises. La première partie d’un tel
outil spécialisé pour les réseaux routiers, appelé RN-ETL, est d’ailleurs en
développement dans notre équipe. Le projet RN-ETL consiste en la
conception et le développement d’une méthode générique et d’un logiciel
permettant la transformation (intégration/agrégation) de données routières
selon des paramètres personnalisables. Disponible sous forme d’un service
Web interopérable, cette application constituera un sous-ensemble de services
ETL (Extract–Transform–Load) pour la création de cubes de données
géodécisionnelles, mais spécialisée sur deux aspects pour le volet
transactionnel: la resegmentation sur demande et le transfert des données
routières entre différents systèmes de référence spatiale (linéaires et
géographiques).
Puisqu’aucun outil ETL n’a été identifié par RDDC comme étant à privilégier
dans cette étude, un choix définitif devra être fait lors de l’implantation de la
chaîne de production de données géospatiales décisionnelles. Seul GDAL
avait été identifié par RDDC comme étant utilisé pour transformer des
données matricielles. Aucun outil de transformation de données vectoriel
n’avait été identifié.
La figure suivante fait la synthèse des outils pouvant être utilisés dans la
chaîne de production à l’étape d’ETL.
Figure 22. Outils pouvant être utilisés dans la chaîne de production des
données à l’étape d’extraction, de transformation et d’intégration.
8.4.4.
Tester la validité du processus ETL.
Avant de mettre une telle application entre les mains des usagers, il faut
s’assurer que les données produites sont de qualité. Pour ce faire, FME
possède des fonctionnalités de validation des données spatiales qui peuvent
être utilisées (mais qui devraient être testées auparavant, spécialement pour
les opérations de type agrégatif et généralisant). Afin de compléter ces
fonctionnalités selon les besoins spécifiques des données géospatiales
décisionnelles, un outil pour évaluer la qualité décisionnelle externe (cf.
fitness-for-use) a posteriori sera développé dans la chaire de recherche en
continuation des travaux du projet de manuel à l’usager multidimensionnel
(MUM). Ce projet avait pour objectif le développement d’un outil permettant
de limiter les risques de mauvaise utilisation des données géospatiales en
indiquant des indicateurs de qualité sur les métadonnées.
Aucun outil de définition de test de validité ne semble être actuellement
utilisé au RDDC. Un choix définitif devra alors être fait lors de
l’implantation de la chaîne de production de données géospatiales
décisionnelles
La figure suivante fait la synthèse des outils pouvant être utilisés dans la
chaîne de production à l’étape de tests de validation.
Figure 23. Outils pouvant être utilisés dans la chaîne de production des
données à l’étape des tests de validation.
La figure suivante présente dans une figure synthèse l’ensemble des outils
utiles pour traverser les étapes du processus de production des données
géospatiales décisionnelles.
Exploration des données
Inventaire des
données
• ESRI
• ArcCatalogue
• Geomedia SMMS
• Metadata Parser
• MetaScribe
• M3Cat
• Outil maison
• Services de
catalogue OGC
Réalisation du système
Conception
Analyse des besoins
et maquettage
• Microsoft Word
• Microsoft Visio
• Microsoft Powerpoint
• ToolBook Instructor
• Macromedia Director
• Syntell 4i RAPT
• Outil de définition des
besoins géospatiaux
décisionnels (Chaire)
Extraction, transformation et
d’integration des données
spatiales
Contraintes
d’intégrité
Modélisation
• Perceptory
• Micosoft Visio avec
son gabarit UML
• Oracle Designer
2000
• IBM Rational Rose
• Borland Together
• Outil de
Implanter l’architecture OLAP
• Outil
d'assurance
qualité
décisionnelle a
priori (Chaire)
Geomedia
ESRI ShapeFile
Extraction
• FME
• Geospatial Data Abstraction (GDAL)
• JUMP
• Java Topology Suite
• Outil d'évaluation et de sélection de
Architecture ROLAP
Algorithme de calcul
des agrégations
Algorithme de mise à
jour des données
MID-MIF
modélisation
multidimensionnelle
(Chaire)
données sources (Chaire)
Oracle spatial
Bases de
données
JDBC
Autres
Admin SOLAP
Client Jmap
Spatial OLAP
Transformatio
• FME
• JUMP
• Java Conflation Suite
• DVP Vectorization
• DVP Image Batch Processing
• RN-ETL- Outil d’intégration et
Star schema
Architectures MOLAP
MID-MIF
Microsoft
SQL
Server
Données géospatiales utilisées au RDDC
Compressed
ARC Digitized
Raster
Graphics
ERDAS
Geomedia
Vector Map
MID-MIF
ESRI ShapeFile
Oracle spatial
Autres formats
ArcGIS
SAP
BW
Microsoft
SQL
Server
ESRI Shapefile
Oracle spatial
Autres
Microsoft
Serveur
SQL
Syntell 4i Server
SAP
BW
Autres
BD …
• Outils en développement
• Outils utilisés au RDDC
• Outils développés par les
partenaires de la chaire.
Serveur OLAP
Client SAS
Web OLAP
for Java
Microsoft
SQL
Server
Autres
BD …
Bases de
données
JDBC
ArcGIS
MID-MIF
Power
Cubes
Oracle
Serveur OLAP
Client
Syntell 4i
Hyperion
Essbase
Autres
BD …
Serveur OLAP
Star schema
Implanter la
structure
multidimensionelle
• Perceptory
• Micosoft Visio avec
son gabarit UML
• Oracle Designer
2000
• IBM Rational Rose
• Borland Together
• Outil de
modélisation
multidimensionnelle
(Chaire)
Star schema
Données descriptives utilisées au RDDC
d’agrégation des données
Intégration
Architectures HOLAP
MID-MIF
MS
Access
Client
Proclarity
Geomedia
Digital Terrain
Elevation Data
(DTED)
Oracle
Serveur OLAP
• FME
• Java Conflation Suite
• JUMP
• RN-ETL- Outil d’intégration et
d’agrégation des données
Extraction, transformation et
integration des données
descriptives
• SAS (Calcul des aggregations ROLAP)
• SQL Server Data transformation
Services
• Syntell 4i SynLoader
• SAS Enterprise ETL Server
Client
Cognos BI
Tests de validité
• FME
• MUM- Outil
d'assurance qualité
décisionnelle a
posteriori (Chaire)
9. Conclusion
Cette étude visait à identifier les besoins spécifiques pour la mise en place d’un
système multidimensionnel qui s’introduit dans une démarche d’envergure d’entrepôt
de données spatiales ou de petits comptoirs de données spatiales. Plusieurs
technologies se côtoient lorsque vient le temps de préparer les données géospatiales
décisionnelles, le processus de production de ces données est donc davantage
complexe à mettre en œuvre que pour les données non-spatiales. Ceci est
particulièrement vrai pour chaque étape qui nécessite d’ajouter, d’enrichir ou de
changer des méthodes et des outils. Sans de tels outils, il est possible de faire des
applications qui exploitent la référence spatiale mais avec davantage d’efforts et de
plus grandes limitations. Le plein potentiel de la référence spatiale n’est possible
qu’avec des méthodes et outils adaptés. Les avantages qui en découlent, et
particulièrement la possibilité de comprendre les phénomènes étudiés de façon
beaucoup plus complète et de découvrir des informations autrement impossibles à
découvrir, justifient les efforts de R&D dans cette direction. Ce besoin et la pertinence
des solutions avancées ont été évalués et chaudement supportés par différents
chercheurs et organismes subventionnaires majeurs.
Le présent rapport propose donc une chaîne de production de données géospatiales
multidimensionnelles intégrant différents outils et méthodes, existant ou en
développement. Pour ce faire, les technologies déjà utilisées par RDDC pour produire
des données géospatiales ont été évaluées pour la production de données
multidimensionnelles. De nouvelles solutions commerciales pouvant être d’un grand
intérêt pour RDDC ont aussi été proposées ainsi que des propositions d’outils logiciels
planifiés dans le programme de R&D de la chaire de recherche, lesquels impliquent les
partenaires industriels de la chaire dont certains sont également des partenaires de
RDDC. Les outils de RDDC, de la chaire et de leurs partenaires industriels qui sont
impliqués dans une telle chaîne incluent la suite Syntell 4i (Syntell) dont l’application
GEOLAP (RDDC), JMAP SOLAP (Kheops Technologies), M3CAT (Intélec), DVP
Vectorization et DVP Image batch processing (Groupe Alta).
Aussi une autre avenue de recherche importante est la production de base de données à
représentations multiples. Différentes méthodes de saisis ont été développées afin de
permettre de nouvelles possibilités pour la généralisation cartographique à la volée et
la cartographie web sur demande. Premièrement l’introduction de patrons
géométriques lors de la saisie à représentation multiple est une première voie de
recherche (Cardenas, 2004; Sabo et al, 2005). Ensuite, l’enrichissement de méthodes
photogrammétriques pour l’acquisition 3D (Fredericque et al, 2005) en est une autre.
Par conséquent, l’application de ces méthodes peuvent permettre d’aider à construire
des cubes spatiaux plus riches que ce qu’il est possible de faire présentement en
adaptant le peuplement de cube géospatiaux dès le départ.
Fort de cet inventaire, la définition d’une chaîne de production des données
multidimensionnelles a été introduite et l’intégration des outils discutés précédemment
a été faite à l’intérieur de la chaîne de production.
10. Références
1. Badard, T. et A. Braun. Plate-forme GeOxygene – Guide utilisateur. Institut
Géographique National, mars 2005.
2. Bédard,Y., M.J. Proulx & S. Rivest, 2005, Enrichissement du OLAP pour
l'analyse géographique : exemples de réalisation et différentes possibilités
technologiques, Revue des Nouvelles Technologies de l'Information - Entrepôts
de données et l'Analyse en ligne, sous la direction de F. Bentayeb, O. Boussaïd, J.
Darmont et S. Loudcher, Cépaduès-Éditions, France, pp. 1-20 »
3. Bédard, Y., S. Larrivée, M.-J. Proulx, F. Létourneau & P.-Y. Caron, 1997, Étude
de l'état actuel et des besoins de R&D relativement aux architectures et
technologies des data warehouses appliquées aux données spatiales, Rapport de
recherche remis au CRDV, 98p., Mars.
4. Cardenas, A. ,2004, Utilisation de patrons géométriques comme support à la
généralisation automatique. MSc Thesis, Laval University, Dept. Geomatics
Sciences, Quebec, Canada, 77 pp.
5. ESRI GIS Dictionary, février 2006,
http://support.esri.com/index.cfm?fa=knowledgebase.gisDictionary.gateway
6. Exeros, 2005, Solution Brief, The Economics of Data Integration: Making
Integrated Data Strategies Economically Viable, White Paper, 6 pages.
7. Geoxygene, 2006. http://oxygene-project.sourceforge.net/index.html
8. JCS Conflation Suite User Guide, Vivid Solutions, novembre 2003.
9. Martel, C., 1997. Analyse des capacités et limites de MGE/Map Generalizer pour
la généralisation des cartes routières, Rapport produit dans le cadre du cours
Projet de levés intégrés, Département des sciences géomatiques, Université Laval.
10. Martel, C., 1999. Développement d'un cadre théorique pour la gestion des
représentations multiples dans les bases de données spatiales, Thèse de Maîtrise,
Département des sciences géomatiques, Université Laval.
11. Proulx, MJ, Bernier, E. et Bédard, Y., 2006, Exploration d’applications
décisionnelles à la Direction des inventaires forestiers : Développement d’un
tableau de bord et d’une application Spatial OLAP (SOLAP), Rapport de R&D,
Centre de recherche en géomatique, Université Laval, mars, 69 pages.
12. Sabo M.N, A. Cardenas, Y. Bédard & E. Bernier (2005). Introduction du concept
de patron géométrique et application aux bâtiments afin de faciliter leur
généralisation cartographique à la volée. Geomatica, Journal of the Canadian
Institute of Geomatics, Vol. 59, No. 3, pp. 295-311.
13. Safe Software (produits FME), 2006. http://www.safe.com/
14. Vivid Solutions (produits JTS, JCS et JUMP), 2006.
http://www.vividsolutions.com/
Annexe A- Lecture suggérée 1.
Bédard Y., M.J. Proulx & S. Rivest, 2005, Enrichissement du OLAP pour l'analyse
géographique : exemples de réalisation et différentes possibilités technologiques,
Revue des Nouvelles Technologies de l'Information - Entrepôts de données et l'Analyse
en ligne, sous la direction de F. Bentayeb, O. Boussaïd, J. Darmont et S. Loudcher,
Cépaduès-Éditions, France, pp. 1-20.
Enrichissement du OLAP pour l'analyse géographique:
exemples de réalisations et différentes possibilités
technologiques
Yvan Bédard*, Marie-Josée Proulx**, Sonia Rivest ***
Chaire industrielle CRSNG en bases de données géospatiales décisionnelles
Centre de recherche en géomatique,
0611 Pavillon Casault,
Département des Sciences géomatiques
Faculté de Foresterie et de Géomatique
Université Laval, Québec, Canada,
G1K 7P4
*[email protected]
http://sirs.scg.ulaval.ca/YvanBedard
**[email protected]
***[email protected]
Résumé. D'importants efforts sont déployés depuis une quinzaine d'années pour mettre en
place des systèmes d'aide à la décision sur le territoire. Ces systèmes reposent toutefois
sur les systèmes d'information géographique (SIG) et les approches transactionnelles
habituelles (OLTP) pour produire l'information géodécisionnelle, souvent avec des délais
inacceptables, voire des coûts prohibitifs au point d'en laisser tomber la production. Par
conséquent, les nouvelles applications Spatial OLAP (SOLAP) arrivent à point pour
permettre efficacement le déploiement d’applications d’aide à la décision et d’exploration
des données géographiques. Cet article vise à faire connaître les besoins et avantages liés
aux applications SOLAP, particulièrement à l'exploration cartographique des données.
Puisque de telles applications n'ont pratiquement pas été abordées par la communauté
informatique, cet article délaisse les aspects scientifiques traditionnels du OLAP déjà
bien couverts par cette dernière au profit d'exemples concrets d'applications SOLAP et
d'un survol des principaux concepts propres à celles-ci. Notamment, une catégorisation
en trois familles de solutions y est proposée, soit OLAP-dominant, SIG-dominant et
intégrée. Chaque exemple d'application y est positionné et les avantages d'une
technologie SOLAP y sont présentés. Riche de ces expériences, nous terminons avec
quelques "difficultés cachées" de la référence spatiale qui font l'objet de nos
préoccupations de recherche.
Introduction
Partout dans le monde, de nombreuses organisations dépensent des sommes colossales en
acquisition de données localisées sur le territoire. La production cartographique, l'établissement de
relations avec les bases de données internes à l’organisation et l'analyse spatiale de ces données
relèvent du domaine de la géomatique qui représente un marché annuel de plusieurs dizaines de
milliards d'euros. Cependant, les données ainsi produites sont surtout de nature opérationnelle et
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
difficiles à exploiter à des fins décisionnelles, fins qui demandent des informations multisources,
agrégées, des comparaisons dans l'espace et le temps, des synthèses, des mesures de tendances, des
réponses rapides à des requêtes imprévues, etc. D'importants efforts sont déployés depuis une quinzaine
d'années pour mettre en place des systèmes d'aide à la décision géospatiale, mais ces systèmes reposent
sur les systèmes d'information géographique (SIG) et les approches transactionnelles habituelles
(OLTP) pour produire l'information géodécisionnelle, souvent avec des délais inacceptables, voire des
coûts prohibitifs au point d'en laisser tomber la production. Cette situation nuit à la prise de décision
tactique/stratégique (ex. déploiement des ressources, de nouvelles infrastructures) et devient
particulièrement problématique en situation d'urgence où tout retard peut avoir des impacts majeurs.
Cette difficulté de produire l'information géospatiale décisionnelle provient de cinq problèmes : (1) des
méthodes inadéquates de conception de bases de données géospatiales à fins décisionnelles, (2) la
difficulté, voire l'impossibilité d'agréger et synthétiser automatiquement des données cartographiques
hétérogènes, (3) la difficulté d'évaluer la qualité de l'information géospatiale agrégée, (4) une sousexploitation des technologies de l'information et des communications par la communauté géomatique,
et (5) un manque de technologies décisionnelles géospatiales efficaces. Le présent article traite de ce
dernier point, particulièrement de l'analyse spatiale en ligne (SOLAP).
Il est déjà reconnu que pour soutenir leurs processus décisionnels, les organismes déploient des
entrepôts de données et utilisent des outils clients spécifiques afin d'accéder, visualiser et analyser leurs
données intégrées. Puisqu'une grande partie de ces données peut avoir une composante spatiale (ex.
position GPS, adresse civique, polygone cartographique), de nouveaux outils sont nécessaires pour
profiter pleinement de la position et la forme des phénomènes analysés. Il a été démontré [Caron 1998]
que les technologies OLAP sans visualisation et navigation cartographiques présentent d'importantes
limitations pour l'analyse de phénomènes géographiques et spatio-temporels comme on en rencontre en
environnement, foresterie, agriculture, urbanisme, sécurité, transport, etc. Malheureusement, cette
solution prévaut encore aujourd'hui malgré que différentes possibilités existent pour développer des
applications d'analyse spatiale en ligne (appelées "applications SOLAP").
L'objectif de cet article est de présenter ces différentes possibilités tout en mettant l'accent sur la
solution la plus évoluée : la "technologie SOLAP". Ainsi, la prochaine section résume les besoins
spécifiques au monde géodécisionnel et présente les opportunités qui conduisent depuis 1997, au
développement d’applications SOLAP avec différentes solutions (ex. combinaisons SIG + OLAP,
technologie SOLAP). La troisième section définit la technologie SOLAP et présente certains concepts
spécifiques aux données spatiales accompagnés d'exemples d’applications. La quatrième section
présente les différentes méthodes de développement d’applications SOLAP, incluant l'utilisation de la
technologie Spatiale OLAP et chaque exemple d'application y est positionné. Finalement, nous
concluons avec des avenues de recherche importantes pour le développement d’applications SOLAP du
point de vue de géomaticiens spécialisés sur la donnée géospatiale.
Les besoins spécifiques du géodécisionnel.
Les données emmagasinées dans les entrepôts de données forment la base des analyses et guident
l’organisation dans sa prise de décision. Cependant, les données ne sont pas toujours exploitées selon
leur plein potentiel et une partie de leur richesse, c'est-à-dire, leur composante spatiale, est souvent
inutilisée. "Hidden in most data is a geographical component that can be tied to a place : an address,
postal code, global positioning system location, (…) region or country" [ESRI 2000]. En effet, il est
estimé qu’environ quatre-vingt pour cent des données stockées dans les bases de données corporatives
possèdent une référence spatiale [Franklin 1992], laquelle référence peut inclure, en plus de la position,
une forme, une orientation et une taille. La simple visualisation de cette composante spatiale permet de
répondre à un premier besoin, soit de mieux comprendre le phénomène en question en voyant sa
position dans un cadre de référence géographique, en voyant son étendue sur le territoire, en voyant sa
distribution sur le territoire (concentrée, dispersée, par groupes, aléatoire, régulière, etc.). Une telle
visualisation permet de découvrir des informations non disponibles dans les outils OLAP traditionnels,
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
soit des modes de distribution géographique du phénomène ne suivant pas les découpages territoriaux
prédéfinis comme membres d'une dimension (ex. nom du pays, nom de la région, nom de la ville).
L'utilisation de la composante spatiale permet également de répondre à un deuxième besoin, soit de
découvrir des relations spatiales entre différents phénomènes géographiques (ex. corrélation spatiale
entre une fréquence d’une maladie X et un taux d'émission d'un polluant Y). Cette découverte peut se
faire par visualisation même si une corrélation ne suit pas la hiérarchie de la dimension territoriale telle
que définie dans le cube de données (i.e. dont la délimitation géographique est uniquement identifiée
par un nom de lieu, comme pays – province - région administrative). Cette découverte peut également
se faire par l'ajout de plusieurs découpages territoriaux ou l'ajout de dimensions d'analyse spatiale
[Marchand et al 2004]. Souvent, l’affichage cartographique révèle des informations (ex. proximité
entre deux phénomènes isolés, étendue d’un phénomène, forme d’un phénomène longeant une rive,
orientation des phénomènes selon un flanc de montagne) qui n’auraient pas été soupçonnées en faisant
appel à d’autres méthodes de représentation telles que les tableaux et les graphiques.
Un troisième besoin majeur dans un contexte d'analyse spatiale en ligne est celui de pouvoir
naviguer dans une carte aussi librement que ce que permet un outil OLAP dans les tableaux et
graphiques statistiques. Ainsi, l'utilisateur a besoin de pouvoir regarder les détails d'une région d'intérêt
grâce à un forage spatial, comparer ces détails avec ceux d'une autre région qui n'est pas adjacente,
découvrir s'il y a des caractéristiques communes entre les distributions spatiales du phénomène dans ces
deux régions, remonter à une vision plus globale pour comparer un phénomène local avec un
phénomène national, voir l'évolution du phénomène sur le territoire sans être restreint au découpage
géographique de la dimensions spatiale utilisée, obtenir des valeurs statistiques spatiales et temporelles
sur l'évolution de ce phénomène, etc. Beaucoup de connaissances géographiques peuvent être obtenues
par l'utilisation appropriée de la visualisation et de la navigation cartographique à la OLAP, et ceci
même pour des références spatiales non prévues dans le cube de données.
L'utilisation de la carte comme médium d'exploration de données permet d'avoir un modèle
informatisé se rapprochant davantage de la réalité de l'utilisateur et conséquemment lui demandant un
moins grand effort d'abstraction, ce qui accroît son efficacité. L'utilisation de la cartographie impose
également une utilisation plus judicieuse, grâce à la sémiologie graphique [Bertin 1977, Tufte 1992],
des variables visuelles telles que la couleur, la teinte, le poids des traits et la trame, mettant ainsi en
action de façon plus efficace les principales facultés corticales (mot, image, nombre, couleur,
conscience spatiale, etc.). Les cartes se prêtent mieux que les tableaux et graphiques statistiques à
l'ajout de codes, symboles et couleurs significatifs permettant de mieux supporter l'exploration
interactive des données.
La possibilité de naviguer dans la carte permet de chercher des associations, favorisant la
découverte de relations spatiales insoupçonnées et potentiellement la construction d'un nouveau cube de
données avec un découpage différent du territoire. Une application SOLAP, comparativement à une
application OLAP, réveille davantage notre capacité de visualisation exceptionnelle car la capacité de
perception et de réflexion du cerveau humain, tout comme sa mémoire, relèvent du domaine de l'image.
Plusieurs études, dont principalement celle de Standing [1973], ont démontré que la capacité de
rétention de la mémoire est beaucoup plus grande pour les images que pour les mots [Fortin et
Rousseau 1989] et que pour les chiffres. Selon [Buzan et Buzan 2003], "les images sont donc souvent
plus évocatrices que les mots, plus précises et plus aptes à déclencher un vaste éventail d'associations".
L'application de la théorie soutenue par ces deux auteurs et de plusieurs autres recherches sur le cerveau
(ex. [Standing 1973]) nous amène à déduire que l'effet stimulant que procurent les cartes incite à une
meilleure exploration des données en gardant le cerveau plus alerte, en encourageant un meilleur
rythme visuel, en développant davantage la conscience spatiale et en améliorant la vision globale.
Pour obtenir une telle efficacité avec les données géospatiales, plusieurs défis doivent être
surmontés et des avenues de recherche importantes doivent être adressées puisque certains aspects
demeurent problématiques. Alors que certaines avenues relèvent davantage de l'informatique
traditionnelle (ex. indexation et compression des données), d'autres relèvent typiquement de la
géomatique (ex. généralisation cartographique, représentation multiple, précision spatiale, sémiologie
cartographique, intégration et agrégation spatiale).
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
De toute évidence, les outils client actuellement utilisés pour exploiter les entrepôts ne sont pas
adaptés aux entrepôts de données géospatiales, car ils n’exploitent pas la structure géométrique des
données [Han et Kamber 2001]. Certes, ils peuvent être utilisés, mais sans la capacité de manipuler la
composante cartographique, ils ne peuvent pas supporter d’analyses ni d'explorations avancées [Rivest
et al 2003].
De nouveaux outils client sont requis pour exploiter le plein potentiel de cette composante
cartographique. Les systèmes d’information géographique (SIG) qui permettent d'assembler, stocker,
manipuler et afficher l'information à référence spatiale [Longley et al 2001] représentent un premier
candidat potentiel. Par contre, malgré ses capacités d’analyse spatiale poussées, il est reconnu que le
SIG seul, avec son architecture OLTP limitée, souffre d'un interface de requête complexe et de temps
de réponse lents aux requêtes agrégatives, en plus de ne pas offrir les fonctions temporelles et
navigationnelles nécessaires pour soutenir l’aide à la décision. Des solutions alternatives doivent être
développées [Bédard et al 2001]. Dans un premier temps, l'utilisateur doit pouvoir se concentrer sur
l'information recherchée (le "quoi") et non pas sur les opérations nécessaires pour y parvenir (le
"comment"). Dans un deuxième temps, pour être efficace, le processus de prise décision doit suivre le
flux de pensée de l’utilisateur. Il ne doit pas être interrompu par des manipulations complexes et des
temps de réponse trop longs. Les requêtes spatiales, la navigation, l'affichage des cartes avec niveau de
détail et la sémiologie graphique appropriée, ainsi que la synchronisation entre les vues
cartographiques, tabulaires et graphiques doivent s'effectuer à l'intérieur de 10 secondes, soit à
l'intérieur de la bande cognitive identifiée par [Newell 1990]. Ce haut niveau de convivialité associé à
une interactivité très fluide sont nécessaires pour naviguer à la vitesse de la pensée [Vitt et al 2002].
Enfin, le tout représente en soi un défi majeur pour les SIG lorsqu’ils sont utilisés seuls. Ainsi, parmi
les solutions potentielles, le couplage des technologies spatiales et non-spatiales, comme SIG et OLAP,
semble être une bonne option et a été expérimenté par notre équipe depuis 1997. Ce couplage a pavé la
voie à l’émergence d’une nouvelle famille d’outils mieux adaptée pour les analyses spatiales et
spatiotemporelles, c’est-à-dire les technologies SOLAP. Cette nouvelle famille est conçue dès le départ
pour exploiter les entrepôts de données spatiales multiéchelles, l'enrichissement des concepts
d'exploration de données en fonction d'une référence spatiale explicite et le paradigme
multidimensionnel, ce qui lui procure plusieurs avantages sur les simple couplages SIG-OLAP.
Qu’est-ce qu'une technologie SOLAP ?
La technologie SOLAP peut être définie comme "un type de logiciel qui permet la navigation rapide
et facile dans les bases de données spatiales et qui offre plusieurs niveaux de granularité d'information,
plusieurs thèmes, plusieurs époques et plusieurs modes d'affichage synchronisés ou non : cartes,
tableaux et diagrammes " [Bédard 2004]. La technologie SOLAP supporte la structure
multidimensionnelle telle qu'utilisée en informatique décisionnelle, ce qui lui confère un immense
avantage sur les logiciels de déploiement d’application cartographique sur le Web (ex. ArcIMS,
GeoMedia WebMap, MapX), même lorsque ceux-ci offrent des opérations appelées forage (ex.
Push’n’See [Korem 2005]), car ces derniers sont basés sur une structure transactionnelle. La
technologie SOLAP offre aussi de nouvelles fonctions d’aide à la décision non disponibles dans les
SIG traditionnels ni dans les outils OLAP (cf. section 3.2). Malgré une histoire courte, le SOLAP
atteint déjà un premier niveau de maturité avec ses propres concepts, technologies et applications.
Une technologie SOLAP permet la visualisation cartographique des données, la navigation
cartographique dans la carte elle-même ou dans les symboles affichés sur cette carte et ceci selon
différents types de forage. Dans une technologie SOLAP la création des cartes résultantes des analyses
est dynamique, contrairement à certains logiciels de visualisation OLAP (ex. Visualizer de Cognos) où
chacune des opérations de navigation spatiales (ex. forage) doit être prédéfinie dans l’application et
associée à une carte. Cette limitation complexifie la mise à jour des données géométriques en
répartissant l’information sur plusieurs cartes. De plus, un tel outil SOLAP gère adéquatement les
règles de représentation cartographique des résultats des analyses sur les cartes. Par conséquent,
l’utilisation d’un tel outil ne nécessite pas le support d’un expert en cartographie même s'il permet à
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
l'utilisateur de créer des centaines de milliers de cartes différentes par quelques clics de souris. Dans la
présentation des résultats, la technologie SOLAP utilise les mêmes règles sémiologiques (ex. couleur,
trame, contour) pour l'ensemble des affichages, i.e. tableaux, graphiques et cartes. Cela permet d’avoir
une synchronisation visuelle entre les différents modes de présentation de l’information et d'avoir un
panorama homogène. La sémiologie graphique utilisée pour les différents types d’affichage (i.e.
tableaux, graphiques et cartes) demeure synchronisée lors d’un forage ou lors d’autres opérations,
conservant ainsi une continuité perceptuelle nécessaire à la découverte de corrélations.
Enfin, il faut distinguer les applications SOLAP des technologies SOLAP. Une technologie SOLAP
est une technologie générique construite spécialement pour offrir des fonctions SOLAP de base ou plus
avancées sans nécessiter d’efforts de programmation. Le premier produit commercial SOLAP est le
résultat des travaux de notre laboratoire et est commercialisé sous le nom de JMap Spatial OLAP
[KHEOPS 2005]. Une application SOLAP est une application métier qui fournit à l'utilisateur un
certain nombre de fonctionnalités de type SOLAP et qui peut être construite soit avec la technologie
SOLAP, soit avec des combinaisons de technologies non-SOLAP (ex. SIG et OLAP) et du code de
programmation maison, ou soit avec d'autres technologies (ex. librairies en Java).
Applications SOLAP réalisées avec différentes technologies.
Les outils SOLAP peuvent être utilisés pour déployer une multitude d’applications. À travers les
différents projets de recherche, notre équipe a développé plusieurs applications dans un but
d'expérimentations technologiques diverses et d'identification des lacunes des technologies du marché.
Une des premières expériences a été réalisée en foresterie et a fait appel à deux produits fonctionnant en
parallèle sans interface commune, soit PowerPlay de Cognos et GeoMedia d'Intergraph. Nous avons
également expérimenté l'utilisation d'un logiciel de visualisation scientifique qui semblait offrir les
fonctions recherchées, soit AVS (Advanced Visual Systems) [AVS 2005], mais avons abandonné cette
piste après plusieurs mois de développement car la gestion des objets géométriques était déficiente lors
de son utilisation en 1999 (ex. surfaces avec des trous, surfaces composées de polygones disjoints), le
langage de programmation était propriétaire et le résultat devenait trop lourd à maintenir dans notre
contexte. Par contre, une autre application fut développée pour aider les gestionnaires à distribuer les
budgets de maintenance du réseau routier en se basant sur les périodes budgétaires, les conditions
routières, la classification des routes, le flux de circulation, etc. En plus de croiser, visualiser et explorer
les informations requises, le cube permet de simuler la dégradation de la chaussée et de calculer les
coûts de différents types de maintenance [Rivest et al 2001]. La figure 1 présente cette application qui
fut développée avec l’outil OLAP ProClarity [ProClarity 2005], SQL-Server Analysis Services de
Microsoft et l’API de GeoMedia WebMap avec une interface commune développée en Visual Basic.
Une autre application en transport permet d'analyser les données relatives aux différents types
d'accidents en fonction de leur position sur le réseau routier et des caractéristiques de celui-ci, le tout en
fonction de différentes périodes [cf. Rivest et al 2004]. La figure 2 illustre cette application cette foisci déployée avec une technologie SOLAP, soit JMap Spatial OLAP [KHEOPS 2005] et Oracle 10g.
Contrairement aux autres solutions, celle-ci ne nécessitait pas de développement supplémentaire pour
l’interface à l'usager puisque cette technologie SOLAP inclut l'interface. Les détails des différentes
méthodes utilisées pour ces applications SOLAP sont donnés à la section 4.
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
FIG. 1. Une application de gestion du réseau routier (ProClarity et GeoMedia WebMap) :
Visualisation de l’état de la chaussée au niveau des segments de route.
FIG. 2. Une application sur les accidents sur le réseau routier (JMap Spatial OLAP et Oracle 10g) :
Visualisation de la fréquence des accidents par découpage territorial (en haut) et selon les types
d’accidents (en bas).
Une application en santé environnementale permet d’explorer les relations entre les états de santé et
les phénomènes environnementaux, comme l’incidence des maladies respiratoires en fonction de la
qualité de l’air pour rapidement valider ou invalider une hypothèse [cf. Bédard 2002]. La figure 3
présente cette application développée par programmation en Visual Basic, MS Access et la librairie du
logiciel de visualisation cartographique SoftMap et la même application à la figure 4 développée avec
ProClarity, SQL-Server Analysis Services de Microsoft et KMapX [Knosys 2000] et une interface
commune développée en VBScript.
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
FIG. 3. Une application en santé environnementale (Visual Basic et librairie de SoftMap) :
Visualisation des cas de décès de maladies respiratoires.
FIG. 4. Une application en santé environnementale (ProClarity et KMapx).
Visualisation des cas de décès des maladies respiratoires.
Une application sur la cohorte d’étudiants inscrits ces 15 dernières années à l'Université Laval
permet une analyse par programmes d’étude, provenances géographiques, institutions de provenance,
etc. afin de mieux planifier les prochains efforts de recrutement [cf. Proulx et Bédard 2004]. Une
application relative aux sports de haut niveau permet d'analyser les performances (vitesse, vitesse
maximale, durée, constance) atteintes par des athlètes de patinage de vitesse sur différentes sections de
la piste et selon différents facteurs techniques (ex. type de départ), mécaniques (ex. type de patin) et
météorologiques (ex. vitesse et direction du vent), le tout à partir de mesures prises par système de
positionnement satellitaire GPS [cf. Veilleux et al 2004] . Les figures 5 et 6 illustrent ces deux
applications déployées avec la technologie JMAP Spatial OLAP et Oracle 10g.
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
FIG. 5. Une application sur la cohorte d’étudiants (JMap Spatial OLAP) : Visualisation des étudiants
par provenance géographique.
FIG. 6. Une application sur les performances des athlètes de patinage de vitesse (JMap Spatial OLAP)
: Visualisation de la vitesse moyenne des patineurs sur la piste (gauche) et par segments de parcours
(droite).
Plusieurs autres domaines d’applications ont été explorés par notre équipe, tels que la sécurité
publique et le transport maritime. Récemment, des applications en SOLAP 3D sur la gestion des forêts
et les fouilles archéologiques mettent à profit l’aspect tridimensionnel de l’espace, c’est-à-dire les
volumes. Dans l’application en archéologie, il est possible de naviguer dans les différentes unités
stratigraphiques fouillées afin de comparer les lots de fouille entre eux en fonction de leur couleur, de
leur granulométrie, de leur consistance, de leur position géographique et stratigraphique et du type
d’artéfacts (ex. céramique) trouvés dans le lot [Fortin et Bédard 2004]. La figure 7 illustre l’application
d’archéologie où les lots sont représentés comme des volumes (i.e. en trois dimensions) [Rageul 2004].
La figure 8 présente une application sur la gestion des forêts qui permet de visualiser sur un modèle
tridimensionnel, les volumes de bois, les perturbations naturelles, les essences végétales, etc [Brisebois
2004]. Ces deux projets sont basés sur une interface développée en Visual Basic utilisant le SIG ESRI
ArcGIS, le client OLAP ProClarity et le serveur OLAP SQL-Server Analysis Services de Microsoft.
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
FIG. 7. Une application tridimensionnelle en archéologie (ESRI ArcGIS et ProClarity) : Visualisation
des lots fouillés sous la forme de volume.
FIG 8. Une application tridimensionnelle pour la gestion des forêts (ESRI ArcGIS et ProClarity) :
Visualisation des chablis sur le modèle 3D.
Vocabulaire du monde SOLAP
Comme c'est le cas pour toute technologie et norme géospatiale moderne, les concepts apportés ici
reposent sur les concepts informatiques standards et apportent les extensions nécessaires pour effectuer
de nouvelles fonctions ou pour améliorer l'exécution des fonctions existantes. Ainsi, en comparaison au
modèle multidimensionnel conventionnel, le modèle multidimensionnel spatial comprend aussi des
faits et des dimensions non-spatiales. Par contre, comme nous le décrivons ci-après, il existe aussi des
dimensions spatiales de différents types, des mesures spatiales et des opérations spatiales. Sans aller
dans les détails, nous en présentons les principaux concepts dans les sous-sections qui suivent.
ƒ
Dimensions spatiales
Le SOLAP possède des capacités de manipulation de données spatiales qui supportent des
dimensions spatiales non-géométriques, géométriques et mixtes en plus des dimensions non-spatiales
[Han et al 1998; Bédard et al 2001]. La dimension spatiale non-géométrique utilise la référence spatiale
nominale seulement (ex. les noms des lieux) et aucune représentation cartographique n’est associée aux
membres de la dimension. Ce type de dimension spatiale est couramment utilisé dans les outils OLAP
conventionnels. Les deux autres types de dimension spatiale incluent des formes géométriques
référencées spatialement sur une carte qui permettent aux membres de la dimension d’être visualisés et
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
interrogés d’une manière cartographique. Ces géométries existent pour tous les niveaux de la dimension
spatiale géométrique ou pour seulement certains niveaux dans le cas d’une dimension spatiale mixte.
La figure 9 présente les trois types de dimensions spatiales.
FIG. 9. Les trois types de dimensions spatiales supportées par le SOLAP.
Une autre catégorie de dimension à caractère spatial, plutôt atypique, est parfois créée pour faciliter
la navigation dans les cubes à l'aide d'opérateurs topologiques spatiaux (ex. adjacent, inclus, intersecte)
ou temporels (ex. précède, en même temps, durant). Nous appelons de telles dimensions les dimensions
d'opérateurs topologiques spatiaux, temporels ou spatio-temporels. En faisant correspondre les
opérateurs à des membres, il devient facile de préciser avec plus ou moins de détail la relation désirée
entre différents phénomènes (ex. inclus -> inclus totalement -> inclus totalement sans partage de
frontière). Une telle dimension d'opérateurs a été utilisée avec succès pour l'analyse des déplacements
de radios amateurs [Marchand et al 2004] et pour notre application en archéologie.
ƒ
Mesures spatiales
Dans un contexte multidimensionnel spatial, il n’y a pas que les dimensions qui possèdent une
composante géométrique, mais aussi les mesures. Par conséquent, en plus des mesures
conventionnelles supportées dans les systèmes OLAP, il existe les mesures spatiales [Rivest et al,
2001].
Le pointeur spatial est le type de mesure spatiale le plus connu [Han et al 1998]. C’est la méthode
utilisée par les technologies SIG pour gérer la composante géométrique des objets spatiaux. Il s’agit
d’un ensemble de pointeurs (stockés dans le cube de données) vers la géométrie d’un objet spatial
stockée dans une autre structure que la structure multidimensionnelle.
Le second type de mesure spatiale est la transposition au monde spatial de la mesure
conventionnelle du OLAP. Elle permet de dériver des valeurs à l’aide d’un opérateur métrique ou
topologique d'analyse spatiale dont le résultat sera ensuite stocké dans le cube de données (ex. surface
d’un objet, distance minimale avec l'objet le plus proche, cumul de longueurs sur un réseau).
Finalement, la dernière mesure spatiale consiste à générer des données géométriques sous la forme
d’un ou plusieurs objets spatiaux obtenus par la combinaison de dimensions spatiales géométriques (ou
mixtes en utilisant les niveaux où les membres possèdent une géométrie). Il s’agit d’un ensemble de
coordonnées obtenu à partir des opérateurs d’analyses spatiaux d’un SIG, par exemple les coordonnées
d'un point, ligne ou polygone résultant de l’intersection spatiale des membres de plusieurs dimensions.
Ainsi en est-il des polygones résultant de l’intersection des polygones délimitant les membres des
dimensions spatiales frontières politiques et bassins versants.
ƒ
Opérateurs spatiaux de navigation
Finalement, les outils SOLAP possèdent des opérateurs de navigation pour explorer via la carte
l'ensemble des données spatiales. Les opérateurs spatiaux de navigation proposent différents forages,
dont le forage spatial, le remontage spatial et le forage latéral spatial. L’opérateur de forage spatial
permet à l’usager de naviguer d’un niveau général à un niveau plus détaillé à l’intérieur d’une
dimension spatiale géométrique (ex. cartographier les régions sous-jacentes composant un pays). Une
opération de remontage permet la navigation inverse, c'est-à-dire de remonter d’un niveau détaillé des
données vers un niveau plus général (ex. cartographier les données nationales sus-jacentes à une
région). Finalement, un opérateur de forage latéral permet de visualiser les différents membres du
même niveau de détail d’une dimension spatiale (ex. cartographier pour mieux comparer les mesures de
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
la région sud par rapport à celles de la région nord). Ces opérateurs sont utilisés directement sur la
carte.
Les opérateurs spatiaux de navigation peuvent s’appliquer sur un objet individuel (ex. visualiser les
régions composant l’objet Canada) ou s’appliquer à l’ensemble des objets d’un niveau de détail (ex.
visualiser l’ensemble des régions composant le niveau Pays).
Approches pour le développement d'applications SOLAP
Cette section décrit, à partir des travaux de Rivest [Rivest 2000], trois familles de solutions
technologiques pour le développement et l’implantation d’une application SOLAP, basées sur les
technologies utilisées et les fonctionnalités disponibles. Ce regroupement en trois familles origine de la
diversité des technologies pouvant être utilisées pour remplir les fonctions descriptives et
cartographiques d’une application SOLAP. Les fonctions du volet descriptif peuvent évidemment être
supportées par un serveur OLAP conventionnel ou par un SGDB relationnel ou objet-relationnel avec
structure en étoile, en flocon ou en constellation. Les avantages d'un serveur OLAP pour le volet
descriptif incluent les fonctionnalités d’agrégation de données et les capacités optimisées d’accès aux
données, ce qui augmente la rapidité d’analyse pour les grands volumes de données. Les fonctions du
volet cartographique peuvent, quant à elles, être supportées par un logiciel de visualisation
cartographique, un logiciel de cartographie assistée par ordinateur (CAO) ou un SIG.
Les trois familles de solutions basées sur les technologies et fonctionnalités disponibles sont : (1) les
solutions OLAP dominant, (2) les solutions SIG dominant, et (3) les solutions intégrées ou hybrides qui
font appel autant aux fonctions OLAP que SIG [LGS Group 2000]. Au sein de cette classification,
c'est l’outil dominant qui offre ou qui fait appel à certaines fonctionnalités minimales de l’autre outil.
Parfois, l'outil dominant fournit l’unique interface graphique de l’application SOLAP, parfois l'interface
unique peut être développée avec un langage de programmation (ex. Java, VB, C++). Pour les deux
premières familles, un groupe de fonctionnalités domine largement l'autre groupe et l'application est
développée autour de l'outil dominant. Inversement, dans le cas de la solution intégrée, les
fonctionnalités tant OLAP que SIG sont offertes à un niveau supérieur, l'interface graphique principale
est unique et construite au-dessus des technologies sous-jacentes (i.e. OLAP et SIG) et l'application
SOLAP est développée pour tirer profit de l'intégration des fonctions OLAP et SIG. Dans ce dernier
cas, lorsque ces fonctionnalités et l'interface principale forment un produit logiciel autonome (ex. JMap
Spatial OLAP [KHEOPS 2005]), nous parlons d'une technologie SOLAP (similairement à la situation
relative à la technologie SIG vs le couplage des technologies CAO et SGBD). Les trois familles de
solutions répondent à des besoins différents. Dans le premier cas, le volet cartographique n'est
qu'accessoire. Dans le deuxième cas, c'est le volet OLAP qui est accessoire. Dans le dernier cas, les
deux volets sont jugés importants et leur coordination ou synchronisation est une particularité clé de
cette technologie.
Solutions OLAP dominant
Ce type de solution procure toutes les fonctionnalités d’un outil OLAP, il est donc implicite qu’une
telle solution utilise les capacités d’un serveur OLAP. Par contre cette solution n'intègrera qu’un très
faible sous-ensemble des fonctions d’un SIG, généralement les fonctions d’affichage, de navigation
cartographique (ex. déplacement et changement d'échelle) et de sélection d’éléments géométriques.
Les fonctions d’analyse spatiale, de synchronisation cartes-tableaux-graphiques, de modification de
cartes, etc. ne sont pas disponibles pour ce type de solution qui peut être qualifiée d’application
géospatiale périphérique où la référence spatiale n’est utilisée que comme support à la visualisation
d’analyses non-spatiales [Bédard et al 1997]. Certaines fonctions minimales de forage spatial peuvent
parfois être offertes et permettent alors de développer des applications SOLAP intéressantes.
Des alliances entre compagnies OLAP et SIG font en sorte de faciliter le développement de telles
applications. Un premier exemple de partenariat est celui de ProClarity [ProClarity 2005] et MapInfo.
ProClarity est un logiciel client OLAP qui permet de manipuler des bases de données
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
multidimensionnelles (cubes) créées à l’aide d’Analysis Services de Microsoft SQL Server. ProClarity
permet de visualiser les données descriptives d’un cube sous différentes formes graphiques telles que
des tableaux et autres diagrammes. Le plugiciel KMapX, basé sur la technologie MapX de MapInfo,
permettait la visualisation et le forage sous forme cartographique des données géométriques associées à
une dimension spatiale géométrique du cube. Un fichier de configuration permettait de définir les
données spatiales géométriques à coupler à une des dimensions d’un cube. Un partenariat récent entre
les compagnies MapInfo et Microstrategy [BI.com 2004] pourrait bien offrir une solution similaire à
court terme et, selon les fonctionnalités offertes, devenir une offre de la troisième famille (i.e.
intégrée). Un autre produit disponible sur le marché et très représentatif de cette première famille est le
logiciel Visualizer de Cognos. Visualizer est un logiciel de visualisation de données pouvant provenir
de sources diverses telles qu’un serveur OLAP ou une base de données relationnelle. Visualizer permet
d’afficher les données descriptives d’une base de données multidimensionnelle sous forme de différents
types de diagrammes. Le logiciel permet aussi l’affichage cartographique des données spatiales d’une
dimension par le biais de la technologie MapX de MapInfo.
Par contre, une faiblesse principale de cette famille de solutions, outre le temps de programmation
requis, se situe au niveau du nombre de dimensions spatiales géométriques supportées. En effet, les
deux logiciels ne permettent de visualiser qu’une seule dimension spatiale à la fois, ce qui élimine la
possibilité d’étudier des corrélations spatiales. De plus, certains outils (ex. Visualizer) ne sont pas
flexibles au niveau de la construction du volet de visualisation cartographique car chacune des
opérations OLAP spatiales doit être prédéfinie et associée à une nouvelle carte, ce qui complexifie la
mise à jour de ces cartes. En fait, il y a autant de cartes différentes que de vues cartographiques
possibles, ce qui rend une telle approche utilisable uniquement dans un contexte de mises à jour peu
fréquentes et ne nécessitant pas d'interopérabilité.
Solutions SIG dominant
Un serveur OLAP peut être simulé à l’intérieur d’une base de données relationnelle par le biais de la
modélisation en étoile. Lorsque le volume de données à consulter est peu élevé, cette solution peut
s’avérer très avantageuse, puisque les calculs d’agrégation peuvent s’effectuer de manière sélective et
contrôlée à l’aide de requêtes SQL sur la base de données. Ces requêtes peuvent alors être adaptées en
fonction des besoins d’un projet particulier, en évitant par exemple de calculer les agrégations nonsignificatives ou en permettant de joindre les tables impliquées dans les requêtes de manière plus
flexible que ne le permettent habituellement les serveurs OLAP qui utilisent des fonctions d’ « inner
join ». Par contre cette solution doit inclure, dans la base de données, des éléments permettant de gérer
la réalisation d’opérations OLAP telles que le forage et le remontage puisqu’il n’existe pas de serveur
OLAP pour gérer ces opérations.
Les solutions SIG dominant offrent toutes les fonctionnalités de l’outil SIG, mais seulement un
sous-ensemble des fonctionnalités de l’outil OLAP (ex. limitations dans le pivot des dimensions et le
forage cartographique). Cette solution couple une base de données relationnelle simulant un serveur
OLAP à un logiciel SIG ou à un outil de visualisation de données spatiales. L'interface graphique à
l'usager ainsi que les fonctions de forage tant sémantiques que spatiales doivent alors être
programmées. De même en est-il pour les fonctions d’analyse spatiale et temporelle, de la
synchronisation cartes-tableaux-graphiques, etc.
Solutions intégrées
Ce type de solution, intégrant les fonctionnalités d’un outil OLAP et d’un SIG, pourrait être qualifié
d’application centrée-géospatiale où la référence spatiale des objets est utilisée constamment dans
l’exploration et l’analyse des données, de façon aussi libre qu'avec les dimensions non-spatiales
[Bédard et al. 1997].
Ce type de solution est utile lorsque l’application doit s'intégrer dans un environnement géomatique
à fort flux de données (ex. pour les mises à jour cartographiques, l'interopérabilité) ou nécessite
l’utilisation de fonctions spécifiques au SIG, comme par exemple les opérateurs d’analyse spatiaux. Les
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
solutions de cette famille sont réalisables soit à l’aide des librairies de fonctions de logiciels client
OLAP et de logiciels SIG, soit à l’aide de technologies SOLAP. Dans le premier cas, le développement
d’une telle solution est possible moyennant beaucoup de programmation ad hoc à l’intérieur d’un cadre
applicatif spécifique. Pour ce faire, certaines technologies OLAP, tels que ProClarity de ProClarity et
Essbase d’Hyperion rendent disponibles leurs librairies de fonctions et d’objets pour la réalisation
d’applications spécifiques à l’aide de langages de programmation courants comme Visual Basic ou
C++. Il est alors possible de développer une extension OLAP à intégrer au logiciel SIG comme
MapInfo, ArcView d’ESRI et GeoMedia d’Intergraph qui permettent l’utilisation de leurs librairies de
fonctions avec les produits MapX, MapObjects et GeoMedia respectivement. De plus, le produit
OpenMap qui consiste en un ensemble de composantes Java dédiées à la manipulation des données
spatiales géométriques [OpenMap 2005], peut aussi être utilisé pour le développement du volet SIG.
Une technologie SOLAP permet quant à elle d’intégrer l’ensemble des fonctionnalités OLAP et
SIG, voire de les enrichir. L'interface graphique met à disposition de l’usager des fonctions de forage
tant spatial que sémantique, des fonctions d’analyse spatiale, de séries cartographiques temporelles, etc.
Les bénéfices de l’utilisation d’un tel outil sont nombreux au niveau de la manipulation et de la mise a
jour des données cartographique car on a ici accès à un SIG. D’un autre coté, le couplage entre le volet
géométrique et descriptif des données est déjà programmé, le temps de développement d’une telle
application est donc réduit au minimum. Des outils de navigation cartographique permettent de forer
dans les cartes d’une manière synchronisée avec les autres types d’affichages (ex. tableaux et
diagrammes). Un transfert technologique entre l’Université Laval et la compagnie québécoise
KHEOPS Technologie, propriétaire de la solution SIG-Web JMap, a permis de développer la première
solution commerciale intégrée de SOLAP (printemps 2005).
Les trois familles de solutions exposées dans cette section présentent un parallèle avec l'évolution
de l'intégration CAD-SGBD vs SIG qui eut lieu durant la décennie 1985-95 [Bédard 1991]. Nous
rencontrons encore aujourd'hui les différents types d'intégration SGBD-CAD et SIG et chaque type
d'intégration répond à des besoins et des contextes différents. Enfin, il est possible de grouper
différemment les solutions présentées, soit : avec ou sans programmation ad hoc pour le développement
de solutions SOLAP. Les principales difficultés liées à la programmation ad hoc découlent de la
complexité d'une interface à l'usager qui soit efficace et élégante ainsi que du temps requis pour cette
programmation qui doit être adaptée à chaque nouvelle application.
Positionnement des applications réalisées
Afin d’illustrer l’éventail des applications réalisées dans nos laboratoires, chacune des applications
présentées à la section 3.1 sera positionnée dans leur famille de solution respective. Premièrement,
l’application de santé environnementale (cf. figures 4) développée avec ProClarity et le plugiciel
KMapX, ainsi que l’application sur la gestion du réseau routier (cf. figure 1) développée avec
ProClarity et GeoMedia WebMap d’Intergraph font partie de la catégorie des OLAP dominant. Bien
qu’intéressantes, ces applications auraient nécessitées beaucoup plus de programmation maison pour
atteindre les niveaux de fonctionnalité et de flexibilité offerts par les solutions intégrées.
Ensuite, l’application de santé environnementale (cf. figures 3) développées par programmation
Visual Basic à partir du SGBD MS Access et du logiciel de visualisation cartographique SoftMap fait
partie de la famille des SIG dominant. Cette application a exigé davantage d’efforts de programmation
que les solutions OLAP dominant précédentes étant donné l’absence de serveur OLAP pour la gestion
des données multidimensionnelles.
Les applications tridimensionnelles sur la gestion des forêts et ainsi qu’en archéologie (cf. figures 7
et 8) font partie de la catégorie des SOLAP intégrés, puisqu’un SIG a été utilisé pour la gestion des
objets volumétriques qui était l’intérêt principal de l’application. L’outil OLAP ProClarity a été retenu
pour la gestion du descriptif. Finalement, les applications des figures 2, 5 et 6 ont nécessité très peu
d’effort de développement, puisqu’elles ont été déployées dans une solution SOLAP intégrée toute
prête, soit la version précommerciale de l’outil JMAP Spatial OLAP utilisant Oracle Spatial comme
base de données. Le tableau 1 permet de positionner graphiquement les différentes applications selon
leur catégorie, qu’elle requiert des efforts de programmation ou non (out-of-the-box).
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
OLAP
Dominant
SIG
Dominant
Solution
toute prête
(out-of-the-box)
Solution
nécessitant de
programmer
SOLAP
Intégré
2,5,6JMap Spatial
OLAP
4- ProClarity/ KMapX,
1- ProClarity/ GeoMedia
WebMap
3- SoftMap/
Visual Basic
7,8-ArcGIS/
Proclarity
TABLEAU 1. Positionnement des applications (cf. numéro des figures)
selon les trois familles de solutions potentielles et leur degré de programmation.
Conclusion
L'objectif de cet article était de faire découvrir les différentes possibilités de développement
d’applications SOLAP tout en mettant l'accent sur la "technologie SOLAP". Par conséquent, pour bien
comprendre les enjeux du développement de telles applications, un résumé des besoins spécifiques du
monde géodécisionnel a été présenté ainsi que quelques éléments du vocabulaire SOLAP. Notre
objectif n'était pas de décrire le tout d'une façon trop formelle et scientifique, mais plutôt de véhiculer
un message sur le fort potentiel du SOLAP jusqu'ici négligé par la communauté informatique. Des
exemples concrets d’applications SOLAP développées à notre centre de recherche ont donc été
présentés non pas comme catalogue de nos réalisations mais pour mieux illustrer ce potentiel et
soutenir le reste de l'article. Trois familles de solutions possibles ont ainsi été décrites pour réaliser de
telles applications SOLAP et nous y avons positionné nos applications. Les principales limitations des
différentes familles ont été discutées, chaque famille pouvant découler de contextes particuliers.
Le développement d’applications SOLAP requiert encore des efforts de recherche importants
puisque certains aspects demeurent problématiques. Plus particulièrement du point de vue géomatique
(i.e. des problèmes liés à la donnée géospatiale), notons la quasi-impossibilité de générer
automatiquement les niveaux agrégés d'information cartographique pour les cubes à partir des données
cartographiques fines (cf. limitations de la généralisation cartographique automatique), la discordance
entre l'agrégation cartographique et la généralisation cartographique (nécessaire pour assurer la
visibilité de la carte), la très grande hétérogénéité spatiale des données (ex. les cartes ne se superposent
jamais correctement), l'enrichissement nécessaire des méthodes de conception pour prendre en compte
la difficulté de production des données géospatiales, la prise en compte des processus complexes de
mise à jour cartographique pour le peuplement des cubes de données géospatiales décisionnelles, le
contrôle des nombreuses métadonnées géospatiales (plus de 400 dans la norme internationale de
métadonnées ISO-19115 [ISO, 2002]), contradiction vs synchronisation entre les règles de sémiologie
graphique utilisées en cartographie vs graphiques statistiques, gestion de l'évolution des découpages
territoriaux vs évolutions sémantiques vs mesures, et ainsi de suite. C'est au développement de
solutions à ce type de problème que nous concentrons nos efforts, en complémentarité avec la
communauté informatique pour les aspects fondamentaux OLAP.
Remerciements
Les auteurs tiennent à remercier les organisations suivantes pour le financement de la Chaire
industrielle en bases de données géospatiales décisionnelles : Conseil de Recherche en Sciences
Naturelles et en Génie du Canada, Recherche et Développement Défense Canada, Hydro-Québec,
DVP, Intélec Géomatique, Holonics, KHEOPS Technologies, Syntell, Ressources Naturelles Canada,
Transports Québec et l’Université Laval.
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
Références
[AVS 2005] Data Visualization and Visual Analytics, http://www.avs.com/index_wf.html
[BI.com 2004] BusinessIntelligence.com, 2004. MapInfo and MicroStrategy Deliver Location-Enabled
Business
Intelligence,
September
2004,
http://www.businessintelligence.com/ex/asp/id.606/xe/binewsdetail.htm
[Bédard 1991] Bédard, Y., 1991, Les logiciels SIG : une évolution via l'intégration de données
multisources, Journal de la Société Française de Photogrammétrie et de Télédétection, No. 122, p.
58-63
[Bédard et al 1997] Y. Bédard, S. Larrivée, M.-J. Proulx, P.-Y. Caron, F. Létourneau, 1997. Geospatial
Data Warehousing : Positionnement technologique et stratégique, Rapport préparé pour le Centre
de recherche de la défense de Valcartier, Université Laval, 79 pp.
[Bédard et al 2001] Y. Bédard, T. Merrett, J. Han, 2001. Fundamentals of Spatial Data Warehousing
for Geographic Knowledge Discovery, Geographic Data Mining and Knowledge Discovery, Taylor
& Francis, Research Monographs in GIS, Chap. 3, p. 53-73
[Bédard et al 2002] Y. Bédard, P. Gosselin, S. Rivest, et al, 2002. Integrating GIS Components with
Knowledge Discovery Technology for Environmental Health Decision Support, International
Journal of Medical Informatics,Vol. 70, No. 1, p. 79-94
[Bédard 2004] Y. Bédard, 2004. Amélioration des capacités décisionnelles des SIG par l'ajout d'un
module SOLAP. Université de Provence, Centre de Mathématiques et Informatique, LSIS,
Marseille, 8 avril.
[Bertin 1977] J. Bertin, 1977. La graphique et le traitement graphique de l'information, Flammarion
Paris, 273 p.
[Buzan et Buzan 2003] T. Buzan, B. Buzan, 2003. Mind Map, dessine-moi l'intelligence, 2è édition.
Éditions de l'Organisation, Paris, 325 p.
[Brisebois 2004] Analyse du potentiel d'extension du concept SOLAP pour l'exploration des données
spatiales 3D, Mémoire de maîtrise, Département des Sciences géomatique, Université Laval.
[Caron 1998] P.Y. Caron, 1998. Étude du potentiel de OLAP pour supporter l'analyse spatiotemporelle. MSc. Dép. Sciences géomatiques, Centre de recherche en géomatique, Université Laval,
129 p.
[ESRI 2000] ArcView, 2000. GIS Brochure. http://www.esri.com/library/whitepapers/avlit.html.
[Fortin et Bédard 2004] M. Fortin, Y. Bédard, 2004. Développement d'un système de découverte des
connaissances spatio-temporelles issues d'un chantier de fouilles archéologiques, Colloque
Géomatique 2004, 27-28 octobre, Montréal, Canada
[Fortin et Rousseau 1989] C. Fortin, R. Rousseau, 1989. Psychologie cognitive : une approche de
traitement de l'information. Presses de l'Université du Québec, 434 p.
[Franklin 1992] C. Franklin, 1992. An Introduction to Geographic Information Systems : Linking Maps
to Databases. Database, April, pp. 13-21.
[Guimond 2004] L.E. Guimond, 2004. Conception d’un environnement de découverte des besoins pour
le développement de solutions SOLAP, M.Sc.Dép. Sciences géomatiques, Université Laval, 128 p.
[Han et al 1998] J. Han, N. Stefanovic, K. Koperski, 1998. Selective materialization : An Efficient
Method for Spatial Data Cube Construction. Pacific-Asia Conference on Knowledge Discovery and
Data Mining (PAKDD'98), Melbourne, Australia.
[Han et Kamber 2001] J. Han, M. Kamber, 2001. Data Mining : concepts and Techniques, Morgan
Kaufmann Publisher, Inc, 2001.
[ISO, 2002] International Standard Organization, 2002, Geographic Information, 19115-Metadata, 141
pages.
[KHEOPS 2005] KHEOPS, 2005. JMAP Spatial OLAP,
http://www.kheops-tech.com/en/jmap/solap.jsp
[Knosys 2000] Knosys, 2000, Geo Spatial Mapping : MapInfo MapX Plug-In for Knosys ProClarity
3.0,
[Korem 2005] Korem, 2005. Site web Push’n’see, http://www.pushnsee.com/
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
[LGS Group 2000] LGS Group Inc., 2000. Analysis of Health Surveillance Business Intelligence Tools
and Applications, Final Draft, 111 pp.
[Longley et al 2001] P.A. Longley, M.F. Goodchild, D.J. Maguire, D. Rhind, 2001. Geographic
Information Systems and Science. John Wiley & Son, 454 p.
[Marchand et al 2004] P. Marchand, A. Brisebois, Y. Bédard, G. Edwards, 2004. Implementation and
evaluation of a hypercube-based method for spatio-temporal exploration and analysis, Journal of
the International Society of Photogrammetry and Remote Sensing,Vol. 59, No. 1-2, p. 6-20
[Newell 1990] A. Newell, 1990. Unified theories of cognition. Harvard University Press, Cambridge
MA, 549 p.
[OpenMap 2005] OpenMap, 2005. What is ? http://openmap.bbn.com/whatis.html
[Pestana et al 2004] G. Pestana, M. M. da Silva, H. Madeira, 2004. A Prototype Implementation of a
Spatial Data Warehouse for Integrating Business, Historical and Spatial Data,” 5th Int. Conf. of
Intelligent Data Engineering and Automated Learning.
[Pestana et al 2005] G. Pestana, M. M. da Silva, Y. Bédard, 2005. Spatial OLAP Modeling : An
Overview Base on Spatial Objects Changing over Time, IEEE 3rd International Conference on
Computational Cybernetics, 13-16 avril, Mauritius
[ProClarity 2005] ProClarity, 2005. ProClarity Product Information, http ://www.ProClarity.com/,
[Proulx et Bédard 2004] M-J Proulx, Y. Bédard, 2004. Le potentiel de l'approche multidimensionnelle
pour l'analyse de données géospatiales en comparaison avec l'approche transactionnelle des SIG.,
Colloque Géomatique 2004, 27-28 octobre, Montréal, Canada
[Rageul 2004] Développement d'une application d'exploration de données géospatiales comme support
à la fouille archéologique, Rapport de fin d’études, École d'ingénieurs INSA de Strasbourg, France
[Rivest 2000] S. Rivest, 2000. Investigation des modes d’intégration physique entre un serveur de base
de données multidimensionnelle et un SIG, M.Sc. Dép. Sciences géomatiques, Université Laval, 84
p.
[Rivest et al 2001] S. Rivest, Y. Bédard, P. Marchand, 2001. Towards better support for spatial
decision-making : defining the characteristics of Spatial On-Line Analytical Processing,
Geomatica,Vol. 55, No. 4, p. 539-555
[Rivest et al 2003] S. Rivest, Y. Bédard, M.J. Proulx, M. Nadeau, 2003. SOLAP : a new type of user
interface to support spatio-temporal multidimensional data exploration and analysis, Workshop
ISPRS, Quebec, Canada, October 2-3.
[Rivest et al 2004] S. Rivest, P. Gignac, J. Charron, Bédard, Y, 2004. Développement d’un système
d’exploration spatio-temporelle interactive des données de la Banque d’information corporative du
ministère des Transports du Québec. Colloque Géomatique 2004, 27-28 octobre, Montréal, Canada
[Standing 1973] L. Standing 1973. Learning 10000 pictures. Quaterly Journal of Experimental
Psychology, vol. 25, 207-222.
[Tufte 1992] E.R. Tufte, 1992. The Visual Display of Quantitative Information. Graphics Press, 191 p.
[Veilleux et al 2004] J-P, Veilleux, Lambert, M., Santerre, R., Bédard Y., 2004. Utilisation du système
de positionnement par satellites (GPS) et des outils d'exploration et d'analyse SOLAP pour
l'évaluation et le suivi de sportifs de haut niveau, Colloque Géomatique 2004, 27-28 octobre,
Montréal, Canada
[Vit et al 2002] E. Vitt, M. Luckevich, S. Misner, 2002, Business Intelligence, Making Better
Decisions Faster, Microsoft Press, 202 p.
Summary
Important efforts have been made for the last fifteen years to set up geospatial decision
support systems. However, these systems are based on geographic information systems
(GIS) and usual transactional approaches (OLTP) to produce geodecisional information,
often with unacceptable delays and prohibitive costs up to the point of dropping the
production. Consequently, the new Spatial OLAP (SOLAP) applications arrive just in
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
time to allow effective implementations of geospatial decision support systems. This
article highlights the needs and the advantages related to SOLAP applications,
particularly for cartographic data exploration. Given that such applications have almost
never been tackled by the computer science community, this paper does not discuss the
traditional scientific issues of OLAP applications which are widely addressed by this
community. Instead, it presents concrete SOLAP examples and an overview of the main
underlying concepts. A categorization in three families of solutions is proposed: OLAPdominant, GIS-dominant and integrated solution. Each given example of applications is
then positioned in regards to these categories and the advantages to use the integrated
solution are addressed. We finally conclude with a brief overview of the typical “hidden
difficulties” related to geographic data which are one of our research preoccupations.
Présenté à la 1ere Journée Francophone sur les entrepôts de données et l’analyse en ligne (juin 2005).
Annexe B : Lecture suggérée 2.
Section 1.11.2 On-line Analytical Processing, Bédard, Y., S. Larrivée, M.-J. Proulx, F.
Létourneau & P.-Y. Caron, 1997, Étude de l'état actuel et des besoins de R&D
relativement aux architectures et technologies des data warehouses appliquées aux
données spatiales, Rapport de recherche remis au CRDV, 98 p., Mars.
L’utilisation d’un outil OLAP dans les data warehouses s’adresse parfaitement aux besoins
d’un data warehouse et permet entre autre de simplifier la navigation dans la base de données
possédant une structure multidimensionnelle.
L’architecture OLAP consiste en trois services: la base de données, le serveur OLAP et le
module client.
1. La base de données détermine comment et où les données sont enregistrées. La base de
données d’une architecture OLAP doit au départ supporter des données agrégées ou
résumées. Cette base de données peut donc provenir d’un data warehouse ou de data marts.
Cette base de données doit ensuite posséder une structure multidimensionnelle qui peut
être implantée dans un SGBD multidimensionnel aussi bien que dans un SGBD
relationnel. Ainsi, “The multidimensional data store15 logically stores the data in arrays
conform to the multidimensional model into a multidimensional database. The relational
data store stores the data conform to the relational data model as keyed records in tables,
and the data can be accessed by a common language SQL in a relational database.” (Gill et
al., 1996).
Dans le SGBD relationnel, l’utilisation du schéma en étoile (star schema) permet de
simuler une structure multidimensionnelle. Ainsi, les informations relatives aux
dimensions des données sont stockées dans des tables relationnelles appelées fact tables.
Ces tables sont ensuite interprétées par le serveur OLAP afin de construire une vue (réelle
ou virtuelle) du cube multidimensionnel relative à ces données. Sans vouloir s’étendre sur
le sujet, notons que la structure modélisée à l’aide du star schema n’est pas normalisée,
c’est pourquoi l’utilisation d’un schéma en flocon (snow flakes schema) permet d’accroître
les performances d’interrogations. Les différents types de modélisation sont bien présentés
dans un article produit par Brooks (1995).
2.
Le serveur OLAP est le logiciel qui gère la base de données de structure
multidimensionnelle et l’accès des usagers. Pour éviter la confusion terminologique
possible entre les serveurs OLAP, Cafasso (1996) les a baptisés selon les SGBD associés.
Ainsi, multidimensional OLAP (MOLAP) s’utilise lorsque le serveur est jumelé à SGBD
multidimensionnel et relational OLAP (ROLAP) s’utilise pour le couplage à un SGBD
relationnel.
3.
Quant au module client, il s’agit du logiciel d’accès et de manipulation/exploration des
données d’essence multidimensionnelle.
À partir de ces trois composantes, l’architecture OLAP peut se développer selon plusieurs
configurations possibles: la configuration multidimensionnelle, la configuration relationnelle
et la configuration combinée multidimensionnelle/relationnelle.
15
Notons ici le terme data store est utilisé dans le sens de base de données.
Extrait du rapport de recherche produit pour le CRDV, section ‘On-line Analytical Processing’
La configuration multidimensionnelle (cf. figure 1.15), consiste en un serveur MOLAP et une
base de données multidimensionnelle propriétaire. Les données sommaires et agrégées du data
warehouse sont stockées dans la base de données selon le cube multidimensionnel. Les
données sont accédées par le serveur MOLAP directement du module client. Dans la majorité
des cas de cette configuration, le serveur MOLAP utilisé est intégré au SGBD
multidimensionnel. Par conséquent la majorité des SGBD multidimensionnels présentés
antérieurement (cf. tableau 1.3) offrent des serveurs MOLAP intégrés.
Modules client
Data Warehouse/Data Mart
dans une base de données multidimensionnelle
Serveur MOLAP
figure 1.15. Architecture OLAP multidimensionnelle.
La configuration relationnelle (cf. figure 1.16), consiste en un serveur ROLAP qui agit entre
le module client et une base de données relationnelle. Les données du data warehouse sont
stockées dans la base de données sous forme de tables relationnelles et ces données sont
extraites par des requêtes SQL pour être ensuite présentées au client dans une vue
multidimensionnelle. Dans cette configuration, le serveur ROLAP utilisé est indépendant du
SGBD relationnel. Cette structure possède certains avantages. Selon Hettler (1997) “ROLAP
proponents argue that this approach eliminates the needs to store large amounts of data
redundantly. They add that relational databases are the only way to store very large amounts
of data and maintain acceptable retrieval performance”.
Data Warehouse/ Data Mart
dans une base de données
relationnelle
Serveur ROLAP
Vue
multidimensionnelle
des données
Modules client
figure 1.16. Architecture OLAP relationnelle.
Finalement, la configuration combinée multidimensionnelle/relationnelle (cf. figure 1.17),
consiste en un serveur ROLAP et deux bases de données distinctes. Les données sommaires et
agrégées du data warehouse sont stockées dans une première base de données selon la matrice
multidimensionnelle. Ensuite, les données détaillées sont stockées dans une autre base de
Extrait du rapport de recherche produit pour le CRDV, section ‘On-line Analytical Processing’
données sous forme de tables relationnelles. Les données sommaires sont accédées
directement par le serveur ROLAP tandis que les données détaillées sont présentées au client
par le serveur ROLAP selon une vue multidimensionnelle. Dans cette configuration, le
serveur ROLAP utilisé est indépendant des SGBD et permet l’accès conjoint aux deux types
de structures de données. Cette configuration permet d’accroître les performances
d’interrogation puisque les données agrégées sont déjà précalculées dans la structure
multidimensionnelle (Hettler, 1997).
vue
multidimensionnelle
des données
Data Warehouse/
Data Warehouse/Data Mart
Data Mart dans une
dans une base de données multidimensionnelle
base de données relationnelle Serveur ROLAP
Modules client
figure 1.17. Architecture OLAP combinée (relationnelle/multidimensionnelle).
Les avantages et inconvénients propres à chaque configuration sont en fait liés directement au
type de SGBD utilisé. Ainsi la configuration multidimensionnelle souffrira des désavantages
des SGBD multidimensionnels et ainsi de suite. On peut très bien associer les capacités de la
structure combinée aux caractéristiques des SGBD multidimensionnels étendus.
Extrait du rapport de recherche produit pour le CRDV, section ‘On-line Analytical Processing’
Annexe C : Formats matriciels supportés par ArcGIS.
Format
Description
ARC Digitized Raster
Graphics (ADRG)
Distributed on CD–ROM by the National Imagery and Mapping Agency
(NIMA). ADRG is geographically referenced using the equal arc-second
raster chart/map (ARC) system in which the globe is divided into 18
latitudinal bands or zones. The data consists of raster images and other
graphics generated by scanning source documents.
Band Interleaved by
Line (ESRI BIL),
Band Interleaved by
Pixel (ESRI BIP),
Band Sequential
(ESRI BSQ)
This format provides a method for reading in and displaying decompressed,
BIL, BIP, and BSQ image data. By creating an ASCII description file that
describes the layout of the image data, black-and-white, grayscale, pseudo
color, and multiband image data can be displayed without translation into a
proprietary format.
Bitmap (BMP),
Device-Independent
Bitmap (DIB) format,
or Microsoft Windows
Bitmap
BMP files are Windows bitmap images. They are usually used to store
pictures or clip art that can be moved between different applications on
Windows platforms.
Compressed ARC
Digitized Raster
Graphics (CADRG)
Distributed on CD–ROM by NIMA. CADRG is geographically referenced
using the ARC system in which the globe is divided into 18 latitudinal bands
or zones. The data consists of raster images and other graphics generated by
scanning source documents. CADRG achieves a nominal compression ratio
of 55:1.
Panchromatic (grayscale) images that have been georeferenced and corrected
Controlled Image Base for distortion due to topographic relief distributed by NIMA. Thus, they are
similar to digital orthophoto quads and have similar applications—such as
(CIB)
serving as a base or backdrop for other data or as a simple map.
Digital Geographic
Information Exchange
Standard (DIGEST)
Arc Standard Raster
Product (ASRP),
UTM/UPS Standard
Raster Product
(USRP)
DIGEST datasets are digital replicas of graphic products designed for
seamless worldwide coverage. ASRP data is transformed into the ARC
system and divides the earth's surface into latitudinal zones. USRP data is
referenced to UTM or UPS coordinate systems. Both are based on the WGS
1984 datum.
Digital Terrain
Elevation Data
(DTED) Level 0, 1, &
2
Created by NIMA (formerly the Defence Mapping Agency—DMA).
ER Mapper
A proprietary raster format from ER Mapper. Produced using the ER Mapper
image processing software.
Graphics Interchange
A proprietary image format that is highly compressed and requires an LZW
Format (GIF)
license from Unisys. Allows high-quality, high-resolution graphics to be
displayed on a variety of graphics hardware and is intended as an exchange
and display mechanism for graphics images.
ERDAS 7.5 GIS
Single-band thematic images produced by the ERDAS 7.5 image processing
software.
ESRI GRID
A proprietary ESRI format that supports 32-bit integer and 32-bit floating
point raster grids. Grids are useful for representing geographic phenomena
that vary continuously over space and for performing spatial modeling and
analysis of flows, trends, and surfaces such as hydrology.
ESRI GRID Stack
Used to reference multiple ESRI GRIDs as a multiband raster dataset. A stack
is stored in a directory structure similar to a grid or coverage.
ESRI GRID Stack file
Used to reference multiple ESRI GRIDs as a multiband raster dataset. A stack
file is a simple text file that stores the path and name of each ESRI GRID
contained within it on a separate line.
ERDAS IMAGINE
Produced using the IMAGINE image processing software created by ERDAS.
IMAGINE files can store both continuous and discrete single-band and
multiband data.
Intergraph Raster
Files:
CIT—Binary data;
COT—Grayscale data
Intergraph's proprietary format for 16-bit imagery (CIT) and unsigned 8-bit
imagery (COT).
Joint Photographic
Experts Group (JPEG)
File Interchange
Format (JFIF)
A standard compression technique for storing full color and grayscale images.
Support for JPEG compression is provided through the JFIF file format.
JPEG 2000
A compression technique especially for maintaining the quality of large
imagery. Allows for a high-compression ratio and fast access to large
amounts of data at any scale.
ERDAS 7.5 LAN
Single- or multiband continuous images produced by the ERDAS 7.5 image
processing software.
Multiresolution
Seamless Image
Database (MrSID)
A compression technique especially for maintaining the quality of large
images. Allows for a high-compression ratio and fast access to large amounts
of data at any scale.
ArcSDE Rasters
Raster data stored within an ArcSDE database.
Tag Image File
Format (TIFF)
(GeoTIFF tags are
supported.)
Widespread use in the desktop publishing world. It serves as an interface to
several scanners and graphic arts packages. TIFF supports black-and-white,
grayscale, pseudo color, and true color images, all of which can be stored in a
compressed or decompressed format.
ERDAS RAW
Provides a method for reading and displaying files that are not otherwise
supported by another format but are formatted in such a way that the
arrangement of the data may be described by a relatively small number of
parameters. By creating an ASCII description file that describes the layout of
the raster data, it can be displayed without translation into a proprietary
format. The format is defined in the ERDAS IMAGINE software.
Portable Network
Graphics (PNG)
Provides a portable, legally unencumbered, well-compressed, well-specified
standard for lossless bitmapped raster files. It is meant as a replacement for
.gif files and supports a large range of bit depths, from monochrome to 64-bit
color. Its features include indexed-color images of up to 256 colors and
effective 100 percent lossless images of up to 16 bits per pixel.
National Image
Transfer Format
(NITF)
Developed by NIMA as a standardized format for images and supporting
data. It has become the standard for digital imagery and imagery-related
products for the United States intelligence community and other departments
and agencies of the U.S. government and is now being adopted as a standard
by civilian organizations (ISO/ANSI) and governments outside the United
States (for example, NATO).
Annexe D : Formats de données supportés par GDAL.
Tiré de GDAL Raster Formats, http://www.gdal.org/formats_list.html, le 31-03-2006.
Long Format Name
Code
Creation Georeferencing Maximum file size
Arc/Info ASCII Grid
AAIGrid
Yes
Yes
2GB
Arc/Info Binary Grid (.adf)
AIG
No
Yes
--
AIRSAR Polarimetric
AIRSAR
No
No
--
Microsoft Windows Device
Independent Bitmap (.bmp)
BMP
Yes
Yes
4GiB
BSB Nautical Chart Format (.kap) BSB
No
Yes
--
VTP Binary Terrain Format (.bt)
BT
Yes
Yes
--
CEOS (Spot for instance)
CEOS
No
No
--
First Generation USGS DOQ
(.doq)
DOQ1
No
Yes
--
DODS / OPeNDAP
DODS
No
Yes
--
New Labelled USGS DOQ (.doq)
DOQ2
No
Yes
--
Military Elevation Data (.dt0, .dt1) DTED
No
Yes
--
ERMapper Compressed Wavelets
(.ecw)
ECW
Yes
Yes
ESRI .hdr Labelled
EHdr
Yes
Yes
No limits
ENVI .hdr Labelled Raster
ENVI
Yes
Yes
No limits
Envisat Image Product (.n1)
Envisat
No
No
--
EOSAT FAST Format
FAST
No
Yes
--
FITS (.fits)
FITS
Yes
No
Graphics Interchange Format (.gif) GIF
Yes
No
Arc/Info Binary Grid (.adf)
GIO
Yes
Yes
GMT Compatible netCDF
GMT
No
Yes
2GB
GRASS Rasters
GRASS
No
Yes
--
TIFF / GeoTIFF (.tif)
GTiff
Yes
Yes
4GiB
Hierarchical Data Format Release 4
HDF4
(HDF4)
Yes
Yes
2GiB
Hierarchical Data Format Release 5
HDF5
(HDF5)
Yes
Yes
2GiB
Erdas Imagine (.img)
HFA
Yes
Yes
No limits
Vexcel MFF2
HKV
Yes
Yes
No limits
Idrisi Raster
RST
Yes
Yes
No limits
2GB
Image Display and Analysis
(WinDisp)
IDA
Yes
Yes
2GB
ILWIS Raster Map (.mpr,.mpl)
ILWIS
Yes
Yes
--
Japanese DEM (.mem)
JDEM
No
Yes
--
JPEG JFIF (.jpg)
JPEG
Yes
Yes
4GiB (max
dimentions
65500x65500)
JPEG2000 (.jp2, .j2k)
JPEG2000
Yes
Yes
2GiB
JPEG2000 (.jp2, .j2k)
JP2KAK
Yes
Yes
No limits
JPEG2000 (.jp2, .j2k)
JP2ECW
Yes
Yes
500MB
JPEG2000 (.jp2, .j2k)
JP2MrSID
Yes
Yes
NOAA Polar Orbiter Level 1b Data
L1B
Set (AVHRR)
No
Yes
--
Erdas 7.x .LAN and .GIS
LAN
No
Yes
2GB
Daylon Leveller Heightfield
Leveller
Yes
No
In Memory Raster
MEM
Yes
Yes
2GiB
Vexcel MFF
MFF
Yes
Yes
No limits
Multi-resolution Seamless Image
Database
MrSID
No
Yes
--
Meteosat Second Generation
MSG
No
Yes
NDF
NLAPS Data
No
Format
Yes
No limits
NITF
NITF
Yes
Yes
4GB
NetCDF
netCDF
No
Yes
2GB
OGDI Bridge
OGDI
No
Yes
--
PCI .aux Labelled
PAux
Yes
No
No limits
PCI Geomatics Database File
PCIDSK
Yes
Yes
No limits
Portable Network Graphics (.png)
PNG
Yes
No
PCRaster (.map)
PCRaster
Yes
Yes
Netpbm (.ppm,.pgm)
PNM
Yes
No
No limits
Swedish Grid RIK (.rik)
RIK
No
Yes
4GB
RadarSat2 XML (product.xml)
RS2
No
Yes
4GB
USGS SDTS DEM (*CATD.DDF) SDTS
No
Yes
--
Raster Matrix Format (*.rsw, .mtw) RMF
Yes
Yes
4GB
SAR CEOS
SAR_CEOS
No
Yes
--
SGI Image Format
SGI
No
Yes
--
USGS ASCII DEM (.dem)
USGSDEM
No
Yes
X11 Pixmap (.xpm)
XPM
Yes
No
--
Annexe E - Formats supportés par FME 2006
(extrait du site Web de Safe Sotware (www.safe.com), le 02/02/06
LEGEND
•
formats supported
-
formats currently not supported
*
requires installation of the application software
+
custom mapping files
*
beta version
**
contact us for availability
E
D
I
T
I
O
N
B
A
S
E
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
FORMAT
R
W
R
W
R
W
R
W
R
W
R
W
R
W
Access Database
(nonspatial) (Windows
only)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
Adobe Illustrator (EPS)
-
-
-
•
-
•
-
•
-
•
-
•
-
•
ADRG Reader (Extra cost
plug-in req'd)
-
-
*
-
*
-
*
-
*
-
*
-
*
-
Aircom ENTERPRISE
(Extra cost plug-in
req'd)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
APIC (Extra cost plug-in
req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
APT
-
-
•
-
•
-
•
-
•
-
•
-
•
-
ARGIS GINA (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
ASCII Tabular
+
+
+
+
+
+
+
+
+
+
+
+
+
+
ASRP Reader (Extra cost
plug-in req'd)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
Autodesk GIS Design
Server (VISION) native
-
-
+
+
+
+
+
+
+
+
+
+
+
+
Autodesk AutoCAD 2004
•
•
•
•
•
•
•
•
•
•
-
-
•
•
Autodesk AutoCAD DWF
•
•
•
•
•
•
•
•
•
•
-
-
•
•
Autodesk AutoCAD
DWG/DXF
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Autodesk GIS Design
Server (VISION) GINA
-
-
•
•
•
•
•
•
•
•
-
-
•
•
E
D
I
T
I
O
N
B
A
S
E
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
FORMAT
R
W
R
W
R
W
R
W
R
W
R
W
R
W
Autodesk Map Object
Reader
-
-
*
-
*
-
*
-
*
-
-
-
*
-
Autodesk MapGuide SDF
(binary) (Windows only)
-
-
*
*
*
*
*
*
*
*
-
-
*
*
Autodesk MapGuide SDL
(Windows only)
•
•
•
•
•
•
•
•
•
•
-
-
•
•
AutoKa Transfer File (FF)
(Extra cost plug-in
req'd)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
BC Electronic
Submission Framework
(ESF) ABR
-
-
•
•
•
•
•
•
•
•
•
•
•
•
BC Electronic
Submission Framework
(ESF) FTA GML
-
-
•
•
•
•
•
•
•
•
•
•
•
•
BC Electronic
Submission Framework
(ESF) RESULTS GML
-
-
•
•
•
•
•
•
•
•
•
•
•
•
BC MOEP
•
+
•
+
•
+
•
+
•
+
•
+
•
+
BGrund (Extra cost plugin req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
Bitmap Reader/Writer
-
-
•
•
•
•
•
•
•
•
•
•
•
•
C60 Format (AEDSICAD) (Extra cost plugin req'd)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
CADRG Reader (Extra
cost plug-in req'd)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
Card (Extra cost plug-in
req'd)
-
-
-
•
-
•
-
•
-
•
-
-
-
•
CCOGIF Reader (Extra
cost plug-in req'd)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
CCOGIF Writer (Extra
cost plug-in req'd)
-
-
-
+
-
+
-
+
-
+
-
+
-
+
CDED DEM
-
-
•
•
•
•
•
•
•
•
•
•
•
•
CGDEF
•
•
•
•
•
•
•
•
•
•
•
•
•
•
CITS/QLF
-
-
•
•
•
•
•
•
•
•
•
•
•
•
ColorRAW
-
-
•
•
•
•
•
•
•
•
-
-
•
•
CSV (Comma-Separated
Value)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Cubestore MDF
-
-
-
+
-
+
-
+
-
+
-
+
-
+
Danish DSFL
•
-
•
-
•
-
•
-
•
-
•
-
•
-
Danish DSFL XML (XDK)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
Danish UFO
-
-
•
•
•
•
•
•
•
•
•
•
•
•
E
D
I
T
I
O
N
B
A
S
E
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
FORMAT
R
W
R
W
R
W
R
W
R
W
R
W
R
W
dBase III (DBF)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
DES
-
-
•
-
•
-
•
-
•
-
•
-
•
-
Design Files (DGN)
Version 7
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Design Files (DGN)
Version 8
-
-
•
•
•
•
•
•
•
•
-
-
•
•
DFAD (Extra cost plug-in
req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
DFD (MultiGen
Paradigm) (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
DFK (Extra cost plug-in
req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
DMDF (Digital Map Data
Format)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
DTED DEM
-
-
•
•
•
•
•
•
•
•
•
•
•
•
ECW Reader/Writer
-
-
•
•
•
•
•
•
-
-
-
-
•
•
EDBS (Extra cost plug-in
req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
EDIGéO
-
-
•
-
•
-
•
-
•
-
-
-
•
-
ENVI .hdr
-
-
-
-
•
•
•
•
•
•
-
-
•
•
EPS (Encapsulated
PostScript)
-
-
-
•
-
•
-
•
-
•
-
•
-
•
ERDAS IMAGINE Reader
-
-
•
-
•
-
•
-
•
-
•
-
•
-
ESRI .hdr
-
-
•
•
•
•
•
•
•
•
-
-
•
•
ESRI ArcGIS 9.x Map
(.mxd)
-
-
-
-
*
-
*
-
*
-
-
-
*
-
ESRI ArcGIS Binary Grid
(ArcGrid:AIG)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
ESRI ArcInfo Coverage
-
-
-
-
•
•
•
•
•
•
•
•
•
•
ESRI ArcInfo Export
(E00)
•
-
•
•
•
•
•
•
•
•
•
•
•
•
ESRI ArcInfo Generate
•
•
•
•
•
•
•
•
•
•
•
•
•
•
ESRI ArcSDE 9.0/8.x/3.x
-
-
•
-
•
•
•
•
•
•
•
•
•
•
ESRI Ascii Grid
-
-
•
•
•
•
•
•
•
•
•
•
•
•
ESRI Enterprise
GeoDatabase (SDE)
-
-
-
-
*
*
*
*
*
*
-
-
*
*
ESRI Geodatabase
(XML)
-
-
-
-
*
-
*
-
*
-
-
-
*
-
ESRI PC ArcInfo
-
-
-
-
•
-
•
-
•
-
•
-
•
-
ESRI Personal
-
-
*
-
*
*
*
*
*
*
-
-
*
*
E
D
I
T
I
O
N
B
A
S
E
FORMAT
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
R
W
R
W
R
W
R
W
R
W
R
W
R
W
ESRI Shape
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Facet XDR
•
•
•
•
•
•
•
•
•
•
•
•
•
•
FalconView Reader
-
-
*
-
*
-
*
-
*
-
*
-
*
-
Fastgate (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
FME Feature Store (FFS)
•
•
•
•
•
•
•
•
•
•
•
•
•
•
GATE/ADA (Extra cost
plug-in req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
GDF (Extra cost plug-in
req'd)
-
-
•
+
•
+
•
+
•
+
•
+
•
+
GDMS
•
-
•
-
•
-
•
-
•
-
•
-
•
-
GDS (Extra cost plug-in
req'd)
•
-
•
-
•
-
•
-
•
-
•
-
•
-
GE Energy Smallworld
-
-
-
-
-
-
-
-
*
*
-
-
-
-
GE Smallworld
-
-
-
-
**
**
-
-
*
*
-
-
-
-
GenaMap (Extra cost
plug-in req'd)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
GEODESYS StruMap
-
-
•
•
•
•
•
•
•
•
•
•
•
•
GEOgraf (grafbat-ASCII)
(Extra cost plug-in
req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
Geographix CDF
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Geogrid OVL/ASC (PDF
Manual - in German)
(Extra cost plug-in
req'd)
•
•
•
•
•
•
•
•
•
•
-
-
•
•
GEOnet Names Server
(GNS)
•
-
•
-
•
-
•
-
•
-
•
-
•
-
GeoTask
-
-
•
•
•
•
•
•
•
•
-
-
•
•
GeoTIFF
-
-
•
•
•
•
•
•
•
•
-
-
•
•
GICAD (Extra cost plugin req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
GML (OGC Geography
Markup Language)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
Google Earth KML
-
-
•
•
•
•
•
•
•
•
-
-
•
•
GPX
-
-
•
-
•
-
•
-
•
-
•
-
•
-
GRIPS Reader (Extra
cost plug-in req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
GTI GTViewer
-
-
•
•
•
•
•
•
•
•
-
-
•
•
GeoDatabase (Access)
8.3/9.0 (Windows only)
E
D
I
T
I
O
N
B
A
S
E
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
FORMAT
R
W
R
W
R
W
R
W
R
W
R
W
R
W
GTI/RDB (Extra cost
plug-in req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
IBM DB2 Spatial
-
-
•
-
•
-
•
•
•
•
•
•
•
•
IBM DB2 Tables (nonspatial)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
IBM IFF (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
IDRISI
•
•
•
•
•
•
•
•
•
•
-
-
•
•
Incremental Update
Format (IUF)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
Intergraph FRAMME
-
-
+
+
+
+
+
+
+
+
+
+
+
+
Intergraph FRAMME SEF
(Standard Exchange
Format) Writer (Extra
cost plug-in req'd)
-
-
-
+
-
+
-
+
-
+
-
+
-
+
Intergraph G/Technology
(Extra cost plug-in
req'd)
-
-
+
+
+
+
+
+
+
+
-
-
+
+
Intergraph GeoMedia
Access Warehouse
(Windows only)
-
-
•
*
•
*
•
*
•
*
-
-
•
*
Intergraph GeoMedia
SQL Server Warehouse
-
-
•
-
•
•
•
•
•
•
•
•
•
•
Intergraph MGE
-
-
•
•
•
•
•
•
•
•
-
-
•
•
INTERLIS (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
ISO 8211
-
-
•
-
•
-
•
-
•
-
•
-
•
-
JPEG
-
-
•
•
•
•
•
•
•
•
-
-
•
•
JPEG 2000
Reader/Writer
-
-
•
•
•
•
•
•
-
-
-
-
•
•
KLT Atlas ASCII (Extra
cost plug-in req'd)
-
-
•
•
•
•
•
•
•
•
•
-
•
•
Landmark ZGF (Zycor
Graphics File)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
Landonline (LandXML)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
Laser-Scan IFF
-
-
•
•
•
•
•
•
•
•
•
•
•
•
LaserScan Gothic (Extra
cost plug-in req'd)
-
-
•
•
•
•
•
•
•
•
•
-
•
•
Latitude DMF (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
Leica GSI (Extra cost
plug-in req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
Leica IDEX
•
•
•
•
•
•
•
•
•
•
-
-
•
•
E
D
I
T
I
O
N
B
A
S
E
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
FORMAT
R
W
R
W
R
W
R
W
R
W
R
W
R
W
MapGIS (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
MapGIS ASCII (Extra
cost plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
MapInfo MID/MIF
•
•
•
•
•
•
•
•
•
•
•
•
•
•
MapInfo SpatialWare on
SQL Server (Extra cost
plug-in req'd)
-
-
**
**
**
**
**
**
**
**
-
-
** **
MapInfo TAB
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Mercator MCF
-
-
•
•
•
•
•
•
•
•
•
•
•
•
Microsoft Excel (.xls)
(Windows only)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
Microsoft SQL Server
Database (Attributes
Only)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
MicroStation
Geographics V7/V8
-
-
•
•
•
•
•
•
•
•
-
-
•
•
MrSID Reader
-
-
•
-
•
-
•
-
•
-
•
-
•
-
MySQL Database
(Attributes Only)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
MySQL Spatial Database
-
-
•
•
•
•
•
•
•
•
-
-
•
•
MZK (PDF Manual - in
German) (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
Nen1878 (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
NetCDF Reader
-
-
*
-
*
-
*
-
*
-
*
-
*
-
NITF Reader
-
-
*
-
*
-
*
-
*
-
*
-
*
-
NTF
-
-
•
-
•
-
•
-
•
-
•
-
•
-
NTX Caris (Note: Does
not include the ability to
handle NTX Soundings)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
NTX Soundings (Note:
This is not a special
reader/writer but rather
a license for it enables
more functionality in the
NTX reader/writer that
FME has.) (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
Numeric Raw
-
-
•
•
•
•
•
•
•
•
-
-
•
•
ODBC 2.x Database
(Attributes Only)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
E
D
I
T
I
O
N
B
A
S
E
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
FORMAT
R
W
R
W
R
W
R
W
R
W
R
W
R
W
ODBC 3.x Database
(Attributes Only)
(Windows only)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
OGDI
-
-
•
-
•
-
•
-
•
-
•
-
•
-
ONORM (PDF manual in German) (Extra cost
plug-in req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
Oracle 10g/9i/8i Spatial
Object
-
-
•
-
•
-
•
•
•
•
•
•
•
•
Oracle 10g/9i/8i Tables
(nonspatial)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
Oracle Spatial Relational
-
-
•
•
•
•
•
•
•
•
•
•
•
•
Oracle SQL Loader ASCII
-
•
-
•
-
•
-
•
-
•
-
•
-
•
OS MasterMap (DNF)
(GML-2)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
PenMetrics GRD
•
•
•
•
•
•
•
•
•
•
•
•
•
•
PHOCUS PHODAT
•
+
•
+
•
+
•
+
•
+
•
+
•
+
PLANET (Extra cost plugin req'd)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
PostGIS Database
-
-
•
•
•
•
•
•
•
•
•
•
•
•
PostgreSQL Database
-
-
•
•
•
•
•
•
•
•
•
•
•
•
Raster Image (PNG)
-
•
-
•
-
•
-
•
-
•
-
•
-
•
REGIS
-
-
•
•
•
•
•
•
•
•
•
•
•
•
rmDATA MXF (PDF
Manual - in German)
(Extra cost plug-in
req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
S-57
-
-
•
-
•
-
•
-
•
-
•
-
•
-
SAIF
•
+
•
+
•
+
•
+
•
+
•
+
•
+
SDTS
•
-
•
-
•
-
•
-
•
-
•
-
•
-
SEG Y (Extra cost plugin req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
SEG-P1
*
-
*
-
*
-
*
-
*
-
*
-
*
-
Shockwave Flash
-
•
-
•
-
•
-
•
-
•
-
-
-
•
SLF
-
-
•
-
•
-
•
-
•
-
•
-
•
-
Smallworld (Spatial Biz)
(Extra cost plug-in
req'd)
-
-
-
-
-
-
•
•
•
•
-
-
•
•
SOTF
-
-
+
-
+
-
+
-
+
-
+
-
+
-
SPANS (Extra cost plugin req'd)
•
•
•
•
•
•
•
•
•
•
-
-
•
•
E
D
I
T
I
O
N
B
A
S
E
P
R
O
F
E
S
S
I
O
N
A
L
I
N
E
T
S & E
R
R
I
G
R
A
P
H
O
R
A
C
L
E
S
M
A
L
L
W
O
R
L
D
&
D
B
2
S
E
R
V
E
R
S
E
R
V
E
R
L
I
N
U
X
W
I
N
D
O
W
S
FORMAT
R
W
R
W
R
W
R
W
R
W
R
W
R
W
SQD (Extra cost plug-in
req'd)
-
-
•
•
•
•
•
•
•
•
-
-
•
•
STAR INFORMATIC (CX)
(Extra cost plug-in
req'd)
-
-
*
*
*
*
*
*
*
*
-
-
*
*
SuperMap (Extra cost
plug-in req'd)
•
•
•
•
•
•
•
•
•
•
-
-
•
•
SVG (Scalable Vector
Graphics)
-
-
-
•
-
•
-
•
-
•
-
•
-
•
Swedish KF85
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Swedish MASIK
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Text File
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Text Line
•
•
•
•
•
•
•
•
•
•
•
•
•
•
TIGER/Line
•
+
•
+
•
+
•
+
•
+
•
+
•
+
TOBIN TDRBM II Data
Distribution Writer
-
-
-
*
-
*
-
*
-
*
-
*
-
*
TOP10GML
-
-
•
-
•
-
•
-
•
-
•
-
•
-
USGS DEM (Digital
Elevation Model)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
USGS DLG
•
-
•
-
•
-
•
-
•
-
•
-
•
-
VALIS/ASC (PDF Manual
- in German) (Extra cost
plug-in req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
Vertical Mapper Grid
(NGrid)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
VML
-
•
-
•
-
•
-
•
-
•
-
•
-
•
VPF Reader
-
-
•
-
•
-
•
-
•
-
•
-
•
-
VPF Writer (Extra cost
plug-in req'd)
-
-
-
+
-
+
-
+
-
+
-
+
-
+
VRML
-
•
-
•
-
•
-
•
-
•
-
•
-
•
Web Feature Service
(WFS)
-
-
•
-
•
-
•
-
•
-
•
-
•
-
WLDGE (Extra cost plugin req'd)
-
-
•
-
•
-
•
-
•
-
-
-
•
-
XML
-
-
•
•
•
•
•
•
•
•
•
•
•
•
XPM Reader/Writer
-
-
*
*
*
*
*
*
*
*
*
*
*
*
Z-MAP (ASCII)
-
-
•
•
•
•
•
•
•
•
•
•
•
•
Annexe F – Formats supportés par Spatialdirect
(extrait du site Web de Safe Sotware (www.safe.com), le 02/02/06
Format
Source Download Upload
Data
Format
Format
Access Database (nonspatial)
•
-
-
AutoCAD DWF
-
•
-
AutoCAD DWG (R12)
-
•
•
AutoCAD DWG (R14)
-
•
•
AutoCAD DWG (R2000)
-
•
•
AutoCAD DWG (R2004)
-
•
-
AutoCAD DXF (R12)
-
•
•
AutoCAD DXF (R14)
-
•
•
AutoCAD DXF (R2000)
-
•
•
AutoCAD DXF (R2004)
-
•
-
Autodesk MapGuide SDF (binary)
•
-
-
Caris NTX
-
•
-
CubeWerx MDF
-
•
-
EPS (Encapsulated PS)
-
•
-
ESRI Arc/Info Coverage
•
•
•
ESRI Arc/Info E00
-
•
•
ESRI Arc/Info Generate
-
•
•
ESRI ArcSDE 9.0/8.x/3.x
•
-
-
ESRI Personal Geodatabase (Access)
•
•
•
ESRI Enterprise GeoDatabase (SDE)
•
-
-
ESRI Shape
•
•
•
FME Feature Store File (FSS)
•
•
•
Geographix CDF
-
•
•
GeoTask
•
-
-
GIF Image
-
•
-
GML 2 (Safe Schema)
-
-
•
IBM DB2 Spatial
•
-
-
IBM DB2 Tables (non-spatial)
•
-
-
IEPS (Illustrator EPS)
-
•
-
Intergraph GeoMedia Access Warehouse
•
•
•
Intergraph GeoMedia SQL Server
Warehouse
•
-
-
Landmark Z-MAP
-
•
-
MapGuide SDL
-
•
•
MapInfo MID/MIF
•
•
•
MapInfo SpatialWare on SQL Server
(extra cost plugin req'd')
•
-
-
MapInfo TAB
•
•
•
Microstation Design V7
-
•
-
Microstation Design V8
-
•
-
MySQL
•
-
-
OGC GML (ESRI Profile)
-
•
-
OGC GML (Fixed Schema)
-
•
-
OGC GML (FME Profile)
-
•
-
OGC WFS
•
•
-
OGDI
•
-
-
Oracle 10g/9i/8i Spatial Object
•
-
-
Oracle 10g/9i/8i Tables (nonspatial)
•
-
-
Oracle Spatial Relational
•
-
-
PenMetrics GRD
-
•
•
PNG (Downloadable)
-
•
-
PostGIS Database
•
-
-
Scalable Vector Graphics (SVG)
-
•
-
SeisWorks
-
•
-
VML
-
•
-
VRML
-
•
-
Zycor (merged)
-
•
-
Zycor (multi)
-
•
-
Annexe G – Synthèse des opérateurs de
généralisation cartographique présenté par Martel
[1999]

Documents pareils