etude du systeme de geo-business intelligence opensource

Transcription

etude du systeme de geo-business intelligence opensource
G
MASTER II : Informatique appliquée aux Systèmes d’information
Géographiques
ETUDE DU SYSTEME DE
GEO-BUSINESS INTELLIGENCE
OPENSOURCE GEOKETTLE
Projet personnel Géomatique
Par: Oukoum Nadjombe Gbatti
Juillet 2015
Liste des Figures
Figure 1 : Processus détaillé de traitement des données d’un système d’information décisionnel
Figure 2 : Interaction entre OLTP et OLAP
Figure 3 : Processus de la Géomatique décisionnelle
Figure 4 : Types de représentation des dimensions spatiales
Figure 5 : Schéma de fonctionnement du logiciel GeoKettle
Figure 6: interface de téléchargement de GeoKettle
Figure 7 : Schéma d’une transformation simple
Figure 8 : Fenêtre des propriétés d’un Step
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
1
Acronymes
SI : Systèmes d’information
SID : Systèmes d’Information Décisionnels
BI : Business intelligence
GéoBI: Geo-Business intelligence
OLTP : On-Line Transaction Processing
OLAP : On-Line Analytical Processing
SOLAP : Spatial On-Line Analytical Processing
SGBD : Système de Gestion de Bases de Données
E/S : Entrée/Sortie
SRS : Systèmes de Référence Spatiaux
WFS : Web Feature Service
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
2
Sommaire
Introduction ............................................................................................................................................ 4
Chapitre 1 : Business intelligence et données géo-spatiales .................................................................. 5
Définitions ........................................................................................................................................... 5
Intégration de la BI et des données spatiales ..................................................................................... 7
SOLAP (Spatial On Line Analytical Processing) ................................................................................ 8
Chapitre 2 : L’opensource GeoKettle .................................................................................................... 10
Evolution du logiciel .......................................................................................................................... 11
Les caractéristiques de GeoKettle .................................................................................................... 11
Installation ........................................................................................................................................ 11
Les Fonctionnalités de base .............................................................................................................. 12
Les Fonctionnalités spatiales ............................................................................................................ 12
Le Processus de transformation ....................................................................................................... 13
Les tâches ou Jobs ............................................................................................................................. 14
Conclusion ............................................................................................................................................. 15
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
3
Introduction
Les nouvelles techniques de stratégie d’entreprise reposent sur la manipulation d’une
quantité importante d’informations. L’information constitue la principale "matière première"
utilisée pour une meilleure prise de décision, pour l’élaboration des plans stratégiques censés
maintenir et accroitre la performance des entreprises. Elle se présente sous diverses formes
et provient de sources variées.
L’efficacité d’une décision d’entreprise repose sur la mise à disposition d'informations
pertinentes et d'outils adaptés. Les entreprises produisent et reçoivent un volume très
important d’informations. Afin de supporter la prise de décision, elles doivent trouver les
moyens, méthodes et outils pour le traitement de ces grandes quantités d’information,
provenant de leurs systèmes opérationnels et de leur environnement extérieur.
L’influence constante de l’environnement géographique sur l’entreprise entraine la nécessité
d’intégration de données spatiales au système d’information pour aboutir à un système
d’information relocalisé. Ces nouvelles exigences ont occasionné l’apparition de nouveaux
outils pour la transformation des données consolidées et leur géolocalisation.
Le présent document est élaboré suite à l’étude du système de Géo-Business intelligence,
notamment de l’opensource GeoKettle qui est développé pour répondre au besoin
d’intégration de l’Informatique Décisionnelle et de la Géolocalisation. L’étude constitue notre
thème pour le projet personnel géomatique de la formation en Master II en Informatique
Appliquée aux Systèmes d’Information Géographiques que nous avons suivi avec l’Université
de Douala en partenariat avec l’Ecole Nationale des Sciences Géographiques (ENSG).
Notre rapport comporte deux chapitres :
-
Business intelligence et données géo-spatiales : Dans ce premier chapitre nous ferons
une brève présentation de l’informatique décisionnelle et de la géomatique. Il décrit
et présente le système d’intégration de la BI et des données spatiales.
-
L’Opensource GeoKettle : ce deuxième chapitre fait une description technique du
logiciel opensource GeoKettle.
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
4
Chapitre 1 : Business intelligence et données géo-spatiales
L’intégration des données géospatiales aux systèmes d’information décisionnelles ou géo
business intelligence ou encore géomatique décisionnelle, représente l’une des plus
importantes innovations permettant aux décideurs de disposer de l’ensemble de données
indispensables à une bonne prise de décision. Pour aider à mieux comprendre la géomatique
décisionnelle, nous définirons d’abord quelques termes fondamentaux de ce nouveau
concept.
Définitions
Informatique décisionnelle
L’informatique décisionnelle ou Business intelligence est un ensemble d’outils, de méthodes
et de moyens disponibles pour faciliter aux décideurs la prise de décisions. Elle produit un
Système d’information comportant toutes les données de l’entreprise et met à la disposition
des informations pouvant aider à développer un plan stratégique.
Afin de donner une vision plus globale sur l’ensemble de l’entreprise, la BI, grâce à certains
outils comme ETL, permet de consolider d’importantes quantités de données provenant de
sources hétérogènes dans un entrepôt appelé Datawarehouse.
Le schéma1 ci-dessous présente la structure d’un Système d’Information décisionnel :
Figure 1 : Processus détaillé de traitement des données d’un système d’information décisionnel
1
Source: http://perso.univ-lyon1.fr/haytham.elghazel/BI/presentation.html
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
5
ETL (Extract, Transform and Load)
ETL, sigle de Extract, Transform and Load, signifie en français : Extraire, Transformer et
Charger. Il permet d’extraire les données de l’entreprise à des différentes bases de données,
les nettoyer et les charger dans un entrepôt de données datawarehouse ou datamart.
Entrepôts de données
Un entrepôt de données, est une consolidation de données de l’entreprise. Elle est également
appelée base de données d’Aide à la décision qui se distingue de la base de données
opérationnelle de l’entreprise. On distingue 2 sortes d’entrepôts :
-
La Datawarehouse qui comporte toutes les données de l’entreprise ;
La Datamart comporte les données d’un sous-système de l’entreprise.
OLAP (On-Line Analytical Processing)
Un system d’information peut être subdivisée en deux phases:
-
La phase transactionnelle : elle regroupe toute les étapes du processus de traitement
des opérations. (OLTP)
La phase analytique : elle comporte l’étape analytique des données pour la production
de l’information. (OLAP)
Figure 2 : Interaction entre OLTP et OLAP2
2
Source : http://datawarehouse4u.info/OLTP-vs-OLAP.html
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
6
OLAP est un outil qui permet une analyse multidimensionnelle sur les données des entrepôts.
Il permet de créer des représentations multidimensionnelles appelées hypercube ou encore
cube OLAP. Elle comporte un nombre très limité de requêtes transactionnelles. Cependant
elle permet l’exécution de requêtes complexes et agrégées. Les données d’un système OLAP
proviennent de différentes sources ou de bases de données OLTP.
Les applications OLAP sont le plus souvent utilisées dans les Data Mining et la BI.
La géomatique
Selon le site de l’ENSG3, la géomatique est un ensemble de technologies utilisées pour
modéliser, représenter et analyser le territoire pour en faire des représentations virtuelles :
géolocalisation, imagerie spatiale, Systèmes d’Information (Géographique ou non), systèmes
décisionnels, technologies du Web.
Les données géospatiales
Les données géospatiales sont des données utilisées pour la localisation d’objets et
d’évènements sur la surface terrestre. Elles constituent l'ensemble des données
géométriques, des attributs et des métadonnées. Elles sont regroupées en deux catégories :
-
les données Raster qui sont composées d’images bitmap d’une zone de la surface
terrestre (images satellite par exemple),
et les données vecteurs.
Intégration de la BI et des données spatiales
La géomatique décisionnelle ou GéoBI (Géo Business Intelligence) intègre la dimension
spatiale à l’informatique décisionnelle pour fournir aux décideurs un haut degré d’abstraction
facilitant le processus décisionnel.
Les caractéristiques techniques, logiques et conceptuelles de la géomatique décisionnelle ont
été initialement définies par le Professeur Yvan Bedard de l’Université de Laval.
La GéoBI permet:
-
3
de produire un mapping des indicateurs des activités ;
une analyse des activités pas secteur d’activités et/ou par répartition géographique ;
l’exécution d’une analyse spatiale des indicateurs pour une meilleure prise de
décisions ;
un travail collaboratif.
http://www.ensg.eu/Geomatique
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
7
Figure 3 : Processus de la Géomatique décisionnelle4
SOLAP (Spatial On Line Analytical Processing)
Yvan Bedard, définie le SOLAP comme une plate-forme visuelle créée spécialement pour
appuyer l’analyse spatio-temporelle rapide et facile et l'exploration de données suivant une
approche multidimensionnelle composée de niveaux d'agrégation disponibles dans les
affichages cartographiques ainsi que dans les tableaux et diagrammes affiché. Il s’agit d’une
combinaison du Système OLAP et des fonctionnalités geospatiales.
Figure 4 : Types de représentation des dimensions spatiales5
4
Source : http://www.portailsig.org/content/du-nouveau-dans-le-monde-de-la-geomatique-decisionnelle
Rivest, S., Bédard, Y., Proulx, M.-J., Nadeau, M., 2003. SOLAP: a new type of user interface to support spatiotemporal multidimensional data exploration and analysis. Proceedings of the ISPRS Joint Workshop on Spatial,
Temporal and Multi-Dimensional Data Modelling and Analysis, Quebec, Canada, October 2-3.
5
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
8
Avec l’avènement de la géomatique décisionnelle, plusieurs logiciels GéoBI. Nous nous
intéresserons tout particulièrement à l’Opensource GeoKettle de Pentaho, dont nous
présenterons la description technique dans le chapitre suivant.
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
9
Chapitre 2 : L’opensource GeoKettle
Le logiciel opensource GeoKettle a été développé par le laboratoire GeoSOA du Département
des Sciences Géomatiques de l’Université de Laval (Quebec), sous la direction du Professeur
Thierry Bedard. Il est sous Licence Publique Générale Limitée GNU (LGPL), faisant de lui un
logiciel libre.
L’équipe de développement est composée de :
•
•
•
•
Coordonnateur du projet : Thierry Badard ;
Responsable de l’équipe de développement : Etienne Dubé ;
Développeurs : Pascal Hobus, Sven Goldinger, Jean Mathieu, Mamadou Ouattara ;
Contributeurs : Mathieu Bertrand.
Le site spatialitics6 definit GeoKettle comme un puissant outil ETL Spatial dédié à l’intégration
de différentes sources de données spatiales pour la constitution et la mise à jour d’entrepôts
de données géospatiales. Il permet d’extraire des données des multiples sources, de les
transformer afin de corriger les erreurs, de les nettoyer, changer leur structure, de les rendre
conforme aux standards définis, ainsi de permettre le chargement (Loading) des données
transformées dans un SGBD (en mode OLTP ou OLAP/SOLAP), un fichier SIG ou un Service
Web Géospatial.
GeoKettle est une version de l’outil ETL générique Pentaho Data Intégration, qui intègre la
dimension geospatiale. Il intègre des capacités géospatiales des librairies Open Source,
matures, robustes et bien connu comme JTS, GeoTools, deegree, OGR.
Figure 5 : Schéma de fonctionnement du logiciel GeoKettle
6
http://www.spatialytics.org/fr/projets/geokettle/
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
10
Evolution du logiciel
Mai 2008 : première version (2.5.4-20080531) diffusée en open source
Novembre 2008 : version 3.1.0 -20081103
Juin 2009 : version 3.2.0 -20090609
Les caractéristiques de GeoKettle
Les principales caractéristiques de l’opensource GeoKettle sont :
-
Existence et manipulation de données et fonctionnalités de type géométriques ;
Accès aux objets géométriques dans JavaScript ;
Compatibilité et échange de données avec des systèmes de gestion de base de
données spatiales existants (PostGIS, Oracle spatial,…);
Utilisation de fichiers shapefile en entrée .
Installation
Les Packages d’installation du logiciel GeoKettle sont à l’adresse suivante :
http://sourceforge.net/projects/geokettle/files/geokettle-2.x/2.5/ .
Figure 6: interface de téléchargement de GeoKettle
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
11
La version actuelle disponible est la 2.5.
Spatialytics propose une documentation détaillée de l’installation de GeoKettle sur le site
suivante : http://docs.spatialytics.com/doku.php?id=en:spatialytics_etl.
Les Fonctionnalités de base
Les fonctionnalités de base de l’Opensource GeoKettle sont celles de Pentaho Data
integration (Kettle), initialement conçu par Matt Casters (www.ibridge.be) et disponible en
LGPL depuis 2005. Les principales fonctionnalités sont :
-
Il propose une transformation directe qui ne nécessite pas de génération de codes ;
Lecture et écriture de formats variés de fichiers : fichiers Microsoft (MS Access, MS
Excel,..), DBF, XML, Texte, etc… ;
La transformation se fait par différentes étapes : jointures, calculs, filtrage,
démoralisation/normalisation, validation, Scripting, etc… ;
GeoKettle supporte une trentaine de bases de données dont : MySQL, PostgreSQL,
Oracle, DB2, MSSQL Server.
Les Fonctionnalités spatiales
En plus des fonctionnalités de base ci-dessus, GeoKettle dispose des fonctionnalités spatiales
suivantes :
-
Support spatial intégré
Les géométries vectorielles sont parfaitement intégrées. Le logiciel dispose de type
Geometry (JTS- modèle point-ligne-polygone) pour les données. Il permet la
conversion entre type de données (Geometry vers String ou Geometry vers Binaire) et
est compatible avec les SGBD spatiaux. Un support des SGBD spatiaux est intégré dans
le noyau d’E/S pour SGBD (utilisant JDBC).
-
Entrée/Sorties (E/S)
Lecture/écriture de géométries : tous les Steps de bases de données (MySQL, PostGIS,
Oracle Spatial,…) ont accès aux colonnes géométriques. Il n’y a pas de steps dédiés.
Les fichiers shapefiles sont les fichiers GIS exploitables sous GeoKettle.
-
Analyses spatiales
L’analyse spatiale se fait avec des scripts JavaScript. Les fonctions d’analyse spatiales
se regroupent en 2 catégories : les prédicats topologiques qui sont exploitables à partir
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
12
des Steps de filtrage et de jointure (intersects, touches, within, …) et les fonctions
spatiales accessibles en JavaScript (union, intersection, length, buffer, ..).
-
SRS et Projections.
Le Processus de transformation
La Transformation représente le processus de base d’un ETL. Le processus de transformation
de GeoKettle s’effectue suivant des étapes (Steps) reliées par des liens (Hops). Des Threads
ou exécutions parallèles se lancent pour chaque étape de la transformation.
Hops
Steps
Figure 7 : Schéma d’une transformation simple
On distingue les catégories d’Etapes suivantes :
-
les entrées (Input) : fichiers (texte, CSV, shapefile, …), tables de bases de données,…
les sorties (Output) : fichiers, tables, …
les transformations (Transform)
le contrôle de flux (flow)
le Scripting,
etc…
Les Etapes comportent des paramètres configurables qui permettent de spécifier la
connexion à la base de données, le nom du fichier à ouvrir, les critères de filtrage, le code
source d’un script,…
Figure 8 : Fenêtre des propriétés d’un Step
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
13
On distingue 3 types de hops :
-
la copie,
la distribution,
la sortie conditionnelle.
Dans un Hop, les données circulent de la sortie d’un step vers l’être du step suivant.
Les tâches ou Jobs
On appelle taches ou job en anglais, une série d’actions à exécuter séquentiellement. Il s’agit:
-
des transformations,
des scripts (JavaScripts),
des envois/réceptions de mails,
des manipulations de fichiers,
des tests conditionnels,
etc…
Il est à noter que les transformations et les jobs sont normalement stockés dans des fichiers
XML (.ktl/.kjb). Cependant les transformations, jobs et paramètres de connexions aux SGBD
sont stockes dans une Base de données dédiées.
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
14
Conclusion
L’informatique décisionnelle s’impose désormais comme un outil indispensable pour une
bonne prise de décisions en entreprise. Les recherches effectuées par le Laboratoire GeoSOA
du Département des Sciences Géomatiques de l’Université de Laval (Québec) apportent un
complément indispensable à la Business Intelligence et offre des perspectives de recherche
considérables. Avec les résultats encourageants de ces outils, les entreprises n’hésitent plus
à mettre une part de plus en plus importante de leur budget dans la mise en place des
Systèmes d’Information décisionnels leur permettant de consolider et de gérer leur Big Data
(quantités importantes de leurs données). Le data Mining devient une réalité et une
nécessité.
Comme il a été publié sur le site de spatialistics, l’opensource GeoKettle constitue un outil
qui résume au mieux la GeoBI. Il permet une intégration parfaite de la géomatique aux outils
décisionnels. D’autres besoins sont identifiés et exigent une amélioration de GeoKettle pour :
-
permettre la prévisualisation géographique,
assurer l’acceptation de certains formats de fichiers (ex. MapInfo) ;
permettre l’accès aux services WFS,
Cette étude, que nous comptons poursuivre pour aller au-delà de l’exigence du Master II en
IASIG, nous a permis de concilier notre expertise en Business Intelligence acquise avec notre
Master II en Systèmes d’Information et Informatique décisionnelle obtenue avec l’Université
de Bordeaux 1 et les connaissance en Géomatique que nous recherchons avec le Master II en
Informatique Appliquée aux Systèmes d’Information Géographique avec l’université de
Douala.
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
15
Références
Quelques sites de référence :
-
http://kettle.pentaho.org
http://www.geokettle.org
http://sourceforge.net/projects/geokettle/
http://www.spatialytics.org
Etude du système de Geo-Business intelligence Opensource GeoKettle, par Gbatti Oukoum - Juillet 2015
16

Documents pareils

Vers une solution SOLAP comme outil participatif

Vers une solution SOLAP comme outil participatif sans jamais devoir utiliser un langage d’interrogation. Peu importe le niveau de complexité de la requête, il suffit de quelques clics de souris et de moins de 10 secondes pour obtenir l’informatio...

Plus en détail