sans commentaires

Transcription

sans commentaires
Principe, applications et limites
Sujet commandité par Thomas Milon
Encadré par Bruno Tisseyre
Traité par Florence Laporte, Anne Meillet et Romain Rivière
Veilles technologiques – Mercredi 14 décembre 2011
1
Présentation
•
•
•
•
Introduction
Principe
Analyse de l’existant
Intérêts et limites
Petit TD de prise en main d’un ETL
géographique libre : SDI
• Conclusion
2
Définition,historique et
importance des données
spatiales
3
ETL: Extract, Transform, Load
Technologie informatique intergicielle :
◦ Extraction massive de données de diverses
sources
◦ Transformation de ces données en les rendant
compatibles avec une source cible
◦ Intégrer les données transformées dans la source
cible
Apparition avec la notion de « Business
Intelligence »
4
1970
1980
Apparition
Première
des premiers interface avec
ETL
langage SQL
2005
Première suite
GéoDécisionnelle
Jmap
2007
Premier ETL
spatial Open
Source
Talend SDI
5
80 % des données possèdent des références
géographiques (Franklin ,1992)
Essor des SIG: Pression de plus en plus
importante pour l'accès aux données
géographiques
Multiplicité des sources et formats de
données
Métadonnée: multiplicité des sources et
spécifications, malgré tentative de
normalisation
6
ETL
géo
Source: http://www.gsdi.org/gsdiconf/gsdi11/wrkshpslides/w1.8a.pdf
7
Extract
Transform
Load
E
T
L
8
Connexion aux différentes données(vecteurs,
rasters, SGBD, flux, PCI…)
Parseur lecture de l’information
Connexion
Lecture
ETL
Données
sources
Point critique conditionne le process
9
Modification des données extraites
◦ Transformation attributaire calcul, harmonisation
des valeurs
◦ Nettoyage/correction des erreurs
◦ Homogénéisation Transformation géographique
◦ Filtre masque
◦ Tri classification
◦ Association jointure (y compris spatiales)
Cœur du système qualité du process
10
Chargement des données transformées dans
les bases de données cibles
Données cibles
ETL
Connexion
Transfert
(ex : Data
Warehouse)
11
Données
sources
E-T-L
(géoKettle)
Données
cibles
12
Analyse des logiciels existants
et critères d'évaluation
13
Propriétaire : FME, InfoSphere DataStage,
DataStage
Informatica, Oracle Warehouse Builder, …
Libre : Talend SDI, Pentaho Geokettle
3 catégories :
◦ Engine
Engine-based (Moteur de transformation)
◦ DatabaseDatabase-embedded
◦ CodeCode-generators (générateur de code)
14
Coût
◦ Taille de la structure
◦ Culture de la structure
Accès aux données
Traitement des données
Temps de traitement
Ergonomie
Le livre blanc - ETL Open Source : Une réelle alternative aux
solutions propriétaires – ATOL, Conseil et Développement
15
SDI
Géokettle
Version
4.2.0
Depuis 2007
2.0
Depuis 2007
Basé sur
Talend Open Studio (TOS)
Pentaho Data Integration
Développé par
CampToCamp
Université de Laval
ETL de type
Générateur de code
Moteur de transformation
Lecture et/ou écriture des
données aux formats …
Les principaux SGBD et
formats de fichiers
Une trentaine de SGBD
Tous les fichiers plats (csv,
xml, excel)
Points forts
Calculs d’aggrégation
lookups
Chargement de données
Répartition sur plusieurs
serveur
Communauté
Forum et Wiki
16
A travers un exemple
d'application et d'un TD
17
Collecte et transformation d’une quantité
massive de données
◦ D’origines diverses
◦ De formats différents
Automatisation des processus
Gain de temps
Chargement incrémentiel de nouvelles données
Eviter les erreurs dûes à la redondance
d’opérations manuelles
Sécurité (système de détection des erreurs)
18
Accessible aux non-informaticiens:
◦ Programmation limitée et « graphique »
◦ Reprise et partage du « code » facilité
Ex: Transformation Shp en Kml
Solution classique: bash + Ogr
#!/bin/bash
mkdir ecw
for FILE in *.tif
do
BASENAME=$(basename $FILE .tif)
OUTFILE=ecw/${BASENAME}.ecw
echo "Processing: ${BASENAME}.tif"
if [ -f $OUTFILE ] #skip if exists
then
echo "Skipping: $OUTFILE"
else
/usr/local/bin/gdal_translate -of ECW -co
LARGE_OK=YES $FILE $OUTFILE
fi
done
http://geolector.alwaysdata.net/geoplanet/posts/251/
Talend SDI
19
(Exemple d’application)
20
Contrôle de la qualité des données / norme
OGC
Intégration et contrôle du PCI au format
EDIGEO
Localisation des erreurs
Création des périmètres administratifs,
Découpage
Conversion de format
Reprojection de référentiels
21
22
Tâche
Processus
Job
Etape 1
Composant 1
Etape 2
Composant 2
…
…
Etape N
Composant N
Barre d’outil
Zone de travail
Gestionnaire
de projet
Zone de gestion
des jobs
Palette de
composants
24
Lourd
Peu intuitif
Boite noire
25
« ETL is not magic »
26
Pratique mais contraignant
Questions sur les données sources :
◦ Sont-elles modifiables ?
◦ Sont-elles homogènes ?
◦ Doivent-elles être transformées ?
Questions sur les processus :
◦ Faisable autrement ?
◦ Répétitif ?
27
28