sans commentaires
Transcription
sans commentaires
Principe, applications et limites Sujet commandité par Thomas Milon Encadré par Bruno Tisseyre Traité par Florence Laporte, Anne Meillet et Romain Rivière Veilles technologiques – Mercredi 14 décembre 2011 1 Présentation • • • • Introduction Principe Analyse de l’existant Intérêts et limites Petit TD de prise en main d’un ETL géographique libre : SDI • Conclusion 2 Définition,historique et importance des données spatiales 3 ETL: Extract, Transform, Load Technologie informatique intergicielle : ◦ Extraction massive de données de diverses sources ◦ Transformation de ces données en les rendant compatibles avec une source cible ◦ Intégrer les données transformées dans la source cible Apparition avec la notion de « Business Intelligence » 4 1970 1980 Apparition Première des premiers interface avec ETL langage SQL 2005 Première suite GéoDécisionnelle Jmap 2007 Premier ETL spatial Open Source Talend SDI 5 80 % des données possèdent des références géographiques (Franklin ,1992) Essor des SIG: Pression de plus en plus importante pour l'accès aux données géographiques Multiplicité des sources et formats de données Métadonnée: multiplicité des sources et spécifications, malgré tentative de normalisation 6 ETL géo Source: http://www.gsdi.org/gsdiconf/gsdi11/wrkshpslides/w1.8a.pdf 7 Extract Transform Load E T L 8 Connexion aux différentes données(vecteurs, rasters, SGBD, flux, PCI…) Parseur lecture de l’information Connexion Lecture ETL Données sources Point critique conditionne le process 9 Modification des données extraites ◦ Transformation attributaire calcul, harmonisation des valeurs ◦ Nettoyage/correction des erreurs ◦ Homogénéisation Transformation géographique ◦ Filtre masque ◦ Tri classification ◦ Association jointure (y compris spatiales) Cœur du système qualité du process 10 Chargement des données transformées dans les bases de données cibles Données cibles ETL Connexion Transfert (ex : Data Warehouse) 11 Données sources E-T-L (géoKettle) Données cibles 12 Analyse des logiciels existants et critères d'évaluation 13 Propriétaire : FME, InfoSphere DataStage, DataStage Informatica, Oracle Warehouse Builder, … Libre : Talend SDI, Pentaho Geokettle 3 catégories : ◦ Engine Engine-based (Moteur de transformation) ◦ DatabaseDatabase-embedded ◦ CodeCode-generators (générateur de code) 14 Coût ◦ Taille de la structure ◦ Culture de la structure Accès aux données Traitement des données Temps de traitement Ergonomie Le livre blanc - ETL Open Source : Une réelle alternative aux solutions propriétaires – ATOL, Conseil et Développement 15 SDI Géokettle Version 4.2.0 Depuis 2007 2.0 Depuis 2007 Basé sur Talend Open Studio (TOS) Pentaho Data Integration Développé par CampToCamp Université de Laval ETL de type Générateur de code Moteur de transformation Lecture et/ou écriture des données aux formats … Les principaux SGBD et formats de fichiers Une trentaine de SGBD Tous les fichiers plats (csv, xml, excel) Points forts Calculs d’aggrégation lookups Chargement de données Répartition sur plusieurs serveur Communauté Forum et Wiki 16 A travers un exemple d'application et d'un TD 17 Collecte et transformation d’une quantité massive de données ◦ D’origines diverses ◦ De formats différents Automatisation des processus Gain de temps Chargement incrémentiel de nouvelles données Eviter les erreurs dûes à la redondance d’opérations manuelles Sécurité (système de détection des erreurs) 18 Accessible aux non-informaticiens: ◦ Programmation limitée et « graphique » ◦ Reprise et partage du « code » facilité Ex: Transformation Shp en Kml Solution classique: bash + Ogr #!/bin/bash mkdir ecw for FILE in *.tif do BASENAME=$(basename $FILE .tif) OUTFILE=ecw/${BASENAME}.ecw echo "Processing: ${BASENAME}.tif" if [ -f $OUTFILE ] #skip if exists then echo "Skipping: $OUTFILE" else /usr/local/bin/gdal_translate -of ECW -co LARGE_OK=YES $FILE $OUTFILE fi done http://geolector.alwaysdata.net/geoplanet/posts/251/ Talend SDI 19 (Exemple d’application) 20 Contrôle de la qualité des données / norme OGC Intégration et contrôle du PCI au format EDIGEO Localisation des erreurs Création des périmètres administratifs, Découpage Conversion de format Reprojection de référentiels 21 22 Tâche Processus Job Etape 1 Composant 1 Etape 2 Composant 2 … … Etape N Composant N Barre d’outil Zone de travail Gestionnaire de projet Zone de gestion des jobs Palette de composants 24 Lourd Peu intuitif Boite noire 25 « ETL is not magic » 26 Pratique mais contraignant Questions sur les données sources : ◦ Sont-elles modifiables ? ◦ Sont-elles homogènes ? ◦ Doivent-elles être transformées ? Questions sur les processus : ◦ Faisable autrement ? ◦ Répétitif ? 27 28