Using Hadoop to Turbocharge ETL The Smart Way
Transcription
Using Hadoop to Turbocharge ETL The Smart Way
TDWI HOT TOPIC UTILISER HADOOP POUR ACCÉLERER JUDICIEUSEMENT L'ETL // par STEPHEN SWOYER Avec la pénurie d'expertise Hadoop sur le marché, comment les entreprises peuvent-elles tirer parti de la technologie? L'expertise Hadoop dont vous disposez n'est jamais suffisante : c'est une vérité, que vous soyez fournisseur Hadoop expérimenté, débutantnovice ou utilisateur hypothétique d'Hadoop. La mise en oeuvre'implémentation d'Hadoop requiert une expertise très spécifique, à commencer par une compétence en programmation Java, Pig, Python, HiveQL et autres langages. Une expertise en matière de bases de données relationnelles ou ende gestion des données ne serait pas en trop. Le problème est là, soutient Mark Madsen, directeur de Third Nature Inc, cabinet de conseil en gestion de l’informationPrésident de Third Nature Inc. et conseiller en gestion des informations. Tout d'abord, affirme M. Madsen, on constate un manque dl'expertise Hadoop manque de ressources : il n'y a tout simplement pas assez de professionnels informatiques ayant les compétences Hadoop requises pour répondre aux besoins. Ensuite, mais tout aussi important, les programmeurs Java, Python et HiveQL ont tendance à avoir peu d'expérience en matière de programmation des bases de données relationnelles. C'est particulièrement problématique quand Hadoop et MapReduce sont utilisés pour les tâches traditionnelles de gestion des données telles que 'ETL. « Il incombe au programmeur de bien les coder, ce qui est un avantage du SQL et de l'architecture des flux de données de la base de données. Le script Pig est une tentative de programmation déclarative sur Hadoop, mais avec un défaut : l'optimisation est compliquée », déclare M. Madsen à TDWI. CATCH-22 OR DEUS EX MACHINA? Certains fournisseurs affirment pouvoir éliminer ou nettement réduire ce problème. Prenez Pentaho Inc., développeur de technologies de décisionnel open source et d'intégration de données. Grâce à son parrainage « Kettle », un important projet d'ETL open source, Pentaho commercialise un outil d’ETL professionneld'entreprise (PDI - Pentaho Data Integration) intégré au sien d’dans une plate-forme complète d'analytique. Avec son architecture Java, Pentaho positionne PDI conçue sur une architecture Java en tant qu’cette solution comme une application remarquablerévolutionnaire pour l'intégration de Big Data. Selon Dave Henry, Vice-président des solutions d'Eentreprise chez Pentaho, Hadoop et MapReduce sont des produits sur mesure pour l'ETL Big Data. Par « ETL Big Data » M. Henry et Pentaho entendent vraiment des ensembles de données vraiment énormes Big Data. « L'ETL optimisé par Hadoop n'est utile que si vous avez vraiment des grandes volumes quantités de données vraiment importants (des dizaines de téraoctets). Si quelqu'un nous dit : « Nous avons 50 Go de données et nous voulons utiliser Hadoop », nous répondons : « C’est inutile. » Quand les gens traitent des dizaines ou des centaines de téraoctets de données, c’est là que Hadoop peut être extrêmement puissant » affirme-t-il. Ce n’est pas que compliqué. Sur le papier, l'ETL optimisé par Hadoop semble avoir le même problème que n'importe quelle solution optimisée par Hadoop : vous devez être capable de coder les opérations nécessaires en Java ou en script Pig. M. Madsen, de Third Nature, avertit que la solution est susceptible de produire des résultats non optimaux, en particulier si la personne chargée du codage ne possède pas de bonnes connaissances des concepts et méthodes des SGBDR. Toutefois, M. Henry répond que Pentaho Data Integration élimine ce problème puisque son moteur d'intégration de données est déjà écrit en Java. Autrement dit, il est capable de s'exécuter nativement dans le contexte d'un réseau ou d'un cluster Hadoop. MISE EN PARALLÈLISATIONE DES TÂCHES PDI Pour Hadoop, observe M. Henry, il est capable de mettre en parallèleliser et d'exécuter une tâche PDI exactement comme il le ferait avec toute autre tâche Java. Au lieu de spécifier explicitement les opérations « map and reduce » MapReduce en code Java ou script Pig, vous avez un outil de conception ETL de premier ordre et vous l'exploitez avec un moteur de premier ordre. Il fonctionne de cette manière : un architecte ETL utilise le studio « drag and drop » de PDI pour concevoir une tâche. Cette dernière est transmise sous forme de document XML à la bibliothèque d'intégration de données Java, qui s'exécute de manière native sur Hadoop. À partir de là, Hadoop fait ce qu'il sait faire le mieux : il met en parallèlisee la tâche et attribue les ressources de calcul et de stockagemémoire nécessaires. TDWI HOT TOPIC « C'est un serveur de transformation des données avec technique de pipelininge entièrement écrit en Java. Au moment de l'exécution, nous entamons une conversation avec Hadoop et nous disons à la structure MapReduce : « Voilà une tâche pour toi. Nous allons te donner un document XML qui est la spécification de la tâche ETL. À PROPOS DE NOTRE SPONSOR Voilà les ressources de la bibliothèque dont tu as besoin pour exécuter cette tâche et voilà les paramètres de démarrage nécessaires », explique-t-il. « De son côté, Hadoop dit à notre bibliothèque d'intégration de données : « tu es une application Java MapReduce standard » ; elle va prendre ces bibliothèques ETL Pentaho et les distribuer automatiquement au sein du sur le cluster. Elle va également prendre en charge le démarrage de PDI sur tous les nœuds qu'elle considère comme pertinents. » Selon M. Henry, récemment, un client a pu déplacer l'ensemble de ses tâches PDI à grande échelle —non modifiées— pour les exécuter dans la bibliothèque d'intégration de données Pentaho au sein d’dans Hadoop en changeant simplement les objectifscibles d'entrées et de sorties. « Notre outil de conception est un client MapReduce. Nous ne générons jamais de code, nous lui donnons une specification. Nous disons, « C’est l'heure d'exécution, qui est déjà une application MapReduce. Il suffit de la prendre en compte et de l'exécuter », explique-t-il. « Nous avons pris une framework d’structure ETL d'usage général et fait en sorte qu'ilelle s'exécute dans Hadoop. Comme pour la portabilité (entre différentes versions de Hadoop), nous pouvons tournerexécuter sur plus de distributions que n'importe qui : Apache Hadoop, Cloudera, MapR et Hortonworks, et avec d'autres à venir. » www.pentaho.com Pentaho offre des solutionsle futur de l'analytique modernesse d'entreprise. L'héritage open source de Pentaho contribue à notre innovation continue en termes de sur une plate-forme moderne ,unifiée, et facile à intégrer et intégrable qui lie étroitement l'intégration de données et l'analytique pour répondre aux besoins divers et de Big Data. Pentaho est le seul fournisseur qui propose une solution complète d'analytique pour se lde Big Data avec la prise prenant en charge l'ensemble du processus, depuis l'intégration de données, en passant par la visualisation interactive, l'exploration, et l'analyse prédictive des données. Pentaho prend supporte nativement en charge Apache Hadoop, Cloudera et MongoDB ainsi que les bases de données d'analytiquesse à hautes performances telles quecomme Greenplum et Vertica, en plus des bases de données traditionnelles et d’autres sources de données. www.pentaho.com/get-started À PROPOS DE TDWI Stephen Swoyer contribue à laest conseiller de rédaction depour TDWI. TDWI, division de 1105 Media, Inc., a pour vocation d’informerest dédié à la formation les entreprises et des professionnels des technologies de l'information et d'entreprise sur les meilleures pratiques, les stratégies, les techniques et les outils requis pour concevoir, créer, développergérer et améliorer des solutions de décisionnel et de stockage de données. TDWI propose un programme mondial d'adhésion, cinq conférences pédagogiques majeures, des séminaires de formation à thèmes, des formations basées sur les rôles, des cours sur site, des certifications, des partenariats avec les fournisseurs de solutions, un programme de remise de prixde bourses pour les meilleures pratiques, des webinars en direct, des publications ingénieuses et un programme de recherches approfondies ainsi qu'un site Web complet, tdwi.org. © 2013 par TDWI, division de 1105 Media, Inc. Tous droits réservés. Demandes par e-mail ou commentaires à l'adresse [email protected].