Using Hadoop to Turbocharge ETL The Smart Way

Transcription

TDWI HOT TOPIC
UTILISER HADOOP POUR
ACCÉLERER JUDICIEUSEMENT L'ETL
// par STEPHEN SWOYER
Avec la pénurie d'expertise Hadoop sur le marché,
comment les entreprises peuvent-elles tirer parti de la
technologie?
L'expertise Hadoop dont vous disposez n'est jamais
suffisante : c'est une vérité, que vous soyez fournisseur
Hadoop expérimenté, débutantnovice ou utilisateur
hypothétique d'Hadoop.
La mise en oeuvre'implémentation d'Hadoop requiert une
expertise très spécifique, à commencer par une
compétence en programmation Java, Pig, Python, HiveQL et
autres langages. Une expertise en matière de bases de
données relationnelles ou ende gestion des données ne
serait pas en trop.
Le problème est là, soutient Mark Madsen, directeur de
Third Nature Inc, cabinet de conseil en gestion de
l’informationPrésident de Third Nature Inc. et conseiller en
gestion des informations. Tout d'abord, affirme M. Madsen,
on constate un manque dl'expertise Hadoop manque de
ressources : il n'y a tout simplement pas assez de
professionnels informatiques ayant les compétences
Hadoop requises pour répondre aux besoins.
Ensuite, mais tout aussi important, les programmeurs Java,
Python et HiveQL ont tendance à avoir peu d'expérience en
matière de programmation des bases de données
relationnelles. C'est particulièrement problématique quand
Hadoop et MapReduce sont utilisés pour les tâches
traditionnelles de gestion des données telles que 'ETL.
« Il incombe au programmeur de bien les coder, ce qui est
un avantage du SQL et de l'architecture des flux de données
de la base de données. Le script Pig est une tentative de
programmation déclarative sur Hadoop, mais avec un
défaut : l'optimisation est compliquée », déclare M. Madsen
à TDWI.
CATCH-22 OR DEUS EX MACHINA?
Certains fournisseurs affirment pouvoir éliminer ou
nettement réduire ce problème. Prenez Pentaho Inc.,
développeur de technologies de décisionnel open source et
d'intégration de données.
Grâce à son parrainage « Kettle », un important projet
d'ETL open source, Pentaho commercialise un outil d’ETL
professionneld'entreprise (PDI - Pentaho Data Integration)
intégré au sien d’dans une plate-forme complète
d'analytique.
Avec son architecture Java, Pentaho positionne PDI conçue
sur une architecture Java en tant qu’cette solution comme
une application remarquablerévolutionnaire pour
l'intégration de Big Data.
Selon Dave Henry, Vice-président des solutions
d'Eentreprise chez Pentaho, Hadoop et MapReduce sont
des produits sur mesure pour l'ETL Big Data.
Par « ETL Big Data » M. Henry et Pentaho entendent
vraiment des ensembles de données vraiment énormes Big
Data. « L'ETL optimisé par Hadoop n'est utile que si vous
avez vraiment des grandes volumes quantités de données
vraiment importants (des dizaines de téraoctets).
Si quelqu'un nous dit : « Nous avons 50 Go de données et
nous voulons utiliser Hadoop », nous répondons : « C’est
inutile. » Quand les gens traitent des dizaines ou des
centaines de téraoctets de données, c’est là que Hadoop
peut être extrêmement puissant » affirme-t-il. Ce n’est pas
que compliqué.
Sur le papier, l'ETL optimisé par Hadoop semble avoir le
même problème que n'importe quelle solution optimisée
par Hadoop : vous devez être capable de coder les
opérations nécessaires en Java ou en script Pig.
M. Madsen, de Third Nature, avertit que la solution est
susceptible de produire des résultats non optimaux, en
particulier si la personne chargée du codage ne possède
pas de bonnes connaissances des concepts et méthodes
des SGBDR.
Toutefois, M. Henry répond que Pentaho Data Integration
élimine ce problème puisque son moteur d'intégration de
données est déjà écrit en Java. Autrement dit, il est capable
de s'exécuter nativement dans le contexte d'un réseau ou
d'un cluster Hadoop.
MISE EN PARALLÈLISATIONE DES
TÂCHES PDI
Pour Hadoop, observe M. Henry, il est capable de mettre en
parallèleliser et d'exécuter une tâche PDI exactement
comme il le ferait avec toute autre tâche Java. Au lieu de
spécifier explicitement les opérations « map and reduce »
MapReduce en code Java ou script Pig, vous avez un outil de
conception ETL de premier ordre et vous l'exploitez avec un
moteur de premier ordre.
Il fonctionne de cette manière : un architecte ETL utilise le
studio « drag and drop » de PDI pour concevoir une tâche.
Cette dernière est transmise sous forme de document XML à
la bibliothèque d'intégration de données Java, qui s'exécute
de manière native sur Hadoop.
À partir de là, Hadoop fait ce qu'il sait faire le mieux : il met
en parallèlisee la tâche et attribue les ressources de calcul et
de stockagemémoire nécessaires.
TDWI HOT TOPIC
« C'est un serveur de transformation des données avec
technique de pipelininge entièrement écrit en Java.
Au moment de l'exécution, nous entamons une conversation
avec Hadoop et nous disons à la structure MapReduce : « Voilà
une tâche pour toi. Nous allons te donner un document XML
qui est la spécification de la tâche ETL.
À PROPOS DE NOTRE SPONSOR
Voilà les ressources de la bibliothèque dont tu as besoin pour
exécuter cette tâche et voilà les paramètres de démarrage
nécessaires », explique-t-il.
« De son côté, Hadoop dit à notre bibliothèque d'intégration de
données : « tu es une application Java MapReduce standard » ;
elle va prendre ces bibliothèques ETL Pentaho et les distribuer
automatiquement au sein du sur le cluster.
Elle va également prendre en charge le démarrage de PDI sur
tous les nœuds qu'elle considère comme pertinents. »
Selon M. Henry, récemment, un client a pu déplacer l'ensemble
de ses tâches PDI à grande échelle —non modifiées— pour les
exécuter dans la bibliothèque d'intégration de données
Pentaho au sein d’dans Hadoop en changeant simplement les
objectifscibles d'entrées et de sorties.
« Notre outil de conception est un client MapReduce.
Nous ne générons jamais de code, nous lui donnons une
specification. Nous disons, « C’est l'heure d'exécution, qui est
déjà une application MapReduce. Il suffit de la prendre en
compte et de l'exécuter », explique-t-il.
« Nous avons pris une framework d’structure ETL d'usage
général et fait en sorte qu'ilelle s'exécute dans Hadoop.
Comme pour la portabilité (entre différentes versions de
Hadoop), nous pouvons tournerexécuter sur plus de
distributions que n'importe qui : Apache Hadoop, Cloudera,
MapR et Hortonworks, et avec d'autres à venir. »
www.pentaho.com
Pentaho offre des solutionsle futur de l'analytique modernesse
d'entreprise. L'héritage open source de Pentaho contribue à
notre innovation continue en termes de sur une plate-forme
moderne ,unifiée, et facile à intégrer et intégrable qui lie
étroitement l'intégration de données et l'analytique pour
répondre aux besoins divers et de Big Data. Pentaho est le seul
fournisseur qui propose une solution complète d'analytique
pour se lde Big Data avec la prise prenant en charge l'ensemble
du processus, depuis l'intégration de données, en passant par la
visualisation interactive, l'exploration, et l'analyse prédictive des
données. Pentaho prend supporte nativement en charge
Apache Hadoop, Cloudera et MongoDB ainsi que les bases de
données d'analytiquesse à hautes performances telles
quecomme Greenplum et Vertica, en plus des bases de données
traditionnelles et d’autres sources de données.
www.pentaho.com/get-started
À PROPOS DE TDWI
Stephen Swoyer
contribue à laest conseiller de rédaction depour TDWI.
TDWI, division de 1105 Media, Inc., a pour vocation
d’informerest dédié à la formation les entreprises et des
professionnels des technologies de l'information et
d'entreprise sur les meilleures pratiques, les stratégies, les
techniques et les outils requis pour concevoir, créer,
développergérer et améliorer des solutions de décisionnel et
de stockage de données. TDWI propose un programme
mondial d'adhésion, cinq conférences pédagogiques
majeures, des séminaires de formation à thèmes, des
formations basées sur les rôles, des cours sur site, des
certifications, des partenariats avec les fournisseurs de
solutions, un programme de remise de prixde bourses pour
les meilleures pratiques, des webinars en direct, des
publications ingénieuses et un programme de recherches
approfondies ainsi qu'un site Web complet, tdwi.org.
© 2013 par TDWI, division de 1105 Media, Inc. Tous droits réservés. Demandes par e-mail ou commentaires à l'adresse [email protected].

Using Hadoop to Turbocharge ETL The Smart Way

Transcription

Documents pareils

Optimisation de l`Entrepôt de Données

STAGE : Ingénierie des données - HES-SO

HP Services NetMarcom

Le cursus du Master MBDS M1 : Bases de Données Avancées

Hadoop - Oxiane

Pentaho Big Data Integration

Pentaho Data Integration FR

Pentaho Big Data Analytics

Infographie Data Management

Data Management - Marked Support