Note de recherche - Le Catalogue de Services

Transcription

Note de recherche - Le Catalogue de Services
É C L A I R A G E
S U R
L ’ A C T U A L I T É
Date doc
INTERVIEW de David Mc Jannet,
Hortonworks
OBJECTIF DU DOCUMENT
Ce document complète et enrichit les
études CXP concernant la thématique
de la Business et Big Data.
« Yarn est la pierre angulaire d’Hadoop 2.0 »
La société Hortonworks a été créée en 2011 en Californie et s'est
rapidement imposée comme l'un des principaux fournisseurs de
Hadoop. Hortonworks fournit une plate-forme Open Source basée sur
Apache Hadoop, pour l'analyse, le stockage et la gestion de grands
volumes de données. David Mc Jannet, Vice President Marketing chez
Hortonworks de passage à Paris, répond aux questions du CXP.
Propos recueillis par Laurence Dubrovin et Emmanuel Lartigue, analystes,
Le CXP
Hortonworks était présent en avril 2014 à la conférence Hadoop Summit d'Amsterdam et à Paris au salon Big Data début
mai 2014. L’Europe est-elle prête pour les Big Data, en particulier les entreprises françaises à migrer une partie de leur
système d’information sur Hadoop ?
David Mc Jannet. Hadoop a été tout d’abord utilisé par les grandes compagnies du Web (Google, Yahoo, Facebook,etc) qui
recherchaient une solution évolutive capable d’accompagner leur croissance exponentielle. Les fournisseurs d’IasS et de PaaS
(Infrastructure et Platform As A Service) ont embrayé le pas. Notre solution, Hortonworks Data Platform (HDP), une intégration
des meilleurs composants d’Hadoop est proposée par Microsoft dans son offre Azure HDInsight, par SAP, par Teradata ou
encore par Rackspace. Nous ne vendons pas de logiciel car notre développement est réalisé en Open Source. Plus de 50% des
développements Hadoop sont pilotés par les équipes d’Hortonworks. Nos revenus sont générés exclusivement par le support
et la formation. Nous souhaitons avant tout que les entreprises françaises s’intéressent à notre plateforme, qu’elles
téléchargent la distribution et qu’elles découvrent les opportunités proposées par celle-ci.
Plusieurs clients français sont en cours de qualification de votre plateforme ou l’utilisent comme Canal+, le Crédit Mutuel,
Darty, le PMU, Vente Privée ou encore Critéo. Quels sont les exemples de réussite d’utilisation de la plateforme qui
pourraient facilement être transposés en France ?
Nous avons deux profils d’entreprises utilisatrices, les « Early Adopteurs », qui ont fait le choix d’Hadoop comme système de
base de données principal de leur système d’information, forcement de jeunes société car Hadoop n’est commercialisé que
depuis 2008, et des sociétés qui ont déjà un système « Legacy » important basé sur des silos de données Oracle ou encore
Teradata et qui complètent leur système d’information par une solution Hadoop pour gérer les données poly-structurées
comme les Emails, les vidéos, les PDF, les documents de la suite Office ou encore pour implémenter de nouvelles applications
propices à cette architecture comme l’Analyse du Click Stream ou encore l’Analyse des Réseaux Sociaux. Hadoop permet aussi
de mettre facilement en place des outils d’indexation et de recherche ou de gérer des données en temps réel. Les possibilités
sont nombreuses et les sociétés françaises peuvent s’inspirer des nombreuses implémentations dans le monde pour bâtir leur
architecture en fonction des besoins de leur société. Le plus simple pour commencer est de télécharger la solution d’évaluation
1
Copyright le CXP, 2014. Le CXP – 13 rue Le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr
Tous droits réservés. Reproduction ou distribution sous quelque forme que ce soit est expressément interdite sauf autorisation écrite préalable du CXP. Bien que considérées comme fondées au jour de leur publication, les
informations que nous publions sont livrées telles quelles et sans garantie.
É C L A I R A G E
S U R
L ’ A C T U A L I T É
Date doc
totalement intégrée dans une machine virtuelle (téléchargeable ici Hortonworks Sandbox, plus de 500 000 téléchargements
déjà). Cet environnement qui peut fonctionner sur un portable, s’installe en 15 minutes et est livré avec un ensemble de vidéos
pour faciliter la prise en main.
Exemple de collaboration entre le Legacy et Hadoop Hortonworks
Source Hortonworks, 2014
Portées par la communauté Open Source, les distributions Hadoop évoluent très rapidement. Pouvez-vous en quelques
mots nous présenter les différences entre les 3 distributions ainsi que les apports d’Hadoop 2.0 ?
Hortonworks est 100 % open source. Nous n’utilisons que des modules Open Source. Hortonworks Data Platform (HDP) est
aussi la seule distribution Hadoop disponible sur Windows comme sur Linux. Cloudera est 100 % open source mais propose des
outils d’administration propriétaires. MapR reprend le noyau open source d’Hadoop mais la distribution embarque plusieurs
modules propriétaires. Hortonworks Data Platform 2.1 est « Hadoop 2 »c’est-à-dire qu’elle est bâtie autour de deux
composants clés Open Source : YARN et HDFS. HDFS (Hadoop Distributed Filesystem) permet de stocker les Big Data de façon
évolutive et rentable. YARN est la nouvelle couche d’interaction avec HDFS. Elle apporte à la fois une nouvelle abstraction pour
utiliser HDFS mais surtout des fonctions avancées d’allocation des ressources. Il est désormais possible de distribuer la
puissance de calcul en fonction des applications concurrentes qui s’exécutent sur la machine : un script Pig, un SQL HIVE, une
recherche avec le module SolR, etc.
HDP 2.1 intègre désormais la technologie Spark, le support de traitement temps réel « In-Memory ». L’idée est de charger le
plus de données possibles en mémoire pour ne pas avoir à solliciter le cluster Hadoop et ne pas être pénalisé par la latence des
disques et du réseau. Couplé avec Storm qui permet le traitement de flux de données en temps réel (Streaming), Spark s’inscrit
comme une alternative Open Source aux solutions SAP HANA et SAS LASR.
YARN propose aussi Hadoop YARN web service REST APIs, un ensemble d’API qui donnent accès à un ensemble d’informations
sur le cluster, les nœuds qui le composent ou encore sur les applications.
2
Copyright le CXP, 2014. Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr
Tous droits réservés. Reproduction ou distribution sous quelque forme que ce soit est expressément interdite sauf autorisation écrite préalable du CXP.
Nos informations sont livrées telles quelles et sans garanties. Bien que l’information soit considérée comme fondée au jour de sa publication, le CXP ne garantit pas la justesse, la complétude et la pertinence de ses informations.
É C L A I R A G E
S U R
L ’ A C T U A L I T É
Date doc
Enfin, toujours pour faciliter la gestion de la plateforme, nous intégrons Apache Falcon, un framework conçu pour gérer le
cycle de vie des données (acquisition, traitement, réplication, redirection vers des extensions non Hadoop), ainsi que les
évolutions sur les données (data lineage).
Yarn pierre angulaire de la solution Hortonworks
Source Hortonworks, 2014
Hortonworks est une jeune société américaine, de moins de 5 ans. Comment allez-vous vous organiser pour couvrir tout
l’ensemble de l’Europe ?
Nous avons déjà 40 employés en Europe, avec des points de contact en France, en Allemagne ou encore en Angleterre à
Londres. Nos efforts commerciaux sont portés sur les revendeurs locaux, nous travaillons essentiellement par vente indirecte.
Nous travaillons aussi beaucoup avec les grands intégrateurs comme Capgemini, Accenture ou encore HP ; HP que d’ailleurs
nous comptons parmi les actionnaires de la société. Nous avons aussi une équipe de développement en Europe, en relation
continue avec la communauté Open Source Européenne qui est très active. Le mode de facturation de nos prestations et du
support s’adapte en fonction de la solution mise en œuvre par le client, le montant est fonction du nombre de cœurs, de
serveurs ou encore du volume de données.
Documents CXP associés :
SERVICES EXPERT :
Le BI Verdict
Plates-formes décisionnelles
ANALYSE DE PRATIQUES - Usages et apports des technologies Big Data
DOSSIERS DE RECHERCHE :
BI Open Source Marché et Tendances
BUSINESS INTELLIGENCE - L'Analytical Appliance : une alternative
efficace pour les traitements analytiques lourds
3
Copyright le CXP, 2014. Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr
Tous droits réservés. Reproduction ou distribution sous quelque forme que ce soit est expressément interdite sauf autorisation écrite préalable du CXP.
Nos informations sont livrées telles quelles et sans garanties. Bien que l’information soit considérée comme fondée au jour de sa publication, le CXP ne garantit pas la justesse, la complétude et la pertinence de ses informations.