Note de recherche - Le Catalogue de Services
Transcription
Note de recherche - Le Catalogue de Services
É C L A I R A G E S U R L ’ A C T U A L I T É Date doc INTERVIEW de David Mc Jannet, Hortonworks OBJECTIF DU DOCUMENT Ce document complète et enrichit les études CXP concernant la thématique de la Business et Big Data. « Yarn est la pierre angulaire d’Hadoop 2.0 » La société Hortonworks a été créée en 2011 en Californie et s'est rapidement imposée comme l'un des principaux fournisseurs de Hadoop. Hortonworks fournit une plate-forme Open Source basée sur Apache Hadoop, pour l'analyse, le stockage et la gestion de grands volumes de données. David Mc Jannet, Vice President Marketing chez Hortonworks de passage à Paris, répond aux questions du CXP. Propos recueillis par Laurence Dubrovin et Emmanuel Lartigue, analystes, Le CXP Hortonworks était présent en avril 2014 à la conférence Hadoop Summit d'Amsterdam et à Paris au salon Big Data début mai 2014. L’Europe est-elle prête pour les Big Data, en particulier les entreprises françaises à migrer une partie de leur système d’information sur Hadoop ? David Mc Jannet. Hadoop a été tout d’abord utilisé par les grandes compagnies du Web (Google, Yahoo, Facebook,etc) qui recherchaient une solution évolutive capable d’accompagner leur croissance exponentielle. Les fournisseurs d’IasS et de PaaS (Infrastructure et Platform As A Service) ont embrayé le pas. Notre solution, Hortonworks Data Platform (HDP), une intégration des meilleurs composants d’Hadoop est proposée par Microsoft dans son offre Azure HDInsight, par SAP, par Teradata ou encore par Rackspace. Nous ne vendons pas de logiciel car notre développement est réalisé en Open Source. Plus de 50% des développements Hadoop sont pilotés par les équipes d’Hortonworks. Nos revenus sont générés exclusivement par le support et la formation. Nous souhaitons avant tout que les entreprises françaises s’intéressent à notre plateforme, qu’elles téléchargent la distribution et qu’elles découvrent les opportunités proposées par celle-ci. Plusieurs clients français sont en cours de qualification de votre plateforme ou l’utilisent comme Canal+, le Crédit Mutuel, Darty, le PMU, Vente Privée ou encore Critéo. Quels sont les exemples de réussite d’utilisation de la plateforme qui pourraient facilement être transposés en France ? Nous avons deux profils d’entreprises utilisatrices, les « Early Adopteurs », qui ont fait le choix d’Hadoop comme système de base de données principal de leur système d’information, forcement de jeunes société car Hadoop n’est commercialisé que depuis 2008, et des sociétés qui ont déjà un système « Legacy » important basé sur des silos de données Oracle ou encore Teradata et qui complètent leur système d’information par une solution Hadoop pour gérer les données poly-structurées comme les Emails, les vidéos, les PDF, les documents de la suite Office ou encore pour implémenter de nouvelles applications propices à cette architecture comme l’Analyse du Click Stream ou encore l’Analyse des Réseaux Sociaux. Hadoop permet aussi de mettre facilement en place des outils d’indexation et de recherche ou de gérer des données en temps réel. Les possibilités sont nombreuses et les sociétés françaises peuvent s’inspirer des nombreuses implémentations dans le monde pour bâtir leur architecture en fonction des besoins de leur société. Le plus simple pour commencer est de télécharger la solution d’évaluation 1 Copyright le CXP, 2014. Le CXP – 13 rue Le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr Tous droits réservés. Reproduction ou distribution sous quelque forme que ce soit est expressément interdite sauf autorisation écrite préalable du CXP. Bien que considérées comme fondées au jour de leur publication, les informations que nous publions sont livrées telles quelles et sans garantie. É C L A I R A G E S U R L ’ A C T U A L I T É Date doc totalement intégrée dans une machine virtuelle (téléchargeable ici Hortonworks Sandbox, plus de 500 000 téléchargements déjà). Cet environnement qui peut fonctionner sur un portable, s’installe en 15 minutes et est livré avec un ensemble de vidéos pour faciliter la prise en main. Exemple de collaboration entre le Legacy et Hadoop Hortonworks Source Hortonworks, 2014 Portées par la communauté Open Source, les distributions Hadoop évoluent très rapidement. Pouvez-vous en quelques mots nous présenter les différences entre les 3 distributions ainsi que les apports d’Hadoop 2.0 ? Hortonworks est 100 % open source. Nous n’utilisons que des modules Open Source. Hortonworks Data Platform (HDP) est aussi la seule distribution Hadoop disponible sur Windows comme sur Linux. Cloudera est 100 % open source mais propose des outils d’administration propriétaires. MapR reprend le noyau open source d’Hadoop mais la distribution embarque plusieurs modules propriétaires. Hortonworks Data Platform 2.1 est « Hadoop 2 »c’est-à-dire qu’elle est bâtie autour de deux composants clés Open Source : YARN et HDFS. HDFS (Hadoop Distributed Filesystem) permet de stocker les Big Data de façon évolutive et rentable. YARN est la nouvelle couche d’interaction avec HDFS. Elle apporte à la fois une nouvelle abstraction pour utiliser HDFS mais surtout des fonctions avancées d’allocation des ressources. Il est désormais possible de distribuer la puissance de calcul en fonction des applications concurrentes qui s’exécutent sur la machine : un script Pig, un SQL HIVE, une recherche avec le module SolR, etc. HDP 2.1 intègre désormais la technologie Spark, le support de traitement temps réel « In-Memory ». L’idée est de charger le plus de données possibles en mémoire pour ne pas avoir à solliciter le cluster Hadoop et ne pas être pénalisé par la latence des disques et du réseau. Couplé avec Storm qui permet le traitement de flux de données en temps réel (Streaming), Spark s’inscrit comme une alternative Open Source aux solutions SAP HANA et SAS LASR. YARN propose aussi Hadoop YARN web service REST APIs, un ensemble d’API qui donnent accès à un ensemble d’informations sur le cluster, les nœuds qui le composent ou encore sur les applications. 2 Copyright le CXP, 2014. Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr Tous droits réservés. Reproduction ou distribution sous quelque forme que ce soit est expressément interdite sauf autorisation écrite préalable du CXP. Nos informations sont livrées telles quelles et sans garanties. Bien que l’information soit considérée comme fondée au jour de sa publication, le CXP ne garantit pas la justesse, la complétude et la pertinence de ses informations. É C L A I R A G E S U R L ’ A C T U A L I T É Date doc Enfin, toujours pour faciliter la gestion de la plateforme, nous intégrons Apache Falcon, un framework conçu pour gérer le cycle de vie des données (acquisition, traitement, réplication, redirection vers des extensions non Hadoop), ainsi que les évolutions sur les données (data lineage). Yarn pierre angulaire de la solution Hortonworks Source Hortonworks, 2014 Hortonworks est une jeune société américaine, de moins de 5 ans. Comment allez-vous vous organiser pour couvrir tout l’ensemble de l’Europe ? Nous avons déjà 40 employés en Europe, avec des points de contact en France, en Allemagne ou encore en Angleterre à Londres. Nos efforts commerciaux sont portés sur les revendeurs locaux, nous travaillons essentiellement par vente indirecte. Nous travaillons aussi beaucoup avec les grands intégrateurs comme Capgemini, Accenture ou encore HP ; HP que d’ailleurs nous comptons parmi les actionnaires de la société. Nous avons aussi une équipe de développement en Europe, en relation continue avec la communauté Open Source Européenne qui est très active. Le mode de facturation de nos prestations et du support s’adapte en fonction de la solution mise en œuvre par le client, le montant est fonction du nombre de cœurs, de serveurs ou encore du volume de données. Documents CXP associés : SERVICES EXPERT : Le BI Verdict Plates-formes décisionnelles ANALYSE DE PRATIQUES - Usages et apports des technologies Big Data DOSSIERS DE RECHERCHE : BI Open Source Marché et Tendances BUSINESS INTELLIGENCE - L'Analytical Appliance : une alternative efficace pour les traitements analytiques lourds 3 Copyright le CXP, 2014. Le CXP – 13 rue le Sueur – 75116 PARIS – 01 53 05 05 53 – www.cxp.fr Tous droits réservés. Reproduction ou distribution sous quelque forme que ce soit est expressément interdite sauf autorisation écrite préalable du CXP. Nos informations sont livrées telles quelles et sans garanties. Bien que l’information soit considérée comme fondée au jour de sa publication, le CXP ne garantit pas la justesse, la complétude et la pertinence de ses informations.