Tout savoir sur Hadoop : Vulgarisation de la technologie et

Transcription

Tout savoir sur Hadoop : Vulgarisation de la technologie et
Tout savoir sur Hadoop : Vulgarisation de la technologie et
les stratégies de certains acteurs
Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour des fonctionnalités d'Hadoop mais aussi de ces bénéfices et
inconvénients.
PRÉSENTATION
DÉCOUVRIR HADOOP
LES ACTEURS DE LA SPHERE
HADOOP
PRESENTATION
Pésentation
La première technologie qui vient à l’esprit
lorsque l’on évoque aujourd’hui le sujet du Big Data est
Hadoop, le framework analytique Java développé au sein
de la fondation Apache. Populaire, Hadoop reste toutefois
un mystère pour nombre d’utilisateurs désireux de mettre
en oeuvre la technologie ou de mieux la comprendre.
LeMagIT a réuni au sein de ce dossier un ensemble
d'articles dont l'objectif est d'aider à comprendre ce qu'est
réellement Hadoop, comment il fonctionne, quels sont ses
usages, comment la technologie est architecturée. 
J UI N 2 0 1 4
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
CYRILLE CHAUSSON
Rédacteur en chef ,
TechTarget / LeMagIT
2
TOUT SAVOIR SUR HADOOP
DÉCOUVRIR HADOOP
DÉCOUVRIR HADOOP
1.
DÉCOUVRIR HADOOP
A LA DÉCOUVERTE D'HADOOP
Hadoop : un framework modulaire
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
3
La première technologie qui vient à l’esprit lorsque l’on
évoque aujourd’hui le sujet du Big Data est Hadoop est le
framework analytique Java développé au sein de la
fondation Apache. Populaire, Hadoop reste toutefois un
mystère pour nombre d’utilisateurs. Pour mieux
comprendre les fondements technologiques d’Hadoop et
les différentes briques qui le composent, LeMagIT s’est
plongé dans l’histoire et l’architecture du framework.
Hadoop trouve ses racines dans les technologies
propriétaires d’analyse de données de Google. En 2004,
le moteur de recherche a publié un article de recherche
présentant son algorithme MapReduce, conçu pour
réaliser des opérations analytiques à grande échelle sur un
grand cluster de serveurs, et sur son système de fichier en
cluster, Google Filesystem (GFS). Doug Cutting, qui
travaillait alors sur le développement du moteur de
recherche libre Apache Lucene et butait sur les mêmes
problèmes de volumétrie de données qu’avait rencontré
Google, s’est alors emparé des concepts décrits dans
l’article du géant de la recherche et a décidé de répliquer
en open source les outils développés par Google pour ses
besoins. Employé chez Yahoo, il s’est alors lancé dans le
développement de ce qui est aujourd’hui le projet Apache
Hadoop – pour la petite histoire, Hadoop est le nom de
l’éléphant qui servait de doudou à son jeune fils.
TOUT SAVOIR SUR HADOOP
Hadoop n’a pas été conçu pour traiter de grandes
quantités de données structurées à grande vitesse. Cette
mission reste largement l’apanage des grands systèmes de
Datawarehouse et de datamart reposant sur des SGBD
traditionnelles et faisant usage de SQL comme langage de
requête. La spécialité d’Hadoop, ce serait plutôt le
traitement à très grande échelle de grands volumes de
données non structurées tels que des documents textuels,
des images, des fichiers audio… même s’il est aussi
possible de traiter des données semi-structurées ou
structurées avec Hadoop.
HDFS : le système de gestion de fichier en
cluster au cœur d’Hadoop
Au cœur du framework open source se trouve avant tout
un système de fichiers en cluster, baptisé HDFS (Hadoop
Distributed Filesystem). HDFS a été conçu pour stocker
de très gros volumes de données sur un grand nombre de
machines équipées de disques durs banalisés.
Le filesystem HDFS est conçu pour assurer la sécurité
des données en répliquant de multiples fois l’ensemble
des données écrites sur le cluster.
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Par défaut, chaque donnée est écrite sur trois nœuds
différents. Il ne s’agit pas du plus élégant des mécanismes
de redondance, ni du plus efficace, mais étant donné que
l’on s’appuie sur des disques durs SATA économiques,
un cluster HDFS a le bénéfice d’offrir une solution de
stockage très économique par rapport à celui des baies de
stockage traditionnelles. En l’état, HDFS est optimisé
pour maximiser les débits de données et non pas pour les
opérations transactionnelles aléatoires. La taille d’un bloc
de données est ainsi de 64 Mo dans HDFS contre 512
octets à 4 Ko dans la plupart des systèmes de fichiers
traditionnels. Cette taille de bloc s’explique par le fait que
Hadoop doit analyser de grandes quantités de données en
local.
Avec la version 2.0 d’Hadoop, la principale faiblesse
d’HDFS a été levée : jusqu’alors la gestion des
métadonnées associées aux fichiers étaient la mission
d’un unique « name node » ; ce qui constituait un point
de faille unique. Depuis la version 2.0 et l’arrivée de la
fonction HDFS High Availability, le "name node" est
répliqué en mode actif/passif, ce qui offre une tolérance
aux pannes. Un autre « défaut » d’HDFS est que le
système n’est pas conforme au standard POSIX et que
certaines commandes familières sur un filesystem
traditionnel ne sont pas disponibles.
4
TOUT SAVOIR SUR HADOOP
Il est à noter que si HDFS est le système de fichiers par
défaut d’Hadoop, le framework peut aussi être déployé
sur des systèmes tiers, souvent grâce à des couches de
compatibilité. MapR, l’un des pionniers d’Hadoop, a
ainsi développé son propre système de gestion de fichiers
qui règle le problème de fragilité lié aux "name nodes"
d’HDFS (en distribuant les informations de métadonnées
sur les nœuds de données) et qui ajoute aussi des
fonctions avancées comme les snapshots, la réplication
ou le clonage. Plusieurs constructeurs de baies de
stockage comme EMC, HP ou IBM ont aussi développé
des couches de compatibilité HDFS au dessus de
certaines de leurs baies ; ce qui leur permet de stocker les
données d’un cluster Hadoop.
MapReduce : distribuer le traitement des
données entre les nœuds
Le second composant majeur d’Hadoop est MapReduce,
qui gère la répartition et l’exécution des requêtes sur les
données stockées par le cluster. Le framework
MapReduce est conçu pour traiter des problèmes
parallèlisables à très grande échelle en s’appuyant sur un
très grand nombre de nœuds. L’objectif de MapReduce et
de son mécanisme avancé de distribution de tâches est de
tirer parti de la localité entre données et traitements sur le
même nœud de façon à minimiser l’impact des transferts
de données entre les nœuds du cluster sur la performance.
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
MapReduce est un processus en plusieurs étapes. Dans la
phase « Map », le nœud maitre divise le problème posé
en sous-problèmes et les distribue entre nœuds de
traitement. Ces nœuds peuvent en cascade distribuer à
nouveau les tâches qui leur ont été assignées. Les
réponses sont ensuite remontées de nœuds en nœuds
jusqu’au nœud maitre ayant assigné les travaux à
l’origine.
C’est alors que s’opère l’étape "Reduce" : le nœud maitre
collationne les réponses emontant des nœuds de
traitement et les combine afin de fournir la réponse à la
question posée à l’origine. Il est à noter que les
traitements Mapreduce s’opèrent sur des données
structurées sous la forme (clé, valeur) et que des
mécanismes d’optimisation assurent que les traitements
sont distribués de telle sorte qu’ils s’opèrent au plus
proche des données (c’est-à-dire idéalement sur les neuds
qui hébergent les données concernées).
De nouveaux outils de langages pour
faciliter les requêtes sur Hadoop
5
TOUT SAVOIR SUR HADOOP
Les API clés de MapReduce sont accessibles en Java, un
langage certes populaire mais qui requiert des
compétences bien plus pointues que la maîtrise d’un
langage d’interrogation comme SQL. Plusieurs langages
ont donc émergé pour tenter de simplifier le travail des
utilisateurs d’Hadoop, dont Pig et Hive. Né chez Yahoo,
Pig est conçu pour traiter toute forme de données. Le
langage de Pig est PigLatin, complété par un runtime
destiné à exécuter les programmes rédigés en PigLatin.
PigLatin a une sémantique assez simple.
DÉCOUVRIR HADOOP
Il permet de charger des données, puis de les manipuler
(appliquer des filtres, des groupements, des opérations
mathématiques…).
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
6
Chez Facebook, des développeurs ont quant à eux conçu
Hive, pour permettre à des développeurs familiers du
langage SQL de manipuler des données dans Hadoop.
Hive dispose d’un langage baptisé HQL (Hive
Query Langage) dont la syntaxe est similaire à celle de
SQL. Le service Hive découpe les requêtes en jobs
MapReduce afin de les exécuter sur le cluster.
Au fil des ans, Hadoop a continué à s’enrichir de
nouvelles applications, comme la base de données Hbase,
qui fournit des services similaires au service BigTable de
Google. Hbase est une base de données en colonnes (dans
la mouvance NoSQL) qui s’appuie sur le système de
gestion de fichiers en cluster HDFS pour le stockage de
ses données. Hbase est notamment utile pour ceux qui ont
besoin d’accès aléatoires en lecture/écriture à de grands
volumes de données. La base intègre des fonctions de
compression et de traitement « in-memory ».Parmi les
autres composants connus, on peut aussi citer la
technologie d’apprentissage Apache Mahout, ainsi que la
technologie d’administration de cluster Zookeeper.
Zookeeper est lui-même un service distribué qui permet
de coordonner l’ensemble des processus distribués sur le
cluster, mais aussi de gérer les configurations de ses
différents éléments.
TOUT SAVOIR SUR HADOOP
Un écosystème qui ne cesse de s’enrichir
Signalons pour terminer que le périmètre d’Hadoop
continue de s’élargir, les différents développeurs de
distributions Hadoop ajoutant progressivement de
nouveaux composants, outils ou langages afin d’enrichir
les composants de base du framework. Cloudera a ainsi
récemment publié Impala, sa technologie de query SQL
massivement parallèle, pour le traitement en temps réel
de données stockées dans Hbase ou dans HDFS. Dans le
cadre de son projet Hawq, Pivotal a, quant à lui, porté sa
base de données massivement parallèle Greenplum sur
HDFS et étendu sa technologie de query aux données non
structurées et semi-structurées stockées sur HDFS. Et
c’est sans compter sur les multiples intégrations réalisées
par des acteurs des bases de données traditionnelles et de
l’analytique, comme Teradata, Oracle ou Microsoft… Un
signe évident du dynamisme de l’écosystème Hadoop,
mais aussi de sa relative jeunesse. – Christophe Bardy
DÉCOUVRIR HADOOP
2. HADOOP 2 VEUT ÉTENDRE LE CHAMP
D'APPLICATION D'HADOOP AU-DELÀ DU
BATCH
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Hadoop 2 a officiellement été dévoilé par la fondation
Apache cette semaine et constitue une évolution majeure
pour le framework analytique historiquement basé sur le
système de gestion de fichiers en cluster HDFS (Hadoop
Distributed File System) et sur le framework MapReduce.
Les premiers utilisateurs d’Hadoop notamment dans le
monde internet, ont utilisé la technologie pour traiter des
volumes massifs de données non structurées et semi
structurées, typiquement des données de logs serveur et
réseau, des données de provenant de réseaux de capteurs,
de flux sociaux ou des images…
Ces données sont stockées sur des clusters de serveurs
banalisés fournissant un pool relativement peu couteux de
ressources de stockage et de traitement. Comme
l’explique Tony Consentino, vice-président et directeur
de recherche chez Ventana Research, Hadoop a la
capacité de traiter des données peu structurées et des
informations qui se prête peu à un stockage dans des
bases de données traditionnelles. Toutefois, comme le
précise Cosentino, les implémentations de l’architecture
actuelle d’Hadoop sont limitées par son orientation batch.
« Hadoop est bien adapté pour les applications ou la
latence n’est pas un problème et qui nécessitent le
7
TOUT SAVOIR SUR HADOOP
traitement de grandes volumétries de données ».
Le couple HDFS – MapReduce « est bien adapté à
l’analyse de jeu de donnés très larges de données non
structurées statiques comportant des téraoctets ou des
petaoctets de données » explique William Bain, le CEO
de ScaleOut Software, un éditeur de solutions de
traitement de données basé à Beaverton, dans l’Oregon.
Comme Cosentino, Bain insiste que du fait de sa nature
batch, et de l’important overhead requis pour le
traitement de données, Hadoop n’a pas été utile pour le
traitement de données en temps réel, même si cela
pourrait changer dans l’avenir avec l’avènement
d’Hadoop 2 et l’apparition de nouveaux moteurs de
requêtes développés par certains fournisseurs. On pense
par exemple à des technologies comme Impala chez
Cloudera.
Un écosystème dynamique
Le dynamisme de l’écosystème qui entoure Hadoop est
remarquable. Depuis ses débuts, la technologie a attiré
des centaines de développeurs désireux de créer des outils
additionnels pour combler des trous dans le spectre
fonctionnel du framework. On peut par exemple citer des
composants comme Hbase – une base de données
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
distribuée au dessus d’HDFS -, Hive – un datawarehouse
de type SQL - ou Pig – un langage de haut niveau pour
développer des programmes d’analyse au dessus de
MapReduce. D’autres acteurs ont contribué des
composants qui sont devenus des sous-projets Hadoop
comme Ambari pour le provisioning et l’administration
de clusters, Cassandra, une base de données NoSQL ou
ZooKeeper qui permet de conserver les données de
configuration et de synchroniser les opérations entre
clusters.
YARN apporte plus de flexibilité à
Hadoop 2
C’est là qu’entre en scène Hadoop 2 – originellement
connu sous le nom Hadoop 2.0. Au cœur de cette mise à
jour majeure figure YARN, un nouveau gestionnaire de
ressources qui devrait permettre à d’autres applications
que les programmes MapReduce de tirer parti des
capacités d’HDFS. YARN (Yet Another Resource
Negotiator) est en parti conçu pour venir à bout des
limitations de MapReduce dans les configurations de très
grands clusters mais aussi pour venir à bout des
limitations lié à l’utilisation du mode Batch tout en
garantissant la compatibilité avec les API existantes et
avec les job MapReduce existants (moyennant une
recompilation).
8
TOUT SAVOIR SUR HADOOP
Avec YARN (aussi appelé MapReduce 2.0 ou MRv2) les
tâches de gestion de ressources et de job
scheduling/monitoring de MapReduce sont séparées en
deux démons autonomes. L’idée selon la fondation
Apache est d’avoir un gestionnaire de ressources global
(distribuant les tâches selon des critères de mémoire, de
CPU et de réseau) et un gestionnaire d’application, qui
gère les jobs (au sens MapReduce du terme).
« YARN est une différence clé d’Hadoop 2.0 », explique
Cosentino. « Au lieu de laisser un job MapReduce se
considérer comme le seul utilisateur d’un cluster HDFS,
il permet à de multiples workloads de s’exécuter de façon
simultanée ». Un exemple est le cas d’utilisation de
Yahoo qui a mis en œuvre le traitement d’événements
complexes Storm au dessus de YARN, afin de canaliser
les données issues des activités sur ses sites web sur un
cluster Hadoop. Yahoo dispose actuellement de plus de
365 Po de données sur 330 000 nœuds de clusters
Hadoop gérés par YARN a récemment expliqué Bruno
Fernandez-Ruiz, un «senior fellow » et vice-président en
charge des plates-formes chez Yahoo. C’est bien plus que
ce que vous pourrez trouver dans une entreprise typique
aujourd’hui explique Fernandez-Ruiz, tout en estimant
que d’autres pourraient suivre son exemple dans les
années à venir. « Notre présent est votre futur » a-t-il
expliqué aux participants du dernier Hadoop Summit.
DÉCOUVRIR HADOOP
Hadoop 2 est aussi censé apporté des améliorations en
termes de disponibilité (en permettant de fédérer les name
nodes Hadoop) et apporte aussi le support de Windows.
Les innovations du nouveau framework devraient faire
leur apparition dans les multiples distributions
commerciales Hadoop au cours des prochains mois. –
PRESENTATION
Christophe Bardy
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
3. Mike Olson, CEO de Cloudera : Hadoop change
la façon dont les entreprises traitent leurs
données
Comment le Big Data et Hadoop vont changer la façon
dont les entreprises traitent leurs données... Un grand
nombre d'organisations et d’entreprises utilisatrices de
technologie, vont modifier la façon dont elles traitent
leurs données comme elles ne l’ont jamais fait
auparavant. Le monde va devenir plus guidé par le Big
Data, car les données sont disponibles. Et soit dit en
passant, si votre organisation choisit de ne pas en tirer
profit, cela deviendra un désavantage concurrentiel. Car
d’autres, dans votre secteur, feront un meilleur usage des
données. Ce qui change tout, bien sûr, est le volume, la
variété et la vitesse des données qui nous sont maintenant
accessibles. Elles proviennent de nombreuses sources, y
compris d’activités non humaines, telles que mes tweets,
9
TOUT SAVOIR SUR HADOOP
mon Facebook ou mes achats en ligne sur les sites d'ecommerce. À cela viennent les données générées
automatiquement par des équipements électroniques
parlant à d’autres équipements électroniques. Aux ÉtatsUnis, le réseau électrique intelligent est en cours de
déploiement, donc ma maison rapporte désormais
régulièrement des informations à mon fournisseur
d'énergie : combien je consomme, à quel moment et
même aujourd'hui, avec certains appareils, les détails de
ma consommation dans ma maison, par exemple combien
mon système de chauffage domestique consomme. C'est
une information qui n'était pas disponible auparavant.
Elle nous permettra d'optimiser le réseau de nouvelles
façons. L’exploration de ces données à grande échelle
permet à nos clients d'utiliser ces données différemment.
En réalité, cela leur permet de poser des questions qu’ils
ne pouvaient tout simplement pas poser jusqu’alors. Par
exemple, les banques et les assurances cherchent à
détecter la fraude. Ce n’est pas une nouveauté, mais que
se passerait-il si vous pouviez traiter une décennie de
données plutôt qu’un mois d’historique de transactions.
Et si vous pouviez ingérer non seulement les transactions
financières mais aussi les activités des utilisateurs sur le
web, quelles pages ils ont visité, pendant combien de
temps, ce qu’ils ont acheté... Si vous pouvez ingérer des
données variées et les soumettre à des algorithmes
d’apprentissage informatisés, à des outils d’analyse
statistique et à des techniques de modélisation avancées,
DÉCOUVRIR HADOOP
vous pouvez commencer à poser des questions qu’il était
impossible de poser précédemment. Et les exemples sont
multiples.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
10
A propos du marché du Big Data et
d’Hadoop…
Le volume, la variété et la vitesse des données sont en
pleine expansion et cela crée une opportunité majeure
pour Cloudera. (…) En 2016, nous nous attendons à ce
que 123 Md$ soient dépensés en logiciels au niveau
mondial. De façon importante, les applications et les
bases de données représenteront plus de la moitié de cette
dépense. C'est un investissement énorme et il est lié à des
activités économiques déjà engagées. Si le volume de
données et les analyses que souhaitent réaliser les
entreprises continuent à évoluer de façon rapide, une
partie de ce budget va être perturbée et va aller à de
nouveaux endroits. Franchement, nous espérons qu’une
bonne partie vienne à nous. Si l’on regarde au-delà des
grandes tendances, (…) IDC indique que 1,7 Md$ sont
consacrés aujourd’hui à l'analyse de données ; le
traitement de données et les ETL pèsent pour 3,5 Md$.
Ce sont des marchés adressables immédiatement pour
nous et où les clients achètent aujourd'hui (…). Les
analystes en général sont horriblement mauvais pour
réaliser des prévisions en particulier sur de nouveaux
TOUT SAVOIR SUR HADOOP
marchés. Néanmoins, un certain nombre d'entre eux a
tenté d’évaluer l’opportunité que représente le marché du
Big Data. Selon les sources, les prévisions varient
énormément, mais il y a un consensus : entre 10 et 30
Md$ au cours des années à venir. C’est une grande
nouvelle pour nous. Nous avons été les premiers à entrer
sur le marché du Big Data, nous avons été les premiers à
commercialiser Hadoop et nous pensons que nous avons
un certain nombre d’avantages pour capturer une partie
de ce marché.
La vision de Michael Olson sur Cloudera et
Hadoop...
Cloudera a apporté au marché une solution de Big Data
basée sur Hadoop. Basée, car notre distribution est la
solution la plus complète construite sur Hadoop et les
produits l’entourant. Vous pouvez considérer un tel
assemblage comme Linux. Ce que Red Hat produit est un
logiciel que vous pouvez installer sur votre ordinateur,
basé sur le noyau Linux. Vous pourriez assembler les
modules vous-mêmes, mais ce que Linux (au sens
kernel.com) est vraiment, est un composant compact qui
permet de stocker des fichiers et faire tourner des
programmes. Ce que Red Hat a fait est packager toutes
les applications et outils, éditeurs de texte et fournit
l’infrastructure de support qui rend cette plate-forme
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
11
utilisable. Red Hat l’a ensuite livré avec un support 24/24
ainsi qu’avec un service de mise à jour. Ce service
ressemble à ce que nous faisons pour Hadoop. Nous
pensons que nous avons l’opportunité de remplacer une
variété de systèmes de stockage, bases de données,
systèmes de gestion de contenus spécifiques,
propriétaires et vieillissants par une seule solution
cohérente, à même de stocker une grande variété de
données et de faire tourner un grand nombre de workload.
Soyons clairs : nous ne pensons pas remplacer les bases
de données relationnelles. Les grands datawarehouses
font un boulot excellent pour l’OLTP et l’OLAP depuis
longtemps. Ces marchés resteront durablement l’apanage
des vendeurs qui les dominent. Mais nous avons des
clients qui dépensent bien trop d’argent sur certains de
leurs workloads. Si par exemple vous avez un grand
datawarehouse et que vous utilisez ce système grand et
cher pour vos applications d’ETL, vous dépensez sans
doute bien trop. Vous pourriez libérer de la capacité
analytique sur ce système si vous pouviez transférer les
workloads de data processing sur une infrastructure
moins coûteuse. Notre plate-forme permet à nos clients
de faire exactement cela. Notre désir est de délivrer une
seule et unique plate-forme à même de permettre à nos
clients d’ingérer des données depuis n’importe quelle
source, de la soumettre à une variété de processus de
traitement de données et en plus, de l’analyser avec des
outils et algorithmes puissants jusqu’alors inaccessibles.
TOUT SAVOIR SUR HADOOP
Comme je l’ai dit, nous délivrons une nouvelle plateforme critique et nous pensons qu’elle deviendra aussi
prévalente que les SGBD le sont aujourd’hui. Elle ne
remplacera pas les systèmes existants, mais viendra les
compléter pour permettre à nos clients d’optimiser leurs
déploiements. Ils pourront faire tourner les workloads sur
la plate-forme la plus adaptée et au meilleur coût. Ce que
l’on a fait est packager le projet open source avec des
outils d’administration et de monitoring. Tout ce que
nous savons sur la gestion des clusters Hadoop a été mis
dans le logiciel et nous délivrons le tout avec un support
24/7. Nous rendons Hadoop manageable. Notre go-tomarket est le même que celui de Sybase, Ingres ou Oracle
dans le milieu des années quatre-vingt-dix. Hadoop,
comme les bases SGBD à l’époque, est nouveau. Il faut
des compétences pointues pour l’opérer et elles sont
encore assez rares sur le terrain. Les applications, les
outils qui tournent sur Hadoop, sont eux aussi encore
rares, mêmes si nous en voyons apparaître de plus en
plus. Comme Oracle, Sybase, IBM ou Microsoft,
Cloudera se concentre non pas sur le développement
d’applications mais sur la livraison d’une infrastructure
fiable, simple à administrer et à exploiter. Nous laissons
intentionnellement le marché des applications et des
outils à nos partenaires. Notre désir est de créer un
écosystème riche de vendeurs qui s’appuient sur notre
plate-forme. Si nous y parvenons, chacun de ces outils et
applications accélérera l’adoption de notre plate-forme.
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Cette stratégie devrait nous permettre de nous développer
de façon solide à long terme. Il se pourrait qu’un jour
viendra où nous aurons saturé le marché pour les platesformes Big Data, mais nous avons aujourd’hui un large
espace ouvert devant nous pour délivrer cette plate-forme
et encourager l’innovation dans l’écosystème. Nous
avons aujourd’hui 400 partenaires dans notre programme
Connect. Ce sont des éditeurs, des intégrateurs systèmes,
ou des constructeurs comme Dell ou HP ainsi que des
éditeurs d’outils comme Microstrategy.
Cloudera et ses concurrents dans le monde
Hadoop (MapR, HortonWorks…)...
Nous existons depuis mi-2008. C’est plus vieux que nos
concurrents immédiats. Le créateur d'Hadoop travaille
pour Cloudera; nous employons une population non
négligeable de contributeurs et de commiteurs au code
Hadoop open source; nous disposons d’une équipe
compétente en charge du développement de nos outils de
management et des personnels adaptés pour le support de
nos clients et de nos partenaires... Nous sommes leaders
simplement parce que les dés étaient pipés d’avance :
nous sommes sur le marché depuis plus longtemps que
tous nos concurrents, et de ce fait, nous avons plus de
retours sur ce dont ont besoin les clients. Et puis, nous
12
TOUT SAVOIR SUR HADOOP
avons simplement eu plus de temps que tout le monde
pour construire nos produits. Notre technologie, notre
équipe, nous séparent des concurrents. 20 milliards
d’événements online sont ingérés chaque jour par nos
systèmes. 20 millions de foyers voient leur
consommation énergétique traitée et analysée par nos
systèmes, 70% des activités en ligne des utilisateurs
mobiles US passent à un moment ou à un autre par un
système Cloudera, notamment les services en matière de
géolocalisation. 4 des 5 premières banques US nous
utilisent pour de l’analyse de risque ou de la détection de
fraude et nous sommes présents chez les plus grands
opérateurs télécoms, ainsi que dans les grandes agences
de renseignement américaines. Il ne s’agit pas, comme
vous le voyez, que d’applications internet grand public. Il
ne s’agit pas de Facebook - pour motoriser la sélection de
publicités qu’il va afficher à ses membres. On parle là
d’un échantillon très large de workloads dans des secteurs
économiques très variés, permettant de résoudre des
problèmes spécifiques à chaque client. Cette plate-forme
ne peut générer un marché de plusieurs milliards de
dollars que si elle est suffisamment générique et peut être
appliquée à des problèmes très différents, c’est le cas
dans notre base installée.
Hadoop et les traitements en temps réel...
DÉCOUVRIR HADOOP
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
13
Pour ceux qui ne connaissent pas très bien Hadoop, la
conception a eu lieu chez Google et l’accouchement s’est
fait dans des sociétés comme Facebook ou Yahoo. Le
problème que ces sociétés cherchaient à résoudre était
celui du traitement à très grande échelle de log web. Ils
avaient beaucoup de données à traiter en mode batch. Ils
ont donc conçu MapReduce, un système de traitement de
données en mode batch pour analyser ces données. Cela a
transformé la façon dont Internet opère. Ce qui nous a
motivés chez Cloudera est que nous étions convaincus
que ce qui a transformé l’Internet grand public était
applicable aux entreprises : Google n’était pas différent
d’une entreprise normale, il opérait simplement 10 ans
dans le futur… Stocker de grandes quantités de données
et pouvoir réaliser des traitements en mode batch dessus a
déjà changé les choses. Mais soyons honnêtes, il y a
beaucoup d’applications qui ne fonctionnent pas en mode
batch dans le monde. Il y aussi un grand nombre
d’applications temps réel et interactives. Si Hadoop était
prisonnier du ghetto batch, il ne pourrait pas tirer parti
d’opportunités de marché très larges. C’est pourquoi dans
le cadre de notre plate-forme, nous délivrons une plateforme d’analyse de données en temps réel baptisée
Hbase. Nous avons aussi fait une contribution majeure à
la communauté Open Source avec un logiciel de
traitement en temps réel baptisé Impala qui permet
d’effectuer des requêtes interactives sur les données
stockées dans Hadoop. En fait vous pouvez utiliser
TOUT SAVOIR SUR HADOOP
MapReduce, Hbase ou Impala sur un même jeu de
données. Une fois que les données sont stockées sur
Hadoop, vous pouvez lui apporter tout type de moteur de
traitement. MapReduce n’est pas la seule alternative,
Hbase ou Impala sont disponibles aujourd’hui mais au fil
des ans de nouveaux moteurs devraient s’ajouter à la
liste.
Impala n’est-il pas une implémentation de
Google Dremel avec 2 à 4 ans de retard ? Et
que dire du retard général Hadoop sur les
technologies développées en interne par
Google ?
Si vous regardez le projet open source Hadoop vous avez
effectivement raison. Il s’agit d’une « imitation » avec 4
ans de retard sur ce que Google avait inventé en interne.
J’ai passé 26 ans de ma carrière dans le monde des
SGBD, j’ai lu à l’époque l’article de Google sur
MapReduce et j’ai pensé qu’il s’agissait d’une blague.
Tout le monde dans l’industrie pensait savoir comment
bâtir des bases de données à grande échelle et nous avons
complètement raté l’opportunité que représentaient
Hadoop et le Big Data en général. Une industrie avec des
milliards de dollars de revenus, avec un énorme budget
R&D épaulé par la recherche de multiples universités de
classe mondiale, a passé 30 ans à perfectionner ses
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
14
logiciels de traitement de données et au final, c’est une
bande de développeurs hirsutes de Mountain View en
Californie qui a sorti de son chapeau la technologie qui a
révolutionné le secteur.(…) Impala est un mix entre des
idées neuves et des concepts empruntés à Dremel. Dans
les trimestres à venir, nous allons apporter de nouvelles
innovations à la plate-forme qui ne sont pas dérivées de
Google. Mais nous n’avons pas honte : nous prendrons
les bonnes idées d’où qu’elles proviennent. Ce que nous
avons fait franchement est d’interroger notre base
installée pour voir quels étaient ses besoins et pour y
répondre, nous avons embauché l’ingénieur de Google
qui avait construit Dremel. Il y a en revanche des
fonctions qui arrivent qui sont inspirées de demandes de
nos clients et qui n’ont rien à voir avec ce que fait
Google. Et je le répète. Nous n’avons aucune réserve à
emprunter de bonnes idées à Google. En fait, il va se
passer pour la plate-forme Hadoop, ce qui est arrivé aux
SGBD. Il y a 30 ans, vous pouviez aller voir Ingres et
acheter un SGBD. Aujourd’hui vous ne pouvez plus aller
voir Ingres(sic), mais IBM, Oracle ou Microsoft pour
acheter votre SGBD. Mais ce logiciel n’a plus rien à voir
avec les SGBD d’il y a 30 ans. Hadoop est jeune, il va
évoluer pour exploiter de nouveaux développements
techniques, comme la généralisation des réseaux longue
distance à haute performance, la chute des coûts du
stockage. Il sera intéressant de voir ce que sera le
positionnement prix de la Flash d’ici 5 ans. En fait si
TOUT SAVOIR SUR HADOOP
vous entendez aujourd’hui quelqu’un critiquer Hadoop en
disant, « oui, mais Hadoop n’est bon qu’à X ou Y », il est
prudent de rajouter « aujourd’hui ». Les limitations que
nous connaissons aujourd’hui seront certainement
contournables dans le futur avec un peu d’ingénierie. –
Christophe Bardy
4.
CLOUD ET IMPLEMENTATION HADOOP : ETAT DES
LIEUX
Le Big Data a déjà marqué de son empreinte le marché
IT. C'est notamment visible chez les acteurs du Paas, tels
que Amazon, Google, Heroku, IBM et Microsoft dont les
offres ont largement occupé le haut de l’affiche.
Toutefois, dans ce contexte, il est difficile de savoir quel
fournisseur propose l’implémentation la plus complète
d’Apache Hadoop dans un cloud public.
Clairement, le framework de la fondation Apache, ainsi
que HDFS, MapReduce, Hive, Pig ont gagné en
popularité dans l’analytique Big Data, alors que les
entreprises sont de plus en plus adeptes des modèles Paas
pour entreposer leurs données. A cela s’ajoute un niveau
de maturité d’Hadoop, dont la sortie de la version 1.0 a
poussé le framework dans les environnements de
production liés à l’analytique.
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Du côté des entreprises, le gain est également évident.
Cette capacité à créer des clusters Hadoop hautement
scalables sur un modèle OnDemand, combiné à des
traitements MapReduce, a permis aux entreprises de
réduire leurs dépenses en matériels et serveurs à demeure,
dont l’utilisation n’était que sporadique. En conséquence,
Hadoop s’est imposé chez les fournisseurs de Paas,
comme Amazon, Google, IBM et Microsoft, qui ont
décidé de pré-packager Hadoop et MapReduce sous la
forme de services pré-configurés.
AWS Elastic MapReduce
Amazon Web Services a dégainé le premier en avril
2009, avec Elastic MapReduce (EMR). EMR prend en
charge le provisioning de cluster Hadoop, exécute des
jobs flow et transfère les données entre Amazon EC2 et
Amazon S3. EMR intègre également Apache Hive, un
service bâti sur Hadoop pour l’entrepôt de
données.
EMR supporte la tolérance de panne pour les
noeuds esclaves. Amazon conseille de seulement
exécuter Task Instance Group dans des instances
ponctuelles (instances spots) afin de bénéficier de coûts
15
TOUT SAVOIR SUR HADOOP
réduits, tout en assurant la haute disponibilité. Toutefois,
AWS n’a ajouté le support des instances ponctuelles
qu’en août 2011.
Pour EMR, Amazon pratique un surcoût de 0,015 à
0,50 dollars par heure sur ses offres de petites instances et
celles dédiés au calcul à hautes performances (Cluster
Compute Eight Extra Large d’EC2). Selon AWS, une fois
les traitements démarrés, EMR prend en charge le
provisioning des instances EC2, les paramètres de
sécurité, la configuration d’Hadoop, la collecte des logs,
le monitoring ainsi que les problématiques hardware,
telles que la désactivation automatique des instances en
échec des job flow. AWS a récemment annoncé l’accès
gratuit à Cloudwatch pour EMR.
Google App Engine - MapReduce
Selon Mike Aizatskyi, développeur chez Google, toutes
les équipes du groupe utilisent MapReduce, depuis sa
création en 2004. Google a publié des API AppEngine MapReduce, sous la forme de versions expérimentales
des API MapReduce destinées à supporter les
DÉCOUVRIR HADOOP
DÉCOUVRIR HADOOP
développements réalisés avec Hadoop 0.20 sur Google
App Engine. Les équipes de Google ont ensuite publié
des API en mars 2011 pour proposer un type de système
de fichiers pour le stockage Blob. Elles ont également
amélioré la fonction User-Space Shuffler.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
L’API Google AppEngine - MapReduce permet de
manipuler les opérations de type Map, Shuffle et Reduce
via l’ API Pipeline. Toutefois, Google n’a toujours pas
modifié le statut, toujours au stade expérimental de son
API. AppEngine - Mapreduce adresse davantage les
problématiques des développeurs Java et Python que
celles des statisticiens Big Data ou encore les spécialistes
de l’analytique. Shuffler est également limité à 100 Mo
de données, ce qui ne le fait pas véritablement entrer dans
la vision Big Data. Pour de plus gros volume de données,
un accès vers BigShuffler peut être demandé auprès de
Google.
Treasure Data Hadoop, add-on pour
Heroku
16
TOUT SAVOIR SUR HADOOP
L’add-on Treasure Data Hadoop pour Heroku permet
d’utiliser Hadoop et Hive pour analyser les logs et les
événements des applications hébergées - une des
principales fonctions de la technologie. Heroku propose
également d’autres add-on Big Data, comme
l’implémentation de Apache CouchBase (Cloudant),
MongoDB, MongoHQ, Redis To Go, et Neo4,
notamment. AppHarbor, présenté par certains comme le
Heroku pour .NET propose également une série d’add-on
pour Cloudant, MongoLab, MongoHQ et Redis To Go,
ainsi que des add-ons pour RavenHQ. Ni Heroku ni
AppHarbor ne proposent des implémentations globales
d’Hadoop.
IBM Apache Hadoop pour SmartCloud
L’aventure de l’analytique Hadoop d’IBM a débuté en
octobre 2011 avec InfoSphere BigInsights Basic pour
IBM SmartCloud Enterprise. BigInsight Basic, qui peut
gérer jusqu’à 10 To de données, est également disponible
gratuitement pour les systèmes Linux. BigInsights
Enterprise reste en revanche payant. Ces deux versions
intègrent Apache Hadoop, HDFS, et le framework
MapReduce, ainsi qu’un ensemble de sous-projets
DÉCOUVRIR HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Hadoop. L’édition Enterprise, quant à elle, comprend une
plug-in pour Eclipse pour créer des formats texte, la
découverte de données formatées (comme celles d’un
tableur) ainsi qu’une connectivité JDBC à Netezza et
DB2. Ces deux éditions embarquent également des outils
d’installation et d’administration.
16 To), pour simplifier les opérations MapReduce.
Les spécifications techniques fournies par IBM restent
toutefois floues quant aux versions de BigInsights
présentes dans le cloud public.
L’éditeur de Redmond fournit également de nouvelles
bibliothèques Javascript, afin de faire du langage un outil
de programmation pour Hadoop. Une façon de lever les
barrières à l’adoption de Hadoop et MapReduce en
permettant de développer des programmes MapReduce
en Javascript et de les exécuter dans le navigateur. La
CTP comprend également un add-on à Hive pour Excel
qui permet aux utilisateurs d’interagir avec les données
dans Hadoop. Les utilisateurs peuvent ainsi réaliser des
requêtes Hive afin d’analyser les données non structurées
d’Hadoop au sein de l’interface d’Excel. Cette version
inclut également un pilote ODBC Hive qui permet
d’intégrer Hadoop aux autres outils de BI de Microsoft.
Microsoft Apache Hadoop sur Windows
Azure
Microsoft s’est associé à Hortonworks, une spin-off de
Yahoo spécialisée dans les services Hadoop, pour
implémenter Hadoop sur Azure (HoA - Hadoop on
Azure). Depuis le 14 décembre 2011, HoA est disponible
en version CTP, mais uniquement sur invitation.
Avant de prendre le train Hadoop en marche, Microsoft a
développé Dryad, une base de données de type graphe
développée par Microsoft Research, et sur l’add-on HighPerformance Computing (LINQ to HPC) pour gérer
l’analytique Big Data. La CTP de HoA donne accès à un
choix de clusters Hadoop pré-définis (de Small, pour 4
noeuds et 4 Go de stockage, à Extra Large, 32 noeuds et
17
TOUT SAVOIR SUR HADOOP
Microsoft a développé plusieurs projets autour de
Hadoop / MapReduce, comme le calcul de la valeur de pi
ou encore une méthode de développement portant sur
l’utilisation de C# pour écrire un programme MapReduce
pour le streaming de données.
HoA devrait être mis à jour lors d’une évolution d’Azure
prévue à la mi-2012. Elle devrait ainsi ouvrir le
programme CTP à davantage de développeurs. Cette
version devrait également inclure l’implémentation
d’Hadoop pour Windows Server 2008 R2 pour les cloud
privé et les environnements hybrides. Comme peuvent le
laisser penser les dernières réductions tarifaires d’Azure,
DÉCOUVRIR HADOOP
Microsoft entend placer, d’un point du vue prix, HoA en
frontal à Elastic MapReduce.
Le Big Data, au delà de Hadoop et
MapReduce
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
18
Comme l’indique James Kobielus de cabinet d’étude
Forrester, «si Hadoop et MapReduce seront des
frameworks clés de la sphère Big Data, ils ne seront
toutefois pas les seuls».
Par exemple, Microsoft travaille également à un projet
baptisé Cloud Numerics (en CTP) pour .NET, pour le
calcul intensif sur un large volume de données distribuées
dans Windows Azure.
TOUT SAVOIR SUR HADOOP
Les équipes de recherche ont également publié le code
source pour implémenter l’analyse de données Excel dans
Windows Azure, au sein de son projet Daytona.
Les fournisseurs de Paas qui permettront d’automatiser
l’implémentation de Hadoop, MapReduce et Hive
bénéficieront du soutien d’un grand nombre de «data
scientists» et des acteurs de l’analyse de données.
Pouvoir placer Excel en front-end d’application de BI
donne à Microsoft et à son offre Big Data une longueur
d’avance. Amazon et Microsoft proposent pour l’heure
les services Hadoop les plus automatisés et complets.
– Christophe Bardy
LES ACTEURS DE LA
SPHÈRE HADOOP
Les acteurs de la sphère Hadoop
1.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
ENTRETIEN AVEC AMR AWADALLAH, CTO DE
CLOUDERA
Amr Awadallah est le CTO et co-fondateur de
Cloudera, spécialiste de la distribution Hadoop. Avant
cela, il était vice président de l’ingénierie produit chez
Yahoo. Lors d’une récente visite à Londres, il s’est
entretenu avec nos confrères et partenaires de
ComputerWeekly sur la façon dont la société met en
place son concept de « Hub de données en entreprise »
par opposition aux entrepôts de données déjà établis dans
les entreprises.
Il existe deux publics pour le Big Data. Celui intéressé
par le concept et celui qui l’utilise. Quelle est votre
approche par rapport à cela ?
Amr Awadallah : On
trouve des personnes à tous les étages : ceux qui ne sont
pas certains de ce qu’il faut faire et qui tâtonnent, et les
clients qui sont déjà dedans. Cela est normal, comme
dans tout cycle d’adoption d’une nouvelle technologie.
Est-il moins nécessaire d’évangéliser avec les
technologies Big Data ? Les problèmes ne sont-ils pas
plus évidents qu’à l’habitude ?
19
TOUT SAVOIR SUR HADOOP
Amr Awadallah : Non, nous n'en sommes encore qu’au
commencement. On trouve certains cas d’usage liés à
l’efficacité opérationnelle, qui abordent la question de
économie de coûts. Les gens comprennent cela tout de
suite. Mais pour vendre la vision complète de ce que nous
appelons le hub de données d'entreprise [Enterprise Data
Hub] - il faut encore plus d’évangélisation, même si les
clients sont devenus réceptifs.
Un hub de données d’entreprise ?
Amr Awadallah : La mission de Cloudera est de
permettre aux clients d’utiliser toutes leurs données pour
obtenir encore plus d’informations et poser davantage de
questions. « Toutes » est ici le mot-clé. Il ne s’agit pas
que des Big Data , mais de toutes les données. Il s’agit
d’avoir une vision globale de vos clients.
L’exemple que j’aime donner de cet ensemble de données
en question est celui des distributeurs de billets. Il y a 10
ans, la seule information enregistrée était la transaction
en elle-même. Aujourd’hui, vous pouvez également
collecter des informations implicites, comme votre
visage, la façon dont vous interagissez avec l’écran, si
vous disposez d’un smartphone sur lequel est installé
l’application de la banque et les informations liées au
scanner de chèques. Tout cela améliore la détection de
fraudes.
LES ACTEURS DE LA
SPHÈRE HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
« Poser davantage de questions » est également un point
important. Les applications traditionnelles se sont
focalisées sur l’usage de SQL. Désormais, SQL est
puissant, mais il y a toujours des questions que vous ne
pouvez pas poser. Vous ne pouvez pas traiter des images
ou faire de la reconnaissance vocale avec SQL. Ni
scanner un document PDF.
Le cas d’usage ultime est une vue à 360 du client. Cela
résout les problèmes de silos de données et de données
répartis sur plusieurs canaux. Notre plate-forme permet
de casser ces silos.
Cloudera est un distributeur de distribution Hadoop.
En quoi cette approche de hub correspond-il à une
évolution ?
Amr Awadallah : Il ne s’agit pas de renier de ce que
nous avons fait. Mais de parler un langage plus familier
aux entreprises. 80% des distibutions Hadoop vendues
dans le monde sont les notres. Mais nous proposons
également des technologies en parallèle. Hadoop est aussi
en train de se transformer - Yarn contribue ainsi à ouvrir
la plate-forme. Il y a 5 ans, tout ce que vous pouviez
réaliser avec Hadoop était des opérations MapReduce.
Yarn permet à d’autres applications de s’exécuter au
dessus des données, comme des applications interactives
SQL, ce que propose Impala par exemple.
20
TOUT SAVOIR SUR HADOOP
Nous disposons également d’une fonction de recherche
nativement intégrée. Nous nous intégrons avec SAS et
Splunk - Hunk s’exécute nativement sur Hadoop. Le
moteur d’ETL d’Informatica s’exécute également au
dessus de la plate-forme Cloudera.
L’analogie que nous aimons utiliser est celle-ci : nous
sommes le smartphone de la donnée, au lieu du Reflex
numérique. Les entrepôts de données des entreprises sont
les Reflex du monde de la données. Ils sont chers et ne
font qu’une seule chose - interroger des données
structurées. Le hub de données en entreprise est
équivalent à un smartphone. Il est pratique et les
applications peuvent toutes partager les données. C’est
pareil avec nous. Le modèle est que les applications
viennent aux données, plutôt que de déplacer les données
vers des silos de traitement fermés, ce qui empêche
d’avoir une vue à 360 degré.
Notre approche est plus économique que l’entrepôt de
données traditionnel. Avec nous, le coût pour un teraoctet
de données tourne autour de 1 000$. Dans des entrepôts
de données, vous pouvez payer jusqu’à 100 000$ par
teraoctoet pour stocker des données que vous n’utilisez
pas - des données que vous n’avez pas consulté depuis 6
mois par exemple. Nous proposons un système
d’archivage dynamique pour cela.
LES ACTEURS DE LA
SPHÈRE HADOOP
Nous avons également collaboré avec Teradata au niveau
de l’intégration. Mais aussi avec Oracle, et sa Big Data
Appliance, et avec HP autour du système Vertica.
Toutefois, il restera toujours des utilisations pour
lesquelles un Reflex est encore la bonne solution.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
21
Les projets Big Data en entreprise sont souvent
assimilés à des projets scientifiques. Dépassent-ils ce
stade ?
Amr Awadallah : D’abord, 60% des entreprises du
Fortune 500 utilisent Cloudera, en production et non pas
dans des projets scientifiques. Trois des quatre
spécialistes de la carte de crédit dans le monde s’adossent
à notre solution pour la détection de fraudes.
L’Europe a
deux ans de retard sur les US. Aux Etats-Unis, le
gouvernement fédéral et Monsanto sont clients. Ce
dernier utilise la plate-forme pour recueillir des données
expérimentales de capteurs placés sur le terrain. Ils
mesurent la température, la composition du sol, le taux
d’humidité et la croissance des plantes. Le groupe
travaille à rendre des graines plus efficaces dans
différents environnements. Ils partent du principe que
dans les 10 prochaines années, les êtres humains
consommeront plus qu'au cours des cent dernières
années. Je n’aurai jamais envisagé un tel cas d’usage avec
nos technologies lorsque nous nous sommes lancés il y a
cinq ans.
TOUT SAVOIR SUR HADOOP
Comment se répartit votre base de clients en termes
de secteurs d'activité?
Amr Awadallah : Pour nous, les industries clés sont le
retail, les entreprises du Web (eBay, par exemple), les
télécoms (aussi bien les fournisseurs d’infrastructures que
les fabricants de terminaux mobiles comme Nokia,
Motorola Mobility et RIM), le secteur du pétrole et du
gaz, l’énergie intelligente, l’industrie automobile ,ainsi
que le bâtiment.
C’est une affaire de grands comptes. Il ne s’agit pas
d’une technologie de petite entreprise, à l'exception des
start-up du Web, comme box.com, king.com, etc…En fait
elle est utilisée partout où les volumes de données
explosent.
Comment résumeriez-vous la valeur ajoutée de vos
solutions ?
Amr Awadallah : Nous essayons de donner de l’agilité
pour abaisser le coût de la curiosité. Le prix de la
curiosité est élevé aujourd'hui dans les entreprises.
Lorsque je dirigeais l’infrastructure IT chez Yahoo, les
métiers venaient me voir pour ajouter une nouvelle
colonne au modèle d’une donnée. C’est difficile avec les
entrepôts de données. Cela demande des semaines, voire
des mois.
LES ACTEURS DE LA
SPHÈRE HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Je leur demandais alors : « Quelle valeur cela va créer
pour vous ? » Ils me répondaient : « nous ne pouvons pas
vous dire quelle valeur nous allons tirer de cette colonne
supplémentaire. » Cela empêche les entreprises
d’innover. Il est nécessaire d’avoir un système beaucoup
plus flexible, de façon à pouvoir ajouter rapidement de
nouvelles colonnes et des types de données. Hadoop offre
cela. Vous pouvez expérimenter plus facilement. –
Cyrille Chausson
2.
AVEC HORTONWORKS, RED HAT FAIT DE HADOOP
UNE EXTENSION DE SES SOLUTIONS
Red Hat a décidé de fondre un peu plus Hadoop dans son
offre de stockage. Pour cela, la firme de Raleigh a étendu
ses relations avec l’un des spécialistes du secteur,
Hortonworks,dans le cadre d’une alliance dite
stratégique. Cette collaboration vise a créer des ponts
d’intégration entre les technologies des deux parties afin
« d’accélérer l’adoption » du très précieux framework,
assure John Kreisa, vice président du marketing chez
Hortonworks - et ancien responsable marketing stockage
chez Red Hat, dans un billet de blog. En clair, il s’agit
d’encourager les entreprises à insérer dans leur SI des
projets de gestion et d’analyse de données en volume. Et
22
TOUT SAVOIR SUR HADOOP
quoi de mieux que de proposer une solution unifiée et
intégrée - les 2 sont Open Source - plutôt que d’avoir à
composer avec deux fournisseurs différents.
L’objectif de cette alliance est ainsi d’inscrire la plateforme HDP (Hortonworks Data Platform) d’Hortonworks
directement dans la stack Red Hat, au niveau du
stockage, du middleware et d'intégrer HDP avec la
stratégie de cloud hybride de Red Hat. L’accord porte
d’abord sur l’intégration de HDP avec Red Hat Storage,
grâce notamment à des travaux que les deux partenaires
ont réalisé conjointement au sein du projet Apache
Ambari. Un projet qui vise à faciliter la mise en place
ainsi que l’administration et le monitoring de clusters
Hadoop. Un plug-in a ainsi développé pour Red Hat
Storage (ex-GlusterFS) permettant d’y connecter HDP.
« La plate-forme de Red Hat apparaît comme une option
lorsque HDP est installée via Ambari », explique le site
d’Hortonworks. L’idée est d’ajouter une interface
Hadoop (via un plug-in Red Hat Storage pour Hadoop) à
la solution de stockage de Red Hat et de permettre aux
architectes de données « de combiner des données
Hadoop aux données de l’entreprise dans un espace de
srtockage unique ». Le plug-in est aujourd’hui en bêta et
permet de passer outre les limitations d'HDFS en
utilisation la stack de stockage Red Hat en lieu et place
du file system distribué Hadoop. Cette interfface s'ajoute
aux interfaces POSIX et Swift (la brique stockage objet
LES ACTEURS DE LA
SPHÈRE HADOOP
LES ACTEURS DE LA
SPHÈRE HADOOP
d’OpenStack) déjà disponibles pour Red hat Storage.
Dans cette même logique, HDP se retrouve intimement
lié à la plate-forme OpenStack de Red Hat (Red Hat
Enterprise Linux OpenStack) afin de « simplifier
l’automatisation de déploiement d’Hadoop », sur
OpenStack, indique Red Hat.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Intégrer HDP à RHEL et OpenJDK
Autre pont d’intégration, HDP se retrouve associé à
RHEL et OpenJDK afin de faciliter le développement
d’applications analytiques et la capacité de les déployer
dans plusieurs environnements, virtuels, cloud ou sur site,
explique en substance Red Hat. HDP 2.0 était déjà
certifié pour OpenJDK 1.7.0_09-icedtea. Enfin dernier
élément de cette alliance, la solution d’agrégation, de
fédération et de gestion de données de Red Hat, JBoss
Data Virtualization, peut désormais absorber des données
issues de clusters Hadoop et les conjuguer avec les
données issues des bases de données SQL et NoSQL, et
des applications d’entreprises, cloud ou pas.
Selon Matthew Aslett, directeur de recherche spécialisé
dans le data management et l’ analytique pour le cabinet
451 Research, cité dans un communiqué, la communauté
Hadoop devrait également profiter de cette alliance, car
23
TOUT SAVOIR SUR HADOOP
tous les développements conjoints entre Hortonworks et
Red Hat seront reversés à la communauté Apache
Hadoop. – Cyrille Chausson
3.
MAPR VEUT POUSSER HADOOP PLUS LOIN DANS LES
ENTREPRISES
L’un des pure-players indépendants du monde Hadoop,
MapR, a profité de la Strata Conference 2014 qui se tient
actuellement à Santa Clara en Californie, pour démontrer
sa capacité à donner aux entreprises les moyens d’utiliser
un environnement Hadoop dans leur SI.
MapR constitue avec Hortonworks et Cloudera, l'un des 3
acteurs indépendants qui ont basé leur modèle
économique sur Hadoop. Avec certes une approche un
peu différente. Par exemple, Si Hortonworks se base sur
une notion de services autour de sa distribution Hadoop,
Cloudera tend volontiers à s’extraire du monde de
l’édition Hadoop pour développer une sphère de
technologies adjacentes, compilées dans ce que la société
baptise « un hub de données en entreprise ».
De son côté, MapR a depuis son origine concentré ses
efforts pour faire d’Hadoop un composant d’entreprise,
en développant par exemple son propre système de
fichiers MapR FS, reposant sur le standard NFS, plus
couramment utilisé dans les entreprises que HDFS, le
LES ACTEURS DE LA
SPHÈRE HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
LES ACTEURS DE LA
SPHÈRE HADOOP
système de fichiers Hadoop. Cette approche peut ainsi
être retrouvée dans la dernière version de la distribution
Hadoop de MapR, qui outre le fait de s’adosser au socle
Hadoop 2.2, et d’intégrer ainsi YARN (le nouveau
gestionnaire de ressources du framework), propose
également la comptabilité avec MapReduce 1.0, histoire
de ne pas couper l’herbe sous le pied des entreprises qui
avaient décidé d’investir précédemment dans Hadoop.
YARN (pour « Yet Another Resource Negotiator ")
permet en effet de s’affranchir du mode de traitement
Batch propre à MapReduce. « La distribution Hadoop de
MapR étend YARN un peu loin en ajoutant une interface
complète, ouverte et standard NFS en plus de HDFS,
permettant aux applications non MapReduce de
bénéficier de façon optimisée d’un stockage en cluster »,
résume Evan Quinn, directeur de recherche au sein du
cabinet Enterprise Management Associates, cité dans un
communiqué. La nouvelle distribution MapR conserve
ainsi une compatibilité avec MapReduce 1.0, et permet
d’exécuter les deux technologies simultanément sur le
même noeud d’un cluster, assure également la société. Et
ce pour une migration moins brutale vers YARN.
Un rapprochement avec HP Vertica
24
TOUT SAVOIR SUR HADOOP
Autre exemple, MapR a également annoncé à l’occasion
de ce même événement une intégration entre sa
distribution et la base de données analytique de HP
Vertica, dans le cadre d’une solution dite SQL-onHadoop, baptisé HP Vertica Analytics Platform on
MapR. En clair, proposer une interface 100% compatible
SQL, ainsi que des possibilités analytiques d’une solution
dédiée, pour Hadoop.
« Les entreprises qui ont adopté Hadoop bataillent pour
valoriser les analystes métiers qui ont besoin d’outils de
BI et SQL sophistiqués pour faire leur travail, mais se
sentent restreints avec des
approches SQL
incomplètes. », explique John Schroeder (en photo), CEO
et co-fondateur de MapR Technologies dans un
communiqué. Ce tandem MapR / Vertica vient selon lui
résoudre de problème, mieux que les solutions SQL pour
Hadoop actuelles du marché. Comme Impala initié par
Cloudera, ou encore SQL-H de Teradata (développé en
collaboration avec HortonWorks).
Ce rapprochement est en ligne avec la stratégie que mène
actuellement HP dans le cadre de Haven. Ce concept
architectural, qui vise à donner la vision de HP en matière
de gestion et d’analyse des Big Data, réunit Vertica,
LES ACTEURS DE LA
SPHÈRE HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
Autonomy et ArcSight au dessus d’un socle Hadoop.
Récemment, HP a concrètement établi des ponts
d’intégration entre IDOL et Hadoop (IDOL for Hadoop)
permettant d’embarquer les fonctions coeur de la plateforme HP (extraction d’entités ou des textes, par
exemple) au plus près des noeuds Hadoop. MapR y est
supporté. Dans ce même logique, HP a également
rapproché IDOL de Vertica.
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Un bac sable Hadoop
Enfin, MapR a également profité de la Strata Conference
2014 pour présenter un bac à sable pour Hadoop, dont
l’objectif est de permettre aux développeurs de se faire la
main sur le framework Java et d’y tester leurs
applications en live. Baptisé Sandbox for Hadooop, cet
outil, gratuit, se compose d’une machine virtuelle,
configurable en 5 minutes promet la société, qui contient
la distribution Hadoop de MapR, associée à des tutoriels
à destination des développeurs, mais également des
administrateurs et des analystes métiers. Une façon,
explique MapR, de répondre à la pénurie de compétences
Hadoop, en proposant des outils de formation gratuits et
pouvant être facilement configurés. – Cyrille Chausson
25
TOUT SAVOIR SUR HADOOP
4.
SYNCSORT RAPPROCHE UN PEU PLUS LES
MAINFRAMES D’HADOOP
Syncsort se met à l’heure du Big Data. Et lemoins que
l'on puisse dire est que le mois d’octobre 2013 aura été
particulièrement chargé pour cet acteur historique des
outils mainframe et de l’ETL. En un mois, Syncsort a
entamé sa mue et mis en place une stratégie, dont
l'objectif est de le positionner les deux pieds dans le Big
Data et l’intégration de données. Sans pour autant tirer un
trait sur son passé, mais plutôt en exploitant cette
expertise.
Début octobre, afin de prendre résolument le virage
Hadoop, la société, née il y a 45 ans, a officialisé la
séparation de ses activités de protection et de sauvegarde
de données (Data Protection), rachetées par une partie du
management et quelque investisseurs, de celles liées à
l’intégration de données. Une vraie transformation qui
vient sceller la nouvelle orientation de la marque
Syncsort, qui servira désormais de bannière aux activités
d’intégration de données et aura notamment pour mission
d’exploiter le passé du groupe, le mainframe, et de le
conjuguer, l’associer, le connecter à Hadoop. Lonne
Jaffe - déjà CEO de la société depuis l’été 2013 - assure
la direction de la nouvelle structure et promet de mettre
en place une stratégie d’expansion et de croissance en
activant le levier de l’acquisition.
LES ACTEURS DE LA
SPHÈRE HADOOP
Vers la migration d’applications mainframe
vers Hadoop
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Le rachat du Britannique Circle Computer Group,
annoncé le 8 octobre dernier, s’inscrit ainsi dans la
droite ligne de cette stratégie et vient renforcer les outils
de migration de données mainframe vers Hadoop qui
peuplaient déjà le catalogue de Syncsort.
Car évidemment, le virage vers Hadoop et le Big Data
pris par Syncsort remonte à bien plus loin, résume
Stéphane Heckel (en photo), EMEA Partner Manager
chez Syncsort en France, qui rappelle que la société a
travaillé sur le framework Java dés 2007-2008 avec
certains de ses clients comme Comscore.
Depuis, le groupe a travaillé à établir des connexions
entre son coeur historique, le mainframe - 50% du parc
mainframe dans le monde est client Syncsort, selon ses
propres chiffres - et le monde des technologies Hadoop.
Un pont entre les deux mondes, commente Stéphane
Heckel, motivé par l’optimisation des coûts chez les
clients et la demande de migration ou offload, partielle ou
totale, de données et d’applications vers des infrastructure
plus modernes, également moins coûteuses à maintenir.
Selon Stéphane Heckel, un téraoctet de données stockées
dans Hadoop coûterait environ 2 000 $ par an contre 30
26
TOUT SAVOIR SUR HADOOP
000$ dans un mainframe. « On s’est vite aperçu
qu’Hadoop allait prendre une place clé. Nous avons donc
migré nos outils. »
Si Syncsort disposait déjà de produits pour migrer les
données captives des mainframes et les exposer dans un
environnement Hadoop, le rachat de Circle y ajoute la
migration des applications. « Circle propose une boîte à
outils facilitant la migration d’applications accédant à des
grandes quantités de données contenues dans IBM IMS
(Information Management System), encore très présent
chez les grands comptes et très couteux à maintenir, vers
DB2 […] Avec Circle, l’applicatif reste, mais les donnés
migrent ». Pour ensuite pouvoir les exploiter avec
Hadoop, via un ETL pour Hadoop, qui permet « de
développer graphiquement les process MapReduce et de
s’exécuter nativement au sein de la plateforme Hadoop,
sans générer une ligne de code », souligne-t-il. Un
dispositif qu’il qualifie de bi-directionnel : mainframe
vers Hadoop et Hadoop vers mainframe. Il s’agit ainsi
davantage d’une cohabitation pacifique entre les deux
environnements. Sans effacer les gros systèmes de
l’équation, car selon lui « le mainframe va perdurer, mais
les entreprises ont également besoin de systèmes plus
agiles ».
LES ACTEURS DE LA
SPHÈRE HADOOP
LES ACTEURS DE LA
SPHÈRE HADOOP
A cela s’ajoute également les partenariats que la société a
scellés avec les pure-players du monde Hadoop. A
l’image de ceux signés avec Cloudera ou encore
Greenplum en juin 2012.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
27
Un patch pour remplacer le moteur de tri
par défaut d’Hadoop
Toujours dans cette optique « d’ouvrir la porte du
mainframe » à Hadoop, Syncsort a décidé de jouer un
rôle de contributeur actif au framework Hadoop auprès de
la fondation Apache. La société a ainsi développé un
patch (une fonction dans le langage Apache, référencé
MapReduce 2454) qui permet d’implémenter un moteur
de tri alternatif, en l'occurrence celui de Syncsort (Sort
pour Hadoop), en remplacement de celui inclus par
défaut dans Hadoop, résume Stéphane Heckel. Une
contribution qui a été validée à la fin janvier par la
fondation Open Source, après plusieurs mois de
développements. Ainsi, précise-t-il, l’outil de tri de
Syncsort est « pré-cablé » dans Hadoop. Libre ensuite
aux entreprises de l’activer, et ce sans aucune
modification. Cette contribution permet ainsi de rendre la
fonction tri natif extensible, comme une forme de plug-in,
en somme.
TOUT SAVOIR SUR HADOOP
Selon Stéphane Heckel, dans chaque distribution Hadoop
qui a implémenté ce patch, il existe donc un pont qui
permet de se connecter vers Syncsort, sans avoir à
générer du code supplémentaire. « En activant l’option
Syncsort, avance-t-il, les entreprises vont accélérer des
processus MapReduce de 40 %. » Reprenant ainsi
l’argumentaire de l’accélération que la société avait
utilisé pour DM Express, son turbo pour ETL.
Ce patch
Syncsort a été implémenté par défaut dans la version 4.2
de la distribution Hadoop de Cloudera - le premier à
l’avoir fait dès février - et dans celle d’Hortonworks
(HDP 2). Les implantations chez MapR et Pivotal sont en
cours de validation, ajoute-t-il. De quoi alors créer une
passerelle fluide vers Hadoop pour les 50 % du parc
mainframe mondial que revendique la groupe. – Cyrille
Chausson
5.
EMC ISILON ET HADOOP : RETENEZ-MOI OU JE FAIS
UN MAPR...
EMC continue de lorgner sur le marché du Big Data et
notamment sur le marché Hadoop. Le constructeur, qui
disposait déjà d’un pied dans Hadoop via Greenplum
vient d’en mettre un second en annonçant le « support »
du système de gestion de fichier d’Hadoop, HDFS, sur
ses systèmes de stockage en cluster Isilon.
LES ACTEURS DE LA
SPHÈRE HADOOP
Jusqu’au début 2011, Greenplum était connu pour ses
appliances propriétaires de traitement de données
analytiques , mais sous a bannière d’EMC, la firme a
progressivement pris le virage du « Big Data » à la sauce
Hadoop, le framework de traitement analytique open
source né chez Yahoo.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
EMC et Hadoop : un engagement qui va
croissant
Lors d’EMC World 2011, EMC a ainsi annoncé son
intention de fournir une implémentation d’Hadoop sur les
appliances greenplum. Pour être précis, le constructeur a
annoncé une distribution open source communautaire,
baptisée greenplum HD Community Edition, dérivée du
code de la fondation Apache, et une seconde distribution,
commerciale, orientée « entreprises », dérivée de la
distribution de MapR, greenplum HD Entreprise Edition.
Deux distributions disponibles depuis la rentrée 2011.
Le souci de cette approche duale est que la version
communautaire et open source s’appuie sur le système de
gestion de fichiers libre HDFS (Hadoop File System),
tandis que la déclinaison entreprise s’appuie sur le
système de fichiers propriétaire de MapR. Ce filesystem
est la principale innovation du partenaire d'EMC et il
s’agit d’une innovation importante.
28
TOUT SAVOIR SUR HADOOP
Imaginé par le fondateur du système de gestion de
fichiers en cluster de Spinnaker (racheté par NetApp pour
devenir le cœur du Cluster Mode des baies NetApp), le
filesystem de MapR pallie les principaux défauts d’HDFS
et notamment les risques de panne liés à l’unicité du
nœud gérant les métadonnées de HDFS (name node), qui
est un « single point of failure ». Le système de gestion
de fichiers de MapR est aussi accessible via des
protocoles standards comme NFS, intègre des fonctions
avancées de protection comme les snapshots ou la
réplication. Bref, par rapport à HDFS, il fournit des
bénéfices fonctionnels non négligeables (sans parler de
l’aspect performances).
Dernier atout, l’utilisation de ce filesystem est
transparente pour les applications de la pile Hadoop,
MapR ayant développé une couche d’abstraction
permettant d’y accéder via les API HDFS. Une stratégie
« Canada Dry », qui permet de bénéficier des atouts d’un
filesystem plus abouti, tout en ayant l’impression
d’utiliser HDFS. Seul « petit » problème : dans un
environnement Hadoop largement Open source, MapR
fait tâche, son filesystem étant totalement propriétaire.
Jusqu’alors le Big Data n’était pas le
meilleur ami du "Big Storage"
LES ACTEURS DE LA
SPHÈRE HADOOP
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
Au-delà des affrontements entre partisans du libre et du
propriétaire, le développement des filesytems en cluster
comme HDFS ou MapR pose un autre problème aux
géants du stockage : jusqu’alors les utilisateurs d’Hadoop
ont appris à se passer des baies de stockage qui ont fait la
fortune des géants comme EMC ou NetApp. Chaque
nœud d’un cluster Hadoop est en effet à la fois un nœud
de calcul et un nœud de stockage et n’a pas besoin de
recourir à du stockage partagé. Pire, la progression des
filesystem tels que ceux de MapR est à terme une menace
pour les systèmes de stockage établis, MapR fournissant
pour l’essentiel l’ensemble des fonctions de protection
avancées des baies…
Avec les dernières innovations apportées à ses systèmes
de stockage Isilon, EMC a peut-être trouvé un moyen de
changer la donne, notamment pour les déploiements
Hadoop en entreprises.
Intégrer le support de HDFS directement dans Isilon
L’idée d’EMC est à la fois simple et brillante et elle n’est
pas sans rappeler ce qu’a réalisé MapR. Rappelez-vous
que ce dernier a développé son propre système de fichier
en cluster et a développé une couche d’abstraction pour le
faire apparaître comme un file system HDFS. Et bien
EMC a fait de même au-dessus du système de gestion de
fichiers de ses appliances de stockage en cluster Isilon.
En greffant une couche d’abstraction HDFS sur OneFS,
29
TOUT SAVOIR SUR HADOOP
Isilon propose aux clients d’EMC d’utiliser ses systèmes
de stockage pour leurs besoins de stockage, en
conjonction avec des nœuds de calcul utilisant la
distribution communautaire de greenplum. Bref, pour la
première fois, EMC propose une solution Hadoop
séparant clairement calcul et stockage.
Les bénéfices annoncés par EMC sont les mêmes que
ceux mis en avant par MapR à savoir la sûreté que
procure l’utilisation de OneFS en lieu et place d’HDFS
(notamment parce que les metadonnées sont distribuées
et non pas centralisées sur un unique nœud), ainsi que la
possibilité de tirer parti des fonctions riches de OneFS
(support multiprotocole – NFS, CIFS…-, Snapshots,
réplication…). Un autre bénéfice est la mutualisation des
ressources, un système de stockage Isilon pouvant être
partagé entre de multiples applications. Enfin EMC met
en avant une qualité inédite : la dissociation entre la
partie calcul et la partie stockage.
Dans un cluster Hadoop, les nœuds doivent être
largement identiques et le ratio entre puissance de calcul
et capacité de stockage est fixe, ce qui peut mener à des
gaspillages de ressources lorsque les besoins de calcul et
de stockage sont déséquilibrés. Avec la solution proposée
par Isilon, le stockage est géré par l’appliance de
stockage et l’entreprise peut dimensionner la partie
nœuds de calcul séparément. EMC met aussi en avant
l’efficacité accrue du stockage que permet le filesystem
LES ACTEURS DE LA
SPHÈRE HADOOP
Isilon. Avec une implémentation HDFS, chaque donnée
est répliquée sur trois nœuds différents pour des raisons
de protection de données. OneFS est bien plus efficace
pour une sécurité équivalente.
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
30
Quel avenir pour MapR chez EMC?
La question que pose immédiatement la stratégie d’EMC
est bien évidemment celle de la pérennité de la
distribution de MapR au catalogue d’EMC. Pour Michael
Maxey, le directeur du marketing produits de Greenplum,
MapR a toujours un rôle à jouer au catalogue d’EMC
mais le focus de Greenplum est clairement sur la
distribution Open Source. La solution Isilon visera
notamment les environnements intermédiaires, qui font
leurs premiers pas avec Hadoop et cherchent une solution
tout en un simple d’emploi. La distribution de MapR,
rebaptisée Greenplum MR, se voit quant à elle, assigner
la mission de séduire les grands clients souhaitant
déployer des clusters Hadoop comportant un très grand
nombre de nœuds, tout en bénéficiant des avantages du
filesystem développé par MapR.
TOUT SAVOIR SUR HADOOP
Le premier pari d’EMC est qu’avec ses trois solutions, les
appliances Greenplum, les clusters intermédiaires autour
d’Isilon, et la distribution Greenplum MR, il peut
désormais répondre aux besoins de l'ensemble des clients
quels que soit leur taille ou leurs moyens financiers.
Surtout EMC espère séduire des franges de clients qui,
jusqu’alors, répugnaient à se lancer dans Hadoop du fait
de sa complexité ou du fait de certaines de ses
caractéristiques, perçues comme autant de fragilités. Le
second pari, bien sûr, est de doper un peu plus les ventes
de clusters Isilon du fait de la « greffe HDFS » qui a été
appliquée à OneFS. Au passage EMC s'affranchit aussi
du débat entre propriétaire et open source, qui fait rage à
propos de l'approche semi-propriétaire de MapR. Pour
nombre d'utilisateurs, une baie de stockage, objet hybride
entre matériel et logiciel embarqué, n'a pas de religion,
alors que le file system propriétaire de MapR, 100%
logiciel, est vu comme une intrusion dans un code opensource par ailleurs "pûr". Ainsi va la vie dans le monde
cruel de l'informatique et des communautés libres...
– Christophe Bardy
AUTEURS
CYRILLE
PRESENTATION
VULGARISATION :
DECOUVRIR HADOOP
LES ACTEURS :
LES ACTEURS DE LA SPHERE
HADOOP
CHAUSSON Chef des informations en ligne pour
lemondeinformatique.fr, il s’est très tôt intéressé aux supports
alternatifs aux publications papier et notamment au web. Il a occupé
plusieurs postes de journalistes sur les différents sites du groupe
IDG. En tant que chef d’enquête, il sera amené à traiter quelques
uns de ces sujets pour LeMagIT.fr et participera également à
l’évolution de la plate-forme technique du site.
Le document consulté provient du site www.lemagit.fr
Cyrille Chausson | Rédacteur en Chef
Christophe Bardy | Journaliste
CHRISTOPHE BARDY
Co-fondateur du MagIT, Christophe y a dès le
début pris en charge les rubriques d'infrastructures (Datacenter,
Serveurs, réseaux, Stockage, systèmes d’exploitation, virtualisation.
Aujourd'hui, il est rédacteur en chef adjoint en charge des rubriques
d'infrastructures. Il contribue aussi au contenu éditorial de
StratégiesCloud.fr, le site d'information sur le Cloud du MagIT.
Linda Koury | Directeur Artistique
Neva Maniscalco | Designer
Mathilde Haslund | Assistante Marketing
[email protected]
TechTarget
22 rue Léon Jouhaux, 75010 Paris
www.techtarget.com
©2014 TechTarget Inc. Aucun des contenus ne peut être transmis ou reproduit quelle que soit la
forme sans l'autorisation écrite de l'éditeur. Les réimpressions de TechTarget sont disponibles à
travers The YGS Group.
TechTarget édite des publications pour les professionnels de l'IT. Plus de 100 sites qui proposent
un accès rapide à un stock important d'informations, de conseils, d'analyses concernant les
technologies, les produits et les process déterminants dans vos fonctions. Nos
événements réels et nos séminaires virtuels vous donnent accès à des commentaires et
recommandations neutres par des experts sur les problèmes et défis que vous rencontrez
quotidiennement. Notre communauté en ligne "IT Knowledge Exchange" (Echange de
connaissances IT) vous permet de partager des questionnements et informations de tous les jours
avec vos pairs et des experts du secteur.
31
TOUT SAVOIR SUR HADOOP

Documents pareils