Tout savoir sur Hadoop : Vulgarisation de la technologie et
Transcription
Tout savoir sur Hadoop : Vulgarisation de la technologie et
Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs Hadoop suscite l'intérêt d'un nombre croissant d'entreprises. Dans ce guide, LeMagIT fait le tour des fonctionnalités d'Hadoop mais aussi de ces bénéfices et inconvénients. PRÉSENTATION DÉCOUVRIR HADOOP LES ACTEURS DE LA SPHERE HADOOP PRESENTATION Pésentation La première technologie qui vient à l’esprit lorsque l’on évoque aujourd’hui le sujet du Big Data est Hadoop, le framework analytique Java développé au sein de la fondation Apache. Populaire, Hadoop reste toutefois un mystère pour nombre d’utilisateurs désireux de mettre en oeuvre la technologie ou de mieux la comprendre. LeMagIT a réuni au sein de ce dossier un ensemble d'articles dont l'objectif est d'aider à comprendre ce qu'est réellement Hadoop, comment il fonctionne, quels sont ses usages, comment la technologie est architecturée. J UI N 2 0 1 4 PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP CYRILLE CHAUSSON Rédacteur en chef , TechTarget / LeMagIT 2 TOUT SAVOIR SUR HADOOP DÉCOUVRIR HADOOP DÉCOUVRIR HADOOP 1. DÉCOUVRIR HADOOP A LA DÉCOUVERTE D'HADOOP Hadoop : un framework modulaire PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 3 La première technologie qui vient à l’esprit lorsque l’on évoque aujourd’hui le sujet du Big Data est Hadoop est le framework analytique Java développé au sein de la fondation Apache. Populaire, Hadoop reste toutefois un mystère pour nombre d’utilisateurs. Pour mieux comprendre les fondements technologiques d’Hadoop et les différentes briques qui le composent, LeMagIT s’est plongé dans l’histoire et l’architecture du framework. Hadoop trouve ses racines dans les technologies propriétaires d’analyse de données de Google. En 2004, le moteur de recherche a publié un article de recherche présentant son algorithme MapReduce, conçu pour réaliser des opérations analytiques à grande échelle sur un grand cluster de serveurs, et sur son système de fichier en cluster, Google Filesystem (GFS). Doug Cutting, qui travaillait alors sur le développement du moteur de recherche libre Apache Lucene et butait sur les mêmes problèmes de volumétrie de données qu’avait rencontré Google, s’est alors emparé des concepts décrits dans l’article du géant de la recherche et a décidé de répliquer en open source les outils développés par Google pour ses besoins. Employé chez Yahoo, il s’est alors lancé dans le développement de ce qui est aujourd’hui le projet Apache Hadoop – pour la petite histoire, Hadoop est le nom de l’éléphant qui servait de doudou à son jeune fils. TOUT SAVOIR SUR HADOOP Hadoop n’a pas été conçu pour traiter de grandes quantités de données structurées à grande vitesse. Cette mission reste largement l’apanage des grands systèmes de Datawarehouse et de datamart reposant sur des SGBD traditionnelles et faisant usage de SQL comme langage de requête. La spécialité d’Hadoop, ce serait plutôt le traitement à très grande échelle de grands volumes de données non structurées tels que des documents textuels, des images, des fichiers audio… même s’il est aussi possible de traiter des données semi-structurées ou structurées avec Hadoop. HDFS : le système de gestion de fichier en cluster au cœur d’Hadoop Au cœur du framework open source se trouve avant tout un système de fichiers en cluster, baptisé HDFS (Hadoop Distributed Filesystem). HDFS a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Le filesystem HDFS est conçu pour assurer la sécurité des données en répliquant de multiples fois l’ensemble des données écrites sur le cluster. DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Par défaut, chaque donnée est écrite sur trois nœuds différents. Il ne s’agit pas du plus élégant des mécanismes de redondance, ni du plus efficace, mais étant donné que l’on s’appuie sur des disques durs SATA économiques, un cluster HDFS a le bénéfice d’offrir une solution de stockage très économique par rapport à celui des baies de stockage traditionnelles. En l’état, HDFS est optimisé pour maximiser les débits de données et non pas pour les opérations transactionnelles aléatoires. La taille d’un bloc de données est ainsi de 64 Mo dans HDFS contre 512 octets à 4 Ko dans la plupart des systèmes de fichiers traditionnels. Cette taille de bloc s’explique par le fait que Hadoop doit analyser de grandes quantités de données en local. Avec la version 2.0 d’Hadoop, la principale faiblesse d’HDFS a été levée : jusqu’alors la gestion des métadonnées associées aux fichiers étaient la mission d’un unique « name node » ; ce qui constituait un point de faille unique. Depuis la version 2.0 et l’arrivée de la fonction HDFS High Availability, le "name node" est répliqué en mode actif/passif, ce qui offre une tolérance aux pannes. Un autre « défaut » d’HDFS est que le système n’est pas conforme au standard POSIX et que certaines commandes familières sur un filesystem traditionnel ne sont pas disponibles. 4 TOUT SAVOIR SUR HADOOP Il est à noter que si HDFS est le système de fichiers par défaut d’Hadoop, le framework peut aussi être déployé sur des systèmes tiers, souvent grâce à des couches de compatibilité. MapR, l’un des pionniers d’Hadoop, a ainsi développé son propre système de gestion de fichiers qui règle le problème de fragilité lié aux "name nodes" d’HDFS (en distribuant les informations de métadonnées sur les nœuds de données) et qui ajoute aussi des fonctions avancées comme les snapshots, la réplication ou le clonage. Plusieurs constructeurs de baies de stockage comme EMC, HP ou IBM ont aussi développé des couches de compatibilité HDFS au dessus de certaines de leurs baies ; ce qui leur permet de stocker les données d’un cluster Hadoop. MapReduce : distribuer le traitement des données entre les nœuds Le second composant majeur d’Hadoop est MapReduce, qui gère la répartition et l’exécution des requêtes sur les données stockées par le cluster. Le framework MapReduce est conçu pour traiter des problèmes parallèlisables à très grande échelle en s’appuyant sur un très grand nombre de nœuds. L’objectif de MapReduce et de son mécanisme avancé de distribution de tâches est de tirer parti de la localité entre données et traitements sur le même nœud de façon à minimiser l’impact des transferts de données entre les nœuds du cluster sur la performance. DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP MapReduce est un processus en plusieurs étapes. Dans la phase « Map », le nœud maitre divise le problème posé en sous-problèmes et les distribue entre nœuds de traitement. Ces nœuds peuvent en cascade distribuer à nouveau les tâches qui leur ont été assignées. Les réponses sont ensuite remontées de nœuds en nœuds jusqu’au nœud maitre ayant assigné les travaux à l’origine. C’est alors que s’opère l’étape "Reduce" : le nœud maitre collationne les réponses emontant des nœuds de traitement et les combine afin de fournir la réponse à la question posée à l’origine. Il est à noter que les traitements Mapreduce s’opèrent sur des données structurées sous la forme (clé, valeur) et que des mécanismes d’optimisation assurent que les traitements sont distribués de telle sorte qu’ils s’opèrent au plus proche des données (c’est-à-dire idéalement sur les neuds qui hébergent les données concernées). De nouveaux outils de langages pour faciliter les requêtes sur Hadoop 5 TOUT SAVOIR SUR HADOOP Les API clés de MapReduce sont accessibles en Java, un langage certes populaire mais qui requiert des compétences bien plus pointues que la maîtrise d’un langage d’interrogation comme SQL. Plusieurs langages ont donc émergé pour tenter de simplifier le travail des utilisateurs d’Hadoop, dont Pig et Hive. Né chez Yahoo, Pig est conçu pour traiter toute forme de données. Le langage de Pig est PigLatin, complété par un runtime destiné à exécuter les programmes rédigés en PigLatin. PigLatin a une sémantique assez simple. DÉCOUVRIR HADOOP Il permet de charger des données, puis de les manipuler (appliquer des filtres, des groupements, des opérations mathématiques…). PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 6 Chez Facebook, des développeurs ont quant à eux conçu Hive, pour permettre à des développeurs familiers du langage SQL de manipuler des données dans Hadoop. Hive dispose d’un langage baptisé HQL (Hive Query Langage) dont la syntaxe est similaire à celle de SQL. Le service Hive découpe les requêtes en jobs MapReduce afin de les exécuter sur le cluster. Au fil des ans, Hadoop a continué à s’enrichir de nouvelles applications, comme la base de données Hbase, qui fournit des services similaires au service BigTable de Google. Hbase est une base de données en colonnes (dans la mouvance NoSQL) qui s’appuie sur le système de gestion de fichiers en cluster HDFS pour le stockage de ses données. Hbase est notamment utile pour ceux qui ont besoin d’accès aléatoires en lecture/écriture à de grands volumes de données. La base intègre des fonctions de compression et de traitement « in-memory ».Parmi les autres composants connus, on peut aussi citer la technologie d’apprentissage Apache Mahout, ainsi que la technologie d’administration de cluster Zookeeper. Zookeeper est lui-même un service distribué qui permet de coordonner l’ensemble des processus distribués sur le cluster, mais aussi de gérer les configurations de ses différents éléments. TOUT SAVOIR SUR HADOOP Un écosystème qui ne cesse de s’enrichir Signalons pour terminer que le périmètre d’Hadoop continue de s’élargir, les différents développeurs de distributions Hadoop ajoutant progressivement de nouveaux composants, outils ou langages afin d’enrichir les composants de base du framework. Cloudera a ainsi récemment publié Impala, sa technologie de query SQL massivement parallèle, pour le traitement en temps réel de données stockées dans Hbase ou dans HDFS. Dans le cadre de son projet Hawq, Pivotal a, quant à lui, porté sa base de données massivement parallèle Greenplum sur HDFS et étendu sa technologie de query aux données non structurées et semi-structurées stockées sur HDFS. Et c’est sans compter sur les multiples intégrations réalisées par des acteurs des bases de données traditionnelles et de l’analytique, comme Teradata, Oracle ou Microsoft… Un signe évident du dynamisme de l’écosystème Hadoop, mais aussi de sa relative jeunesse. – Christophe Bardy DÉCOUVRIR HADOOP 2. HADOOP 2 VEUT ÉTENDRE LE CHAMP D'APPLICATION D'HADOOP AU-DELÀ DU BATCH PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Hadoop 2 a officiellement été dévoilé par la fondation Apache cette semaine et constitue une évolution majeure pour le framework analytique historiquement basé sur le système de gestion de fichiers en cluster HDFS (Hadoop Distributed File System) et sur le framework MapReduce. Les premiers utilisateurs d’Hadoop notamment dans le monde internet, ont utilisé la technologie pour traiter des volumes massifs de données non structurées et semi structurées, typiquement des données de logs serveur et réseau, des données de provenant de réseaux de capteurs, de flux sociaux ou des images… Ces données sont stockées sur des clusters de serveurs banalisés fournissant un pool relativement peu couteux de ressources de stockage et de traitement. Comme l’explique Tony Consentino, vice-président et directeur de recherche chez Ventana Research, Hadoop a la capacité de traiter des données peu structurées et des informations qui se prête peu à un stockage dans des bases de données traditionnelles. Toutefois, comme le précise Cosentino, les implémentations de l’architecture actuelle d’Hadoop sont limitées par son orientation batch. « Hadoop est bien adapté pour les applications ou la latence n’est pas un problème et qui nécessitent le 7 TOUT SAVOIR SUR HADOOP traitement de grandes volumétries de données ». Le couple HDFS – MapReduce « est bien adapté à l’analyse de jeu de donnés très larges de données non structurées statiques comportant des téraoctets ou des petaoctets de données » explique William Bain, le CEO de ScaleOut Software, un éditeur de solutions de traitement de données basé à Beaverton, dans l’Oregon. Comme Cosentino, Bain insiste que du fait de sa nature batch, et de l’important overhead requis pour le traitement de données, Hadoop n’a pas été utile pour le traitement de données en temps réel, même si cela pourrait changer dans l’avenir avec l’avènement d’Hadoop 2 et l’apparition de nouveaux moteurs de requêtes développés par certains fournisseurs. On pense par exemple à des technologies comme Impala chez Cloudera. Un écosystème dynamique Le dynamisme de l’écosystème qui entoure Hadoop est remarquable. Depuis ses débuts, la technologie a attiré des centaines de développeurs désireux de créer des outils additionnels pour combler des trous dans le spectre fonctionnel du framework. On peut par exemple citer des composants comme Hbase – une base de données DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP distribuée au dessus d’HDFS -, Hive – un datawarehouse de type SQL - ou Pig – un langage de haut niveau pour développer des programmes d’analyse au dessus de MapReduce. D’autres acteurs ont contribué des composants qui sont devenus des sous-projets Hadoop comme Ambari pour le provisioning et l’administration de clusters, Cassandra, une base de données NoSQL ou ZooKeeper qui permet de conserver les données de configuration et de synchroniser les opérations entre clusters. YARN apporte plus de flexibilité à Hadoop 2 C’est là qu’entre en scène Hadoop 2 – originellement connu sous le nom Hadoop 2.0. Au cœur de cette mise à jour majeure figure YARN, un nouveau gestionnaire de ressources qui devrait permettre à d’autres applications que les programmes MapReduce de tirer parti des capacités d’HDFS. YARN (Yet Another Resource Negotiator) est en parti conçu pour venir à bout des limitations de MapReduce dans les configurations de très grands clusters mais aussi pour venir à bout des limitations lié à l’utilisation du mode Batch tout en garantissant la compatibilité avec les API existantes et avec les job MapReduce existants (moyennant une recompilation). 8 TOUT SAVOIR SUR HADOOP Avec YARN (aussi appelé MapReduce 2.0 ou MRv2) les tâches de gestion de ressources et de job scheduling/monitoring de MapReduce sont séparées en deux démons autonomes. L’idée selon la fondation Apache est d’avoir un gestionnaire de ressources global (distribuant les tâches selon des critères de mémoire, de CPU et de réseau) et un gestionnaire d’application, qui gère les jobs (au sens MapReduce du terme). « YARN est une différence clé d’Hadoop 2.0 », explique Cosentino. « Au lieu de laisser un job MapReduce se considérer comme le seul utilisateur d’un cluster HDFS, il permet à de multiples workloads de s’exécuter de façon simultanée ». Un exemple est le cas d’utilisation de Yahoo qui a mis en œuvre le traitement d’événements complexes Storm au dessus de YARN, afin de canaliser les données issues des activités sur ses sites web sur un cluster Hadoop. Yahoo dispose actuellement de plus de 365 Po de données sur 330 000 nœuds de clusters Hadoop gérés par YARN a récemment expliqué Bruno Fernandez-Ruiz, un «senior fellow » et vice-président en charge des plates-formes chez Yahoo. C’est bien plus que ce que vous pourrez trouver dans une entreprise typique aujourd’hui explique Fernandez-Ruiz, tout en estimant que d’autres pourraient suivre son exemple dans les années à venir. « Notre présent est votre futur » a-t-il expliqué aux participants du dernier Hadoop Summit. DÉCOUVRIR HADOOP Hadoop 2 est aussi censé apporté des améliorations en termes de disponibilité (en permettant de fédérer les name nodes Hadoop) et apporte aussi le support de Windows. Les innovations du nouveau framework devraient faire leur apparition dans les multiples distributions commerciales Hadoop au cours des prochains mois. – PRESENTATION Christophe Bardy VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 3. Mike Olson, CEO de Cloudera : Hadoop change la façon dont les entreprises traitent leurs données Comment le Big Data et Hadoop vont changer la façon dont les entreprises traitent leurs données... Un grand nombre d'organisations et d’entreprises utilisatrices de technologie, vont modifier la façon dont elles traitent leurs données comme elles ne l’ont jamais fait auparavant. Le monde va devenir plus guidé par le Big Data, car les données sont disponibles. Et soit dit en passant, si votre organisation choisit de ne pas en tirer profit, cela deviendra un désavantage concurrentiel. Car d’autres, dans votre secteur, feront un meilleur usage des données. Ce qui change tout, bien sûr, est le volume, la variété et la vitesse des données qui nous sont maintenant accessibles. Elles proviennent de nombreuses sources, y compris d’activités non humaines, telles que mes tweets, 9 TOUT SAVOIR SUR HADOOP mon Facebook ou mes achats en ligne sur les sites d'ecommerce. À cela viennent les données générées automatiquement par des équipements électroniques parlant à d’autres équipements électroniques. Aux ÉtatsUnis, le réseau électrique intelligent est en cours de déploiement, donc ma maison rapporte désormais régulièrement des informations à mon fournisseur d'énergie : combien je consomme, à quel moment et même aujourd'hui, avec certains appareils, les détails de ma consommation dans ma maison, par exemple combien mon système de chauffage domestique consomme. C'est une information qui n'était pas disponible auparavant. Elle nous permettra d'optimiser le réseau de nouvelles façons. L’exploration de ces données à grande échelle permet à nos clients d'utiliser ces données différemment. En réalité, cela leur permet de poser des questions qu’ils ne pouvaient tout simplement pas poser jusqu’alors. Par exemple, les banques et les assurances cherchent à détecter la fraude. Ce n’est pas une nouveauté, mais que se passerait-il si vous pouviez traiter une décennie de données plutôt qu’un mois d’historique de transactions. Et si vous pouviez ingérer non seulement les transactions financières mais aussi les activités des utilisateurs sur le web, quelles pages ils ont visité, pendant combien de temps, ce qu’ils ont acheté... Si vous pouvez ingérer des données variées et les soumettre à des algorithmes d’apprentissage informatisés, à des outils d’analyse statistique et à des techniques de modélisation avancées, DÉCOUVRIR HADOOP vous pouvez commencer à poser des questions qu’il était impossible de poser précédemment. Et les exemples sont multiples. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 10 A propos du marché du Big Data et d’Hadoop… Le volume, la variété et la vitesse des données sont en pleine expansion et cela crée une opportunité majeure pour Cloudera. (…) En 2016, nous nous attendons à ce que 123 Md$ soient dépensés en logiciels au niveau mondial. De façon importante, les applications et les bases de données représenteront plus de la moitié de cette dépense. C'est un investissement énorme et il est lié à des activités économiques déjà engagées. Si le volume de données et les analyses que souhaitent réaliser les entreprises continuent à évoluer de façon rapide, une partie de ce budget va être perturbée et va aller à de nouveaux endroits. Franchement, nous espérons qu’une bonne partie vienne à nous. Si l’on regarde au-delà des grandes tendances, (…) IDC indique que 1,7 Md$ sont consacrés aujourd’hui à l'analyse de données ; le traitement de données et les ETL pèsent pour 3,5 Md$. Ce sont des marchés adressables immédiatement pour nous et où les clients achètent aujourd'hui (…). Les analystes en général sont horriblement mauvais pour réaliser des prévisions en particulier sur de nouveaux TOUT SAVOIR SUR HADOOP marchés. Néanmoins, un certain nombre d'entre eux a tenté d’évaluer l’opportunité que représente le marché du Big Data. Selon les sources, les prévisions varient énormément, mais il y a un consensus : entre 10 et 30 Md$ au cours des années à venir. C’est une grande nouvelle pour nous. Nous avons été les premiers à entrer sur le marché du Big Data, nous avons été les premiers à commercialiser Hadoop et nous pensons que nous avons un certain nombre d’avantages pour capturer une partie de ce marché. La vision de Michael Olson sur Cloudera et Hadoop... Cloudera a apporté au marché une solution de Big Data basée sur Hadoop. Basée, car notre distribution est la solution la plus complète construite sur Hadoop et les produits l’entourant. Vous pouvez considérer un tel assemblage comme Linux. Ce que Red Hat produit est un logiciel que vous pouvez installer sur votre ordinateur, basé sur le noyau Linux. Vous pourriez assembler les modules vous-mêmes, mais ce que Linux (au sens kernel.com) est vraiment, est un composant compact qui permet de stocker des fichiers et faire tourner des programmes. Ce que Red Hat a fait est packager toutes les applications et outils, éditeurs de texte et fournit l’infrastructure de support qui rend cette plate-forme DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 11 utilisable. Red Hat l’a ensuite livré avec un support 24/24 ainsi qu’avec un service de mise à jour. Ce service ressemble à ce que nous faisons pour Hadoop. Nous pensons que nous avons l’opportunité de remplacer une variété de systèmes de stockage, bases de données, systèmes de gestion de contenus spécifiques, propriétaires et vieillissants par une seule solution cohérente, à même de stocker une grande variété de données et de faire tourner un grand nombre de workload. Soyons clairs : nous ne pensons pas remplacer les bases de données relationnelles. Les grands datawarehouses font un boulot excellent pour l’OLTP et l’OLAP depuis longtemps. Ces marchés resteront durablement l’apanage des vendeurs qui les dominent. Mais nous avons des clients qui dépensent bien trop d’argent sur certains de leurs workloads. Si par exemple vous avez un grand datawarehouse et que vous utilisez ce système grand et cher pour vos applications d’ETL, vous dépensez sans doute bien trop. Vous pourriez libérer de la capacité analytique sur ce système si vous pouviez transférer les workloads de data processing sur une infrastructure moins coûteuse. Notre plate-forme permet à nos clients de faire exactement cela. Notre désir est de délivrer une seule et unique plate-forme à même de permettre à nos clients d’ingérer des données depuis n’importe quelle source, de la soumettre à une variété de processus de traitement de données et en plus, de l’analyser avec des outils et algorithmes puissants jusqu’alors inaccessibles. TOUT SAVOIR SUR HADOOP Comme je l’ai dit, nous délivrons une nouvelle plateforme critique et nous pensons qu’elle deviendra aussi prévalente que les SGBD le sont aujourd’hui. Elle ne remplacera pas les systèmes existants, mais viendra les compléter pour permettre à nos clients d’optimiser leurs déploiements. Ils pourront faire tourner les workloads sur la plate-forme la plus adaptée et au meilleur coût. Ce que l’on a fait est packager le projet open source avec des outils d’administration et de monitoring. Tout ce que nous savons sur la gestion des clusters Hadoop a été mis dans le logiciel et nous délivrons le tout avec un support 24/7. Nous rendons Hadoop manageable. Notre go-tomarket est le même que celui de Sybase, Ingres ou Oracle dans le milieu des années quatre-vingt-dix. Hadoop, comme les bases SGBD à l’époque, est nouveau. Il faut des compétences pointues pour l’opérer et elles sont encore assez rares sur le terrain. Les applications, les outils qui tournent sur Hadoop, sont eux aussi encore rares, mêmes si nous en voyons apparaître de plus en plus. Comme Oracle, Sybase, IBM ou Microsoft, Cloudera se concentre non pas sur le développement d’applications mais sur la livraison d’une infrastructure fiable, simple à administrer et à exploiter. Nous laissons intentionnellement le marché des applications et des outils à nos partenaires. Notre désir est de créer un écosystème riche de vendeurs qui s’appuient sur notre plate-forme. Si nous y parvenons, chacun de ces outils et applications accélérera l’adoption de notre plate-forme. DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Cette stratégie devrait nous permettre de nous développer de façon solide à long terme. Il se pourrait qu’un jour viendra où nous aurons saturé le marché pour les platesformes Big Data, mais nous avons aujourd’hui un large espace ouvert devant nous pour délivrer cette plate-forme et encourager l’innovation dans l’écosystème. Nous avons aujourd’hui 400 partenaires dans notre programme Connect. Ce sont des éditeurs, des intégrateurs systèmes, ou des constructeurs comme Dell ou HP ainsi que des éditeurs d’outils comme Microstrategy. Cloudera et ses concurrents dans le monde Hadoop (MapR, HortonWorks…)... Nous existons depuis mi-2008. C’est plus vieux que nos concurrents immédiats. Le créateur d'Hadoop travaille pour Cloudera; nous employons une population non négligeable de contributeurs et de commiteurs au code Hadoop open source; nous disposons d’une équipe compétente en charge du développement de nos outils de management et des personnels adaptés pour le support de nos clients et de nos partenaires... Nous sommes leaders simplement parce que les dés étaient pipés d’avance : nous sommes sur le marché depuis plus longtemps que tous nos concurrents, et de ce fait, nous avons plus de retours sur ce dont ont besoin les clients. Et puis, nous 12 TOUT SAVOIR SUR HADOOP avons simplement eu plus de temps que tout le monde pour construire nos produits. Notre technologie, notre équipe, nous séparent des concurrents. 20 milliards d’événements online sont ingérés chaque jour par nos systèmes. 20 millions de foyers voient leur consommation énergétique traitée et analysée par nos systèmes, 70% des activités en ligne des utilisateurs mobiles US passent à un moment ou à un autre par un système Cloudera, notamment les services en matière de géolocalisation. 4 des 5 premières banques US nous utilisent pour de l’analyse de risque ou de la détection de fraude et nous sommes présents chez les plus grands opérateurs télécoms, ainsi que dans les grandes agences de renseignement américaines. Il ne s’agit pas, comme vous le voyez, que d’applications internet grand public. Il ne s’agit pas de Facebook - pour motoriser la sélection de publicités qu’il va afficher à ses membres. On parle là d’un échantillon très large de workloads dans des secteurs économiques très variés, permettant de résoudre des problèmes spécifiques à chaque client. Cette plate-forme ne peut générer un marché de plusieurs milliards de dollars que si elle est suffisamment générique et peut être appliquée à des problèmes très différents, c’est le cas dans notre base installée. Hadoop et les traitements en temps réel... DÉCOUVRIR HADOOP DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 13 Pour ceux qui ne connaissent pas très bien Hadoop, la conception a eu lieu chez Google et l’accouchement s’est fait dans des sociétés comme Facebook ou Yahoo. Le problème que ces sociétés cherchaient à résoudre était celui du traitement à très grande échelle de log web. Ils avaient beaucoup de données à traiter en mode batch. Ils ont donc conçu MapReduce, un système de traitement de données en mode batch pour analyser ces données. Cela a transformé la façon dont Internet opère. Ce qui nous a motivés chez Cloudera est que nous étions convaincus que ce qui a transformé l’Internet grand public était applicable aux entreprises : Google n’était pas différent d’une entreprise normale, il opérait simplement 10 ans dans le futur… Stocker de grandes quantités de données et pouvoir réaliser des traitements en mode batch dessus a déjà changé les choses. Mais soyons honnêtes, il y a beaucoup d’applications qui ne fonctionnent pas en mode batch dans le monde. Il y aussi un grand nombre d’applications temps réel et interactives. Si Hadoop était prisonnier du ghetto batch, il ne pourrait pas tirer parti d’opportunités de marché très larges. C’est pourquoi dans le cadre de notre plate-forme, nous délivrons une plateforme d’analyse de données en temps réel baptisée Hbase. Nous avons aussi fait une contribution majeure à la communauté Open Source avec un logiciel de traitement en temps réel baptisé Impala qui permet d’effectuer des requêtes interactives sur les données stockées dans Hadoop. En fait vous pouvez utiliser TOUT SAVOIR SUR HADOOP MapReduce, Hbase ou Impala sur un même jeu de données. Une fois que les données sont stockées sur Hadoop, vous pouvez lui apporter tout type de moteur de traitement. MapReduce n’est pas la seule alternative, Hbase ou Impala sont disponibles aujourd’hui mais au fil des ans de nouveaux moteurs devraient s’ajouter à la liste. Impala n’est-il pas une implémentation de Google Dremel avec 2 à 4 ans de retard ? Et que dire du retard général Hadoop sur les technologies développées en interne par Google ? Si vous regardez le projet open source Hadoop vous avez effectivement raison. Il s’agit d’une « imitation » avec 4 ans de retard sur ce que Google avait inventé en interne. J’ai passé 26 ans de ma carrière dans le monde des SGBD, j’ai lu à l’époque l’article de Google sur MapReduce et j’ai pensé qu’il s’agissait d’une blague. Tout le monde dans l’industrie pensait savoir comment bâtir des bases de données à grande échelle et nous avons complètement raté l’opportunité que représentaient Hadoop et le Big Data en général. Une industrie avec des milliards de dollars de revenus, avec un énorme budget R&D épaulé par la recherche de multiples universités de classe mondiale, a passé 30 ans à perfectionner ses DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 14 logiciels de traitement de données et au final, c’est une bande de développeurs hirsutes de Mountain View en Californie qui a sorti de son chapeau la technologie qui a révolutionné le secteur.(…) Impala est un mix entre des idées neuves et des concepts empruntés à Dremel. Dans les trimestres à venir, nous allons apporter de nouvelles innovations à la plate-forme qui ne sont pas dérivées de Google. Mais nous n’avons pas honte : nous prendrons les bonnes idées d’où qu’elles proviennent. Ce que nous avons fait franchement est d’interroger notre base installée pour voir quels étaient ses besoins et pour y répondre, nous avons embauché l’ingénieur de Google qui avait construit Dremel. Il y a en revanche des fonctions qui arrivent qui sont inspirées de demandes de nos clients et qui n’ont rien à voir avec ce que fait Google. Et je le répète. Nous n’avons aucune réserve à emprunter de bonnes idées à Google. En fait, il va se passer pour la plate-forme Hadoop, ce qui est arrivé aux SGBD. Il y a 30 ans, vous pouviez aller voir Ingres et acheter un SGBD. Aujourd’hui vous ne pouvez plus aller voir Ingres(sic), mais IBM, Oracle ou Microsoft pour acheter votre SGBD. Mais ce logiciel n’a plus rien à voir avec les SGBD d’il y a 30 ans. Hadoop est jeune, il va évoluer pour exploiter de nouveaux développements techniques, comme la généralisation des réseaux longue distance à haute performance, la chute des coûts du stockage. Il sera intéressant de voir ce que sera le positionnement prix de la Flash d’ici 5 ans. En fait si TOUT SAVOIR SUR HADOOP vous entendez aujourd’hui quelqu’un critiquer Hadoop en disant, « oui, mais Hadoop n’est bon qu’à X ou Y », il est prudent de rajouter « aujourd’hui ». Les limitations que nous connaissons aujourd’hui seront certainement contournables dans le futur avec un peu d’ingénierie. – Christophe Bardy 4. CLOUD ET IMPLEMENTATION HADOOP : ETAT DES LIEUX Le Big Data a déjà marqué de son empreinte le marché IT. C'est notamment visible chez les acteurs du Paas, tels que Amazon, Google, Heroku, IBM et Microsoft dont les offres ont largement occupé le haut de l’affiche. Toutefois, dans ce contexte, il est difficile de savoir quel fournisseur propose l’implémentation la plus complète d’Apache Hadoop dans un cloud public. Clairement, le framework de la fondation Apache, ainsi que HDFS, MapReduce, Hive, Pig ont gagné en popularité dans l’analytique Big Data, alors que les entreprises sont de plus en plus adeptes des modèles Paas pour entreposer leurs données. A cela s’ajoute un niveau de maturité d’Hadoop, dont la sortie de la version 1.0 a poussé le framework dans les environnements de production liés à l’analytique. DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Du côté des entreprises, le gain est également évident. Cette capacité à créer des clusters Hadoop hautement scalables sur un modèle OnDemand, combiné à des traitements MapReduce, a permis aux entreprises de réduire leurs dépenses en matériels et serveurs à demeure, dont l’utilisation n’était que sporadique. En conséquence, Hadoop s’est imposé chez les fournisseurs de Paas, comme Amazon, Google, IBM et Microsoft, qui ont décidé de pré-packager Hadoop et MapReduce sous la forme de services pré-configurés. AWS Elastic MapReduce Amazon Web Services a dégainé le premier en avril 2009, avec Elastic MapReduce (EMR). EMR prend en charge le provisioning de cluster Hadoop, exécute des jobs flow et transfère les données entre Amazon EC2 et Amazon S3. EMR intègre également Apache Hive, un service bâti sur Hadoop pour l’entrepôt de données. EMR supporte la tolérance de panne pour les noeuds esclaves. Amazon conseille de seulement exécuter Task Instance Group dans des instances ponctuelles (instances spots) afin de bénéficier de coûts 15 TOUT SAVOIR SUR HADOOP réduits, tout en assurant la haute disponibilité. Toutefois, AWS n’a ajouté le support des instances ponctuelles qu’en août 2011. Pour EMR, Amazon pratique un surcoût de 0,015 à 0,50 dollars par heure sur ses offres de petites instances et celles dédiés au calcul à hautes performances (Cluster Compute Eight Extra Large d’EC2). Selon AWS, une fois les traitements démarrés, EMR prend en charge le provisioning des instances EC2, les paramètres de sécurité, la configuration d’Hadoop, la collecte des logs, le monitoring ainsi que les problématiques hardware, telles que la désactivation automatique des instances en échec des job flow. AWS a récemment annoncé l’accès gratuit à Cloudwatch pour EMR. Google App Engine - MapReduce Selon Mike Aizatskyi, développeur chez Google, toutes les équipes du groupe utilisent MapReduce, depuis sa création en 2004. Google a publié des API AppEngine MapReduce, sous la forme de versions expérimentales des API MapReduce destinées à supporter les DÉCOUVRIR HADOOP DÉCOUVRIR HADOOP développements réalisés avec Hadoop 0.20 sur Google App Engine. Les équipes de Google ont ensuite publié des API en mars 2011 pour proposer un type de système de fichiers pour le stockage Blob. Elles ont également amélioré la fonction User-Space Shuffler. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP L’API Google AppEngine - MapReduce permet de manipuler les opérations de type Map, Shuffle et Reduce via l’ API Pipeline. Toutefois, Google n’a toujours pas modifié le statut, toujours au stade expérimental de son API. AppEngine - Mapreduce adresse davantage les problématiques des développeurs Java et Python que celles des statisticiens Big Data ou encore les spécialistes de l’analytique. Shuffler est également limité à 100 Mo de données, ce qui ne le fait pas véritablement entrer dans la vision Big Data. Pour de plus gros volume de données, un accès vers BigShuffler peut être demandé auprès de Google. Treasure Data Hadoop, add-on pour Heroku 16 TOUT SAVOIR SUR HADOOP L’add-on Treasure Data Hadoop pour Heroku permet d’utiliser Hadoop et Hive pour analyser les logs et les événements des applications hébergées - une des principales fonctions de la technologie. Heroku propose également d’autres add-on Big Data, comme l’implémentation de Apache CouchBase (Cloudant), MongoDB, MongoHQ, Redis To Go, et Neo4, notamment. AppHarbor, présenté par certains comme le Heroku pour .NET propose également une série d’add-on pour Cloudant, MongoLab, MongoHQ et Redis To Go, ainsi que des add-ons pour RavenHQ. Ni Heroku ni AppHarbor ne proposent des implémentations globales d’Hadoop. IBM Apache Hadoop pour SmartCloud L’aventure de l’analytique Hadoop d’IBM a débuté en octobre 2011 avec InfoSphere BigInsights Basic pour IBM SmartCloud Enterprise. BigInsight Basic, qui peut gérer jusqu’à 10 To de données, est également disponible gratuitement pour les systèmes Linux. BigInsights Enterprise reste en revanche payant. Ces deux versions intègrent Apache Hadoop, HDFS, et le framework MapReduce, ainsi qu’un ensemble de sous-projets DÉCOUVRIR HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Hadoop. L’édition Enterprise, quant à elle, comprend une plug-in pour Eclipse pour créer des formats texte, la découverte de données formatées (comme celles d’un tableur) ainsi qu’une connectivité JDBC à Netezza et DB2. Ces deux éditions embarquent également des outils d’installation et d’administration. 16 To), pour simplifier les opérations MapReduce. Les spécifications techniques fournies par IBM restent toutefois floues quant aux versions de BigInsights présentes dans le cloud public. L’éditeur de Redmond fournit également de nouvelles bibliothèques Javascript, afin de faire du langage un outil de programmation pour Hadoop. Une façon de lever les barrières à l’adoption de Hadoop et MapReduce en permettant de développer des programmes MapReduce en Javascript et de les exécuter dans le navigateur. La CTP comprend également un add-on à Hive pour Excel qui permet aux utilisateurs d’interagir avec les données dans Hadoop. Les utilisateurs peuvent ainsi réaliser des requêtes Hive afin d’analyser les données non structurées d’Hadoop au sein de l’interface d’Excel. Cette version inclut également un pilote ODBC Hive qui permet d’intégrer Hadoop aux autres outils de BI de Microsoft. Microsoft Apache Hadoop sur Windows Azure Microsoft s’est associé à Hortonworks, une spin-off de Yahoo spécialisée dans les services Hadoop, pour implémenter Hadoop sur Azure (HoA - Hadoop on Azure). Depuis le 14 décembre 2011, HoA est disponible en version CTP, mais uniquement sur invitation. Avant de prendre le train Hadoop en marche, Microsoft a développé Dryad, une base de données de type graphe développée par Microsoft Research, et sur l’add-on HighPerformance Computing (LINQ to HPC) pour gérer l’analytique Big Data. La CTP de HoA donne accès à un choix de clusters Hadoop pré-définis (de Small, pour 4 noeuds et 4 Go de stockage, à Extra Large, 32 noeuds et 17 TOUT SAVOIR SUR HADOOP Microsoft a développé plusieurs projets autour de Hadoop / MapReduce, comme le calcul de la valeur de pi ou encore une méthode de développement portant sur l’utilisation de C# pour écrire un programme MapReduce pour le streaming de données. HoA devrait être mis à jour lors d’une évolution d’Azure prévue à la mi-2012. Elle devrait ainsi ouvrir le programme CTP à davantage de développeurs. Cette version devrait également inclure l’implémentation d’Hadoop pour Windows Server 2008 R2 pour les cloud privé et les environnements hybrides. Comme peuvent le laisser penser les dernières réductions tarifaires d’Azure, DÉCOUVRIR HADOOP Microsoft entend placer, d’un point du vue prix, HoA en frontal à Elastic MapReduce. Le Big Data, au delà de Hadoop et MapReduce PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 18 Comme l’indique James Kobielus de cabinet d’étude Forrester, «si Hadoop et MapReduce seront des frameworks clés de la sphère Big Data, ils ne seront toutefois pas les seuls». Par exemple, Microsoft travaille également à un projet baptisé Cloud Numerics (en CTP) pour .NET, pour le calcul intensif sur un large volume de données distribuées dans Windows Azure. TOUT SAVOIR SUR HADOOP Les équipes de recherche ont également publié le code source pour implémenter l’analyse de données Excel dans Windows Azure, au sein de son projet Daytona. Les fournisseurs de Paas qui permettront d’automatiser l’implémentation de Hadoop, MapReduce et Hive bénéficieront du soutien d’un grand nombre de «data scientists» et des acteurs de l’analyse de données. Pouvoir placer Excel en front-end d’application de BI donne à Microsoft et à son offre Big Data une longueur d’avance. Amazon et Microsoft proposent pour l’heure les services Hadoop les plus automatisés et complets. – Christophe Bardy LES ACTEURS DE LA SPHÈRE HADOOP Les acteurs de la sphère Hadoop 1. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP ENTRETIEN AVEC AMR AWADALLAH, CTO DE CLOUDERA Amr Awadallah est le CTO et co-fondateur de Cloudera, spécialiste de la distribution Hadoop. Avant cela, il était vice président de l’ingénierie produit chez Yahoo. Lors d’une récente visite à Londres, il s’est entretenu avec nos confrères et partenaires de ComputerWeekly sur la façon dont la société met en place son concept de « Hub de données en entreprise » par opposition aux entrepôts de données déjà établis dans les entreprises. Il existe deux publics pour le Big Data. Celui intéressé par le concept et celui qui l’utilise. Quelle est votre approche par rapport à cela ? Amr Awadallah : On trouve des personnes à tous les étages : ceux qui ne sont pas certains de ce qu’il faut faire et qui tâtonnent, et les clients qui sont déjà dedans. Cela est normal, comme dans tout cycle d’adoption d’une nouvelle technologie. Est-il moins nécessaire d’évangéliser avec les technologies Big Data ? Les problèmes ne sont-ils pas plus évidents qu’à l’habitude ? 19 TOUT SAVOIR SUR HADOOP Amr Awadallah : Non, nous n'en sommes encore qu’au commencement. On trouve certains cas d’usage liés à l’efficacité opérationnelle, qui abordent la question de économie de coûts. Les gens comprennent cela tout de suite. Mais pour vendre la vision complète de ce que nous appelons le hub de données d'entreprise [Enterprise Data Hub] - il faut encore plus d’évangélisation, même si les clients sont devenus réceptifs. Un hub de données d’entreprise ? Amr Awadallah : La mission de Cloudera est de permettre aux clients d’utiliser toutes leurs données pour obtenir encore plus d’informations et poser davantage de questions. « Toutes » est ici le mot-clé. Il ne s’agit pas que des Big Data , mais de toutes les données. Il s’agit d’avoir une vision globale de vos clients. L’exemple que j’aime donner de cet ensemble de données en question est celui des distributeurs de billets. Il y a 10 ans, la seule information enregistrée était la transaction en elle-même. Aujourd’hui, vous pouvez également collecter des informations implicites, comme votre visage, la façon dont vous interagissez avec l’écran, si vous disposez d’un smartphone sur lequel est installé l’application de la banque et les informations liées au scanner de chèques. Tout cela améliore la détection de fraudes. LES ACTEURS DE LA SPHÈRE HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP « Poser davantage de questions » est également un point important. Les applications traditionnelles se sont focalisées sur l’usage de SQL. Désormais, SQL est puissant, mais il y a toujours des questions que vous ne pouvez pas poser. Vous ne pouvez pas traiter des images ou faire de la reconnaissance vocale avec SQL. Ni scanner un document PDF. Le cas d’usage ultime est une vue à 360 du client. Cela résout les problèmes de silos de données et de données répartis sur plusieurs canaux. Notre plate-forme permet de casser ces silos. Cloudera est un distributeur de distribution Hadoop. En quoi cette approche de hub correspond-il à une évolution ? Amr Awadallah : Il ne s’agit pas de renier de ce que nous avons fait. Mais de parler un langage plus familier aux entreprises. 80% des distibutions Hadoop vendues dans le monde sont les notres. Mais nous proposons également des technologies en parallèle. Hadoop est aussi en train de se transformer - Yarn contribue ainsi à ouvrir la plate-forme. Il y a 5 ans, tout ce que vous pouviez réaliser avec Hadoop était des opérations MapReduce. Yarn permet à d’autres applications de s’exécuter au dessus des données, comme des applications interactives SQL, ce que propose Impala par exemple. 20 TOUT SAVOIR SUR HADOOP Nous disposons également d’une fonction de recherche nativement intégrée. Nous nous intégrons avec SAS et Splunk - Hunk s’exécute nativement sur Hadoop. Le moteur d’ETL d’Informatica s’exécute également au dessus de la plate-forme Cloudera. L’analogie que nous aimons utiliser est celle-ci : nous sommes le smartphone de la donnée, au lieu du Reflex numérique. Les entrepôts de données des entreprises sont les Reflex du monde de la données. Ils sont chers et ne font qu’une seule chose - interroger des données structurées. Le hub de données en entreprise est équivalent à un smartphone. Il est pratique et les applications peuvent toutes partager les données. C’est pareil avec nous. Le modèle est que les applications viennent aux données, plutôt que de déplacer les données vers des silos de traitement fermés, ce qui empêche d’avoir une vue à 360 degré. Notre approche est plus économique que l’entrepôt de données traditionnel. Avec nous, le coût pour un teraoctet de données tourne autour de 1 000$. Dans des entrepôts de données, vous pouvez payer jusqu’à 100 000$ par teraoctoet pour stocker des données que vous n’utilisez pas - des données que vous n’avez pas consulté depuis 6 mois par exemple. Nous proposons un système d’archivage dynamique pour cela. LES ACTEURS DE LA SPHÈRE HADOOP Nous avons également collaboré avec Teradata au niveau de l’intégration. Mais aussi avec Oracle, et sa Big Data Appliance, et avec HP autour du système Vertica. Toutefois, il restera toujours des utilisations pour lesquelles un Reflex est encore la bonne solution. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 21 Les projets Big Data en entreprise sont souvent assimilés à des projets scientifiques. Dépassent-ils ce stade ? Amr Awadallah : D’abord, 60% des entreprises du Fortune 500 utilisent Cloudera, en production et non pas dans des projets scientifiques. Trois des quatre spécialistes de la carte de crédit dans le monde s’adossent à notre solution pour la détection de fraudes. L’Europe a deux ans de retard sur les US. Aux Etats-Unis, le gouvernement fédéral et Monsanto sont clients. Ce dernier utilise la plate-forme pour recueillir des données expérimentales de capteurs placés sur le terrain. Ils mesurent la température, la composition du sol, le taux d’humidité et la croissance des plantes. Le groupe travaille à rendre des graines plus efficaces dans différents environnements. Ils partent du principe que dans les 10 prochaines années, les êtres humains consommeront plus qu'au cours des cent dernières années. Je n’aurai jamais envisagé un tel cas d’usage avec nos technologies lorsque nous nous sommes lancés il y a cinq ans. TOUT SAVOIR SUR HADOOP Comment se répartit votre base de clients en termes de secteurs d'activité? Amr Awadallah : Pour nous, les industries clés sont le retail, les entreprises du Web (eBay, par exemple), les télécoms (aussi bien les fournisseurs d’infrastructures que les fabricants de terminaux mobiles comme Nokia, Motorola Mobility et RIM), le secteur du pétrole et du gaz, l’énergie intelligente, l’industrie automobile ,ainsi que le bâtiment. C’est une affaire de grands comptes. Il ne s’agit pas d’une technologie de petite entreprise, à l'exception des start-up du Web, comme box.com, king.com, etc…En fait elle est utilisée partout où les volumes de données explosent. Comment résumeriez-vous la valeur ajoutée de vos solutions ? Amr Awadallah : Nous essayons de donner de l’agilité pour abaisser le coût de la curiosité. Le prix de la curiosité est élevé aujourd'hui dans les entreprises. Lorsque je dirigeais l’infrastructure IT chez Yahoo, les métiers venaient me voir pour ajouter une nouvelle colonne au modèle d’une donnée. C’est difficile avec les entrepôts de données. Cela demande des semaines, voire des mois. LES ACTEURS DE LA SPHÈRE HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Je leur demandais alors : « Quelle valeur cela va créer pour vous ? » Ils me répondaient : « nous ne pouvons pas vous dire quelle valeur nous allons tirer de cette colonne supplémentaire. » Cela empêche les entreprises d’innover. Il est nécessaire d’avoir un système beaucoup plus flexible, de façon à pouvoir ajouter rapidement de nouvelles colonnes et des types de données. Hadoop offre cela. Vous pouvez expérimenter plus facilement. – Cyrille Chausson 2. AVEC HORTONWORKS, RED HAT FAIT DE HADOOP UNE EXTENSION DE SES SOLUTIONS Red Hat a décidé de fondre un peu plus Hadoop dans son offre de stockage. Pour cela, la firme de Raleigh a étendu ses relations avec l’un des spécialistes du secteur, Hortonworks,dans le cadre d’une alliance dite stratégique. Cette collaboration vise a créer des ponts d’intégration entre les technologies des deux parties afin « d’accélérer l’adoption » du très précieux framework, assure John Kreisa, vice président du marketing chez Hortonworks - et ancien responsable marketing stockage chez Red Hat, dans un billet de blog. En clair, il s’agit d’encourager les entreprises à insérer dans leur SI des projets de gestion et d’analyse de données en volume. Et 22 TOUT SAVOIR SUR HADOOP quoi de mieux que de proposer une solution unifiée et intégrée - les 2 sont Open Source - plutôt que d’avoir à composer avec deux fournisseurs différents. L’objectif de cette alliance est ainsi d’inscrire la plateforme HDP (Hortonworks Data Platform) d’Hortonworks directement dans la stack Red Hat, au niveau du stockage, du middleware et d'intégrer HDP avec la stratégie de cloud hybride de Red Hat. L’accord porte d’abord sur l’intégration de HDP avec Red Hat Storage, grâce notamment à des travaux que les deux partenaires ont réalisé conjointement au sein du projet Apache Ambari. Un projet qui vise à faciliter la mise en place ainsi que l’administration et le monitoring de clusters Hadoop. Un plug-in a ainsi développé pour Red Hat Storage (ex-GlusterFS) permettant d’y connecter HDP. « La plate-forme de Red Hat apparaît comme une option lorsque HDP est installée via Ambari », explique le site d’Hortonworks. L’idée est d’ajouter une interface Hadoop (via un plug-in Red Hat Storage pour Hadoop) à la solution de stockage de Red Hat et de permettre aux architectes de données « de combiner des données Hadoop aux données de l’entreprise dans un espace de srtockage unique ». Le plug-in est aujourd’hui en bêta et permet de passer outre les limitations d'HDFS en utilisation la stack de stockage Red Hat en lieu et place du file system distribué Hadoop. Cette interfface s'ajoute aux interfaces POSIX et Swift (la brique stockage objet LES ACTEURS DE LA SPHÈRE HADOOP LES ACTEURS DE LA SPHÈRE HADOOP d’OpenStack) déjà disponibles pour Red hat Storage. Dans cette même logique, HDP se retrouve intimement lié à la plate-forme OpenStack de Red Hat (Red Hat Enterprise Linux OpenStack) afin de « simplifier l’automatisation de déploiement d’Hadoop », sur OpenStack, indique Red Hat. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Intégrer HDP à RHEL et OpenJDK Autre pont d’intégration, HDP se retrouve associé à RHEL et OpenJDK afin de faciliter le développement d’applications analytiques et la capacité de les déployer dans plusieurs environnements, virtuels, cloud ou sur site, explique en substance Red Hat. HDP 2.0 était déjà certifié pour OpenJDK 1.7.0_09-icedtea. Enfin dernier élément de cette alliance, la solution d’agrégation, de fédération et de gestion de données de Red Hat, JBoss Data Virtualization, peut désormais absorber des données issues de clusters Hadoop et les conjuguer avec les données issues des bases de données SQL et NoSQL, et des applications d’entreprises, cloud ou pas. Selon Matthew Aslett, directeur de recherche spécialisé dans le data management et l’ analytique pour le cabinet 451 Research, cité dans un communiqué, la communauté Hadoop devrait également profiter de cette alliance, car 23 TOUT SAVOIR SUR HADOOP tous les développements conjoints entre Hortonworks et Red Hat seront reversés à la communauté Apache Hadoop. – Cyrille Chausson 3. MAPR VEUT POUSSER HADOOP PLUS LOIN DANS LES ENTREPRISES L’un des pure-players indépendants du monde Hadoop, MapR, a profité de la Strata Conference 2014 qui se tient actuellement à Santa Clara en Californie, pour démontrer sa capacité à donner aux entreprises les moyens d’utiliser un environnement Hadoop dans leur SI. MapR constitue avec Hortonworks et Cloudera, l'un des 3 acteurs indépendants qui ont basé leur modèle économique sur Hadoop. Avec certes une approche un peu différente. Par exemple, Si Hortonworks se base sur une notion de services autour de sa distribution Hadoop, Cloudera tend volontiers à s’extraire du monde de l’édition Hadoop pour développer une sphère de technologies adjacentes, compilées dans ce que la société baptise « un hub de données en entreprise ». De son côté, MapR a depuis son origine concentré ses efforts pour faire d’Hadoop un composant d’entreprise, en développant par exemple son propre système de fichiers MapR FS, reposant sur le standard NFS, plus couramment utilisé dans les entreprises que HDFS, le LES ACTEURS DE LA SPHÈRE HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP LES ACTEURS DE LA SPHÈRE HADOOP système de fichiers Hadoop. Cette approche peut ainsi être retrouvée dans la dernière version de la distribution Hadoop de MapR, qui outre le fait de s’adosser au socle Hadoop 2.2, et d’intégrer ainsi YARN (le nouveau gestionnaire de ressources du framework), propose également la comptabilité avec MapReduce 1.0, histoire de ne pas couper l’herbe sous le pied des entreprises qui avaient décidé d’investir précédemment dans Hadoop. YARN (pour « Yet Another Resource Negotiator ") permet en effet de s’affranchir du mode de traitement Batch propre à MapReduce. « La distribution Hadoop de MapR étend YARN un peu loin en ajoutant une interface complète, ouverte et standard NFS en plus de HDFS, permettant aux applications non MapReduce de bénéficier de façon optimisée d’un stockage en cluster », résume Evan Quinn, directeur de recherche au sein du cabinet Enterprise Management Associates, cité dans un communiqué. La nouvelle distribution MapR conserve ainsi une compatibilité avec MapReduce 1.0, et permet d’exécuter les deux technologies simultanément sur le même noeud d’un cluster, assure également la société. Et ce pour une migration moins brutale vers YARN. Un rapprochement avec HP Vertica 24 TOUT SAVOIR SUR HADOOP Autre exemple, MapR a également annoncé à l’occasion de ce même événement une intégration entre sa distribution et la base de données analytique de HP Vertica, dans le cadre d’une solution dite SQL-onHadoop, baptisé HP Vertica Analytics Platform on MapR. En clair, proposer une interface 100% compatible SQL, ainsi que des possibilités analytiques d’une solution dédiée, pour Hadoop. « Les entreprises qui ont adopté Hadoop bataillent pour valoriser les analystes métiers qui ont besoin d’outils de BI et SQL sophistiqués pour faire leur travail, mais se sentent restreints avec des approches SQL incomplètes. », explique John Schroeder (en photo), CEO et co-fondateur de MapR Technologies dans un communiqué. Ce tandem MapR / Vertica vient selon lui résoudre de problème, mieux que les solutions SQL pour Hadoop actuelles du marché. Comme Impala initié par Cloudera, ou encore SQL-H de Teradata (développé en collaboration avec HortonWorks). Ce rapprochement est en ligne avec la stratégie que mène actuellement HP dans le cadre de Haven. Ce concept architectural, qui vise à donner la vision de HP en matière de gestion et d’analyse des Big Data, réunit Vertica, LES ACTEURS DE LA SPHÈRE HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP Autonomy et ArcSight au dessus d’un socle Hadoop. Récemment, HP a concrètement établi des ponts d’intégration entre IDOL et Hadoop (IDOL for Hadoop) permettant d’embarquer les fonctions coeur de la plateforme HP (extraction d’entités ou des textes, par exemple) au plus près des noeuds Hadoop. MapR y est supporté. Dans ce même logique, HP a également rapproché IDOL de Vertica. LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Un bac sable Hadoop Enfin, MapR a également profité de la Strata Conference 2014 pour présenter un bac à sable pour Hadoop, dont l’objectif est de permettre aux développeurs de se faire la main sur le framework Java et d’y tester leurs applications en live. Baptisé Sandbox for Hadooop, cet outil, gratuit, se compose d’une machine virtuelle, configurable en 5 minutes promet la société, qui contient la distribution Hadoop de MapR, associée à des tutoriels à destination des développeurs, mais également des administrateurs et des analystes métiers. Une façon, explique MapR, de répondre à la pénurie de compétences Hadoop, en proposant des outils de formation gratuits et pouvant être facilement configurés. – Cyrille Chausson 25 TOUT SAVOIR SUR HADOOP 4. SYNCSORT RAPPROCHE UN PEU PLUS LES MAINFRAMES D’HADOOP Syncsort se met à l’heure du Big Data. Et lemoins que l'on puisse dire est que le mois d’octobre 2013 aura été particulièrement chargé pour cet acteur historique des outils mainframe et de l’ETL. En un mois, Syncsort a entamé sa mue et mis en place une stratégie, dont l'objectif est de le positionner les deux pieds dans le Big Data et l’intégration de données. Sans pour autant tirer un trait sur son passé, mais plutôt en exploitant cette expertise. Début octobre, afin de prendre résolument le virage Hadoop, la société, née il y a 45 ans, a officialisé la séparation de ses activités de protection et de sauvegarde de données (Data Protection), rachetées par une partie du management et quelque investisseurs, de celles liées à l’intégration de données. Une vraie transformation qui vient sceller la nouvelle orientation de la marque Syncsort, qui servira désormais de bannière aux activités d’intégration de données et aura notamment pour mission d’exploiter le passé du groupe, le mainframe, et de le conjuguer, l’associer, le connecter à Hadoop. Lonne Jaffe - déjà CEO de la société depuis l’été 2013 - assure la direction de la nouvelle structure et promet de mettre en place une stratégie d’expansion et de croissance en activant le levier de l’acquisition. LES ACTEURS DE LA SPHÈRE HADOOP Vers la migration d’applications mainframe vers Hadoop PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Le rachat du Britannique Circle Computer Group, annoncé le 8 octobre dernier, s’inscrit ainsi dans la droite ligne de cette stratégie et vient renforcer les outils de migration de données mainframe vers Hadoop qui peuplaient déjà le catalogue de Syncsort. Car évidemment, le virage vers Hadoop et le Big Data pris par Syncsort remonte à bien plus loin, résume Stéphane Heckel (en photo), EMEA Partner Manager chez Syncsort en France, qui rappelle que la société a travaillé sur le framework Java dés 2007-2008 avec certains de ses clients comme Comscore. Depuis, le groupe a travaillé à établir des connexions entre son coeur historique, le mainframe - 50% du parc mainframe dans le monde est client Syncsort, selon ses propres chiffres - et le monde des technologies Hadoop. Un pont entre les deux mondes, commente Stéphane Heckel, motivé par l’optimisation des coûts chez les clients et la demande de migration ou offload, partielle ou totale, de données et d’applications vers des infrastructure plus modernes, également moins coûteuses à maintenir. Selon Stéphane Heckel, un téraoctet de données stockées dans Hadoop coûterait environ 2 000 $ par an contre 30 26 TOUT SAVOIR SUR HADOOP 000$ dans un mainframe. « On s’est vite aperçu qu’Hadoop allait prendre une place clé. Nous avons donc migré nos outils. » Si Syncsort disposait déjà de produits pour migrer les données captives des mainframes et les exposer dans un environnement Hadoop, le rachat de Circle y ajoute la migration des applications. « Circle propose une boîte à outils facilitant la migration d’applications accédant à des grandes quantités de données contenues dans IBM IMS (Information Management System), encore très présent chez les grands comptes et très couteux à maintenir, vers DB2 […] Avec Circle, l’applicatif reste, mais les donnés migrent ». Pour ensuite pouvoir les exploiter avec Hadoop, via un ETL pour Hadoop, qui permet « de développer graphiquement les process MapReduce et de s’exécuter nativement au sein de la plateforme Hadoop, sans générer une ligne de code », souligne-t-il. Un dispositif qu’il qualifie de bi-directionnel : mainframe vers Hadoop et Hadoop vers mainframe. Il s’agit ainsi davantage d’une cohabitation pacifique entre les deux environnements. Sans effacer les gros systèmes de l’équation, car selon lui « le mainframe va perdurer, mais les entreprises ont également besoin de systèmes plus agiles ». LES ACTEURS DE LA SPHÈRE HADOOP LES ACTEURS DE LA SPHÈRE HADOOP A cela s’ajoute également les partenariats que la société a scellés avec les pure-players du monde Hadoop. A l’image de ceux signés avec Cloudera ou encore Greenplum en juin 2012. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 27 Un patch pour remplacer le moteur de tri par défaut d’Hadoop Toujours dans cette optique « d’ouvrir la porte du mainframe » à Hadoop, Syncsort a décidé de jouer un rôle de contributeur actif au framework Hadoop auprès de la fondation Apache. La société a ainsi développé un patch (une fonction dans le langage Apache, référencé MapReduce 2454) qui permet d’implémenter un moteur de tri alternatif, en l'occurrence celui de Syncsort (Sort pour Hadoop), en remplacement de celui inclus par défaut dans Hadoop, résume Stéphane Heckel. Une contribution qui a été validée à la fin janvier par la fondation Open Source, après plusieurs mois de développements. Ainsi, précise-t-il, l’outil de tri de Syncsort est « pré-cablé » dans Hadoop. Libre ensuite aux entreprises de l’activer, et ce sans aucune modification. Cette contribution permet ainsi de rendre la fonction tri natif extensible, comme une forme de plug-in, en somme. TOUT SAVOIR SUR HADOOP Selon Stéphane Heckel, dans chaque distribution Hadoop qui a implémenté ce patch, il existe donc un pont qui permet de se connecter vers Syncsort, sans avoir à générer du code supplémentaire. « En activant l’option Syncsort, avance-t-il, les entreprises vont accélérer des processus MapReduce de 40 %. » Reprenant ainsi l’argumentaire de l’accélération que la société avait utilisé pour DM Express, son turbo pour ETL. Ce patch Syncsort a été implémenté par défaut dans la version 4.2 de la distribution Hadoop de Cloudera - le premier à l’avoir fait dès février - et dans celle d’Hortonworks (HDP 2). Les implantations chez MapR et Pivotal sont en cours de validation, ajoute-t-il. De quoi alors créer une passerelle fluide vers Hadoop pour les 50 % du parc mainframe mondial que revendique la groupe. – Cyrille Chausson 5. EMC ISILON ET HADOOP : RETENEZ-MOI OU JE FAIS UN MAPR... EMC continue de lorgner sur le marché du Big Data et notamment sur le marché Hadoop. Le constructeur, qui disposait déjà d’un pied dans Hadoop via Greenplum vient d’en mettre un second en annonçant le « support » du système de gestion de fichier d’Hadoop, HDFS, sur ses systèmes de stockage en cluster Isilon. LES ACTEURS DE LA SPHÈRE HADOOP Jusqu’au début 2011, Greenplum était connu pour ses appliances propriétaires de traitement de données analytiques , mais sous a bannière d’EMC, la firme a progressivement pris le virage du « Big Data » à la sauce Hadoop, le framework de traitement analytique open source né chez Yahoo. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP EMC et Hadoop : un engagement qui va croissant Lors d’EMC World 2011, EMC a ainsi annoncé son intention de fournir une implémentation d’Hadoop sur les appliances greenplum. Pour être précis, le constructeur a annoncé une distribution open source communautaire, baptisée greenplum HD Community Edition, dérivée du code de la fondation Apache, et une seconde distribution, commerciale, orientée « entreprises », dérivée de la distribution de MapR, greenplum HD Entreprise Edition. Deux distributions disponibles depuis la rentrée 2011. Le souci de cette approche duale est que la version communautaire et open source s’appuie sur le système de gestion de fichiers libre HDFS (Hadoop File System), tandis que la déclinaison entreprise s’appuie sur le système de fichiers propriétaire de MapR. Ce filesystem est la principale innovation du partenaire d'EMC et il s’agit d’une innovation importante. 28 TOUT SAVOIR SUR HADOOP Imaginé par le fondateur du système de gestion de fichiers en cluster de Spinnaker (racheté par NetApp pour devenir le cœur du Cluster Mode des baies NetApp), le filesystem de MapR pallie les principaux défauts d’HDFS et notamment les risques de panne liés à l’unicité du nœud gérant les métadonnées de HDFS (name node), qui est un « single point of failure ». Le système de gestion de fichiers de MapR est aussi accessible via des protocoles standards comme NFS, intègre des fonctions avancées de protection comme les snapshots ou la réplication. Bref, par rapport à HDFS, il fournit des bénéfices fonctionnels non négligeables (sans parler de l’aspect performances). Dernier atout, l’utilisation de ce filesystem est transparente pour les applications de la pile Hadoop, MapR ayant développé une couche d’abstraction permettant d’y accéder via les API HDFS. Une stratégie « Canada Dry », qui permet de bénéficier des atouts d’un filesystem plus abouti, tout en ayant l’impression d’utiliser HDFS. Seul « petit » problème : dans un environnement Hadoop largement Open source, MapR fait tâche, son filesystem étant totalement propriétaire. Jusqu’alors le Big Data n’était pas le meilleur ami du "Big Storage" LES ACTEURS DE LA SPHÈRE HADOOP PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP Au-delà des affrontements entre partisans du libre et du propriétaire, le développement des filesytems en cluster comme HDFS ou MapR pose un autre problème aux géants du stockage : jusqu’alors les utilisateurs d’Hadoop ont appris à se passer des baies de stockage qui ont fait la fortune des géants comme EMC ou NetApp. Chaque nœud d’un cluster Hadoop est en effet à la fois un nœud de calcul et un nœud de stockage et n’a pas besoin de recourir à du stockage partagé. Pire, la progression des filesystem tels que ceux de MapR est à terme une menace pour les systèmes de stockage établis, MapR fournissant pour l’essentiel l’ensemble des fonctions de protection avancées des baies… Avec les dernières innovations apportées à ses systèmes de stockage Isilon, EMC a peut-être trouvé un moyen de changer la donne, notamment pour les déploiements Hadoop en entreprises. Intégrer le support de HDFS directement dans Isilon L’idée d’EMC est à la fois simple et brillante et elle n’est pas sans rappeler ce qu’a réalisé MapR. Rappelez-vous que ce dernier a développé son propre système de fichier en cluster et a développé une couche d’abstraction pour le faire apparaître comme un file system HDFS. Et bien EMC a fait de même au-dessus du système de gestion de fichiers de ses appliances de stockage en cluster Isilon. En greffant une couche d’abstraction HDFS sur OneFS, 29 TOUT SAVOIR SUR HADOOP Isilon propose aux clients d’EMC d’utiliser ses systèmes de stockage pour leurs besoins de stockage, en conjonction avec des nœuds de calcul utilisant la distribution communautaire de greenplum. Bref, pour la première fois, EMC propose une solution Hadoop séparant clairement calcul et stockage. Les bénéfices annoncés par EMC sont les mêmes que ceux mis en avant par MapR à savoir la sûreté que procure l’utilisation de OneFS en lieu et place d’HDFS (notamment parce que les metadonnées sont distribuées et non pas centralisées sur un unique nœud), ainsi que la possibilité de tirer parti des fonctions riches de OneFS (support multiprotocole – NFS, CIFS…-, Snapshots, réplication…). Un autre bénéfice est la mutualisation des ressources, un système de stockage Isilon pouvant être partagé entre de multiples applications. Enfin EMC met en avant une qualité inédite : la dissociation entre la partie calcul et la partie stockage. Dans un cluster Hadoop, les nœuds doivent être largement identiques et le ratio entre puissance de calcul et capacité de stockage est fixe, ce qui peut mener à des gaspillages de ressources lorsque les besoins de calcul et de stockage sont déséquilibrés. Avec la solution proposée par Isilon, le stockage est géré par l’appliance de stockage et l’entreprise peut dimensionner la partie nœuds de calcul séparément. EMC met aussi en avant l’efficacité accrue du stockage que permet le filesystem LES ACTEURS DE LA SPHÈRE HADOOP Isilon. Avec une implémentation HDFS, chaque donnée est répliquée sur trois nœuds différents pour des raisons de protection de données. OneFS est bien plus efficace pour une sécurité équivalente. PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP 30 Quel avenir pour MapR chez EMC? La question que pose immédiatement la stratégie d’EMC est bien évidemment celle de la pérennité de la distribution de MapR au catalogue d’EMC. Pour Michael Maxey, le directeur du marketing produits de Greenplum, MapR a toujours un rôle à jouer au catalogue d’EMC mais le focus de Greenplum est clairement sur la distribution Open Source. La solution Isilon visera notamment les environnements intermédiaires, qui font leurs premiers pas avec Hadoop et cherchent une solution tout en un simple d’emploi. La distribution de MapR, rebaptisée Greenplum MR, se voit quant à elle, assigner la mission de séduire les grands clients souhaitant déployer des clusters Hadoop comportant un très grand nombre de nœuds, tout en bénéficiant des avantages du filesystem développé par MapR. TOUT SAVOIR SUR HADOOP Le premier pari d’EMC est qu’avec ses trois solutions, les appliances Greenplum, les clusters intermédiaires autour d’Isilon, et la distribution Greenplum MR, il peut désormais répondre aux besoins de l'ensemble des clients quels que soit leur taille ou leurs moyens financiers. Surtout EMC espère séduire des franges de clients qui, jusqu’alors, répugnaient à se lancer dans Hadoop du fait de sa complexité ou du fait de certaines de ses caractéristiques, perçues comme autant de fragilités. Le second pari, bien sûr, est de doper un peu plus les ventes de clusters Isilon du fait de la « greffe HDFS » qui a été appliquée à OneFS. Au passage EMC s'affranchit aussi du débat entre propriétaire et open source, qui fait rage à propos de l'approche semi-propriétaire de MapR. Pour nombre d'utilisateurs, une baie de stockage, objet hybride entre matériel et logiciel embarqué, n'a pas de religion, alors que le file system propriétaire de MapR, 100% logiciel, est vu comme une intrusion dans un code opensource par ailleurs "pûr". Ainsi va la vie dans le monde cruel de l'informatique et des communautés libres... – Christophe Bardy AUTEURS CYRILLE PRESENTATION VULGARISATION : DECOUVRIR HADOOP LES ACTEURS : LES ACTEURS DE LA SPHERE HADOOP CHAUSSON Chef des informations en ligne pour lemondeinformatique.fr, il s’est très tôt intéressé aux supports alternatifs aux publications papier et notamment au web. Il a occupé plusieurs postes de journalistes sur les différents sites du groupe IDG. En tant que chef d’enquête, il sera amené à traiter quelques uns de ces sujets pour LeMagIT.fr et participera également à l’évolution de la plate-forme technique du site. Le document consulté provient du site www.lemagit.fr Cyrille Chausson | Rédacteur en Chef Christophe Bardy | Journaliste CHRISTOPHE BARDY Co-fondateur du MagIT, Christophe y a dès le début pris en charge les rubriques d'infrastructures (Datacenter, Serveurs, réseaux, Stockage, systèmes d’exploitation, virtualisation. Aujourd'hui, il est rédacteur en chef adjoint en charge des rubriques d'infrastructures. Il contribue aussi au contenu éditorial de StratégiesCloud.fr, le site d'information sur le Cloud du MagIT. Linda Koury | Directeur Artistique Neva Maniscalco | Designer Mathilde Haslund | Assistante Marketing [email protected] TechTarget 22 rue Léon Jouhaux, 75010 Paris www.techtarget.com ©2014 TechTarget Inc. Aucun des contenus ne peut être transmis ou reproduit quelle que soit la forme sans l'autorisation écrite de l'éditeur. Les réimpressions de TechTarget sont disponibles à travers The YGS Group. TechTarget édite des publications pour les professionnels de l'IT. Plus de 100 sites qui proposent un accès rapide à un stock important d'informations, de conseils, d'analyses concernant les technologies, les produits et les process déterminants dans vos fonctions. Nos événements réels et nos séminaires virtuels vous donnent accès à des commentaires et recommandations neutres par des experts sur les problèmes et défis que vous rencontrez quotidiennement. Notre communauté en ligne "IT Knowledge Exchange" (Echange de connaissances IT) vous permet de partager des questionnements et informations de tous les jours avec vos pairs et des experts du secteur. 31 TOUT SAVOIR SUR HADOOP