BigData Vers une hadooption massive
Transcription
BigData Vers une hadooption massive
smart solutions for smart leaders Rédigé par Olivier ARMAND Consultant Big Data Les technologies du « Big Data » vers une hadoop-tion massive Le phénomène « Big Data » est tiré par trois leviers : la croissance exponentielle des informations disponibles sous une forme numérique exploitable (les ‘données‘), la prise de conscience par les entreprises du potentiel qu’elles recèlent, et la démocratisation de technologies jusqu’ici réservées aux spécialistes, désormais indispensables pour permettre à chacun d’exploiter son capital données. Conséquence naturelle : l’appréhension des directions informatiques qui perçoivent déjà le sourd grondement d’un déluge technologique, bien plus fort que celui du déluge de données. Le plan d’action n’a rien d’évident : Faut-il avoir recours aux services d’expertises en ‘MapReduce’ ou ‘Bulk Synchronous Parallel’ ? Pénétrer le monde du ‘Massively Parallel Processing’ ou de la donnée virtualisée ? Poster des annonces pour troquer son mainframe contre le dernier cluster en vogue ? Prendre des cours du soir de ‘Pig Latin’ ? Ou bien potasser les grands classiques du machine-learning ? Pour les entreprises dont la technologie n’est pas le cœur de métier, des alternatives sont déjà disponibles sur le marché pour envisager une transition douce vers le « Big Data ». SQL, nouvel esperanto du « Big Data » Déjà dans l’ombre du mouvement ‘NoSQL’ ces dernières années, le quadragénaire langage de requête SQL serait à l’heure du Big Data sous la sellette. Les stars d’aujourd’hui sont l’API Java Hadoop, Jaql, ou les langages de requêtes continues tels que CQL. Pourtant les éditeurs se réapproprient déjà SQL pour le positionner au cœur de leurs solutions « Big Data ». Quelques exemples phares : - Le sous-projet Hive d’Hadoop expose en SQL les données semi-structurées du système de fichier distribué HDFS. La société Hortonworks va jusqu’à proposer un driver ODBC compatible Microsoft Excel. Sentelis STRATEGIC PARTNER Conférence Big Data Paris, 2013 1 smart solutions for smart leaders - - - Teradata Aster mise sur son framework ‘SQL-MapReduce’ pour simplifier l’écriture de traitements MapReduce, et les invoquer depuis des requêtes SQL classiques exécutées sur sa base Aster Database. SAP propose pour sa base de données mémoire HANA le langage ‘SQLScript’, SQL étendu avec des fonctions d’analyse avancée, l’intégration avec la plate-forme d’analyse statistique R, et des nouveaux modes de définition des modèles pour un stockage optimisé. Les éditeurs de solutions de virtualisation de la données telles que Composite Software ou Denodo permettent quant à eux d’exposer des services virtuels de données consommables via des requêtes SQL, interprétées par un moteur de fédération des différentes sources physiques de données hétérogènes (web services, fichiers plats, bases relationnelles, …) Au look un peu rétro, le SQL pourrait bien être un pari gagnant : standardisé (contrairement à nombre des langages alternatifs), largement supporté par les potentielles applications utilisatrices, langue natale des équipes de développement, concis et puissant, conceptuellement adapté aux grands jeux de données... et désormais techniquement au rendez-vous lorsque les exigences de performance, de volumétrie et non-structuration des données dépassent les normes. Fast food du « Big Data », SQL permet à un large panel d’utilisateurs de passer immédiatement à table. Voir le tableau en grand Du côté des utilisateurs finaux, le refrain n’est pas vraiment différent : l’analyse de données tabulaires popularisée par Microsoft Excel est aujourd’hui ancrée dans les mœurs de chaque direction métier. Outillée d’un langage spécialisé, accompagnée d’une grande palette de styles et rendus graphiques, elle permet à chacun de monter son laboratoire personnel d’analyse exploratoire. Hantise de la DSI qui en perd le contrôle, l’ ‘Excel Hell’ pourrait pourtant bien être la soupe primordiale d’une stratégie « Big Data » à succès pour l’entreprise : la valeur est extraite des données brutes directement par ceux qui savent l’identifier, l’expérimentation est menée en cycles ultra-courts, la personnalisation est poussée à l’extrême. Partant du constat que les profils ‘Data Scientists’ restent rares et à prix d’or, Microsoft compte bien capitaliser sur sa base actuelle d’utilisateurs et faire du « Big Data » un produit de grande consommation. PowerPivot, nativement intégré au pack Office 2013, enrichit Excel de capacités d’analyse et visualisation interactive sur des volumes de millions de lignes. Plus récemment Microsoft annonce la disponibilité d’une version Preview de l’add-in Data Explorer qui met l’accent sur la consommation de sources hétérogènes (Hadoop HDFS, Web, bases relationnel, réseaux sociaux, flux OData, ...), tout en conservant l’ergonomie d’Excel. Et si jamais les dimensions deviennent excessives et ne permettent plus aux sources de données internes de garantir à elle seules la tenue en charge ? 1010data propose de poursuivre l’expérience tabulaire depuis son navigateur Web et dans le cloud avec ‘Trillion-Row Spreadsheet’. Sentelis STRATEGIC PARTNER Conférence Big Data Paris, 2013 2 smart solutions for smart leaders Le « Big Data » décomplexé S’inscrire dans la continuité immédiate des usages actuels de l’entreprise est réconfortant. L’intégration à l’architecture SI est sécurisée, et la prise rapide auprès des utilisateurs est favorisée. S’y astreindre signifierait aussi prendre le risque de passer à côté de promesses du « Big Data » que seules des techniques en rupture avec les capacités SI traditionnelles sont à même de supporter : machine-learning, analyse de sentiment ou encore détection de patterns dans des flux de données. La DSI doit ainsi avoir pour ambition l’appropriation de la complexité de ces nouvelles capacités SI, mais aussi une réelle préoccupation de les rendre accessibles à leurs utilisateurs. Solliciter des acteurs de l’Analytics-as-a-Service dont l’intégration d’architectures hybrides, distribuées et multi-tenantes est le cœur de métier peut s’avérer une stratégie viable, écoresponsable, garantie de la qualité de service et de la maîtrise du budget. Sentelis STRATEGIC PARTNER Conférence Big Data Paris, 2013 3