BigData Vers une hadooption massive

Transcription

BigData Vers une hadooption massive
smart solutions for smart leaders
Rédigé par
Olivier ARMAND
Consultant Big Data
Les technologies du « Big Data »
vers une hadoop-tion massive
Le phénomène « Big Data » est tiré par trois leviers : la croissance exponentielle des
informations disponibles sous une forme numérique exploitable (les ‘données‘), la prise de
conscience par les entreprises du potentiel qu’elles recèlent, et la démocratisation de
technologies jusqu’ici réservées aux spécialistes, désormais indispensables pour permettre à
chacun d’exploiter son capital données.
Conséquence naturelle : l’appréhension des directions informatiques qui perçoivent déjà le
sourd grondement d’un déluge technologique, bien plus fort que celui du déluge de données.
Le plan d’action n’a rien d’évident : Faut-il avoir recours aux services d’expertises en
‘MapReduce’ ou ‘Bulk Synchronous Parallel’ ? Pénétrer le monde du ‘Massively Parallel
Processing’ ou de la donnée virtualisée ? Poster des annonces pour troquer son mainframe
contre le dernier cluster en vogue ? Prendre des cours du soir de ‘Pig Latin’ ? Ou bien
potasser les grands classiques du machine-learning ?
Pour les entreprises dont la technologie n’est pas le cœur de métier, des alternatives sont déjà
disponibles sur le marché pour envisager une transition douce vers le « Big Data ».
SQL, nouvel esperanto du « Big Data »
Déjà dans l’ombre du mouvement ‘NoSQL’ ces dernières années, le quadragénaire langage de
requête SQL serait à l’heure du Big Data sous la sellette. Les stars d’aujourd’hui sont l’API
Java Hadoop, Jaql, ou les langages de requêtes continues tels que CQL.
Pourtant les éditeurs se réapproprient déjà SQL pour le positionner au cœur de leurs solutions
« Big Data ». Quelques exemples phares :
-
Le sous-projet Hive d’Hadoop expose en SQL les données semi-structurées du
système de fichier distribué HDFS. La société Hortonworks va jusqu’à proposer un
driver ODBC compatible Microsoft Excel.
Sentelis
STRATEGIC PARTNER
Conférence Big Data Paris, 2013
1
smart solutions for smart leaders
-
-
-
Teradata Aster mise sur son framework ‘SQL-MapReduce’ pour simplifier l’écriture
de traitements MapReduce, et les invoquer depuis des requêtes SQL classiques
exécutées sur sa base Aster Database.
SAP propose pour sa base de données mémoire HANA le langage ‘SQLScript’, SQL
étendu avec des fonctions d’analyse avancée, l’intégration avec la plate-forme
d’analyse statistique R, et des nouveaux modes de définition des modèles pour un
stockage optimisé.
Les éditeurs de solutions de virtualisation de la données telles que Composite
Software ou Denodo permettent quant à eux d’exposer des services virtuels de
données consommables via des requêtes SQL, interprétées par un moteur de fédération
des différentes sources physiques de données hétérogènes (web services, fichiers plats,
bases relationnelles, …)
Au look un peu rétro, le SQL pourrait bien être un pari gagnant : standardisé (contrairement à
nombre des langages alternatifs), largement supporté par les potentielles applications
utilisatrices, langue natale des équipes de développement, concis et puissant,
conceptuellement adapté aux grands jeux de données... et désormais techniquement au
rendez-vous lorsque les exigences de performance, de volumétrie et non-structuration des
données dépassent les normes. Fast food du « Big Data », SQL permet à un large panel
d’utilisateurs de passer immédiatement à table.
Voir le tableau en grand
Du côté des utilisateurs finaux, le refrain n’est pas vraiment différent : l’analyse de données
tabulaires popularisée par Microsoft Excel est aujourd’hui ancrée dans les mœurs de chaque
direction métier. Outillée d’un langage spécialisé, accompagnée d’une grande palette de styles
et rendus graphiques, elle permet à chacun de monter son laboratoire personnel d’analyse
exploratoire. Hantise de la DSI qui en perd le contrôle, l’ ‘Excel Hell’ pourrait pourtant bien
être la soupe primordiale d’une stratégie « Big Data » à succès pour l’entreprise : la valeur est
extraite des données brutes directement par ceux qui savent l’identifier, l’expérimentation est
menée en cycles ultra-courts, la personnalisation est poussée à l’extrême.
Partant du constat que les profils ‘Data Scientists’ restent rares et à prix d’or, Microsoft
compte bien capitaliser sur sa base actuelle d’utilisateurs et faire du « Big Data » un produit
de grande consommation. PowerPivot, nativement intégré au pack Office 2013, enrichit Excel
de capacités d’analyse et visualisation interactive sur des volumes de millions de lignes. Plus
récemment Microsoft annonce la disponibilité d’une version Preview de l’add-in Data
Explorer qui met l’accent sur la consommation de sources hétérogènes (Hadoop HDFS, Web,
bases relationnel, réseaux sociaux, flux OData, ...), tout en conservant l’ergonomie d’Excel.
Et si jamais les dimensions deviennent excessives et ne permettent plus aux sources de
données internes de garantir à elle seules la tenue en charge ? 1010data propose de poursuivre
l’expérience tabulaire depuis son navigateur Web et dans le cloud avec ‘Trillion-Row
Spreadsheet’.
Sentelis
STRATEGIC PARTNER
Conférence Big Data Paris, 2013
2
smart solutions for smart leaders
Le « Big Data » décomplexé
S’inscrire dans la continuité immédiate des usages actuels de l’entreprise est réconfortant.
L’intégration à l’architecture SI est sécurisée, et la prise rapide auprès des utilisateurs est
favorisée.
S’y astreindre signifierait aussi prendre le risque de passer à côté de promesses du « Big
Data » que seules des techniques en rupture avec les capacités SI traditionnelles sont à même
de supporter : machine-learning, analyse de sentiment ou encore détection de patterns dans
des flux de données.
La DSI doit ainsi avoir pour ambition l’appropriation de la complexité de ces nouvelles
capacités SI, mais aussi une réelle préoccupation de les rendre accessibles à leurs utilisateurs.
Solliciter des acteurs de l’Analytics-as-a-Service dont l’intégration d’architectures hybrides,
distribuées et multi-tenantes est le cœur de métier peut s’avérer une stratégie viable, écoresponsable, garantie de la qualité de service et de la maîtrise du budget.
Sentelis
STRATEGIC PARTNER
Conférence Big Data Paris, 2013
3