Introduction au Massive Data
Transcription
Introduction au Massive Data
Introduction au Massive Data Didier Kirszenberg, Responsable des architectures Massive Data, HP France © Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Explosion de la donnée Presque tous les clients sont concernés Exemples de besoins Explosion des boîtes mails ! « Concurrence » du prix au To des fournisseurs externes Conserver tous les “clics” internet Garder tous les fichiers même audio et vidéo Compliance Développement de ‘’l’object Storage’’ Généralisation de la vidéo Développement d’Openstack 2 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Nouvelle stratégie de stockage des données Block File Object (iSCSI, FC, Cinder, etc.) (HDFS, NFS, SMB, etc.) (Swift , S3, etc.) Historiquement le SAN • • SGBD Accès rapide aux data Historiquement le NAS Bureautique Moins cher Plus gros volumes Archivage Archivage légal (worm) 3 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Scale Out Storage Définitions -> Evolutions Big Data Valorisation de la donnée -> Hadoop -> File System Distribué -> Bases MPP Software Defined Storage Effet de mode -> Tendance lourde -> Payant et Open Source ->Software + X86 Scale out Storage, Scale out NAS, Object Storage, Cloud Storage, Grid Storage, Server SAN…. Erasure Coding Remplace Raid, faible impact panne, multi copie, faible ratio brut/utile Déploiement Mixité technologique Multi-salles voire multi-sites Attention à la charge réseau 4 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. SDS Sous segments Scale Out Storage Plus de volume à moindre prix -> souvent image ou archivage -> vers Object Storage Cloud Storage Demande Storage as a service OpenStack ->Référenciel -> Glance -> Swift -> object storage / VM -> Cinder -> Block storage Object Storage Mode Bloc, Mode Fichier -> Mode Objet (Avec ou sans Rest) Grid Storage Rest API NFS, CIFS, S3…. Stockage important en amont ou en aval des clusters de calcul Server Storage Co-localisation du traitement et du stockage (disque locaux) -> voir lien Hyperviseur Scale Out NAS Fonctions NAS (bureautique, SGBD…) sur X86 à plus faible coût 5 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Objet Common Business Case Solution Access Methods Block (iSCSI, FC, Cinder, etc.) HP StoreVirtual & VSARAIN File Object (HDFS, NFS, SMB, etc.) (Swift , S3, etc.) HP StoreAll with StoreAll REST API HP HP 3PAR StoreServ with HP StoreAll 9300 Gateway Erasure Coding With 3rd party gateway Cinder Compatibility Ceph Ceph Replication Scality Erasure Coding Replication Features/Maturity Lags Erasure Coding Swift Gluster 6 Proprietary on HP Platforms © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Erasure Coding Replication Replication Open Source on HP Platforms HP ProLiant SL4500 la référence en données-massives Un nouveau standard Un coût au Go Incomparable La meilleure densité du marché Efficacité thermique Facilité d’opération (remplacement à chaud) Gestion similaire au reste de la gamme ProLiant Data tiering intégré Option d’optimisation flux vidéo Performant : 1er au test 10TB Hadoop TeraSort HP ProLiant SL4540 Gen8 HyperStorage System 7 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Gestion des architectures parallèles (MPP) Nouvelles procédures et nouveaux utilitaires (HPInsight CMU) Gestion de systèmes standards • L’objectif est de déployer de nombreux services sur une machine • Tous les OS peuvent être différents • Les opérations sont par défaut basées sur l’Hyperviseur • La performance s’analyse au niveau d’un système unitaire -> le coût d’opération est lié au nombre d’OS Massivelly Parallel systems management • L’objectif est de déployer un unique service sur de nombreuses machines • Tous les OS doivent être similaires au firmware près • Pas d’hyperviseur (les services utilisent 100% des systèmes) • La performance s’analyse au niveau global -> le coût d’opération doit être lié au nombre de services Hadoop (comme Mongo DB, Couchbase, Vertica, SAS VA, Moonshot…) induit la gestion de systèmes massivement parallèle 8 © Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.