Introduction au Massive Data

Transcription

Introduction au Massive Data
Introduction au Massive Data
Didier Kirszenberg,
Responsable des architectures Massive Data, HP France
© Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Explosion de la donnée
Presque tous les clients sont concernés
Exemples de besoins
Explosion des boîtes mails !
« Concurrence » du prix au To des fournisseurs externes
Conserver tous les “clics” internet
Garder tous les fichiers même audio et vidéo
Compliance
Développement de ‘’l’object Storage’’
Généralisation de la vidéo
Développement d’Openstack
2
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Nouvelle stratégie de stockage des données
Block
File
Object
(iSCSI, FC, Cinder, etc.)
(HDFS, NFS, SMB, etc.)
(Swift , S3, etc.)
Historiquement le SAN
•
•
SGBD
Accès rapide aux data
Historiquement le NAS
Bureautique
Moins cher
Plus gros volumes
Archivage
Archivage légal (worm)
3
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Scale Out Storage
Définitions -> Evolutions
Big Data
Valorisation de la donnée -> Hadoop -> File System Distribué -> Bases MPP
Software Defined Storage
Effet de mode -> Tendance lourde -> Payant et Open Source ->Software + X86
Scale out Storage, Scale out NAS, Object Storage, Cloud Storage, Grid Storage, Server SAN….
Erasure Coding
Remplace Raid, faible impact panne, multi copie, faible ratio brut/utile
Déploiement
Mixité technologique
Multi-salles voire multi-sites
Attention à la charge réseau
4
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
SDS Sous segments
Scale Out Storage
Plus de volume à moindre prix -> souvent image ou archivage -> vers Object Storage
Cloud Storage
Demande Storage as a service
OpenStack ->Référenciel -> Glance -> Swift -> object storage / VM -> Cinder -> Block storage
Object Storage
Mode Bloc, Mode Fichier -> Mode Objet (Avec ou sans Rest)
Grid Storage
Rest API NFS, CIFS, S3….
Stockage important en amont ou en aval des clusters de calcul
Server Storage
Co-localisation du traitement et du stockage (disque locaux) -> voir lien Hyperviseur
Scale Out NAS
Fonctions NAS (bureautique, SGBD…) sur X86 à plus faible coût
5
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Objet
Common Business Case Solution Access Methods
Block
(iSCSI, FC, Cinder, etc.)
HP StoreVirtual & VSARAIN
File
Object
(HDFS, NFS, SMB, etc.)
(Swift , S3, etc.)
HP StoreAll
with StoreAll REST API
HP
HP 3PAR StoreServ
with HP StoreAll 9300 Gateway
Erasure Coding
With 3rd party gateway
Cinder Compatibility
Ceph
Ceph
Replication
Scality
Erasure Coding
Replication
Features/Maturity Lags
Erasure Coding
Swift
Gluster
6
Proprietary
on HP
Platforms
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Erasure Coding
Replication
Replication
Open
Source
on HP
Platforms
HP ProLiant SL4500 la référence en données-massives
Un nouveau standard
Un coût au Go Incomparable
La meilleure densité du marché
Efficacité thermique
Facilité d’opération (remplacement à chaud)
Gestion similaire au reste de la gamme ProLiant
Data tiering intégré
Option d’optimisation flux vidéo
Performant : 1er au test 10TB Hadoop TeraSort
HP ProLiant SL4540 Gen8 HyperStorage System
7
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.
Gestion des architectures parallèles (MPP)
Nouvelles procédures et nouveaux utilitaires (HPInsight CMU)
Gestion de systèmes standards
• L’objectif est de déployer de nombreux services sur une machine
• Tous les OS peuvent être différents
• Les opérations sont par défaut basées sur l’Hyperviseur
• La performance s’analyse au niveau d’un système unitaire
-> le coût d’opération est lié au nombre d’OS
Massivelly Parallel systems management
• L’objectif est de déployer un unique service sur de nombreuses machines
• Tous les OS doivent être similaires au firmware près
• Pas d’hyperviseur (les services utilisent 100% des systèmes)
• La performance s’analyse au niveau global
-> le coût d’opération doit être lié au nombre de services
Hadoop (comme Mongo DB, Couchbase, Vertica, SAS VA, Moonshot…) induit la gestion de systèmes
massivement parallèle
8
© Copyright 2012 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.