Entreposage des données sur AWS
Transcription
Entreposage des données sur AWS
Entreposage des données sur AWS Mars 2016 Amazon Web Services – Entreposage des données sur AWS Mars 2016 © 2016, Amazon Web Services, Inc. ou ses filiales. Tous droits ré servé s. Mentions légales Ce document est fourni àtitre informatif uniquement. Il pré sente l'offre de produits et les pratiques actuelles d'AWS àla date de publication de ce document, des informations qui sont susceptibles d'ê tre modifié es sans avis pré alable. Il incombe aux clients de procé der àleur propre é valuation indé pendante des informations contenues dans ce document et chaque client est responsable de son utilisation des produits ou services AWS, chacun é tant fourni «en l'é tat », sans garantie d'aucune sorte, qu'elle soit explicite ou implicite. Ce document ne cré e pas de garanties, repré sentations, engagements contractuels, conditions ou assurances àl'encontre d'AWS, de ses affilié s, fournisseurs ou donneurs de licence. Les responsabilité s et obligations d'AWS vis-à-vis de ses clients sont ré gies par les contrats AWS. Le pré sent document ne fait partie d'aucun et ne modifie aucun contrat entre AWS et ses clients. Page 2 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Table des matières Ré sumé 4 Introduction 4 Analyse moderne et architecture d'entreposage des donné es 6 Architecture d'analyse Options technologiques des entrepôts de donné es 14 Bases de donné es orienté es lignes 14 Bases de donné es orienté es colonnes 15 Architectures de traitement massivement parallè le 17 Exploration d'Amazon Redshift 17 Performances 18 Durabilitéet disponibilité 18 Évolutivitéet é lasticité 19 Interfaces 20 Sé curité 20 Modè le de coût 21 Modè les d'utilisation idé aux 22 Utilisations dé conseillé es 22 Migration vers Amazon Redshift Page 3 sur 30 7 23 Migration en une é tape 23 Migration en deux é tapes 24 Outils de migration de la base de donné es 24 Conception des flux de travail des entrepôts de donné es 25 Conclusion 28 Participants 28 Suggestions de lecture 29 Notes 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Résumé Dans les entreprises du monde entier, les ingé nieurs et les analystes de donné es, ainsi que les dé veloppeurs, cherchent àmigrer les entrepôts de donné es sur le cloud afin d'accroî tre les performances et de ré duire les coûts. Ce livre blanc est consacréàune approche moderne de l'analyse et de l'architecture d'entreposage des donné es. Il met en é vidence les services disponibles sur Amazon Web Services (AWS) afin de mettre en œuvre cette architecture et propose des modè les de conception courants destiné s àcré er des solutions d'entreposage des donné es àl'aide de ces services. Introduction Dans le monde des affaires actuel, les donné es et l'analyse jouent un rôle indispensable. La plupart des grandes entreprises ont cré édes entrepôts de donné es àdes fins de reporting et d'analyse. Elles ont pour cela eu recours àdes donné es issues de diffé rentes sources, dont leurs propres systè mes de traitement des transactions et d'autres bases de donné es. Toutefois, la cré ation et la gestion d'un entrepôt de donné es, c'est-à-dire un ré fé rentiel centraliséd'informations issues d'une ou de plusieurs sources de donné es, ont toujours é tédes opé rations complexes et coûteuses. La plupart des systè mes d'entreposage des donné es sont compliqué s àmettre en place, coûtent des millions d'euros en achats initiaux de maté riel et de logiciels, sans oublier les processus de planification, d'acquisition, d'implé mentation et de dé ploiement qui peuvent prendre des mois. Une fois les premiers investissements effectué s et l'entrepôt de donné es installé , vous devez recruter une é quipe d'administrateurs de bases de donné es pour garantir l'exé cution rapide des requê tes et é viter les pertes de donné es. Page 4 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Les entrepôts de donné es classiques sont é galement difficiles àé tendre. Lorsque les volumes de donné es augmentent ou si vous souhaitez rendre des analyses et des rapports disponibles pour plusieurs utilisateurs, vous devez choisir entre deux options : accepter des performances de requê tes ralenties ou investir du temps et des efforts dans un processus de mise àniveau coûteux. En fait, certaines é quipes informatiques dé conseillent l'augmentation du volume de donné es ou l'ajout de requê tes dans le but de proté ger les accords de niveau de service existants. De nombreuses entreprises s'efforcent de maintenir une relation saine avec les fournisseurs de bases de donné es traditionnels. Elles sont souvent contraintes de mettre àniveau le maté riel d'un systè me gé réou de se lancer dans un long cycle de né gociation pour une licence arrivé e àexpiration. Lorsqu'elles atteignent la limite d'extension sur un moteur d'entrepôt de donné es, elles sont obligé es de migrer vers un autre moteur proposépar le mê me fournisseur, mais avec une sé mantique SQL diffé rente. Amazon Redshift a fait é voluer la faç on dont les entreprises voient l'entreposage de donné es en ré duisant considé rablement le coût et les efforts lié s au dé ploiement de systè mes d'entreposage de donné es sans faire de compromis sur les fonctionnalité s et les performances. Amazon Redshift est une solution d'entrepôt de donné es rapide et entiè rement gé ré e. Elle est doté e d'une capacité de plusieurs pé taoctets et permet d'analyser de maniè re simple et rentable d'importants volumes de donné es grâce àvos outils d'informatique dé cisionnelle (BI) existants. En outre, elle vous permet de bé né ficier des performances des moteurs d'entrepôts de donné es en colonnes qui effectuent un traitement massivement parallè le (MPP) pour un dixiè me du coût. Vous pouvez commencer par de petits volumes pour 0,25 $ par heure, sans engagements, puis passer aux pé taoctets pour 1 000 $ par té raoctet pour un an. Depuis son lancement en fé vrier 2013, Amazon Redshift est l'un des services AWS qui a connu la croissance la plus rapide, avec des milliers de clients exerç ant dans diffé rents secteurs et pour des socié té s de diverses tailles. Des entreprises telles que NTT DOCOMO, FINRA, Johnson & Johnson, Hearst, Amgen et NASDAQ ont migrévers Amazon Redshift. Amazon Redshift a donc é té classécomme leader dans le rapport Forrester Wave: Enterprise Data Warehouse, Q4 2015.1 Page 5 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Dans le cadre de ce livre blanc, nous vous communiquons les informations dont vous avez besoin pour tirer parti du changement straté gique qui envahit le domaine des entrepôts de donné es migrant d'une infrastructure locale vers le cloud : Architecture d'analyse moderne Choix technologiques disponibles au sein de cette architecture pour l'entreposage des donné es Exploration d'Amazon Redshift et de ses caracté ristiques uniques Plan de cré ation d'un systè me d'entreposage des donné es complet sur AWS avec Amazon Redshift et d'autres services Conseils pratiques pour migrer àpartir d'autres solutions d'entreposage des donné es et exploiter notre é cosystè me partenaire Analyse moderne et architecture d'entreposage des données Comme nous l'avons dé jàmentionné , un entrepôt de donné es est un ré fé rentiel centraliséd'informations issues d'une ou de plusieurs sources de donné es. Les donné es qui arrivent dans un entrepôt de donné es sont gé né ralement issues de systè mes transactionnels et d'autres bases de donné es relationnelles. De plus, elles peuvent ê tre structuré es, semi-structuré es et non structuré es. Ces donné es sont traité es, transformé es et assimilé es àun rythme ré gulier. Les utilisateurs, parmi lesquels figurent les spé cialistes des donné es, les analystes d'entreprise et les dé cisionnaires, accè dent aux donné es par l'intermé diaire d'outils d'aide àla dé cision, de clients SQL et de feuilles de calcul. Page 6 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Quel est l'inté rê t de cré er un entrepôt de donné es, pourquoi ne pas exé cuter simplement des requê tes d'analyses directement dans une base de donné es OLTP (traitement des transactions en ligne), oùles transactions sont enregistré es ? Pour ré pondre àcette question, observons les diffé rences entre les entrepôts de donné es et les bases de donné es OLTP. Les entrepôts de donné es sont optimisé s pour les opé rations d'é critures par lots et la lecture de volumes de donné es importants, tandis que les bases de donné es OLTP sont optimisé es pour des opé rations d'é critures continues et des volumes importants de petites opé rations de lecture. En gé né ral, les entrepôts de donné es ont recours àdes sché mas dé normalisé s tels que Star et Snowflake en raison du dé bit é levéde donné es né cessaire, tandis que les bases de donné es OLTP ont recours àdes sché mas extrê mement normalisé s, mieux adapté s au dé bit de transaction é levéné cessaire. Le sché ma Start est composéde quelques tables de faits volumineuses qui font ré fé rence àun certain nombre de tables de dimension. Quant au sché ma Snowflake, une extension du sché ma Star, il est composéde tables de dimension qui sont encore plus normalisé es. Pour tirer parti de l'utilisation d'un entrepôt de donné es gé réen tant que magasin de donné es avec votre OLTP source ou un autre systè me source, nous vous recommandons de cré er un pipeline de donné es efficace. Un pipeline de ce type extrait les donné es du systè me source, les convertit en sché ma adapté àl'entreposage de donné es, puis les charge dans l'entrepôt de donné es. Au cours de la section suivante, nous aborderons les composants de base d'un pipeline d'analyse, ainsi que les diffé rents services AWS àvotre disposition pour la cré ation du pipeline. Architecture d'analyse Les pipelines d'analyse ont é téconç us pour gé rer des volumes importants de flux de donné es entrants issus de sources hé té rogè nes, telles que des bases de donné es, des applications et des appareils. Un pipeline d'analyse type est composédes é tapes suivantes : 1. Collecte des donné es. 2. Stockage des donné es. 3. Traitement des donné es. 4. Analyse et visualisation des donné es. Page 7 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Observez la figure 1 suivante pour comprendre le fonctionnement de ce pipeline. Figure 1 : Pipeline d'analyse Collecte des données Au cours de l'é tape de collecte des donné es, vous devez tenir compte du fait qu'il y a diffé rents types de donné es, par exemple des donné es transactionnelles, de streaming, de journal et de l'Internet des Objets (IoT). AWS propose des solutions de stockage des donné es pour chacun de ces types de donné es. Données transactionnelles Les donné es transactionnelles, par exemple les transactions d'achat e-commerce et les transactions financiè res, sont gé né ralement stocké es dans des systè mes de gestion des bases de donné es relationnelles (RDBMS) ou dans des systè mes de bases de donné es NoSQL. Le choix d'une solution de base de donné es dé pend du cas d'utilisation et des caracté ristiques d'application. Une base de donné es NoSQL est adapté e lorsque les donné es ne sont pas structuré es correctement et ne peuvent donc pas ê tre inté gré es àun sché ma dé fini, ou lorsque le sché ma change trè s souvent. En revanche, une solution RDBMS convient lorsque les transactions ont lieu sur plusieurs lignes de table et que les requê tes requiè rent des jointures complexes. Amazon DynamoDB est un service de base de donné es NoSQL totalement gé résusceptible d'ê tre utilisécomme magasin OLTP pour vos applications. Amazon RDS vous permet d'implé menter une solution de base de donné es relationnelles SQL pour votre application. Page 8 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Données de journal Les journaux fiables gé né ré s par le systè me vous permettent de ré soudre les problè mes, de mener des audits et d'effectuer des analyses qui utilisent les informations stocké es dans les journaux. Amazon Simple Storage Service (Amazon S3) est une solution de stockage appré cié e pour les donné es non transactionnelles, par exemple les donné es de journal, utilisé es àdes fins d'analyse. Dans la mesure oùelle offre une durabilitécomposé e de 11 chiffres 9 (soit 99,999999999 % de durabilité ), Amazon S3 est é galement une solution d'archivage prisé e. Données de streaming Les applications Web, les appareils mobiles et de nombreux services et applications logiciels peuvent gé né rer des volumes impressionnants de donné es de streaming, parfois plusieurs té raoctets par heure, qui ont besoin d'ê tre 2 collecté es, stocké es et traité es en continu. Les services Amazon Kinesis vous permettent d'effectuer ces opé rations en toute simplicitéet pour un coût ré duit. Données IoT Des appareils et des capteurs envoient continuellement des messages dans le monde entier. Les entreprises constatent la né cessitécroissante de capturer ces donné es et de les exploiter. Àl'aide d'AWS IoT, les appareils connecté s interagissent aisé ment et en toute sé curitéavec le cloud AWS. AWS IoT permet d'utiliser en toute simplicitédes services AWS tels que AWS Lambda, Amazon Kinesis, Amazon S3, Amazon Machine Learning et Amazon DynamoDB afin de cré er des applications qui regroupent, traitent, analysent les donné es IoT, et agissent sur ces derniè res, sans qu'il soit né cessaire de gé rer une infrastructure. Traitement des données Le processus de collecte fournit des données qui peuvent constituer des sources d'informations d'utiles. Vous pouvez analyser les donné es extraites afin d'exploiter des informations qui permettront àvotre entreprise de se dé velopper. Ces informations peuvent notamment vous donner la possibilitéde comprendre le comportement des utilisateurs et la popularitérelative de vos produits. La bonne pratique pour collecter ces informations consiste àcharger les donné es brutes dans un entrepôt de donné es afin de les analyser plus en dé tails. Page 9 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Dans cette optique, il existe deux types de flux de travail de traitement : par lots et en temps ré el. Les formes les plus courantes de traitement, àsavoir le traitement analytique en ligne (OLAP) et OLTP, utilisent chacune l'un de ces types. Le traitement analytique en ligne (OLAP) s'effectue gé né ralement par lots. En revanche, les systè mes OLTP sont orienté s vers un traitement en temps ré el et ne sont gé né ralement pas adapté s au traitement par lots. Si vous sé parez le traitement de donné es de votre systè me OLTP, vous é vitez que le traitement ait un impact sur votre charge de travail OLTP. Commenç ons par observer les composants du traitement par lots. Extraction, transformation et chargement (ETL) Le processus ETL consiste àextraire les donné es de plusieurs sources afin de les charger dans des systè mes d'entreposage des donné es. ETL est gé né ralement un processus permanent continu avec un flux de travail bien dé fini. Au cours de ce processus, les donné es sont tout d'abord extraites d'une ou de plusieurs sources. Les donné es extraites sont ensuite nettoyé es, enrichies, transformé es, puis chargé es dans un entrepôt de donné es. Les outils de l'infrastructure Hadoop, par exemple Apache Pig et Apache Hive sont gé né ralement utilisé s dans un pipeline ETL afin de transformer des volumes de donné es importants. Extraction, chargement, transformation (ELT) ELT est une variante d'ETL dans laquelle les donné es extraites sont d'abord chargé es dans le systè me cible. Les transformations sont effectué es aprè s le chargement des donné es dans l'entrepôt de donné es. ELT est la solution qui convient lorsque votre systè me cible est suffisamment puissant pour gé rer les transformations. Amazon Redshift est souvent utilisédans les pipelines ELT car ce service est extrê mement efficace pour les transformations. Traitement analytique en ligne (OLAP) Les systè mes OLAP stockent des regroupements de donné es d'historique dans des sché mas multidimensionnels. Largement utilisé s pour l'exploration des donné es, les systè mes OLAP vous permettent d'extraire des donné es et de repé rer les tendances sur plusieurs dimensions. En raison de son optimisation pour les jointures rapides, Amazon Redshift est souvent utilisépour cré er des systè mes OLAP. Observons maintenant le fonctionnement du traitement des donné es en temps ré el. Page 10 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Traitement en temps réel Nous avons dé jàabordéles donné es de streaming et mentionnéAmazon Kinesis, une solution qui permet de capturer et de stocker les donné es de streaming. Vous pouvez traiter ces donné es de faç on sé quentielle et progressive par enregistrement ou selon des fenê tres chronologiques mobiles, et utiliser les donné es traité es pour diffé rentes analyses, dont les corré lations, les agré gations, le filtrage et l'é chantillonnage. Ce type de traitement est qualifiéde traitement en temps ré el. Les informations issues du traitement en temps ré el offrent aux entreprises une visibilitésur de nombreux aspects de leurs activité s et de celles de leurs clients, par exemple l'utilisation du service (àdes fins de mesure ou de facturation), l'activité du serveur, les clics sur le site Web ainsi que la gé olocalisation des appareils, des personnes et des biens physiques, et leur permettent de ré agir rapidement face àde nouvelles situations. Le traitement en temps ré el requiert une couche de traitement extrê mement simultané e et é volutive. Pour traiter les donné es de streaming en temps ré el, vous pouvez utiliser AWS Lambda. Lambda peut traiter les donné es directement issues d'AWS IoT ou d'Amazon Kinesis Streams. Lambda vous permet d'exé cuter le code sans devoir mettre en service ou gé rer des serveurs. Amazon Kinesis Client Library (KCL) vous permet é galement de traiter les donné es issues d'Amazon Kinesis Streams. KLC vous offre plus de flexibilité qu'AWS Lambda pour regrouper les donné es entrantes en vue de leur traitement. Vous pouvez é galement utiliser KCL afin d'appliquer des transformations et des personnalisations importantes àvotre logique de traitement. Amazon Kinesis Firehose est la solution la plus simple pour charger les donné es de streaming dans AWS. Ce service est capable de capturer les donné es et de les charger automatiquement dans Amazon Redshift, ce qui permet des analyses quasiment en temps ré el avec les outils et les tableaux de bord d'aide àla dé cision que vous utilisez dé jà . Vous pouvez dé finir vos rè gles de regroupement àl'aide de Firehose qui peut ensuite se charger en toute fiabilitédu regroupement des donné es et de leur chargement dans Amazon Redshift. Stockage des données Vous pouvez stocker vos donné es dans un entrepôt ou dans un mini-entrepôt de donné es, comme nous allons maintenant le voir. Page 11 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Entrepôt de données Comme nous l'avons dé jàmentionné , un entrepôt de donné es est un ré fé rentiel centraliséd'informations issues d'une ou de plusieurs sources de donné es. Les entrepôts de donné es vous permettent d'exé cuter des analyses rapides sur des volumes de donné es importants et de dé couvrir des modè les caché s dans vos donné es grâce aux outils d'aide àla dé cision. Les spé cialistes de donné es interrogent un entrepôt de donné es afin d'effectuer une analyse hors connexion et de dé tecter les tendances. Au sein de l'organisation, les utilisateurs consomment les donné es àl'aide de requê tes SQL ponctuelles, de rapports pé riodiques et de tableaux de bord afin de prendre des dé cisions professionnelles critiques. Mini-entrepôt de données Un mini-entrepôt de donné es est une forme simplifié e d'entrepôt de donné es axé e sur une zone fonctionnelle ou un thè me spé cifique. Par exemple, vous pouvez avoir des mini-entrepôts de donné es spé cifiques pour chaque division de votre organisation ou segmenter les mini-entrepôts de donné es par ré gion. Il est possible de cré er des mini-entrepôts de donné es àpartir d'un entrepôt de donné es volumineux, de magasins opé rationnels ou d'un mé lange des deux. Les mini-entrepôts de donné es sont simples àconcevoir, àcré er et àgé rer. Toutefois, é tant donnéque les mini-entrepôts de donné es sont axé s sur des zones fonctionnelles spé cifiques, la consultation de ces derniè res peut ê tre complexe en raison de la distribution. Vous pouvez utiliser Amazon Redshift afin de cré er des mini-entrepôts de donné es qui viennent s'ajouter aux entrepôts de donné es. Analyse et visualisation Aprè s avoir traitéles donné es et les avoir mises àdisposition pour des analyses complé mentaires, vous avez besoin des outils approprié s pour analyser et visualiser les donné es traité es. Dans la plupart des cas, vous pouvez effectuer l'analyse des donné es àl'aide des mê mes outils que ceux utilisé s pour le traitement des donné es. Vous pouvez par exemple avoir recours àdes outils tels que SQL Workbench pour analyser vos donné es dans Amazon Redshift avec ANSI SQL. Amazon Redshift fonctionne é galement avec des solutions d'aide àla dé cision tierces connues disponibles sur le marché . Page 12 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Amazon QuickSight est un service d'aide àla dé cision rapide, simple d'utilisation et ré sidant dans le cloud, qui permet de cré er des visualisations et d'effectuer une analyse ponctuelle des donné es en toute simplicité , et d'obtenir rapidement des perspectives professionnelles àpartir de vos donné es. Amazon QuickSight est inté gréàAmazon Redshift et est actuellement disponible en version d'é valuation, avec une disponibilitégé né rale pré vue plus tard en 2016. Si vous utilisez Amazon S3 comme stockage principal, vous pouvez notamment procé der aux analyses et àla visualisation àl'aide de notebooks Apache Spark sur Amazon Elastic MapReduce (Amazon EMR). Ce processus ré pandu vous permet d'exé cuter SQL ou un code personnaliséé crit dans des langages tels que Python et Scala. Si vous souhaitez opter pour une autre approche de visualisation, Apache Zeppelin est une solution d'aide àla dé cision open source qui peut ê tre exé cuté e sur Amazon EMR afin de visualiser les donné es dans Amazon S3 àl'aide de Spark SQL. Vous pouvez é galement utiliser Apache Zeppelin pour visualiser les donné es dans Amazon Redshift. Pipeline d'analyse avec les services AWS AWS offre un large é ventail de services destiné s àl'implé mentation d'une plateforme d'analyse complè te. La figure 2 illustre les services que nous venons de voir et leur inté gration au sein du pipeline d'analyse. Page 13 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Figure 2 : Pipeline d'analyse avec les services AWS Options technologiques des entrepôts de données Au cours de cette section, nous aborderons les diffé rentes options disponibles dans le cadre de la cré ation d'un entrepôt de donné es : bases de donné es orienté es lignes, bases de donné es orienté es colonnes et architectures de traitement massivement parallè le. Bases de données orientées lignes Les bases de donné es orienté es lignes stockent gé né ralement des lignes complè tes dans un bloc physique. Les index secondaires permettent d'obtenir des performances é levé es pour les opé rations de lecture. Les bases de donné es telles que Oracle Database Server, Microsoft SQL Server, MySQL et PostgreSQL sont des systè mes de base de donné es orienté e lignes. Ces systè mes sont gé né ralement utilisé s pour l'entreposage des donné es, mais ils sont plus adapté s au traitement transactionnel (OLTP) qu'aux analyses. Page 14 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Afin d'optimiser les performances d'un systè me orientélignes utilisécomme entrepôt de donné es, les dé veloppeurs ont recours àun certain nombre de techniques, dont la cré ation de vues maté rialisé es, la cré ation de tables de report pré agré gé es, la cré ation d'index pour chaque combinaison de pré dicats possible, l'implé mentation du partitionnement de donné es afin d'utiliser l'é lagage de partition par optimiseur de requê te et la ré alisation de jointures reposant sur les index. Les magasins de donné es orienté s lignes classiques sont limité s par les ressources disponibles sur une seule machine. Les mini-entrepôts de donné es ré solvent le problè me dans une certaine mesure grâce àl'utilisation d'un partage fonctionnel. Vous pouvez diviser votre entrepôt de donné es en plusieurs mini-entrepôts de donné es, chacun d'entre eux correspondant àune zone fonctionnelle spé cifique. Toutefois, lorsque les mini-entrepôts de donné es s'agrandissent, le traitement des donné es se trouve ralenti. Dans le cadre d'un entrepôt de donné es orientélignes, chaque requê te doit lire toutes les colonnes de toutes les lignes des blocs correspondant au pré dicat de requê te, ce qui inclut les colonnes que vous n'avez pas choisies. Cette approche limite les performances des entrepôts de donné es, dans lesquels les tables ont plus de colonnes, mais vos requê tes n'en utilisent que trè s peu. Bases de données orientées colonnes Les bases de donné es orienté es colonnes organisent chaque colonne dans son propre ensemble de blocs physiques au lieu de regrouper la totalitédes lignes dans un bloc. Cette fonctionnalitéleur permet d'ê tre plus efficaces en termes d'E/S pour les requê tes en lecture seule dans la mesure oùelles doivent uniquement lire les colonnes auxquelles une requê te accè de depuis un disque (ou depuis la mé moire). En raison de cette approche, les bases de donné es orienté es colonnes sont plus approprié es que les bases de donné es orienté es lignes pour l'entreposage des donné es. Page 15 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Figure 3 : Bases de données orientées colonnes ou lignes La figure 3, pré senté e ci-dessus, illustre la diffé rence principale entre les bases de donné es orienté es colonnes et celles qui sont orienté es lignes. Dans une base de donné es orienté e lignes, les lignes sont regroupé es dans leurs propres blocs, tandis que ce sont les colonnes qui sont regroupé es dans leurs propres blocs dans une base de donné es orienté e colonnes. Outre la rapiditéaccrue des E/S, la compression amé lioré e est un autre avantage important offert par l'utilisation d'une base de donné es orienté e colonnes. Dans la mesure oùchaque colonne se trouve dans son propre ensemble de blocs, chaque bloc physique contient le mê me type de donné es. Lorsque toutes les donné es sont du mê me type, la base de donné es peut utiliser des algorithmes de compression extrê mement efficaces. Cela signifie que vous avez besoin de moins de stockage par rapport àune base de donné es orienté e lignes. Cette approche entraî ne é galement une baisse importante des E/S dans la mesure oùles mê mes donné es sont stocké es dans un nombre ré duit de blocs. Amazon Redshift, Vertica, Teradata Aster et Druid font partie des bases de donné es orienté es colonnes qui sont utilisé es pour l'entreposage de donné es. Page 16 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Architectures de traitement massivement parallèle Un architecture de traitement massivement parallè le vous permet d'utiliser toutes les ressources disponibles dans le cluster en vue de traiter les donné es, ce qui ré duit considé rablement les performances des entrepôts de donné es ayant une capacitéde plusieurs pé taoctets. Ce type d'entrepôt de donné es vous permet d'améliorer les performances en ajoutant simplement quelques nœuds au cluster. Amazon Redshift, Druid, Vertica, GreenPlum et Teradata Aster font partie des entrepôts de donné es cré é s sur la base d'une architecture de traitement massivement parallè le. Les infrastructures open source, comme Hadoop et Spark, prennent é galement en charge cette architecture. Exploration d'Amazon Redshift En tant que technologie de traitement massivement parallè le en colonnes, Amazon Redshift offre des avantages importants pour des entrepôts de donné es performants et rentables, notamment une compression efficace, des E/S ré duites et des conditions de stockage limité es. Ce service repose sur ANSI SQL, ce qui vous permet d'exé cuter des requê tes existantes avec peu ou pas de modifications. C'est pourquoi cette solution est aujourd'hui trè s prisé e pour les entrepôts de donné es et les mini-entrepôts de donné es d'entreprise. Au cours de cette section, nous explorerons Amazon Redshift et nous é tudierons ses capacité s plus en dé tail. Amazon Redshift offre des performances rapides en termes de requê tes et d'E/S pour presque toutes les tailles de donné es grâce àl'utilisation d'un stockage en colonnes, ainsi qu'àla mise en parallè le et àla distribution des requê tes sur plusieurs nœuds. Ce service automatise la plupart des tâches administratives courantes associé es àla mise en service, àla configuration, àla surveillance, àla sauvegarde et àla sé curisation d'un entrepôt de donné es, ce qui rend ce dernier facile et peu coûteux àgé rer. Grâce àl'automatisation, vous pouvez cré er des entrepôts de donné es ayant une capacitéde plusieurs pé taoctets en quelques minutes au lieu des semaines ou des mois né cessaires pour les implé mentations sur site classiques. Page 17 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Performances Amazon Redshift utilise un stockage en colonnes, la compression des donné es et les cartes de zones pour ré duire le volume d'E/S né cessaires àl'exé cution des requê tes. Le tri entrelacépermet des performances rapides sans le surcoût entraî népar la gestion des index ou des projections. Amazon Redshift a recours àune architecture de traitement massivement parallè le qui lui permet de bé né ficier de toutes les ressources disponibles en mettant en parallè le et en distribuant les opé rations SQL. Le maté riel sous-jacent aé téconç u pour un traitement des donné es extrê mement performant. Il utilise le stockage connectélocal afin d'optimiser le dé bit entre les processeurs et les lecteurs, ainsi qu'un ré seau maillédans le but d'optimiser le dé bit entre les nœuds. Les performances peuvent être ajustées en fonction de vos besoins en matiè re d'entreposage des donné es : AWS offre un calcul dense avec des disques SSD, ainsi que des options de stockage dense. Le dé ploiement continu des mises àniveau logicielles offre des amé liorations de performances ré guliè res sans aucune intervention de la part d'un utilisateur. Durabilité et disponibilité Afin d'offrir les meilleures durabilitéet disponibilitépossibles, Amazon Redshift détecte et remplace automatiquement tous les nœuds en échec dans votre cluster d'entrepôt de données. Le nœud de remplacement est disponible immédiatement et le service charge d'abord les donné es les plus fré quemment consulté es afin que vous puissiez reprendre l'interrogation des donné es le plus rapidement possible. Dans la mesure oùAmazon Redshift met en miroir les donné es sur votre cluster, il utilise les donné es d'un autre nœud pour recréer le nœud en échec. Le cluster est en mode lecture seule jusqu'à ce que le nœud de remplacement soit mis en service et ajoutéau cluster, ce qui prend gé né ralement quelques minutes seulement. Les clusters Amazon Redshift se trouvent dans une Zone de disponibilité .3 Toutefois, si vous souhaitez mettre en place une configuration avec plusieurs zones de disponibilité , vous pouvez cré er un miroir, puis gé rer automatiquement la ré plication et le basculement. Page 18 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Il suffit de quelques clics sur Amazon Redshift Management Console pour configurer un environnement de ré cupé ration aprè s sinistre solide. Vous pouvez conserver des copies de vos sauvegardes dans plusieurs ré gions AWS. En cas d'interruption de service dans une ré gion AWS, vous pouvez restaurer votre cluster àl'aide de la sauvegarde situé e dans une autre ré gion AWS. Vous pouvez bé né ficier d'un accè s en lecture/é criture àvotre cluster quelques minutes seulement aprè s avoir commencél'opé ration de restauration. Évolutivité et élasticité Il suffit de quelques clics sur la console ou d'un appel de l'API pour modifier aisément le nombre et le type de nœuds dans votre entrepôt de données lorsque vos performances ou votre capacitéé voluent.4 Amazon Redshift vous permet de commencer avec un nœud de 160 Go seulement, puis d'é voluer jusqu'àune capacitéde plusieurs pé taoctets ou vers plus de donné es utilisateur compressé es utilisant plusieurs nœuds. Pour plus d'informations, consultez la section consacré e aux clusters et aux nœuds dans le guide Amazon Redshift Cluster Management Guide (disponible en anglais).5 Pendant le redimensionnement, Amazon Redshift place votre cluster existant en mode lecture seule, met en service un nouveau cluster de la taille choisie, puis copie les donné es de l'ancien cluster vers le nouveau cluster en parallè le. Au cours de ce processus, vous payez uniquement pour le cluster Amazon Redshift actif. Vous pouvez continuer àexé cuter des requê tes sur l'ancien cluster pendant que le nouveau est mis en service. Une fois que vos donné es ont é técopié es vers le nouveau cluster, Amazon Redshift redirige automatiquement les requê tes vers le nouveau cluster et supprime l'ancien. Vous pouvez utiliser les actions de l'API Amazon Redshift pour lancer et dé velopper les clusters, cré er et restaurer des sauvegardes, etc., le tout par programme. Cette approche vous permet d'inté grer ces actions de l'API dans votre pile d'automatisation existante ou de cré er une automatisation personnalisé e adapté e àvos besoins. Page 19 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Interfaces Amazon Redshift dispose de pilotes Java Database Connectivity (JDBC) et Open Database Connectivity (ODBC) susceptibles d'ê tre té lé chargé s depuis l'onglet Connect Client (Client de connexion) de la console, ce qui signifie que vous pouvez utiliser un large é ventail de clients SQL connus. Vous pouvez é galement utiliser les pilotes standard PostgreSQL JDBC et ODBC. Pour plus d'informations sur les pilotes Amazon Redshift, consultez la section Amazon Redshift and PostgreSQL dans le guide Amazon Redshift Database Developer Guide (disponible en anglais). 6 Vous trouverez é galement de nombreux exemples d'inté grations validé es auprè s d'un grand nombre de fournisseurs BI et ETL connus.7 Dans le cadre de ces inté grations, les chargements et les dé chargements sont exé cuté s en parallè le sur chaque nœud de calcul afin d'optimiser la rapiditéavec laquelle vous pouvez accueillir ou exporter des donné es àpartir de et vers plusieurs ressources, dont Amazon S3, Amazon EMR et Amazon DynamoDB. Vous pouvez charger aisé ment des donné es de streaming dans Amazon Redshift àl'aide d'Amazon Kinesis Firehose, ce qui permet une analyse en temps ré el àl'aide des outils et tableaux de bord d'aide àla dé cision existants. Vous pouvez trouver des mesures de l'utilisation du calcul, de la mé moire et du stockage, ainsi que du trafic de lecture/é criture vers votre cluster d'entrepôt de donné es Amazon Redshift en utilisant la console ou les opé rations de l'API Amazon CloudWatch. Sécurité Pour proté ger vos donné es, vous pouvez exé cuter Amazon Redshift dans un cloud privévirtuel basésur le service Amazon Virtual Private Cloud (Amazon VPC). Vous pouvez utiliser le modè le de mise en ré seau dé fini par logiciel du VPC pour dé finir les rè gles de pare-feu qui limitent le trafic en fonction des rè gles que vous 8 configurez. Amazon Redshift prend en charge les connexions SSL entre votre application cliente et votre cluster d'entrepôt de donné es Amazon Redshift, ce qui permet le chiffrement des donné es en transit. Page 20 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Les nœuds de calcul Amazon Redshift stockent vos donné es, mais il est possible d'accéder à ces dernières uniquement depuis le nœud principal du cluster. Cet isolement fournit une autre couche de sé curité . Amazon Redshift s'intè gre àAWS CloudTrail afin de vous permettre d'auditer tous les appels de l'API Amazon Redshift.9 Pour vous aider àgarantir la sé curitéde vos donné es au repos, Amazon Redshift chiffre chaque bloc àl'aide du chiffrement AES-256 àaccé lé ration maté rielle lorsque chaque bloc est é crit sur le disque. Ce chiffrement a lieu àun niveau infé rieur du sous-systè me d'E/S. Ce dernier chiffre tout ce qui est é crit sur le disque, y compris les ré sultats intermé diaires des requê tes. Les blocs sont sauvegardé s tels quels, ce qui signifie que les sauvegardes sont é galement chiffré es. Par dé faut, Amazon Redshift se charge de la gestion des clé s, mais vous pouvez choisir de gé rer vos clé s àl'aide de vos propres modules de sé curitédu maté riel (HSM) ou via AWS Key Management Service.10,11 Modèle de coût Amazon Redshift ne requiert ni engagements àlong terme ni coûts initiaux. Cette approche de tarification vous é vite les dé penses d'investissement et la complexité de planification et d'achat de la capacitéd'entreposage des donné es àl'avance. Les frais reposent sur la taille et le nombre de nœuds de votre cluster. Il n'y a aucuns frais supplé mentaires pour le stockage de sauvegarde jusqu'à 100 % de votre stockage alloué . Par exemple, si vous avez un cluster actif avec deux nœuds XL pour un total de 4 To de stockage, AWS fournit jusqu'à4 To de stockage de sauvegarde sur Amazon S3 sans aucuns frais supplé mentaires. Le stockage de sauvegarde au-delàde la taille de stockage alloué e et les sauvegardes stocké es aprè s la fin du cluster font facturé s aux taux standard d'Amazon S3.12 Il n'y a aucuns frais de transfert de donné es pour la communication entre Amazon S3 et Amazon Redshift. Pour plus d'informations, consultez les tarifs Amazon Redshift.13 Page 21 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Modèles d'utilisation idéaux Amazon Redshift convient parfaitement au traitement analytique en ligne (OLAP) àl'aide de vos outils d'aide àla dé cision existants. Les organisations ont recours àAmazon Redshift pour effectuer les opé rations suivantes : Exé cuter le reporting et l'aide àla dé cision d'entreprise Analyser les donné es de ventes globales pour plusieurs produits Stocker les donné es boursiè res historiques Analyser les impressions et les clics de publicité s Regrouper les donné es de jeux Analyser les tendances des ré seaux sociaux Mesurer la qualitéclinique, l'efficacitéopé rationnelle et les performances financiè res dans le domaine des soins de santé Utilisations déconseillées Amazon Redshift ne convient pas vraiment aux modè les d'utilisation suivants : Page 22 sur 30 Petits jeux de données : Amazon Redshift a é téconç u pour les traitements en parallè le sur un cluster. Si votre jeu de donné es est infé rieur à100 gigaoctets, vous ne bé né ficierez pas de tous les avantages d'Amazon Redshift et Amazon RDS est probablement plus adapté . OLTP : Amazon Redshift a é téconç u pour les charges de travail d'entreposage de donné es dans la mesure oùil offre des capacité s d'analyse rapides et peu coûteuses. Si vous avez besoin d'un systè me transactionnel rapide, optez plutôt pour un systè me de base de donné es relationnelle classique reposant sur Amazon RDS ou pour une base de donné es NoSQL telle qu'Amazon DynamoDB. Données non structurées : dans le cadre d'Amazon Redshift, les donné es doivent ê tre structuré es par un sché ma dé fini. Amazon Redshift ne prend pas en charge les structures de sché mas arbitraires pour chaque ligne. Si vos donné es ne sont pas structuré es, vous pouvez effectuer une extraction, une transformation et un chargement (ETL) sur Amazon EMR afin de pré parer les donné es au chargement dans Amazon Redshift. Pour les donné es JSON, vous pouvez stocker des paires clé /valeur et utiliser les 14 fonctions natives JSON dans votre requê te. Amazon Web Services – Entreposage des données sur AWS Mars 2016 Données BLOB : si vous souhaitez stocker des fichiers BLOB tels que des fichiers vidé o numé riques, d'images ou musicaux, il est recommandéde stocker ce type de donné es dans Amazon S3 et de ré fé rencer leur emplacement dans Amazon Redshift. Dans ce cas de figure, Amazon Redshift suit les mé tadonné es (par exemple, le nom, la taille, la date de cré ation, le proprié taire, l'emplacement, etc. de l'é lé ment) relatives aux objets binaires, mais les objets de grande taille eux-mê mes sont stocké s dans Amazon S3. Migration vers Amazon Redshift Si vous dé cidez de migrer depuis un entrepôt de donné es existant vers Amazon Redshift, vous devez choisir votre straté gie de migration en fonction de plusieurs critè res : La taille de la base de donné es et de ses tables La bande passante ré seau entre le serveur source et AWS Le dé roulement de la migration et du basculement vers AWS : en une é tape ou selon une sé quence d'é tapes dans le temps Le rythme de changement des donné es dans le systè me source Les transformations au cours de la migration L'outil partenaire qui sera utilisépour la migration et l'ETL Migration en une étape La migration en une é tape convient aux petites bases de donné es qui ne requiè rent pas d'opé ration continue. Les clients peuvent extraire les bases de donné es existantes sous formes de fichiers de valeurs sé paré es par une virgule (CSV), puis utiliser des services tels qu'AWS Import/Export Snowball pour communiquer les jeux de donné es àAmazon S3 en vue de leur chargement dans Amazon Redshift. Les clients testent ensuite la base de donné es de destination Amazon Redshift afin de garantir la cohé rence des données avec la source. Une fois toutes les validations ré ussies, la base de donné es est basculé e dans AWS. Page 23 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Migration en deux étapes La migration en deux é tapes est gé né ralement utilisé e pour les bases de donné es quelle que soit leur taille : 1. Migration des données initiales : les donné es sont extraites de la base de donné es source, de pré fé rence en dehors des pé riodes de pointe afin de ré duire l'impact. Les donné es sont ensuite migré es vers Amazon Redshift en suivant l'approche de migration en une é tape dé crite pré cé demment. 2. Migration des données modifiées : les donné es qui ont é témodifié es dans la base de donné es source aprè s la migration des donné es initiales sont transfé ré es dans la destination avant le basculement. Cette é tape synchronise les bases de donné es source et de destination. Une fois que toutes les donné es modifié es ont é témigré es, vous pouvez valider les donné es de la base de donné es de destination, effectuer les tests né cessaires et, s'ils sont tous ré ussis, basculer dans l'entrepôt de donné es Amazon Redshift. Outils de migration de la base de données Plusieurs outils et technologies de migration des donné es sont disponibles. Certains d'entre eux peuvent ê tre utilisé s indiffé remment ou vous pouvez utiliser d'autres outils tiers ou open source disponibles sur le marché . 1. AWS Database Migration Service prend en charge les processus de migration en une et deux é tapes dé crits pré cé demment.15 Pour suivre le processus de migration en deux é tapes, vous activez la journalisation supplé mentaire de faç on àinté grer les modifications dans le systè me source. Vous pouvez activer la journalisation supplé mentaire au niveau de la table ou de la base de donné es. 2. D'autres outils partenaire d'inté gration des donné es sont é galement disponibles : Page 24 sur 30 Attunity Informatica SnapLogic Talend Bryte Amazon Web Services – Entreposage des données sur AWS Mars 2016 Pour plus d'informations sur l'inté gration des donné es et les partenaires de 16 conseil, consultez Partenaires Amazon Redshift. Conception des flux de travail des entrepôts de données Au cours des sections pré cé dentes, nous avons abordéles fonctionnalité s d'Amazon Redshift idé ales pour l'entreposage des donné es. Afin de comprendre la conception des flux de travail de l'entreposage des donné es avec Amazon Redshift, observons maintenant le modè le de conception le plus courant accompagnéd'un exemple de cas d'utilisation. Supposons qu'un fabricant de vê tements international dispose de plus de mille points de vente, qu'il vende certaines lignes de vê tements dans des grands magasins et des magasins discount et qu'il soit é galement pré sent en ligne. D'un point de vue technique, ces trois canaux fonctionnent actuellement de faç on indé pendante. Ils ont une é quipe dirigeante, des systè mes de points de vente et des services comptables diffé rents. Aucun systè me ne fusionne tous les jeux de donné es lié s afin de proposer au PDG une vue à360 °de toutes les activité s. Supposons maintenant que le PDG souhaite bé né ficier d'une vision complè te de ces canaux àl'é chelle de l'entreprise et pouvoir faire des analyses ponctuelles similaires aux suivantes : Page 25 sur 30 Quelles sont les tendances sur tous les canaux ? Quelles ré gions gé ographiques s'en sortent le mieux sur tous les canaux ? Quelle est l'efficacitédes publicité s et des promotions de l'entreprise ? Quelles sont les tendances par ligne de vê tements ? Quelles forces externes ont des impacts sur les ventes de l'entreprise, par exemple le taux de chômage et les conditions mé té orologiques ? Quelles sont les ré percussions des attributs d'un magasin sur les ventes, par exemple la fonction des employé s et de la direction, la pré sence dans une rue commerç ante ou dans un centre commercial, l'emplacement de la marchandise dans le magasin, les tê tes de gondole, les prospectus commerciaux et les affichages en magasin ? Amazon Web Services – Entreposage des données sur AWS Mars 2016 Un entrepôt de donné es d'entreprise ré sout ce problè me. Il collecte les donné es des diffé rents systè mes associé s aux trois canaux, ainsi que les informations disponibles publiquement telles que les bulletins mé té orologiques et é conomiques. Chaque source de donné es envoie les donné es quotidiennement en vue de leur utilisation par l'entrepôt de donné es. Dans la mesure oùchaque source de donné es peut ê tre structuré e diffé remment, un processus d'extraction, de transformation et de chargement (ETL) est effectuéafin de reformater les donné es selon une structure commune. Les analyses peuvent ensuite ê tre effectué es simultané ment sur les donné es quelle que soit la source dont elles proviennent. Pour cela, nous utilisons l'architecture de flux de donné es suivante : Figure 4 : Flux de travail de l'entrepôt de données d'entreprise. 1. La premiè re é tape de ce processus consiste àmigrer les donné es issues de diffé rentes sources dans Amazon S3. Amazon S3 propose une plateforme de stockage extrê mement durable, peu coûteuse et é volutive qui peut recevoir en parallè le des donné es issues de diffé rentes sources pour un coût trè s ré duit. 2. Amazon EMR permet de transformer et de nettoyer les donné es pour les faire passer d'un format source àun format cible. Amazon EMR dispose d'une inté gration embarqué e àAmazon S3, ce qui permet des threads parallè les de débit issus de chaque nœud de votre cluster Amazon EMR depuis et vers Amazon S3. Page 26 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 En rè gle gé né rale, un entrepôt de donné es obtient de nouvelles donné es toutes les nuits. Dans la mesure oùles analyses ne sont pas né cessaires en plein milieu de la nuit, la seule exigence associé e àce processus de transformation est qu'il soit terminéle matin lorsque le PDG et d'autres utilisateurs de l'entreprise ont besoin d'accé der aux rapports et aux tableaux de bord. Par consé quent, vous pouvez utiliser le marchéspot d'Amazon EC2 pour ré duire davantage le coût du processus ETL ici.17 Une bonne straté gie spot consiste àcommencer les enchè res àun prix trè s bas àminuit, puis à continuer àaugmenter le prix jusqu'àce que la capacitésoit attribué e. À mesure que l'é ché ance approche, si les enchè res spot ont é choué , vous pouvez revenir aux prix àla demande afin de veiller àrespecter vos exigences en termes de dé lai de traitement. Chaque source peut avoir un processus de transformation diffé rent sur Amazon EMR, mais avec le modè le de paiement àl'utilisation d'AWS, vous pouvez cré er un cluster Amazon EMR distinct pour chaque transformation et l'ajuster de faç on àce qu'il corresponde exactement àla bonne capacitépour la ré alisation de toutes les tâches de transformation des donné es sans ê tre aux prises avec les ressources des autres tâches. 3. Chaque tâche de transformation charge des donné es formaté es et nettoyé es dans Amazon S3. Nous utilisons Amazon S3 ici ànouveau car Amazon Redshift peut charger les donné es en parallè le àpartir d'Amazon S3, àl'aide de plusieurs threads de chaque nœud de cluster. Amazon S3 fournit é galement un enregistrement historique et joue le rôle de source de vé rité formaté e entre les systè mes. Sur Amazon S3, les donné es peuvent ê tre utilisé es par d'autres outils àdes fins d'analyse si des conditions supplé mentaires sont ajouté es dans le temps. 4. Amazon Redshift charge, trie, distribue et compresse les donné es dans ses tables de faç on àce que les requê tes analytiques puissent ê tre exé cuté es efficacement et en parallè le. Àmesure que la taille des donné es augmente dans le temps et que les activité s de l'entreprise se dé veloppent, vous pouvez accroître aisément la capacité en ajoutant des nœuds. 5. Pour visualiser les analyses, vous pouvez utiliser Amazon QuickSight ou l'une des nombreuses plateformes de visualisation partenaires qui se connectent à Amazon Redshift àl'aide des pilotes ODBC ou JDBC. C'est làque le PDG et son personnel passent en revue les rapports, les tableaux de bord et les graphiques. Aujourd'hui, les cadres peuvent utiliser les donné es afin d'optimiser leurs prises de dé cisions relatives aux ressources de l'entreprise, ce qui permet en dernier lieu d'accroî tre les bé né fices et la valeur pour les actionnaires. Page 27 sur 30 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Vous pouvez facilement é tendre cette architecture flexible lorsque votre entreprise se dé veloppe, ouvre de nouveaux canaux, lance des applications mobiles supplé mentaires propres aux clients et ajoute de nouvelles sources de donné es. Il suffit de quelques clics sur Amazon Redshift Management Console ou de quelques appels de l'API. Conclusion Nous assistons àune é volution straté gique de l'entreposage des donné es à mesure que les entreprises migrent leurs bases de donné es et leurs solutions d'analyses d'une infrastructure locale vers le cloud afin de bé né ficier de la simplicité , des performances et de la rentabilitéde ce dernier. Ce livre blanc propose une pré sentation complè te de l'é tat actuel de l'entreposage des donné es sur AWS. AWS fournit un large é ventail de services et un é cosystè me de partenaires solide qui vous permet de cré er et d'exé cuter facilement l'entreposage des donné es d'entreprise dans le cloud. Vous bé né ficiez ainsi d'une architecture extrê mement performante et rentable capable de suivre l'é volution de votre entreprise sur l'infrastructure globale d'AWS. Participants Les personnes et organisations suivantes ont participéàl'é laboration de ce document : Page 28 sur 30 Babu Elumalai, Architecte Solutions, Amazon Web Services Greg Khairallah, Directeur principal du dé veloppement des activité s, Amazon Web Services Pavan Pothukuchi, Responsable produit principal, Amazon Web Services Jim Gutenkauf, Ré dacteur technique senior, Amazon Web Services Melanie Henry, Éditrice technique senior, Amazon Web Services Chander Matrubhutam, Marketing produit, Amazon Web Services Amazon Web Services – Entreposage des données sur AWS Suggestions de lecture Pour plus d'informations, consultez les ressources suivantes : Page 29 sur 30 Bibliothè que logicielle Apache Hadoop18 Bonnes pratiques d'Amazon Redshift19 Architecture de Lambda20 Mars 2016 Amazon Web Services – Entreposage des données sur AWS Mars 2016 Notes 1https://www.forrester.com/report/The+Forrester+Wave+Enterprise+Data+Ware house+Q4+2015/-/E-RES124041 Page 30 sur 30 2 http://aws.amazon.com/streaming-data/ 3 http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-regionsavailability-zones.html 4 http://docs.aws.amazon.com/redshift/latest/APIReference/Welcome.html 5 http://docs.aws.amazon.com/redshift/latest/mgmt/working-withclusters.html#rs-about-clusters-and-nodes 6 http://docs.aws.amazon.com/redshift/latest/dg/c_redshift-and-postgressql.html 7 http://aws.amazon.com/redshift/partners/ 8 https://aws.amazon.com/vpc/ 9 https://aws.amazon.com/cloudtrail/ 10 http://docs.aws.amazon.com/redshift/latest/mgmt/working-with-HSM.html 11 https://aws.amazon.com/kms/ 12 http://aws.amazon.com/s3/pricing/ 13 http://aws.amazon.com/redshift/pricing/ 14 http://docs.aws.amazon.com/redshift/latest/dg/json-functions.html 15 https://aws.amazon.com/dms/ 16 https://aws.amazon.com/redshift/partners/ 17 http://aws.amazon.com/ec2/spot/ 18 https://hadoop.apache.org/ 19 http://docs.aws.amazon.com/redshift/latest/dg/best-practices.html 20 https://en.wikipedia.org/wiki/Lambda_architecture