Entreposage des données sur AWS

Transcription

Entreposage des données sur AWS
Mars 2016
Amazon Web Services – Entreposage des données sur AWS
Mars 2016
© 2016, Amazon Web Services, Inc. ou ses filiales. Tous droits ré
servé
s.
Mentions légales
Ce document est fourni àtitre informatif uniquement. Il pré
sente l'offre de
produits et les pratiques actuelles d'AWS àla date de publication de ce document,
des informations qui sont susceptibles d'ê
tre modifié
es sans avis pré
alable.
Il incombe aux clients de procé
der àleur propre é
valuation indé
pendante des
informations contenues dans ce document et chaque client est responsable de son
utilisation des produits ou services AWS, chacun é
tant fourni «en l'é
tat », sans
garantie d'aucune sorte, qu'elle soit explicite ou implicite. Ce document ne cré
e
pas de garanties, repré
sentations, engagements contractuels, conditions ou
assurances àl'encontre d'AWS, de ses affilié
s, fournisseurs ou donneurs de
licence. Les responsabilité
s et obligations d'AWS vis-à-vis de ses clients sont
ré
gies par les contrats AWS. Le pré
sent document ne fait partie d'aucun et ne
modifie aucun contrat entre AWS et ses clients.
Page 2 sur 30
Mars 2016
Table des matières
Ré
sumé
4
Introduction
4
Analyse moderne et architecture d'entreposage des donné
es
6
Architecture d'analyse
Options technologiques des entrepôts de donné
es
14
Bases de donné
es orienté
es lignes
14
Bases de donné
es orienté
es colonnes
15
Architectures de traitement massivement parallè
le
17
Exploration d'Amazon Redshift
17
Performances
18
Durabilitéet disponibilité
18
Évolutivitéet é
lasticité
19
Interfaces
20
Sé
curité
20
Modè
le de coût
21
Modè
les d'utilisation idé
aux
22
Utilisations dé
conseillé
es
22
Migration vers Amazon Redshift
Page 3 sur 30
7
23
Migration en une é
tape
23
Migration en deux é
tapes
24
Outils de migration de la base de donné
es
24
Conception des flux de travail des entrepôts de donné
es
25
Conclusion
28
Participants
28
Suggestions de lecture
29
Notes
30
Mars 2016
Résumé
Dans les entreprises du monde entier, les ingé
nieurs et les analystes de donné
es,
ainsi que les dé
veloppeurs, cherchent àmigrer les entrepôts de donné
es sur le
cloud afin d'accroî
tre les performances et de ré
duire les coûts. Ce livre blanc est
consacréàune approche moderne de l'analyse et de l'architecture d'entreposage
des donné
es. Il met en é
vidence les services disponibles sur Amazon Web
Services (AWS) afin de mettre en œuvre cette architecture et propose des
modè
les de conception courants destiné
s àcré
er des solutions d'entreposage
des donné
es àl'aide de ces services.
Introduction
Dans le monde des affaires actuel, les donné
es et l'analyse jouent un rôle
indispensable. La plupart des grandes entreprises ont cré
édes entrepôts de
donné
es àdes fins de reporting et d'analyse. Elles ont pour cela eu recours àdes
donné
es issues de diffé
rentes sources, dont leurs propres systè
mes de traitement
des transactions et d'autres bases de donné
es.
Toutefois, la cré
ation et la gestion d'un entrepôt de donné
es, c'est-à-dire un
ré
fé
rentiel centraliséd'informations issues d'une ou de plusieurs sources de
donné
es, ont toujours é
tédes opé
rations complexes et coûteuses. La plupart des
systè
mes d'entreposage des donné
es sont compliqué
s àmettre en place, coûtent
des millions d'euros en achats initiaux de maté
riel et de logiciels, sans oublier les
processus de planification, d'acquisition, d'implé
mentation et de dé
ploiement qui
peuvent prendre des mois. Une fois les premiers investissements effectué
s et
l'entrepôt de donné
es installé
, vous devez recruter une é
quipe d'administrateurs
de bases de donné
es pour garantir l'exé
cution rapide des requê
tes et é
viter les
pertes de donné
es.
Page 4 sur 30
Mars 2016
Les entrepôts de donné
es classiques sont é
galement difficiles àé
tendre. Lorsque
les volumes de donné
es augmentent ou si vous souhaitez rendre des analyses et
des rapports disponibles pour plusieurs utilisateurs, vous devez choisir entre
deux options : accepter des performances de requê
tes ralenties ou investir du
temps et des efforts dans un processus de mise àniveau coûteux. En fait,
certaines é
quipes informatiques dé
conseillent l'augmentation du volume de
donné
es ou l'ajout de requê
tes dans le but de proté
ger les accords de niveau de
service existants. De nombreuses entreprises s'efforcent de maintenir une
relation saine avec les fournisseurs de bases de donné
es traditionnels. Elles sont
souvent contraintes de mettre àniveau le maté
riel d'un systè
me gé
réou de se
lancer dans un long cycle de né
gociation pour une licence arrivé
e àexpiration.
Lorsqu'elles atteignent la limite d'extension sur un moteur d'entrepôt de donné
es,
elles sont obligé
es de migrer vers un autre moteur proposépar le mê
me
fournisseur, mais avec une sé
mantique SQL diffé
rente.
Amazon Redshift a fait é
voluer la faç
on dont les entreprises voient l'entreposage
de donné
es en ré
duisant considé
rablement le coût et les efforts lié
s au
dé
ploiement de systè
mes d'entreposage de donné
es sans faire de compromis sur
les fonctionnalité
s et les performances. Amazon Redshift est une solution
d'entrepôt de donné
es rapide et entiè
rement gé
ré
e. Elle est doté
e d'une capacité
de plusieurs pé
taoctets et permet d'analyser de maniè
re simple et rentable
d'importants volumes de donné
es grâce àvos outils d'informatique dé
cisionnelle
(BI) existants. En outre, elle vous permet de bé
né
ficier des performances des
moteurs d'entrepôts de donné
es en colonnes qui effectuent un traitement
massivement parallè
le (MPP) pour un dixiè
me du coût. Vous pouvez commencer
par de petits volumes pour 0,25 $ par heure, sans engagements, puis passer aux
pé
taoctets pour 1 000 $ par té
raoctet pour un an.
Depuis son lancement en fé
vrier 2013, Amazon Redshift est l'un des
services AWS qui a connu la croissance la plus rapide, avec des milliers de clients
exerç
ant dans diffé
rents secteurs et pour des socié
té
s de diverses tailles. Des
entreprises telles que NTT DOCOMO, FINRA, Johnson & Johnson, Hearst,
Amgen et NASDAQ ont migrévers Amazon Redshift. Amazon Redshift a donc é
té
classécomme leader dans le rapport Forrester Wave: Enterprise Data
Warehouse, Q4 2015.1
Page 5 sur 30
Mars 2016
Dans le cadre de ce livre blanc, nous vous communiquons les informations dont
vous avez besoin pour tirer parti du changement straté
gique qui envahit le
domaine des entrepôts de donné
es migrant d'une infrastructure locale vers
le cloud :

Architecture d'analyse moderne

Choix technologiques disponibles au sein de cette architecture pour
l'entreposage des donné
es

Exploration d'Amazon Redshift et de ses caracté
ristiques uniques

Plan de cré
ation d'un systè
me d'entreposage des donné
es complet sur
AWS avec Amazon Redshift et d'autres services

Conseils pratiques pour migrer àpartir d'autres solutions d'entreposage
des donné
es et exploiter notre é
cosystè
me partenaire
Analyse moderne et architecture
d'entreposage des données
Comme nous l'avons dé
jàmentionné
, un entrepôt de donné
es est un ré
fé
rentiel
centraliséd'informations issues d'une ou de plusieurs sources de donné
es. Les
donné
es qui arrivent dans un entrepôt de donné
es sont gé
né
ralement issues de
systè
mes transactionnels et d'autres bases de donné
es relationnelles. De plus,
elles peuvent ê
tre structuré
es, semi-structuré
es et non structuré
es. Ces donné
es
sont traité
es, transformé
es et assimilé
es àun rythme ré
gulier. Les utilisateurs,
parmi lesquels figurent les spé
cialistes des donné
es, les analystes d'entreprise et
les dé
cisionnaires, accè
dent aux donné
es par l'intermé
diaire d'outils d'aide àla
dé
cision, de clients SQL et de feuilles de calcul.
Page 6 sur 30
Mars 2016
Quel est l'inté
rê
t de cré
er un entrepôt de donné
es, pourquoi ne pas exé
cuter
simplement des requê
tes d'analyses directement dans une base de donné
es OLTP
(traitement des transactions en ligne), oùles transactions sont enregistré
es ?
Pour ré
pondre àcette question, observons les diffé
rences entre les entrepôts de
donné
es et les bases de donné
es OLTP. Les entrepôts de donné
es sont optimisé
s
pour les opé
rations d'é
critures par lots et la lecture de volumes de donné
es
importants, tandis que les bases de donné
es OLTP sont optimisé
es pour des
opé
rations d'é
critures continues et des volumes importants de petites opé
rations
de lecture. En gé
né
ral, les entrepôts de donné
es ont recours àdes sché
mas
dé
normalisé
s tels que Star et Snowflake en raison du dé
bit é
levéde donné
es
né
cessaire, tandis que les bases de donné
es OLTP ont recours àdes sché
mas
extrê
mement normalisé
s, mieux adapté
s au dé
bit de transaction é
levéné
cessaire.
Le sché
ma Start est composéde quelques tables de faits volumineuses qui font
ré
fé
rence àun certain nombre de tables de dimension. Quant au sché
ma
Snowflake, une extension du sché
ma Star, il est composéde tables de dimension
qui sont encore plus normalisé
es.
Pour tirer parti de l'utilisation d'un entrepôt de donné
es gé
réen tant que magasin
de donné
es avec votre OLTP source ou un autre systè
me source, nous vous
recommandons de cré
er un pipeline de donné
es efficace. Un pipeline de ce
type extrait les donné
es du systè
me source, les convertit en sché
ma adapté
àl'entreposage de donné
es, puis les charge dans l'entrepôt de donné
es. Au cours de la
section suivante, nous aborderons les composants de base d'un pipeline d'analyse,
ainsi que les diffé
rents services AWS àvotre disposition pour la cré
ation du pipeline.
Architecture d'analyse
Les pipelines d'analyse ont é
téconç
us pour gé
rer des volumes importants de flux
de donné
es entrants issus de sources hé
té
rogè
nes, telles que des bases de
donné
es, des applications et des appareils.
Un pipeline d'analyse type est composédes é
tapes suivantes :
1. Collecte des donné
es.
2. Stockage des donné
es.
3. Traitement des donné
es.
4. Analyse et visualisation des donné
es.
Page 7 sur 30
Mars 2016
Observez la figure 1 suivante pour comprendre le fonctionnement de ce pipeline.
Figure 1 : Pipeline d'analyse
Collecte des données
Au cours de l'é
tape de collecte des donné
es, vous devez tenir compte du fait qu'il
y a diffé
rents types de donné
es, par exemple des donné
es transactionnelles,
de streaming, de journal et de l'Internet des Objets (IoT). AWS propose des
solutions de stockage des donné
es pour chacun de ces types de donné
es.
Données transactionnelles
Les donné
es transactionnelles, par exemple les transactions d'achat e-commerce
et les transactions financiè
res, sont gé
né
ralement stocké
es dans des systè
mes de
gestion des bases de donné
es relationnelles (RDBMS) ou dans des systè
mes de
bases de donné
es NoSQL. Le choix d'une solution de base de donné
es dé
pend du
cas d'utilisation et des caracté
ristiques d'application. Une base de donné
es
NoSQL est adapté
e lorsque les donné
es ne sont pas structuré
es correctement
et ne peuvent donc pas ê
tre inté
gré
es àun sché
ma dé
fini, ou lorsque le sché
ma
change trè
s souvent. En revanche, une solution RDBMS convient lorsque les
transactions ont lieu sur plusieurs lignes de table et que les requê
tes requiè
rent
des jointures complexes. Amazon DynamoDB est un service de base de donné
es
NoSQL totalement gé
résusceptible d'ê
tre utilisécomme magasin OLTP pour vos
applications. Amazon RDS vous permet d'implé
menter une solution de base de
donné
es relationnelles SQL pour votre application.
Page 8 sur 30
Mars 2016
Données de journal
Les journaux fiables gé
né
ré
s par le systè
me vous permettent de ré
soudre les
problè
mes, de mener des audits et d'effectuer des analyses qui utilisent les
informations stocké
es dans les journaux. Amazon Simple Storage Service
(Amazon S3) est une solution de stockage appré
cié
e pour les donné
es non
transactionnelles, par exemple les donné
es de journal, utilisé
es àdes fins
d'analyse. Dans la mesure oùelle offre une durabilitécomposé
e de 11 chiffres 9
(soit 99,999999999 % de durabilité
), Amazon S3 est é
galement une solution
d'archivage prisé
e.
Données de streaming
Les applications Web, les appareils mobiles et de nombreux services et
applications logiciels peuvent gé
né
rer des volumes impressionnants de donné
es
de streaming, parfois plusieurs té
raoctets par heure, qui ont besoin d'ê
tre
2
collecté
es, stocké
es et traité
es en continu. Les services Amazon Kinesis vous
permettent d'effectuer ces opé
rations en toute simplicitéet pour un coût ré
duit.
Données IoT
Des appareils et des capteurs envoient continuellement des messages dans
le monde entier. Les entreprises constatent la né
cessitécroissante de capturer
ces donné
es et de les exploiter. Àl'aide d'AWS IoT, les appareils connecté
s
interagissent aisé
ment et en toute sé
curitéavec le cloud AWS. AWS IoT
permet d'utiliser en toute simplicitédes services AWS tels que AWS Lambda,
Amazon Kinesis, Amazon S3, Amazon Machine Learning et Amazon DynamoDB
afin de cré
er des applications qui regroupent, traitent, analysent les donné
es IoT,
et agissent sur ces derniè
res, sans qu'il soit né
cessaire de gé
rer une infrastructure.
Traitement des données
Le processus de collecte fournit des données qui peuvent constituer des sources
d'informations d'utiles. Vous pouvez analyser les donné
es extraites afin
d'exploiter des informations qui permettront àvotre entreprise de se dé
velopper.
Ces informations peuvent notamment vous donner la possibilitéde comprendre
le comportement des utilisateurs et la popularitérelative de vos produits. La
bonne pratique pour collecter ces informations consiste àcharger les donné
es
brutes dans un entrepôt de donné
es afin de les analyser plus en dé
tails.
Page 9 sur 30
Mars 2016
Dans cette optique, il existe deux types de flux de travail de traitement : par lots
et en temps ré
el. Les formes les plus courantes de traitement, àsavoir le
traitement analytique en ligne (OLAP) et OLTP, utilisent chacune l'un de ces
types. Le traitement analytique en ligne (OLAP) s'effectue gé
né
ralement par lots.
En revanche, les systè
mes OLTP sont orienté
s vers un traitement en temps ré
el et
ne sont gé
né
ralement pas adapté
s au traitement par lots. Si vous sé
parez le
traitement de donné
es de votre systè
me OLTP, vous é
vitez que le traitement ait
un impact sur votre charge de travail OLTP.
Commenç
ons par observer les composants du traitement par lots.
Extraction, transformation et chargement (ETL)
Le processus ETL consiste àextraire les donné
es de plusieurs sources afin de les
charger dans des systè
mes d'entreposage des donné
es. ETL est gé
né
ralement un
processus permanent continu avec un flux de travail bien dé
fini. Au cours de ce
processus, les donné
es sont tout d'abord extraites d'une ou de plusieurs sources.
Les donné
es extraites sont ensuite nettoyé
es, enrichies, transformé
es, puis
chargé
es dans un entrepôt de donné
es. Les outils de l'infrastructure Hadoop, par
exemple Apache Pig et Apache Hive sont gé
né
ralement utilisé
s dans un pipeline
ETL afin de transformer des volumes de donné
es importants.
Extraction, chargement, transformation (ELT)
ELT est une variante d'ETL dans laquelle les donné
es extraites sont d'abord
chargé
es dans le systè
me cible. Les transformations sont effectué
es aprè
s le
chargement des donné
es dans l'entrepôt de donné
es. ELT est la solution qui
convient lorsque votre systè
me cible est suffisamment puissant pour gé
rer les
transformations. Amazon Redshift est souvent utilisédans les pipelines ELT car
ce service est extrê
mement efficace pour les transformations.
Traitement analytique en ligne (OLAP)
Les systè
mes OLAP stockent des regroupements de donné
es d'historique dans
des sché
mas multidimensionnels. Largement utilisé
s pour l'exploration des
donné
es, les systè
mes OLAP vous permettent d'extraire des donné
es et de repé
rer
les tendances sur plusieurs dimensions. En raison de son optimisation pour les
jointures rapides, Amazon Redshift est souvent utilisépour cré
er des
systè
mes OLAP.
Observons maintenant le fonctionnement du traitement des donné
es en temps ré
el.
Page 10 sur 30
Mars 2016
Traitement en temps réel
Nous avons dé
jàabordéles donné
es de streaming et mentionnéAmazon Kinesis,
une solution qui permet de capturer et de stocker les donné
es de streaming. Vous
pouvez traiter ces donné
es de faç
on sé
quentielle et progressive par enregistrement
ou selon des fenê
tres chronologiques mobiles, et utiliser les donné
es traité
es pour
diffé
rentes analyses, dont les corré
lations, les agré
gations, le filtrage et
l'é
chantillonnage. Ce type de traitement est qualifiéde traitement en temps ré
el.
Les informations issues du traitement en temps ré
el offrent aux entreprises une
visibilitésur de nombreux aspects de leurs activité
s et de celles de leurs clients, par
exemple l'utilisation du service (àdes fins de mesure ou de facturation), l'activité
du serveur, les clics sur le site Web ainsi que la gé
olocalisation des appareils, des
personnes et des biens physiques, et leur permettent de ré
agir rapidement face
àde nouvelles situations. Le traitement en temps ré
el requiert une couche de
traitement extrê
mement simultané
e et é
volutive.
Pour traiter les donné
es de streaming en temps ré
el, vous pouvez utiliser
AWS Lambda. Lambda peut traiter les donné
es directement issues d'AWS IoT
ou d'Amazon Kinesis Streams. Lambda vous permet d'exé
cuter le code sans
devoir mettre en service ou gé
rer des serveurs.
Amazon Kinesis Client Library (KCL) vous permet é
galement de traiter les
donné
es issues d'Amazon Kinesis Streams. KLC vous offre plus de flexibilité
qu'AWS Lambda pour regrouper les donné
es entrantes en vue de leur traitement.
Vous pouvez é
galement utiliser KCL afin d'appliquer des transformations et des
personnalisations importantes àvotre logique de traitement.
Amazon Kinesis Firehose est la solution la plus simple pour charger les donné
es
de streaming dans AWS. Ce service est capable de capturer les donné
es et de les
charger automatiquement dans Amazon Redshift, ce qui permet des analyses
quasiment en temps ré
el avec les outils et les tableaux de bord d'aide àla dé
cision
que vous utilisez dé
jà
. Vous pouvez dé
finir vos rè
gles de regroupement àl'aide
de Firehose qui peut ensuite se charger en toute fiabilitédu regroupement des
donné
es et de leur chargement dans Amazon Redshift.
Stockage des données
Vous pouvez stocker vos donné
es dans un entrepôt ou dans un mini-entrepôt de
donné
es, comme nous allons maintenant le voir.
Page 11 sur 30
Mars 2016
Entrepôt de données
Comme nous l'avons dé
jàmentionné
, un entrepôt de donné
es est un ré
fé
rentiel
centraliséd'informations issues d'une ou de plusieurs sources de donné
es. Les
entrepôts de donné
es vous permettent d'exé
cuter des analyses rapides sur des
volumes de donné
es importants et de dé
couvrir des modè
les caché
s dans vos
donné
es grâce aux outils d'aide àla dé
cision. Les spé
cialistes de donné
es
interrogent un entrepôt de donné
es afin d'effectuer une analyse hors connexion
et de dé
tecter les tendances. Au sein de l'organisation, les utilisateurs consomment
les donné
es àl'aide de requê
tes SQL ponctuelles, de rapports pé
riodiques et de
tableaux de bord afin de prendre des dé
cisions professionnelles critiques.
Mini-entrepôt de données
Un mini-entrepôt de donné
es est une forme simplifié
e d'entrepôt de donné
es
axé
e sur une zone fonctionnelle ou un thè
me spé
cifique. Par exemple, vous
pouvez avoir des mini-entrepôts de donné
es spé
cifiques pour chaque division de
votre organisation ou segmenter les mini-entrepôts de donné
es par ré
gion. Il est
possible de cré
er des mini-entrepôts de donné
es àpartir d'un entrepôt de
donné
es volumineux, de magasins opé
rationnels ou d'un mé
lange des deux. Les
mini-entrepôts de donné
es sont simples àconcevoir, àcré
er et àgé
rer. Toutefois,
é
tant donnéque les mini-entrepôts de donné
es sont axé
s sur des zones
fonctionnelles spé
cifiques, la consultation de ces derniè
res peut ê
tre complexe en
raison de la distribution.
Vous pouvez utiliser Amazon Redshift afin de cré
er des mini-entrepôts de
donné
es qui viennent s'ajouter aux entrepôts de donné
es.
Analyse et visualisation
Aprè
s avoir traitéles donné
es et les avoir mises àdisposition pour des analyses
complé
mentaires, vous avez besoin des outils approprié
s pour analyser et
visualiser les donné
es traité
es.
Dans la plupart des cas, vous pouvez effectuer l'analyse des donné
es àl'aide des
mê
mes outils que ceux utilisé
s pour le traitement des donné
es. Vous pouvez par
exemple avoir recours àdes outils tels que SQL Workbench pour analyser vos
donné
es dans Amazon Redshift avec ANSI SQL. Amazon Redshift fonctionne
é
galement avec des solutions d'aide àla dé
cision tierces connues disponibles sur
le marché
.
Page 12 sur 30
Mars 2016
Amazon QuickSight est un service d'aide àla dé
cision rapide, simple d'utilisation
et ré
sidant dans le cloud, qui permet de cré
er des visualisations et d'effectuer une
analyse ponctuelle des donné
es en toute simplicité
, et d'obtenir rapidement des
perspectives professionnelles àpartir de vos donné
es. Amazon QuickSight est
inté
gréàAmazon Redshift et est actuellement disponible en version d'é
valuation,
avec une disponibilitégé
né
rale pré
vue plus tard en 2016.
Si vous utilisez Amazon S3 comme stockage principal, vous pouvez notamment
procé
der aux analyses et àla visualisation àl'aide de notebooks Apache Spark sur
Amazon Elastic MapReduce (Amazon EMR). Ce processus ré
pandu vous permet
d'exé
cuter SQL ou un code personnaliséé
crit dans des langages tels que Python
et Scala.
Si vous souhaitez opter pour une autre approche de visualisation,
Apache Zeppelin est une solution d'aide àla dé
cision open source qui peut ê
tre
exé
cuté
e sur Amazon EMR afin de visualiser les donné
es dans Amazon S3 àl'aide
de Spark SQL. Vous pouvez é
galement utiliser Apache Zeppelin pour visualiser
les donné
es dans Amazon Redshift.
Pipeline d'analyse avec les services AWS
AWS offre un large é
ventail de services destiné
s àl'implé
mentation d'une
plateforme d'analyse complè
te. La figure 2 illustre les services que nous venons
de voir et leur inté
gration au sein du pipeline d'analyse.
Page 13 sur 30
Mars 2016
Figure 2 : Pipeline d'analyse avec les services AWS
Options technologiques des entrepôts de
données
Au cours de cette section, nous aborderons les diffé
rentes options disponibles
dans le cadre de la cré
ation d'un entrepôt de donné
es : bases de donné
es
orienté
es lignes, bases de donné
es orienté
es colonnes et architectures de
traitement massivement parallè
le.
Bases de données orientées lignes
Les bases de donné
es orienté
es lignes stockent gé
né
ralement des lignes
complè
tes dans un bloc physique. Les index secondaires permettent d'obtenir des
performances é
levé
es pour les opé
rations de lecture. Les bases de donné
es telles
que Oracle Database Server, Microsoft SQL Server, MySQL et PostgreSQL sont
des systè
mes de base de donné
es orienté
e lignes. Ces systè
mes sont gé
né
ralement
utilisé
s pour l'entreposage des donné
es, mais ils sont plus adapté
s au traitement
transactionnel (OLTP) qu'aux analyses.
Page 14 sur 30
Mars 2016
Afin d'optimiser les performances d'un systè
me orientélignes utilisécomme
entrepôt de donné
es, les dé
veloppeurs ont recours àun certain nombre de
techniques, dont la cré
ation de vues maté
rialisé
es, la cré
ation de tables de report
pré
agré
gé
es, la cré
ation d'index pour chaque combinaison de pré
dicats possible,
l'implé
mentation du partitionnement de donné
es afin d'utiliser l'é
lagage de partition
par optimiseur de requê
te et la ré
alisation de jointures reposant sur les index.
Les magasins de donné
es orienté
s lignes classiques sont limité
s par les ressources
disponibles sur une seule machine. Les mini-entrepôts de donné
es ré
solvent le
problè
me dans une certaine mesure grâce àl'utilisation d'un partage fonctionnel.
Vous pouvez diviser votre entrepôt de donné
es en plusieurs mini-entrepôts de
donné
es, chacun d'entre eux correspondant àune zone fonctionnelle spé
cifique.
Toutefois, lorsque les mini-entrepôts de donné
es s'agrandissent, le traitement des
donné
es se trouve ralenti.
Dans le cadre d'un entrepôt de donné
es orientélignes, chaque requê
te doit lire
toutes les colonnes de toutes les lignes des blocs correspondant au pré
dicat de
requê
te, ce qui inclut les colonnes que vous n'avez pas choisies. Cette approche
limite les performances des entrepôts de donné
es, dans lesquels les tables ont
plus de colonnes, mais vos requê
tes n'en utilisent que trè
s peu.
Bases de données orientées colonnes
Les bases de donné
es orienté
es colonnes organisent chaque colonne dans son
propre ensemble de blocs physiques au lieu de regrouper la totalitédes lignes
dans un bloc. Cette fonctionnalitéleur permet d'ê
tre plus efficaces en termes
d'E/S pour les requê
tes en lecture seule dans la mesure oùelles doivent
uniquement lire les colonnes auxquelles une requê
te accè
de depuis un disque
(ou depuis la mé
moire). En raison de cette approche, les bases de donné
es
orienté
es colonnes sont plus approprié
es que les bases de donné
es orienté
es
lignes pour l'entreposage des donné
es.
Page 15 sur 30
Mars 2016
Figure 3 : Bases de données orientées colonnes ou lignes
La figure 3, pré
senté
e ci-dessus, illustre la diffé
rence principale entre les bases de
donné
es orienté
es colonnes et celles qui sont orienté
es lignes. Dans une base de
donné
es orienté
e lignes, les lignes sont regroupé
es dans leurs propres blocs,
tandis que ce sont les colonnes qui sont regroupé
es dans leurs propres blocs dans
une base de donné
es orienté
e colonnes.
Outre la rapiditéaccrue des E/S, la compression amé
lioré
e est un autre avantage
important offert par l'utilisation d'une base de donné
es orienté
e colonnes. Dans
la mesure oùchaque colonne se trouve dans son propre ensemble de blocs,
chaque bloc physique contient le mê
me type de donné
es. Lorsque toutes les
donné
es sont du mê
me type, la base de donné
es peut utiliser des algorithmes de
compression extrê
mement efficaces. Cela signifie que vous avez besoin de moins
de stockage par rapport àune base de donné
es orienté
e lignes. Cette approche
entraî
ne é
galement une baisse importante des E/S dans la mesure oùles mê
mes
donné
es sont stocké
es dans un nombre ré
duit de blocs.
Amazon Redshift, Vertica, Teradata Aster et Druid font partie des bases de
donné
es orienté
es colonnes qui sont utilisé
es pour l'entreposage de donné
es.
Page 16 sur 30
Mars 2016
Architectures de traitement massivement parallèle
Un architecture de traitement massivement parallè
le vous permet d'utiliser
toutes les ressources disponibles dans le cluster en vue de traiter les donné
es, ce
qui ré
duit considé
rablement les performances des entrepôts de donné
es ayant
une capacitéde plusieurs pé
taoctets. Ce type d'entrepôt de donné
es vous permet
d'améliorer les performances en ajoutant simplement quelques nœuds au cluster.
Amazon Redshift, Druid, Vertica, GreenPlum et Teradata Aster font partie des
es cré
é
s sur la base d'une architecture de traitement
massivement parallè
le. Les infrastructures open source, comme Hadoop et Spark,
prennent é
galement en charge cette architecture.
Exploration d'Amazon Redshift
En tant que technologie de traitement massivement parallè
le en colonnes,
Amazon Redshift offre des avantages importants pour des entrepôts de donné
es
performants et rentables, notamment une compression efficace, des E/S ré
duites
et des conditions de stockage limité
es. Ce service repose sur ANSI SQL, ce qui
vous permet d'exé
cuter des requê
tes existantes avec peu ou pas de modifications.
C'est pourquoi cette solution est aujourd'hui trè
s prisé
e pour les entrepôts de
donné
es et les mini-entrepôts de donné
es d'entreprise. Au cours de cette section,
nous explorerons Amazon Redshift et nous é
tudierons ses capacité
s plus en dé
tail.
Amazon Redshift offre des performances rapides en termes de requê
tes et d'E/S
pour presque toutes les tailles de donné
es grâce àl'utilisation d'un stockage en
colonnes, ainsi qu'àla mise en parallè
le et àla distribution des requê
tes sur
plusieurs nœuds. Ce service automatise la plupart des tâches administratives
courantes associé
es àla mise en service, àla configuration, àla surveillance, àla
sauvegarde et àla sé
curisation d'un entrepôt de donné
es, ce qui rend ce dernier
facile et peu coûteux àgé
rer. Grâce àl'automatisation, vous pouvez cré
er des
es ayant une capacitéde plusieurs pé
taoctets en quelques
minutes au lieu des semaines ou des mois né
cessaires pour les implé
mentations
sur site classiques.
Page 17 sur 30
Mars 2016
Performances
Amazon Redshift utilise un stockage en colonnes, la compression des donné
es et
les cartes de zones pour ré
duire le volume d'E/S né
cessaires àl'exé
cution des
requê
tes. Le tri entrelacépermet des performances rapides sans le surcoût
entraî
népar la gestion des index ou des projections.
Amazon Redshift a recours àune architecture de traitement massivement
parallè
le qui lui permet de bé
né
ficier de toutes les ressources disponibles en
mettant en parallè
le et en distribuant les opé
rations SQL. Le maté
riel sous-jacent
aé
téconç
u pour un traitement des donné
es extrê
mement performant. Il utilise le
stockage connectélocal afin d'optimiser le dé
bit entre les processeurs et les
lecteurs, ainsi qu'un ré
seau maillédans le but d'optimiser le dé
bit entre les
nœuds. Les performances peuvent être ajustées en fonction de vos besoins en
matiè
re d'entreposage des donné
es : AWS offre un calcul dense avec des
disques SSD, ainsi que des options de stockage dense. Le dé
ploiement continu
des mises àniveau logicielles offre des amé
liorations de performances ré
guliè
res
sans aucune intervention de la part d'un utilisateur.
Durabilité et disponibilité
Afin d'offrir les meilleures durabilitéet disponibilitépossibles, Amazon Redshift
détecte et remplace automatiquement tous les nœuds en échec dans votre cluster
d'entrepôt de données. Le nœud de remplacement est disponible immédiatement
et le service charge d'abord les donné
es les plus fré
quemment consulté
es afin que
vous puissiez reprendre l'interrogation des donné
es le plus rapidement possible.
Dans la mesure oùAmazon Redshift met en miroir les donné
es sur votre cluster,
il utilise les donné
es d'un autre nœud pour recréer le nœud en échec. Le cluster
est en mode lecture seule jusqu'à ce que le nœud de remplacement soit mis en
service et ajoutéau cluster, ce qui prend gé
né
ralement quelques minutes
seulement.
Les clusters Amazon Redshift se trouvent dans une Zone de disponibilité
.3
Toutefois, si vous souhaitez mettre en place une configuration avec plusieurs
zones de disponibilité
, vous pouvez cré
er un miroir, puis gé
rer automatiquement
la ré
plication et le basculement.
Page 18 sur 30
Mars 2016
Il suffit de quelques clics sur Amazon Redshift Management Console pour
configurer un environnement de ré
cupé
ration aprè
s sinistre solide. Vous pouvez
conserver des copies de vos sauvegardes dans plusieurs ré
gions AWS. En cas
d'interruption de service dans une ré
gion AWS, vous pouvez restaurer votre
cluster àl'aide de la sauvegarde situé
e dans une autre ré
gion AWS. Vous pouvez
bé
né
ficier d'un accè
s en lecture/é
criture àvotre cluster quelques minutes
seulement aprè
s avoir commencél'opé
ration de restauration.
Évolutivité et élasticité
Il suffit de quelques clics sur la console ou d'un appel de l'API pour modifier
aisément le nombre et le type de nœuds dans votre entrepôt de données lorsque
vos performances ou votre capacitéé
voluent.4 Amazon Redshift vous permet de
commencer avec un nœud de 160 Go seulement, puis d'é
voluer jusqu'àune
capacitéde plusieurs pé
taoctets ou vers plus de donné
es utilisateur compressé
es
utilisant plusieurs nœuds. Pour plus d'informations, consultez la section
consacré
e aux clusters et aux nœuds dans le guide Amazon Redshift Cluster
Management Guide (disponible en anglais).5
Pendant le redimensionnement, Amazon Redshift place votre cluster existant en
mode lecture seule, met en service un nouveau cluster de la taille choisie, puis
copie les donné
es de l'ancien cluster vers le nouveau cluster en parallè
le. Au cours
de ce processus, vous payez uniquement pour le cluster Amazon Redshift actif.
Vous pouvez continuer àexé
cuter des requê
tes sur l'ancien cluster pendant que
le nouveau est mis en service. Une fois que vos donné
es ont é
técopié
es vers le
nouveau cluster, Amazon Redshift redirige automatiquement les requê
tes vers le
nouveau cluster et supprime l'ancien.
Vous pouvez utiliser les actions de l'API Amazon Redshift pour lancer et
dé
velopper les clusters, cré
er et restaurer des sauvegardes, etc., le tout par
programme. Cette approche vous permet d'inté
grer ces actions de l'API dans
votre pile d'automatisation existante ou de cré
er une automatisation
personnalisé
e adapté
e àvos besoins.
Page 19 sur 30
Mars 2016
Interfaces
Amazon Redshift dispose de pilotes Java Database Connectivity (JDBC) et Open
Database Connectivity (ODBC) susceptibles d'ê
tre té
lé
chargé
s depuis l'onglet
Connect Client (Client de connexion) de la console, ce qui signifie que vous
pouvez utiliser un large é
ventail de clients SQL connus. Vous pouvez é
galement
utiliser les pilotes standard PostgreSQL JDBC et ODBC. Pour plus d'informations
sur les pilotes Amazon Redshift, consultez la section Amazon Redshift and
PostgreSQL dans le guide Amazon Redshift Database Developer Guide
(disponible en anglais). 6
Vous trouverez é
galement de nombreux exemples d'inté
grations validé
es
auprè
s d'un grand nombre de fournisseurs BI et ETL connus.7 Dans le cadre de
ces inté
grations, les chargements et les dé
chargements sont exé
cuté
s en parallè
le
sur chaque nœud de calcul afin d'optimiser la rapiditéavec laquelle vous pouvez
accueillir ou exporter des donné
es àpartir de et vers plusieurs ressources, dont
Amazon S3, Amazon EMR et Amazon DynamoDB. Vous pouvez charger aisé
ment des
donné
es de streaming dans Amazon Redshift àl'aide d'Amazon Kinesis Firehose, ce
qui permet une analyse en temps ré
el àl'aide des outils et tableaux de bord d'aide
àla dé
cision existants. Vous pouvez trouver des mesures de l'utilisation du calcul,
de la mé
moire et du stockage, ainsi que du trafic de lecture/é
criture vers votre
cluster d'entrepôt de donné
es Amazon Redshift en utilisant la console ou les
opé
rations de l'API Amazon CloudWatch.
Sécurité
Pour proté
ger vos donné
es, vous pouvez exé
cuter Amazon Redshift dans un cloud
privévirtuel basésur le service Amazon Virtual Private Cloud (Amazon VPC).
Vous pouvez utiliser le modè
le de mise en ré
seau dé
fini par logiciel du VPC pour
dé
finir les rè
gles de pare-feu qui limitent le trafic en fonction des rè
gles que vous
8
configurez. Amazon Redshift prend en charge les connexions SSL entre votre
application cliente et votre cluster d'entrepôt de donné
es Amazon Redshift, ce qui
permet le chiffrement des donné
es en transit.
Page 20 sur 30
Mars 2016
Les nœuds de calcul Amazon Redshift stockent vos donné
es, mais il est possible
d'accéder à ces dernières uniquement depuis le nœud principal du cluster. Cet
isolement fournit une autre couche de sé
curité
. Amazon Redshift s'intè
gre
àAWS CloudTrail afin de vous permettre d'auditer tous les appels de l'API
Amazon Redshift.9 Pour vous aider àgarantir la sé
curitéde vos donné
es au repos,
Amazon Redshift chiffre chaque bloc àl'aide du chiffrement AES-256
àaccé
lé
ration maté
rielle lorsque chaque bloc est é
crit sur le disque. Ce
chiffrement a lieu àun niveau infé
rieur du sous-systè
me d'E/S. Ce dernier chiffre
tout ce qui est é
crit sur le disque, y compris les ré
sultats intermé
diaires des
requê
tes. Les blocs sont sauvegardé
s tels quels, ce qui signifie que les sauvegardes
sont é
galement chiffré
es. Par dé
faut, Amazon Redshift se charge de la gestion des
clé
s, mais vous pouvez choisir de gé
rer vos clé
s àl'aide de vos propres modules de
sé
curitédu maté
riel (HSM) ou via AWS Key Management Service.10,11
Modèle de coût
Amazon Redshift ne requiert ni engagements àlong terme ni coûts initiaux. Cette
approche de tarification vous é
vite les dé
penses d'investissement et la complexité
de planification et d'achat de la capacitéd'entreposage des donné
es àl'avance.
Les frais reposent sur la taille et le nombre de nœuds de votre cluster.
Il n'y a aucuns frais supplé
mentaires pour le stockage de sauvegarde jusqu'à
100 % de votre stockage alloué
. Par exemple, si vous avez un cluster actif avec
deux nœuds XL pour un total de 4 To de stockage, AWS fournit jusqu'à4 To de
stockage de sauvegarde sur Amazon S3 sans aucuns frais supplé
mentaires. Le
stockage de sauvegarde au-delàde la taille de stockage alloué
e et les sauvegardes
stocké
es aprè
s la fin du cluster font facturé
s aux taux standard d'Amazon S3.12
Il n'y a aucuns frais de transfert de donné
es pour la communication entre
Amazon S3 et Amazon Redshift. Pour plus d'informations, consultez les tarifs
Amazon Redshift.13
Page 21 sur 30
Mars 2016
Modèles d'utilisation idéaux
Amazon Redshift convient parfaitement au traitement analytique en ligne
(OLAP) àl'aide de vos outils d'aide àla dé
cision existants. Les organisations ont
recours àAmazon Redshift pour effectuer les opé
rations suivantes :

Exé
cuter le reporting et l'aide àla dé
cision d'entreprise

Analyser les donné
es de ventes globales pour plusieurs produits

Stocker les donné
es boursiè
res historiques

Analyser les impressions et les clics de publicité
s

Regrouper les donné
es de jeux

Analyser les tendances des ré
seaux sociaux

Mesurer la qualitéclinique, l'efficacitéopé
rationnelle et les performances
financiè
res dans le domaine des soins de santé
Utilisations déconseillées
Amazon Redshift ne convient pas vraiment aux modè
les d'utilisation suivants :
Page 22 sur 30

Petits jeux de données : Amazon Redshift a é
téconç
u pour les
traitements en parallè
le sur un cluster. Si votre jeu de donné
es est infé
rieur
à100 gigaoctets, vous ne bé
né
ficierez pas de tous les avantages
d'Amazon Redshift et Amazon RDS est probablement plus adapté
.

OLTP : Amazon Redshift a é
téconç
u pour les charges de travail
d'entreposage de donné
es dans la mesure oùil offre des capacité
s d'analyse
rapides et peu coûteuses. Si vous avez besoin d'un systè
me transactionnel
rapide, optez plutôt pour un systè
me de base de donné
es relationnelle
classique reposant sur Amazon RDS ou pour une base de donné
es NoSQL
telle qu'Amazon DynamoDB.

Données non structurées : dans le cadre d'Amazon Redshift, les
donné
es doivent ê
tre structuré
es par un sché
ma dé
fini. Amazon Redshift
ne prend pas en charge les structures de sché
mas arbitraires pour chaque
ligne. Si vos donné
es ne sont pas structuré
es, vous pouvez effectuer une
extraction, une transformation et un chargement (ETL) sur Amazon EMR
afin de pré
parer les donné
es au chargement dans Amazon Redshift. Pour
les donné
es JSON, vous pouvez stocker des paires clé
/valeur et utiliser les
14
fonctions natives JSON dans votre requê
te.

Mars 2016
Données BLOB : si vous souhaitez stocker des fichiers BLOB tels que des
fichiers vidé
o numé
riques, d'images ou musicaux, il est recommandéde
stocker ce type de donné
es dans Amazon S3 et de ré
fé
rencer leur
emplacement dans Amazon Redshift. Dans ce cas de figure,
Amazon Redshift suit les mé
tadonné
es (par exemple, le nom, la taille, la
date de cré
ation, le proprié
taire, l'emplacement, etc. de l'é
lé
ment) relatives
aux objets binaires, mais les objets de grande taille eux-mê
mes sont stocké
s
dans Amazon S3.
Migration vers Amazon Redshift
Si vous dé
cidez de migrer depuis un entrepôt de donné
es existant vers
Amazon Redshift, vous devez choisir votre straté
gie de migration en fonction de
plusieurs critè
res :

La taille de la base de donné
es et de ses tables

La bande passante ré
seau entre le serveur source et AWS

Le dé
roulement de la migration et du basculement vers AWS : en une
é
tape ou selon une sé
quence d'é
tapes dans le temps

Le rythme de changement des donné
es dans le systè
me source

Les transformations au cours de la migration

L'outil partenaire qui sera utilisépour la migration et l'ETL
Migration en une étape
La migration en une é
tape convient aux petites bases de donné
es qui ne
requiè
rent pas d'opé
ration continue. Les clients peuvent extraire les bases de
donné
es existantes sous formes de fichiers de valeurs sé
paré
es par une virgule
(CSV), puis utiliser des services tels qu'AWS Import/Export Snowball pour
communiquer les jeux de donné
es àAmazon S3 en vue de leur chargement dans
Amazon Redshift. Les clients testent ensuite la base de donné
es de destination
Amazon Redshift afin de garantir la cohé
rence des données avec la source. Une
fois toutes les validations ré
ussies, la base de donné
es est basculé
e dans AWS.
Page 23 sur 30
Mars 2016
Migration en deux étapes
La migration en deux é
tapes est gé
né
ralement utilisé
e pour les bases de donné
es
quelle que soit leur taille :
1. Migration des données initiales : les donné
es sont extraites de la base
de donné
es source, de pré
fé
rence en dehors des pé
riodes de pointe afin de
ré
duire l'impact. Les donné
es sont ensuite migré
es vers Amazon Redshift
en suivant l'approche de migration en une é
tape dé
crite pré
cé
demment.
2. Migration des données modifiées : les donné
es qui ont é
témodifié
es
dans la base de donné
es source aprè
s la migration des donné
es initiales
sont transfé
ré
es dans la destination avant le basculement. Cette é
tape
synchronise les bases de donné
es source et de destination. Une fois que
toutes les donné
es modifié
es ont é
témigré
es, vous pouvez valider les
donné
es de la base de donné
es de destination, effectuer les tests né
cessaires
et, s'ils sont tous ré
ussis, basculer dans l'entrepôt de donné
es
Amazon Redshift.
Outils de migration de la base de données
Plusieurs outils et technologies de migration des donné
es sont disponibles.
Certains d'entre eux peuvent ê
tre utilisé
s indiffé
remment ou vous pouvez utiliser
d'autres outils tiers ou open source disponibles sur le marché
.
1. AWS Database Migration Service prend en charge les processus de
migration en une et deux é
tapes dé
crits pré
cé
demment.15 Pour suivre le
processus de migration en deux é
tapes, vous activez la journalisation
supplé
mentaire de faç
on àinté
grer les modifications dans le systè
me
source. Vous pouvez activer la journalisation supplé
mentaire au niveau de
la table ou de la base de donné
es.
2. D'autres outils partenaire d'inté
gration des donné
es sont é
galement
disponibles :





Page 24 sur 30
Attunity
Informatica
SnapLogic
Talend
Bryte
Mars 2016
Pour plus d'informations sur l'inté
gration des donné
es et les partenaires de
16
conseil, consultez Partenaires Amazon Redshift.
Conception des flux de travail des entrepôts
de données
Au cours des sections pré
cé
dentes, nous avons abordéles fonctionnalité
s
d'Amazon Redshift idé
ales pour l'entreposage des donné
es. Afin de comprendre la
conception des flux de travail de l'entreposage des donné
es avec Amazon Redshift,
observons maintenant le modè
le de conception le plus courant accompagnéd'un
exemple de cas d'utilisation.
Supposons qu'un fabricant de vê
tements international dispose de plus de mille
points de vente, qu'il vende certaines lignes de vê
tements dans des grands
magasins et des magasins discount et qu'il soit é
galement pré
sent en ligne. D'un
point de vue technique, ces trois canaux fonctionnent actuellement de faç
on
indé
pendante. Ils ont une é
quipe dirigeante, des systè
mes de points de vente et
des services comptables diffé
rents. Aucun systè
me ne fusionne tous les jeux de
donné
es lié
s afin de proposer au PDG une vue à360 °de toutes les activité
s.
Supposons maintenant que le PDG souhaite bé
né
ficier d'une vision complè
te de
ces canaux àl'é
chelle de l'entreprise et pouvoir faire des analyses ponctuelles
similaires aux suivantes :






Page 25 sur 30
Quelles sont les tendances sur tous les canaux ?
Quelles ré
gions gé
ographiques s'en sortent le mieux sur tous les canaux ?
Quelle est l'efficacitédes publicité
s et des promotions de l'entreprise ?
Quelles sont les tendances par ligne de vê
tements ?
Quelles forces externes ont des impacts sur les ventes de l'entreprise, par
exemple le taux de chômage et les conditions mé
té
orologiques ?
Quelles sont les ré
percussions des attributs d'un magasin sur les ventes,
par exemple la fonction des employé
s et de la direction, la pré
sence dans
une rue commerç
ante ou dans un centre commercial, l'emplacement de la
marchandise dans le magasin, les tê
tes de gondole, les prospectus
commerciaux et les affichages en magasin ?
Mars 2016
Un entrepôt de donné
es d'entreprise ré
sout ce problè
me. Il collecte les donné
es
des diffé
rents systè
mes associé
s aux trois canaux, ainsi que les informations
disponibles publiquement telles que les bulletins mé
té
orologiques et
é
conomiques. Chaque source de donné
es envoie les donné
es quotidiennement en
vue de leur utilisation par l'entrepôt de donné
es. Dans la mesure oùchaque
source de donné
es peut ê
tre structuré
e diffé
remment, un processus d'extraction,
de transformation et de chargement (ETL) est effectuéafin de reformater les
donné
es selon une structure commune. Les analyses peuvent ensuite ê
tre
effectué
es simultané
ment sur les donné
es quelle que soit la source dont elles
proviennent. Pour cela, nous utilisons l'architecture de flux de donné
es suivante :
Figure 4 : Flux de travail de l'entrepôt de données d'entreprise.
1. La premiè
re é
tape de ce processus consiste àmigrer les donné
es issues de
diffé
rentes sources dans Amazon S3. Amazon S3 propose une plateforme de
stockage extrê
mement durable, peu coûteuse et é
volutive qui peut recevoir en
parallè
le des donné
es issues de diffé
rentes sources pour un coût trè
s ré
duit.
2. Amazon EMR permet de transformer et de nettoyer les donné
es pour les faire
passer d'un format source àun format cible. Amazon EMR dispose d'une
inté
gration embarqué
e àAmazon S3, ce qui permet des threads parallè
les
de débit issus de chaque nœud de votre cluster Amazon EMR depuis et vers
Amazon S3.
Page 26 sur 30
Mars 2016
En rè
gle gé
né
rale, un entrepôt de donné
es obtient de nouvelles donné
es
toutes les nuits. Dans la mesure oùles analyses ne sont pas né
cessaires en
plein milieu de la nuit, la seule exigence associé
e àce processus de
transformation est qu'il soit terminéle matin lorsque le PDG et d'autres
utilisateurs de l'entreprise ont besoin d'accé
der aux rapports et aux tableaux
de bord. Par consé
quent, vous pouvez utiliser le marchéspot d'Amazon EC2
pour ré
duire davantage le coût du processus ETL ici.17 Une bonne straté
gie
spot consiste àcommencer les enchè
res àun prix trè
s bas àminuit, puis à
continuer àaugmenter le prix jusqu'àce que la capacitésoit attribué
e. À
mesure que l'é
ché
ance approche, si les enchè
res spot ont é
choué
, vous pouvez
revenir aux prix àla demande afin de veiller àrespecter vos exigences en
termes de dé
lai de traitement. Chaque source peut avoir un processus de
transformation diffé
rent sur Amazon EMR, mais avec le modè
le de paiement
àl'utilisation d'AWS, vous pouvez cré
er un cluster Amazon EMR distinct pour
chaque transformation et l'ajuster de faç
on àce qu'il corresponde exactement
àla bonne capacitépour la ré
alisation de toutes les tâches de transformation
des donné
es sans ê
tre aux prises avec les ressources des autres tâches.
3. Chaque tâche de transformation charge des donné
es formaté
es et nettoyé
es
dans Amazon S3. Nous utilisons Amazon S3 ici ànouveau car
Amazon Redshift peut charger les donné
es en parallè
le àpartir d'Amazon S3,
àl'aide de plusieurs threads de chaque nœud de cluster. Amazon S3 fournit
é
galement un enregistrement historique et joue le rôle de source de vé
rité
formaté
e entre les systè
mes. Sur Amazon S3, les donné
es peuvent ê
tre
utilisé
es par d'autres outils àdes fins d'analyse si des conditions
supplé
mentaires sont ajouté
es dans le temps.
4. Amazon Redshift charge, trie, distribue et compresse les donné
es dans ses
tables de faç
on àce que les requê
tes analytiques puissent ê
tre exé
cuté
es
efficacement et en parallè
le. Àmesure que la taille des donné
es augmente
dans le temps et que les activité
s de l'entreprise se dé
veloppent, vous pouvez
accroître aisément la capacité en ajoutant des nœuds.
5. Pour visualiser les analyses, vous pouvez utiliser Amazon QuickSight ou l'une
des nombreuses plateformes de visualisation partenaires qui se connectent à
Amazon Redshift àl'aide des pilotes ODBC ou JDBC. C'est làque le PDG et
son personnel passent en revue les rapports, les tableaux de bord et les
graphiques. Aujourd'hui, les cadres peuvent utiliser les donné
es afin
d'optimiser leurs prises de dé
cisions relatives aux ressources de l'entreprise,
ce qui permet en dernier lieu d'accroî
tre les bé
né
fices et la valeur pour les
actionnaires.
Page 27 sur 30
Mars 2016
Vous pouvez facilement é
tendre cette architecture flexible lorsque votre
entreprise se dé
veloppe, ouvre de nouveaux canaux, lance des applications
mobiles supplé
mentaires propres aux clients et ajoute de nouvelles sources de
donné
es. Il suffit de quelques clics sur Amazon Redshift Management Console ou
de quelques appels de l'API.
Conclusion
Nous assistons àune é
volution straté
gique de l'entreposage des donné
es à
mesure que les entreprises migrent leurs bases de donné
es et leurs solutions
d'analyses d'une infrastructure locale vers le cloud afin de bé
né
ficier de la
simplicité
, des performances et de la rentabilitéde ce dernier. Ce livre blanc
propose une pré
sentation complè
te de l'é
tat actuel de l'entreposage des donné
es
sur AWS. AWS fournit un large é
ventail de services et un é
cosystè
me de
partenaires solide qui vous permet de cré
er et d'exé
cuter facilement l'entreposage
des donné
es d'entreprise dans le cloud. Vous bé
né
ficiez ainsi d'une architecture
extrê
mement performante et rentable capable de suivre l'é
volution de votre
entreprise sur l'infrastructure globale d'AWS.
Participants
Les personnes et organisations suivantes ont participéàl'é
laboration de ce
document :
Page 28 sur 30

Babu Elumalai, Architecte Solutions, Amazon Web Services

Greg Khairallah, Directeur principal du dé
veloppement des activité
s,
Amazon Web Services

Pavan Pothukuchi, Responsable produit principal, Amazon Web Services

Jim Gutenkauf, Ré
dacteur technique senior, Amazon Web Services

Melanie Henry, Éditrice technique senior, Amazon Web Services

Chander Matrubhutam, Marketing produit, Amazon Web Services
Suggestions de lecture
Pour plus d'informations, consultez les ressources suivantes :
Page 29 sur 30

Bibliothè
que logicielle Apache Hadoop18

Bonnes pratiques d'Amazon Redshift19

Architecture de Lambda20
Mars 2016
Mars 2016
Notes
1https://www.forrester.com/report/The+Forrester+Wave+Enterprise+Data+Ware
house+Q4+2015/-/E-RES124041
Page 30 sur 30
2
http://aws.amazon.com/streaming-data/
3
http://docs.aws.amazon.com/AWSEC2/latest/UserGuide/using-regionsavailability-zones.html
4
http://docs.aws.amazon.com/redshift/latest/APIReference/Welcome.html
5
http://docs.aws.amazon.com/redshift/latest/mgmt/working-withclusters.html#rs-about-clusters-and-nodes
6
http://docs.aws.amazon.com/redshift/latest/dg/c_redshift-and-postgressql.html
7
http://aws.amazon.com/redshift/partners/
8
https://aws.amazon.com/vpc/
9
https://aws.amazon.com/cloudtrail/
10
http://docs.aws.amazon.com/redshift/latest/mgmt/working-with-HSM.html
11
https://aws.amazon.com/kms/
12
http://aws.amazon.com/s3/pricing/
13
http://aws.amazon.com/redshift/pricing/
14
http://docs.aws.amazon.com/redshift/latest/dg/json-functions.html
15
https://aws.amazon.com/dms/
16
https://aws.amazon.com/redshift/partners/
17
http://aws.amazon.com/ec2/spot/
18
https://hadoop.apache.org/
19
http://docs.aws.amazon.com/redshift/latest/dg/best-practices.html
20
https://en.wikipedia.org/wiki/Lambda_architecture

Entreposage des données sur AWS

Transcription

Documents pareils

Amazon Web Services – Architecte solutions certifié AWS – Niveau

Carte Visa Récompenses Amazon.ca

Octobre 2014

Noel Thibaut 2010

lisez un chapitre

Commerce électronique: une question de recette

Télécharger le livre blanc

AWS Security Whitepaper

Vnunet.fr - e-Performance Observatory

AWS Storage Options