déploiement de qlikview pour des analyses big data chez king.com

Transcription

déploiement de qlikview pour des analyses big data chez king.com
DÉPLOIEMENT DE QLIKVIEW
POUR DES ANALYSES BIG DATA
CHEZ KING.COM
Étude de cas technique QlikView : Big Data
Juin 2012
qlikview.com
Introduction
La présente étude de cas technique QlikView se consacre au déploiement de
QlikView avec Hadoop pour de l’analyse Big Data chez King.com, l’une des plus
grandes entreprises européennes de jeux en ligne. King.com est un des leaders
mondiaux des jeux sociaux occasionnels. La société recense plus de 40 millions de
joueurs par mois sur le plan mondial pour une participation à plus de 3 milliards de
parties de jeux. King.com propose plus de 150 jeux exclusifs en 14 langues sur son
site principal King.com (www.king.com), sur les périphériques mobiles, sur Google+
et sur Facebook. King.com fait partie du top 10 des développeurs sur Facebook. Il
s’agit du fournisseur exclusif de jeux en ligne pour des portails, des sites Web et des
sociétés de médias majeurs dans le monde entier.
King.com est administré par des développeurs passionnés et des directeurs réputés
fanatiques de technologie numérique. Le site dispose de bureaux à Londres,
Hambourg, Stockholm, Malmö, Milan, Bucarest, San Francisco et Malte.
Vous découvrirez ici comment la plate-forme QlikView de Business Discovery a
permis à King.com de relever les challenges du Big Data et la valeur ajoutée réelle
ainsi créée. Les détails techniques du déploiement de QlikView avec Hadoop seront
abordés, ainsi que la valeur métier que représente la solution.
Résumé
« Big Data » est un terme qui désigne les ensembles de données dont la taille est
trop volumineuse pour être traitée par les outils logiciels généralement utilisés pour
collecter, gérer et traiter les données dans un laps de temps raisonnable. Chaque
jour, 2,5 quintillions d’octets de données sont créés. D’après l’IDC, le volume de
contenu numérique dans le monde augmentera jusqu’à 8 milliards de téraoctets d’ici
2015. Ce qui rend la problématique posée par le Big Data aussi unique, c’est son
aspect tridimensionnel : volume, rapidité et diversité (voir Figure 1).
Figure 1. Qu’est-ce que le Big Data ?
Volume
Varieté
Rapidité
8 milliards de
téraoctets de
données dans le
monde d'ici 2015*
Données structurées,
non structurées et
partiellement
structurées
Mises à jour de l'état
des machines,
diffusion en continu
de données, etc.
* Prévisions 2012 d'IDC : Competing for 2020, décembre 2011
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 2
La problématique du Big Data va au-delà de la simple question du volume. Il s’agit
également d’une opportunité de trouver des informations dans de nouveaux types
émergents de données et de contenus, pour offrir davantage de flexibilité aux
entreprises et pour pouvoir répondre à des questions qu’il n’était auparavant pas possible
de prendre en compte. De nos jours, chaque entreprise cherche une solution pour tirer
profit de cette opportunité. King.com n’y fait pas exception.
Pour relever le défi, King.com a fait appel à QlikView, combiné à un système Big
Data basé sur Hadoop, pour pouvoir identifier rapidement des informations dans le
comportement des clients via leur utilisation des jeux.
King.com a choisi QlikView en raison de sa technologie flexible et associative qui permet
d’effectuer des analyses en un clin d’œil et en libre-service sur du Big Data. Autant de
facteurs essentiels à la compétitivité et à la réussite de King.com.
King.com est une entreprise dont le fonctionnement repose sur l’analyse. Les utilisateurs
métier se basent sur les données pour prendre des décisions au quotidien. Ils travaillent
dans différents domaines, qu’ils soient responsables de produit, responsables métier,
responsables marketing, responsables publicitaires ou encore responsables du design
des jeux ou du service clientèle. Au fur et à mesure que ces utilisateurs ont gagné en
compréhension de la structure du Big Data et en maîtrise de celle-ci, leurs besoins en
actions en libre-service sont devenus prépondérants. Ces actions leur permettent de
modifier les associations et les générations de Big Data afin de bénéficier de nouvelles
informations présentant des centaines de dimensions. C’est pour cette raison qu’une
solution d’analyses pouvant traiter des volumes très importants de données en libreservice s’avérait nécessaire pour le service informatique. Sur King.com, les applications
d’analyse QlikView contiennent des millions de lignes de données qui permettent
aux utilisateurs métier de bénéficier de la valeur ajoutée générée par le Big Data.
Même si King.com utilise plus de 100 applications QlikView quotidiennement pour les
analyses de Big Data, certains services tirent profit de la facilité et de la rapidité du
développement pour créer rapidement des applications « jetables » afin d’établir des
prototypes. Les applications sont souvent d’abord développées à petite échelle, avant
d’être déployées rapidement par la suite à l’échelle requise.
Chez King.com, le service informatique a également bénéficié des capacités ETL
(Extract, Transform and Load - Extraction, transformation et chargement) flexibles de
QlikView. Mats-Olov Eriksson, architecte principal du système d’analyse chez King.com,
explique comment le système utilise QlikView pour comprendre les relations entre les
données dans le Big Data. « Nous utilisons QlikView pour faire des explorations lorsque
l’extraction de données et les transformations sont conçues et vérifiées à partir du Big
Data. L’éditeur de scripts associé aux pilotes ODBC des fournisseurs d’infrastructure
MapR et Hive, nous permet de créer une portion substantielle de l’ETL dans les
applications QlikView. Nous utilisons aussi QlikView Publisher comme outil pour planifier
les chargements de données ainsi que pour gérer le système. »
La présente étude de cas aborde les détails techniques concernant le déploiement de
QlikView effectué par King.com pour analyser les données stockées dans son cluster
Hadoop, où deux milliards de nouvelles lignes sont créées chaque jour.
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 3
La technologie associative unique et l’interface utilisateur interactive de QlikView
ont permis aux utilisateurs métier non techniques de naviguer parmi la quantité
volumineuse de données pour trouver celles qui les concernaient. Les utilisateurs
métier de King.com peuvent chercher et analyser le Big Data comme ils le veulent.
La solution a rapidement fourni des informations sur le comportement des clients
et sur les 3 millions de parties auxquelles ils participent par mois au niveau mondial.
Grâce à l’environnement QlikView de Business Discovery, les utilisateurs métier ont la
possibilité d’analyser le comportement de jeu de 40 millions de clients afin de cibler
de nouveaux jeux et de nouveaux clients. Grâce à QlikView, King.com a pu, pour la
première fois, analyser le retour sur investissement de ses campagnes marketing. Par
exemple, l’analyse permet de connaître l’intérêt pour les nouvelles offres de jeux. Les
utilisateurs métier ont pu suivre et mesurer instantanément certains facteurs, tels que
le nombre de joueurs, le nombre de parties et le temps de jeu.
Détails techniques
Pour stocker des quantités volumineuses de données relatives aux jeux et aux
clients, King.com utilise une solution de Big Data basée sur Hadoop. Hadoop est
une structure logicielle qui utilise un système de fichiers distribué (généralement
HDFS) dans lequel les données sont stockées comme des fichiers unidimensionnels
sur plusieurs nœuds. En règle générale, l’environnement Hadoop utilise des disques
durs locaux et peu coûteux. Ils constituent une solution de stockage et de traitement
de données bon marché.
Hadoop fournit le framework MapReduce pour stocker et récupérer des données,
ce qui représente l’une des limites principales à l’extraction des données à partir
d’Hadoop. Pour chaque requête, un programme devait être développé à l’aide
de la structure MapReduce. Dans la plupart des environnements Hadoop, Hive,
un système d’entrepôt de données pour Hadoop, est utilisé pour l’exécution des
requêtes ad hoc et l’analyse d’ensembles de données volumineux.
L’infrastructure technique de King.com comprend des serveurs de jeux, des serveurs
de journalisation, l’environnement Hadoop et l’environnement QlikView. Elle utilise
un cluster de 14 nœuds pour héberger son environnement Hadoop. « Au fur et
à mesure du développement des données, nous développerons l’infrastructure
Hadoop », a déclaré Mats-Olov Eriksson. Chaque « événement » utilisateur est tout
d’abord consigné localement sur les serveurs de jeux, puis les informations sont
copiées toutes les heures sur un serveur de journalisation centralisé. Les fichiers du
serveur de journalisation sont ensuite copiés dans l’environnement Hadoop et traités
par les programmes MapReduce.
Les données sont traitées toutes les heures et utilisées pour renseigner un tableau
de bord limité générant différents KPI, tels que les installations de jeux, le chiffre
d’affaires et les temps de jeu afin que les utilisateurs métier puissent disposer
d’analyses presque en temps réel. Le traitement par lots principal en vue des
analyses s’effectue quotidiennement pour créer les KPI et les vues agrégées dans
HIVE. Le résultat est par la suite mis à disposition dans les applications QlikView
pour réaliser l’analyse via un connecteur ODBC connecté à HIVE.
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 4
Figure 2. Traitement Big Data et création d’analyses
1
Serveur
de jeux
1...n
2
3
4
5
6
7
8
L'utilisateur
exécute
l'action X
L'action X
est
consignée
sur le
serveur
Tous les
fichiers
journaux des
serveurs sont
copiés toutes
les heures
vers le
serveur de
journalisation
Les
données du
serveur de
journalisation sont
lues par
Hive
Si
nécessaire,
des
tableaux et
des
schémas
sont créés
Amélioration des
données
dans Hive
Données
brutes +
données
améliorées
accessibles
à des fins
d'analyse
L’environnement QlikView de King.com se compose de deux serveurs QlikView
et de deux instances QlikView Publisher. Les serveurs QlikView sont répartis
géographiquement et utilisent les instances QlikView Publisher pour distribuer
des applications QlikView via les serveurs QlikView. L’un des serveurs se trouve à
Londres et l’autre en Suède. Les instances QlikView Publisher servent également à
planifier les extractions de données à partir de HIVE dans l’environnement QlikView,
ainsi qu’à affiner les données destinées aux différentes applications QlikView.
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 5
Figure 3. Architecture de l’environnement de production QlikView
Utilisateurs situés
en Suède
Utilisateurs situés
à Londres
Applications
QlikView
Applications
QlikView
Access Point
Serveur QlikView
en Suède
Access Point
Serveur QlikView
à Londres
Instances QlikView
Publisher
Active
Directory
Cluster Hadoop
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 6
Les défis liés aux analyses
Le défi majeur en termes d’analyses auquel King.com a été confronté fut de créer
un environnement de BI en libre-service pour ses utilisateurs métier. Ce défi s’est
avéré particulièrement complexe de par le volume et la rapidité de son Big Data.
L’utilisation d’Hadoop et de MapReduce a constitué une première pièce de la
solution à ce défi. Le bénéfice réel recherché était de permettre aux utilisateurs
métier de pouvoir accéder quotidiennement aux éléments du Big Data qui leur sont
utiles pour pouvoir en extraire des informations.
Les performances des requêtes a représenté un autre défi. Même si le système
Hadoop utilisait HIVE pour interroger le Big Data, les performances étaient vraiment
très lentes. En effet HIVE n’est pas conçu pour les charges OLTP et ne prend pas
en charge les requêtes en temps réel.
Le système de jeux de King.com génère deux milliards de lignes de données
par jour, et ce volume va continuer à augmenter au fil du temps. Sur le plan des
performances, il était donc crucial de pouvoir analyser les données sans perturber
la charge des jeux. Il était également nécessaire de disposer d’un système d’analyse
et de génération de rapports simple pour que les équipes de développement de jeux
de King.com puissent se trouver sur des sites différents de celui du développement
de la plate-forme. Pour finir, en raison de la croissance rapide de l’activité, les
besoins en termes d’analyse étaient plus que jamais sophistiqués. Il fallait donc
pouvoir conjuguer performances rapides et disponibilité des données pour les
requêtes et analyses complexes.
Pour le service informatique, l’objectif était donc de pouvoir fournir aux utilisateurs
métier des analyses en libre-service tout en leur proposant une expérience
exceptionnelle qui les inciterait à revenir pour en profiter davantage. Les utilisateurs
métier souhaitaient pouvoir explorer les données par eux-mêmes, et les recouper ou
les séparer par le biais de permutations des centaines de dimensions disponibles
dans le Big Data.
Solution
King.com a choisi la plate-forme QlikView de Business Discovery en raison de
sa technologie associative unique et de son interface utilisateur interactive qui
permettent aux utilisateurs métier de naviguer quotidiennement parmi la quantité
volumineuse de données de jeux pour trouver celles dont ils avaient besoin. Grâce
à QlikView, les utilisateurs métier peuvent naviguer et interagir avec le Big Data à
leur gré. Ils ne sont pas limités par des protocoles prédéfinis des requêtes HIVE.
Plus important encore, grâce à la fonction associative unique de QlikView, ils sont à
même de réellement visualiser les liens existants dans le Big Data et de tirer profit
de toutes les dimensions du Big Data en réalisant différentes combinaisons au
cours de l’analyse.
La solution permet également d’effectuer des analyses ultra rapides du Big Data
de King.com. Étant donné que QlikView conserve en mémoire toutes les données
nécessaires pour l’analyse, les utilisateurs métier peuvent explorer immédiatement les
éléments appropriés du Big Data. Ces utilisateurs ne patientent pas du tout car QlikView
réalise les calculs nécessaires pour effectuer l’analyse demandée sur le Big Data.
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 7
Chaque jour, des données agrégées sont extraites de l’environnement Hadoop
vers l’environnement QlikView. Auparavant, l’utilisateur métier n’était pas tenu, aux
fins d’analyse, d’extraire chaque niveau d’enregistrement des données stockées
dans Hadoop. Cet utilisateur sait qu’il bénéficie maintenant de données agrégées
représentent de façon fiable l’intégralité d’un ensemble de données dans Hadoop
car le niveau d’agrégation principal correspond au canal marketing. Les définitions
de canal du service marketing de King.com sont très granulaires. Elles regroupent
les joueurs en fonction des permutations des dimensions géographiques. La
granularité présente dans les canaux marketing réduit l’impact statistique de l’effet
d’agrégation. L’agrégation a également pour but de garantir la cohérence des
différentes analyses en raison de la grande rapidité des données.
King.com a créé de nombreuses applications QlikView avec différents niveaux
d’agrégation des données. Elles proposent une expérience de Business Discovery
complète aux utilisateurs métier. Dans chaque application QlikView, différents niveaux
de données sont utilisés, ce qui permet aux utilisateurs métier de bénéficier d’une
granularité des analyses pour répondre aux questions métier toujours plus détaillées.
La solution de Business Discovery a apporté de la flexibilité analytique aux
utilisateurs métier qui peuvent, pour la première fois, analyser le retour sur
investissement des campagnes marketing, mesurer le chiffre d’affaires moyen
quotidien par utilisateur, les taux de conservation le deuxième jour en continu, les
utilisateurs actifs au quotidien et pendant le mois, et encore bien d’autres KPI en
de nombreuses dimensions. Avant de mettre QlikView en œuvre, les ingénieurs
marketing demandaient aux développeurs de jeux d’écrire des scripts dans le but de
suivre, par exemple, le nombre de parties jouées par canal. Toutefois, cette solution
n’était pas durable. C’est pour cette raison que King.com a décidé de chercher
une solution qui répondrait à ses besoins en Big Data, ainsi qu’aux besoins de ses
nombreux services et utilisateurs métier. Après la sélection de la solution QlikView,
la première application était en production en moins d’une semaine. D’après
Mats-Olov Eriksson à propos du retour sur investissement, « La mise en œuvre de
QlikView a coûté 20% moins cher que les autres solutions. La rentabilisation s’est
faite en seulement quelques mois ».
« Un autre avantage majeur de l’utilisation de QlikView est la capacité à extraire
les données de différentes sources », poursuit-il. QlikView a permis d’appliquer des
métadonnées personnalisées en tant que tables externes de différentes sources et
de les utiliser avec le Big Data extrait du système Hadoop. Selon Mats-Olov Eriksson,
le modèle de données associatif de QlikView et sa capacité à extraire et à fusionner
les données provenant de différentes sources ont permis à son équipe de business
intelligence de travailler au quotidien avec les métadonnées. Mats-Olov Eriksson a
insisté sur l’importance des métadonnées lors de l’analyse du Big Data. « QlikView
nous a permis d’ajouter de nouvelles métadonnées externes de regroupement et
d’améliorer la nomenclature du Big Data en nous contentant toujours de charger des
données dans les applications QlikView. Au cours des chargements de données,
QlikView associe automatiquement au Big Data d’Hadoop les métadonnées stockées
dans un système distinct. Nous disposons ainsi d’une grande flexibilité car nous
pouvons changer et ajouter les informations des métadonnées sans devoir effectuer
aucune modification dans le système Hadoop. QlikView procède à la fusion des
nouvelles métadonnées avec le Big Data », a-t-il déclaré.
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 8
Conclusion
Pour prendre des décisions éclairées, les analystes et les utilisateurs métier
de King.com devaient en permanence faire preuve d’imagination pour accéder,
filtrer et analyser de façon efficace le très gros volume de données relatives aux
jeux. La mise en œuvre de la solution Hadoop a permis de répondre au défi que
représentaient le stockage et le traitement efficaces du Big Data. Toutefois, la
mise à disposition des données posait toujours problème, jusqu’au déploiement de
QlikView.
La technologie associative unique et l’interface utilisateur interactive de QlikView
ont permis aux utilisateurs métier de se repérer dans cet important volume de
données pour trouver les informations dont ils avaient besoin. Les utilisateurs
métier de King.com peuvent chercher et analyser le Big Data comme ils le veulent.
La solution a rapidement mis en lumière des informations sur les comportements
des clients au cours des 3 milliards de parties jouées par mois sur le plan mondial.
Grâce à l’environnement QlikView de Business Discovery, les utilisateurs métier
ont la possibilité d’analyser le comportement de jeu de 40 millions de clients afin
de cibler de nouveaux jeux et de nouveaux clients. La solution QlikView a permis,
pour la première fois, d’atteindre l’équilibre en termes de retour sur investissement
des campagnes marketing. Les utilisateurs métier ont pu analyser et mesurer des
métriques telles que le nombre de joueurs, le nombre de parties jouées, le temps de
jeu, le chiffre d’affaires moyen quotidien par utilisateur, les taux de conservation le
deuxième jour en continu, les utilisateurs actifs au quotidien et pendant le mois, et
encore bien d’autres KPI en de nombreuses dimensions.
Grâce à la flexibilité des capacités d’ETL de QlikView, le service informatique
a pu comprendre la structure du Big Data. Avec QlikView, l’équipe de business
intelligence de King.com a pu travailler au quotidien avec les métadonnées.
L’optimisation du modèle de données associatives de QlikView a permis de charger
les informations des métadonnées externes dans le Big Data et de les y fusionner.
Le processus simplifié de classification du Big Data a permis à l’équipe de fournir
les éléments appropriés du Big Data aux groupes d’utilisateurs métier concernés.
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 9
Références
QlikView et le Big Data
http://www.qlikview.com/us/explore/resources/whitepapers/qlikview-and-big-data
Big Data au service des promotions pour les professionnels
http://www.qlikview.com/us/explore/resources/whitepapers/big-data-meets-tradepromotions
Intégration QlikView - Google BigQuery
http://www.qlikview.com/us/explore/resources/whitepapers/qlikview-googlebigquery-integration
Mémoire technique de l’architecture de développement et de déploiement de
QlikView
www.qlikview.com/.../global-us/direct/datasheets/DS-Technical-Brief-Dev-andDeploy-EN.ashx
Mémoire technique de l’architecture QlikView et de son utilisation des ressources
système
www.qlikview.com/.../DS-Technical-Brief-QlikView-Architecture-and-SystemResource-Usage-EN.ashx
© 2012 QlikTech International AB. Tous droits réservés. QlikTech, QlikView, Qlik, Q, Simplifying Analysis for Everyone, Power of Simplicity, New Rules, The
Uncontrollable Smile et d’autres produits et services QlikTech, ainsi que leurs logos respectifs, sont des marques, déposées ou non, de QlikTech International AB.
Toutes autres dénominations de sociétés, ainsi que tous autres noms de produits et de services utilisés dans ce document, sont des marques, déposées ou non, de
leurs propriétaires respectifs. Les informations publiées dans les présentes sont susceptibles de modification sans préavis. Cette publication est exclusivement à
des fins d’information, sans déclaration ni garantie d’aucune sorte, et QlikTech ne sera, à cet égard, responsable d’aucune erreur ni omission. Les seules garanties se
rapportant à des produits et services QlikTech sont celles stipulées dans les notices de garantie expresse accompagnant, le cas échéant, lesdits produits et services.
Rien dans les présentes ne doit être interprété comme constituant une quelconque garantie supplémentaire.
Déploiement de QlikView pour les analyses Big Data chez King.com
| Page 10