déploiement de qlikview pour des analyses big data chez king.com
Transcription
déploiement de qlikview pour des analyses big data chez king.com
DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au déploiement de QlikView avec Hadoop pour de l’analyse Big Data chez King.com, l’une des plus grandes entreprises européennes de jeux en ligne. King.com est un des leaders mondiaux des jeux sociaux occasionnels. La société recense plus de 40 millions de joueurs par mois sur le plan mondial pour une participation à plus de 3 milliards de parties de jeux. King.com propose plus de 150 jeux exclusifs en 14 langues sur son site principal King.com (www.king.com), sur les périphériques mobiles, sur Google+ et sur Facebook. King.com fait partie du top 10 des développeurs sur Facebook. Il s’agit du fournisseur exclusif de jeux en ligne pour des portails, des sites Web et des sociétés de médias majeurs dans le monde entier. King.com est administré par des développeurs passionnés et des directeurs réputés fanatiques de technologie numérique. Le site dispose de bureaux à Londres, Hambourg, Stockholm, Malmö, Milan, Bucarest, San Francisco et Malte. Vous découvrirez ici comment la plate-forme QlikView de Business Discovery a permis à King.com de relever les challenges du Big Data et la valeur ajoutée réelle ainsi créée. Les détails techniques du déploiement de QlikView avec Hadoop seront abordés, ainsi que la valeur métier que représente la solution. Résumé « Big Data » est un terme qui désigne les ensembles de données dont la taille est trop volumineuse pour être traitée par les outils logiciels généralement utilisés pour collecter, gérer et traiter les données dans un laps de temps raisonnable. Chaque jour, 2,5 quintillions d’octets de données sont créés. D’après l’IDC, le volume de contenu numérique dans le monde augmentera jusqu’à 8 milliards de téraoctets d’ici 2015. Ce qui rend la problématique posée par le Big Data aussi unique, c’est son aspect tridimensionnel : volume, rapidité et diversité (voir Figure 1). Figure 1. Qu’est-ce que le Big Data ? Volume Varieté Rapidité 8 milliards de téraoctets de données dans le monde d'ici 2015* Données structurées, non structurées et partiellement structurées Mises à jour de l'état des machines, diffusion en continu de données, etc. * Prévisions 2012 d'IDC : Competing for 2020, décembre 2011 Déploiement de QlikView pour les analyses Big Data chez King.com | Page 2 La problématique du Big Data va au-delà de la simple question du volume. Il s’agit également d’une opportunité de trouver des informations dans de nouveaux types émergents de données et de contenus, pour offrir davantage de flexibilité aux entreprises et pour pouvoir répondre à des questions qu’il n’était auparavant pas possible de prendre en compte. De nos jours, chaque entreprise cherche une solution pour tirer profit de cette opportunité. King.com n’y fait pas exception. Pour relever le défi, King.com a fait appel à QlikView, combiné à un système Big Data basé sur Hadoop, pour pouvoir identifier rapidement des informations dans le comportement des clients via leur utilisation des jeux. King.com a choisi QlikView en raison de sa technologie flexible et associative qui permet d’effectuer des analyses en un clin d’œil et en libre-service sur du Big Data. Autant de facteurs essentiels à la compétitivité et à la réussite de King.com. King.com est une entreprise dont le fonctionnement repose sur l’analyse. Les utilisateurs métier se basent sur les données pour prendre des décisions au quotidien. Ils travaillent dans différents domaines, qu’ils soient responsables de produit, responsables métier, responsables marketing, responsables publicitaires ou encore responsables du design des jeux ou du service clientèle. Au fur et à mesure que ces utilisateurs ont gagné en compréhension de la structure du Big Data et en maîtrise de celle-ci, leurs besoins en actions en libre-service sont devenus prépondérants. Ces actions leur permettent de modifier les associations et les générations de Big Data afin de bénéficier de nouvelles informations présentant des centaines de dimensions. C’est pour cette raison qu’une solution d’analyses pouvant traiter des volumes très importants de données en libreservice s’avérait nécessaire pour le service informatique. Sur King.com, les applications d’analyse QlikView contiennent des millions de lignes de données qui permettent aux utilisateurs métier de bénéficier de la valeur ajoutée générée par le Big Data. Même si King.com utilise plus de 100 applications QlikView quotidiennement pour les analyses de Big Data, certains services tirent profit de la facilité et de la rapidité du développement pour créer rapidement des applications « jetables » afin d’établir des prototypes. Les applications sont souvent d’abord développées à petite échelle, avant d’être déployées rapidement par la suite à l’échelle requise. Chez King.com, le service informatique a également bénéficié des capacités ETL (Extract, Transform and Load - Extraction, transformation et chargement) flexibles de QlikView. Mats-Olov Eriksson, architecte principal du système d’analyse chez King.com, explique comment le système utilise QlikView pour comprendre les relations entre les données dans le Big Data. « Nous utilisons QlikView pour faire des explorations lorsque l’extraction de données et les transformations sont conçues et vérifiées à partir du Big Data. L’éditeur de scripts associé aux pilotes ODBC des fournisseurs d’infrastructure MapR et Hive, nous permet de créer une portion substantielle de l’ETL dans les applications QlikView. Nous utilisons aussi QlikView Publisher comme outil pour planifier les chargements de données ainsi que pour gérer le système. » La présente étude de cas aborde les détails techniques concernant le déploiement de QlikView effectué par King.com pour analyser les données stockées dans son cluster Hadoop, où deux milliards de nouvelles lignes sont créées chaque jour. Déploiement de QlikView pour les analyses Big Data chez King.com | Page 3 La technologie associative unique et l’interface utilisateur interactive de QlikView ont permis aux utilisateurs métier non techniques de naviguer parmi la quantité volumineuse de données pour trouver celles qui les concernaient. Les utilisateurs métier de King.com peuvent chercher et analyser le Big Data comme ils le veulent. La solution a rapidement fourni des informations sur le comportement des clients et sur les 3 millions de parties auxquelles ils participent par mois au niveau mondial. Grâce à l’environnement QlikView de Business Discovery, les utilisateurs métier ont la possibilité d’analyser le comportement de jeu de 40 millions de clients afin de cibler de nouveaux jeux et de nouveaux clients. Grâce à QlikView, King.com a pu, pour la première fois, analyser le retour sur investissement de ses campagnes marketing. Par exemple, l’analyse permet de connaître l’intérêt pour les nouvelles offres de jeux. Les utilisateurs métier ont pu suivre et mesurer instantanément certains facteurs, tels que le nombre de joueurs, le nombre de parties et le temps de jeu. Détails techniques Pour stocker des quantités volumineuses de données relatives aux jeux et aux clients, King.com utilise une solution de Big Data basée sur Hadoop. Hadoop est une structure logicielle qui utilise un système de fichiers distribué (généralement HDFS) dans lequel les données sont stockées comme des fichiers unidimensionnels sur plusieurs nœuds. En règle générale, l’environnement Hadoop utilise des disques durs locaux et peu coûteux. Ils constituent une solution de stockage et de traitement de données bon marché. Hadoop fournit le framework MapReduce pour stocker et récupérer des données, ce qui représente l’une des limites principales à l’extraction des données à partir d’Hadoop. Pour chaque requête, un programme devait être développé à l’aide de la structure MapReduce. Dans la plupart des environnements Hadoop, Hive, un système d’entrepôt de données pour Hadoop, est utilisé pour l’exécution des requêtes ad hoc et l’analyse d’ensembles de données volumineux. L’infrastructure technique de King.com comprend des serveurs de jeux, des serveurs de journalisation, l’environnement Hadoop et l’environnement QlikView. Elle utilise un cluster de 14 nœuds pour héberger son environnement Hadoop. « Au fur et à mesure du développement des données, nous développerons l’infrastructure Hadoop », a déclaré Mats-Olov Eriksson. Chaque « événement » utilisateur est tout d’abord consigné localement sur les serveurs de jeux, puis les informations sont copiées toutes les heures sur un serveur de journalisation centralisé. Les fichiers du serveur de journalisation sont ensuite copiés dans l’environnement Hadoop et traités par les programmes MapReduce. Les données sont traitées toutes les heures et utilisées pour renseigner un tableau de bord limité générant différents KPI, tels que les installations de jeux, le chiffre d’affaires et les temps de jeu afin que les utilisateurs métier puissent disposer d’analyses presque en temps réel. Le traitement par lots principal en vue des analyses s’effectue quotidiennement pour créer les KPI et les vues agrégées dans HIVE. Le résultat est par la suite mis à disposition dans les applications QlikView pour réaliser l’analyse via un connecteur ODBC connecté à HIVE. Déploiement de QlikView pour les analyses Big Data chez King.com | Page 4 Figure 2. Traitement Big Data et création d’analyses 1 Serveur de jeux 1...n 2 3 4 5 6 7 8 L'utilisateur exécute l'action X L'action X est consignée sur le serveur Tous les fichiers journaux des serveurs sont copiés toutes les heures vers le serveur de journalisation Les données du serveur de journalisation sont lues par Hive Si nécessaire, des tableaux et des schémas sont créés Amélioration des données dans Hive Données brutes + données améliorées accessibles à des fins d'analyse L’environnement QlikView de King.com se compose de deux serveurs QlikView et de deux instances QlikView Publisher. Les serveurs QlikView sont répartis géographiquement et utilisent les instances QlikView Publisher pour distribuer des applications QlikView via les serveurs QlikView. L’un des serveurs se trouve à Londres et l’autre en Suède. Les instances QlikView Publisher servent également à planifier les extractions de données à partir de HIVE dans l’environnement QlikView, ainsi qu’à affiner les données destinées aux différentes applications QlikView. Déploiement de QlikView pour les analyses Big Data chez King.com | Page 5 Figure 3. Architecture de l’environnement de production QlikView Utilisateurs situés en Suède Utilisateurs situés à Londres Applications QlikView Applications QlikView Access Point Serveur QlikView en Suède Access Point Serveur QlikView à Londres Instances QlikView Publisher Active Directory Cluster Hadoop Déploiement de QlikView pour les analyses Big Data chez King.com | Page 6 Les défis liés aux analyses Le défi majeur en termes d’analyses auquel King.com a été confronté fut de créer un environnement de BI en libre-service pour ses utilisateurs métier. Ce défi s’est avéré particulièrement complexe de par le volume et la rapidité de son Big Data. L’utilisation d’Hadoop et de MapReduce a constitué une première pièce de la solution à ce défi. Le bénéfice réel recherché était de permettre aux utilisateurs métier de pouvoir accéder quotidiennement aux éléments du Big Data qui leur sont utiles pour pouvoir en extraire des informations. Les performances des requêtes a représenté un autre défi. Même si le système Hadoop utilisait HIVE pour interroger le Big Data, les performances étaient vraiment très lentes. En effet HIVE n’est pas conçu pour les charges OLTP et ne prend pas en charge les requêtes en temps réel. Le système de jeux de King.com génère deux milliards de lignes de données par jour, et ce volume va continuer à augmenter au fil du temps. Sur le plan des performances, il était donc crucial de pouvoir analyser les données sans perturber la charge des jeux. Il était également nécessaire de disposer d’un système d’analyse et de génération de rapports simple pour que les équipes de développement de jeux de King.com puissent se trouver sur des sites différents de celui du développement de la plate-forme. Pour finir, en raison de la croissance rapide de l’activité, les besoins en termes d’analyse étaient plus que jamais sophistiqués. Il fallait donc pouvoir conjuguer performances rapides et disponibilité des données pour les requêtes et analyses complexes. Pour le service informatique, l’objectif était donc de pouvoir fournir aux utilisateurs métier des analyses en libre-service tout en leur proposant une expérience exceptionnelle qui les inciterait à revenir pour en profiter davantage. Les utilisateurs métier souhaitaient pouvoir explorer les données par eux-mêmes, et les recouper ou les séparer par le biais de permutations des centaines de dimensions disponibles dans le Big Data. Solution King.com a choisi la plate-forme QlikView de Business Discovery en raison de sa technologie associative unique et de son interface utilisateur interactive qui permettent aux utilisateurs métier de naviguer quotidiennement parmi la quantité volumineuse de données de jeux pour trouver celles dont ils avaient besoin. Grâce à QlikView, les utilisateurs métier peuvent naviguer et interagir avec le Big Data à leur gré. Ils ne sont pas limités par des protocoles prédéfinis des requêtes HIVE. Plus important encore, grâce à la fonction associative unique de QlikView, ils sont à même de réellement visualiser les liens existants dans le Big Data et de tirer profit de toutes les dimensions du Big Data en réalisant différentes combinaisons au cours de l’analyse. La solution permet également d’effectuer des analyses ultra rapides du Big Data de King.com. Étant donné que QlikView conserve en mémoire toutes les données nécessaires pour l’analyse, les utilisateurs métier peuvent explorer immédiatement les éléments appropriés du Big Data. Ces utilisateurs ne patientent pas du tout car QlikView réalise les calculs nécessaires pour effectuer l’analyse demandée sur le Big Data. Déploiement de QlikView pour les analyses Big Data chez King.com | Page 7 Chaque jour, des données agrégées sont extraites de l’environnement Hadoop vers l’environnement QlikView. Auparavant, l’utilisateur métier n’était pas tenu, aux fins d’analyse, d’extraire chaque niveau d’enregistrement des données stockées dans Hadoop. Cet utilisateur sait qu’il bénéficie maintenant de données agrégées représentent de façon fiable l’intégralité d’un ensemble de données dans Hadoop car le niveau d’agrégation principal correspond au canal marketing. Les définitions de canal du service marketing de King.com sont très granulaires. Elles regroupent les joueurs en fonction des permutations des dimensions géographiques. La granularité présente dans les canaux marketing réduit l’impact statistique de l’effet d’agrégation. L’agrégation a également pour but de garantir la cohérence des différentes analyses en raison de la grande rapidité des données. King.com a créé de nombreuses applications QlikView avec différents niveaux d’agrégation des données. Elles proposent une expérience de Business Discovery complète aux utilisateurs métier. Dans chaque application QlikView, différents niveaux de données sont utilisés, ce qui permet aux utilisateurs métier de bénéficier d’une granularité des analyses pour répondre aux questions métier toujours plus détaillées. La solution de Business Discovery a apporté de la flexibilité analytique aux utilisateurs métier qui peuvent, pour la première fois, analyser le retour sur investissement des campagnes marketing, mesurer le chiffre d’affaires moyen quotidien par utilisateur, les taux de conservation le deuxième jour en continu, les utilisateurs actifs au quotidien et pendant le mois, et encore bien d’autres KPI en de nombreuses dimensions. Avant de mettre QlikView en œuvre, les ingénieurs marketing demandaient aux développeurs de jeux d’écrire des scripts dans le but de suivre, par exemple, le nombre de parties jouées par canal. Toutefois, cette solution n’était pas durable. C’est pour cette raison que King.com a décidé de chercher une solution qui répondrait à ses besoins en Big Data, ainsi qu’aux besoins de ses nombreux services et utilisateurs métier. Après la sélection de la solution QlikView, la première application était en production en moins d’une semaine. D’après Mats-Olov Eriksson à propos du retour sur investissement, « La mise en œuvre de QlikView a coûté 20% moins cher que les autres solutions. La rentabilisation s’est faite en seulement quelques mois ». « Un autre avantage majeur de l’utilisation de QlikView est la capacité à extraire les données de différentes sources », poursuit-il. QlikView a permis d’appliquer des métadonnées personnalisées en tant que tables externes de différentes sources et de les utiliser avec le Big Data extrait du système Hadoop. Selon Mats-Olov Eriksson, le modèle de données associatif de QlikView et sa capacité à extraire et à fusionner les données provenant de différentes sources ont permis à son équipe de business intelligence de travailler au quotidien avec les métadonnées. Mats-Olov Eriksson a insisté sur l’importance des métadonnées lors de l’analyse du Big Data. « QlikView nous a permis d’ajouter de nouvelles métadonnées externes de regroupement et d’améliorer la nomenclature du Big Data en nous contentant toujours de charger des données dans les applications QlikView. Au cours des chargements de données, QlikView associe automatiquement au Big Data d’Hadoop les métadonnées stockées dans un système distinct. Nous disposons ainsi d’une grande flexibilité car nous pouvons changer et ajouter les informations des métadonnées sans devoir effectuer aucune modification dans le système Hadoop. QlikView procède à la fusion des nouvelles métadonnées avec le Big Data », a-t-il déclaré. Déploiement de QlikView pour les analyses Big Data chez King.com | Page 8 Conclusion Pour prendre des décisions éclairées, les analystes et les utilisateurs métier de King.com devaient en permanence faire preuve d’imagination pour accéder, filtrer et analyser de façon efficace le très gros volume de données relatives aux jeux. La mise en œuvre de la solution Hadoop a permis de répondre au défi que représentaient le stockage et le traitement efficaces du Big Data. Toutefois, la mise à disposition des données posait toujours problème, jusqu’au déploiement de QlikView. La technologie associative unique et l’interface utilisateur interactive de QlikView ont permis aux utilisateurs métier de se repérer dans cet important volume de données pour trouver les informations dont ils avaient besoin. Les utilisateurs métier de King.com peuvent chercher et analyser le Big Data comme ils le veulent. La solution a rapidement mis en lumière des informations sur les comportements des clients au cours des 3 milliards de parties jouées par mois sur le plan mondial. Grâce à l’environnement QlikView de Business Discovery, les utilisateurs métier ont la possibilité d’analyser le comportement de jeu de 40 millions de clients afin de cibler de nouveaux jeux et de nouveaux clients. La solution QlikView a permis, pour la première fois, d’atteindre l’équilibre en termes de retour sur investissement des campagnes marketing. Les utilisateurs métier ont pu analyser et mesurer des métriques telles que le nombre de joueurs, le nombre de parties jouées, le temps de jeu, le chiffre d’affaires moyen quotidien par utilisateur, les taux de conservation le deuxième jour en continu, les utilisateurs actifs au quotidien et pendant le mois, et encore bien d’autres KPI en de nombreuses dimensions. Grâce à la flexibilité des capacités d’ETL de QlikView, le service informatique a pu comprendre la structure du Big Data. Avec QlikView, l’équipe de business intelligence de King.com a pu travailler au quotidien avec les métadonnées. L’optimisation du modèle de données associatives de QlikView a permis de charger les informations des métadonnées externes dans le Big Data et de les y fusionner. Le processus simplifié de classification du Big Data a permis à l’équipe de fournir les éléments appropriés du Big Data aux groupes d’utilisateurs métier concernés. Déploiement de QlikView pour les analyses Big Data chez King.com | Page 9 Références QlikView et le Big Data http://www.qlikview.com/us/explore/resources/whitepapers/qlikview-and-big-data Big Data au service des promotions pour les professionnels http://www.qlikview.com/us/explore/resources/whitepapers/big-data-meets-tradepromotions Intégration QlikView - Google BigQuery http://www.qlikview.com/us/explore/resources/whitepapers/qlikview-googlebigquery-integration Mémoire technique de l’architecture de développement et de déploiement de QlikView www.qlikview.com/.../global-us/direct/datasheets/DS-Technical-Brief-Dev-andDeploy-EN.ashx Mémoire technique de l’architecture QlikView et de son utilisation des ressources système www.qlikview.com/.../DS-Technical-Brief-QlikView-Architecture-and-SystemResource-Usage-EN.ashx © 2012 QlikTech International AB. Tous droits réservés. QlikTech, QlikView, Qlik, Q, Simplifying Analysis for Everyone, Power of Simplicity, New Rules, The Uncontrollable Smile et d’autres produits et services QlikTech, ainsi que leurs logos respectifs, sont des marques, déposées ou non, de QlikTech International AB. Toutes autres dénominations de sociétés, ainsi que tous autres noms de produits et de services utilisés dans ce document, sont des marques, déposées ou non, de leurs propriétaires respectifs. Les informations publiées dans les présentes sont susceptibles de modification sans préavis. Cette publication est exclusivement à des fins d’information, sans déclaration ni garantie d’aucune sorte, et QlikTech ne sera, à cet égard, responsable d’aucune erreur ni omission. Les seules garanties se rapportant à des produits et services QlikTech sont celles stipulées dans les notices de garantie expresse accompagnant, le cas échéant, lesdits produits et services. Rien dans les présentes ne doit être interprété comme constituant une quelconque garantie supplémentaire. Déploiement de QlikView pour les analyses Big Data chez King.com | Page 10