Retours d`expériences Big Data en entreprise

Commentaires

Transcription

Retours d`expériences Big Data en entreprise
REX
Retours d’expériences Big Data en entreprise
www.bigdataparis.com
by
Retours d’expériences Big Data en entreprise
SOMMAIRE
ACCENTURE - E-COMMERCE . . . . . . . . . . . . . 3
ACCENTURE - MEDIA. . . . . . . . . . . . . . . . . . . . 3
ACCENTURE - COMMERCIAL PROPERTY. . . . 5
ACCESS INSIGHT - RENAULT . . . . . . . . . . . . . 7
ATOS - MÉTÉO-FRANCE. . . . . . . . . . . . . . . . . . 9
ATOS - ORANGE BUSINESS SERVICES . . . . 10
ATOS - STADE TOULOUSAIN. . . . . . . . . . . . . 10
BAKAMAP - CCI. . . . . . . . . . . . . . . . . . . . . . . . 12
BIME - WEEKENDESK. . . . . . . . . . . . . . . . . . . 13
CAPGEMINI - CLOUDERA. . . . . . . . . . . . . . . . 14
COMPLEX SYSTEMS - TELE SHOPPING. . . . 16
COUCHBASE - AMADEUS. . . . . . . . . . . . . . . . 19
CRAY - INSTITUTE FOR SYSTEMS
BIOLOGY. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
CSC - HGST. . . . . . . . . . . . . . . . . . . . . . . . . . . 22
CSC - ASSURANCES AUTO . . . . . . . . . . . . . . 23
CSC - VOYAGISTE ONLINE . . . . . . . . . . . . . . 24
DATA PUBLICA - CEGID . . . . . . . . . . . . . . . . . 26
DATA PUBLICA - CCI PARIS . . . . . . . . . . . . . . 26
DATA PUBLICA - B-POST . . . . . . . . . . . . . . . . 27
DATAIKU - BLABLACAR . . . . . . . . . . . . . . . . . 28
DATAIKU - CHRONOPOST . . . . . . . . . . . . . . . 29
DATAIKU - CITYVOX. . . . . . . . . . . . . . . . . . . . 30
DATAIKU - PAGESJAUNES. . . . . . . . . . . . . . . 31
DATAIKU - PARKEON . . . . . . . . . . . . . . . . . . . 32
DELL - DANSKE BANK . . . . . . . . . . . . . . . . . . 33
DELTAMU - SANOFI-PASTEUR. . . . . . . . . . . . 35
DELTAMU - TRAITEMENT THERMIQUE . . . . . 35
HP - AT&T . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
HP - BLABLACAR . . . . . . . . . . . . . . . . . . . . . . 38
HP - METROPOLITAN POLICE
DE LONDRES . . . . . . . . . . . . . . . . . . . . . . . . . 39
INFORMATICA - WESTERN UNION. . . . . . . . . 41
MAPR - ANCESTRY.COM . . . . . . . . . . . . . . . . 43
MAPR - COMSCORE. . . . . . . . . . . . . . . . . . . . 44
MARKLOGIC - DE GRUYTER . . . . . . . . . . . . . 45
MARKLOGIC - ELSEVIER. . . . . . . . . . . . . . . . 46
MARKLOGIC - HEALTHCARE.GOV. . . . . . . . . 49
MARKLOGIC - OXFORD UNIVERSITY
PRESS. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
MARKLOGIC - PRESS ASSOCIATION. . . . . . . 56
MARKLOGIC - REED BUSINESS
INFORMATION - 4D CONCEPT. . . . . . . . . . . . 57
MARKLOGIC - RSC. . . . . . . . . . . . . . . . . . . . . 59
MICROPOLE - L’OBS. . . . . . . . . . . . . . . . . . . . 62
MICROSOFT - PIER IMPORT . . . . . . . . . . . . . 63
MICROSOFT - THYSSENKRUPP. . . . . . . . . . . 63
MICROSOFT - CARNEGIE. . . . . . . . . . . . . . . . 64
MONGO DB - BOSCH . . . . . . . . . . . . . . . . . . . 67
MONGO DB - METLIFE. . . . . . . . . . . . . . . . . . 68
MONGO DB - OTTO. . . . . . . . . . . . . . . . . . . . . 70
MONGO DB - WEATHER CHANNEL. . . . . . . . 72
NEO4J - EBAY. . . . . . . . . . . . . . . . . . . . . . . . . 74
NEO4J - GAMESYS. . . . . . . . . . . . . . . . . . . . . 75
NEO4J - GLASSDOOR . . . . . . . . . . . . . . . . . . 76
NEO4J - SNAP INTERACTIVE. . . . . . . . . . . . . 77
NEO4J - TELENOR . . . . . . . . . . . . . . . . . . . . . 78
NEO4J - WALMART. . . . . . . . . . . . . . . . . . . . . 79
SAP - MOBILINK . . . . . . . . . . . . . . . . . . . . . . . 80
SAP - COX. . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
SAP - BELGACOM. . . . . . . . . . . . . . . . . . . . . . 81
SAP - BANGLALINK DIGITAL
COMMUNICATIONS. . . . . . . . . . . . . . . . . . . . . 82
SAP - VODAFONE. . . . . . . . . . . . . . . . . . . . . . 82
SAP - XL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
SAP - AVIVA. . . . . . . . . . . . . . . . . . . . . . . . . . . 83
SAP - ELDORADO. . . . . . . . . . . . . . . . . . . . . . 84
SAP - SAMSE . . . . . . . . . . . . . . . . . . . . . . . . . 85
SAP - HSE24. . . . . . . . . . . . . . . . . . . . . . . . . . 86
SAP - MONEXT . . . . . . . . . . . . . . . . . . . . . . . . 86
SAP - AMERICAN AUTOMOBILE
ASSOCIATION. . . . . . . . . . . . . . . . . . . . . . . . . 87
SAP - SKYROCK. . . . . . . . . . . . . . . . . . . . . . . 87
SAP - COOPERATIVA ITALIANA DI
RISTORAZIONE. . . . . . . . . . . . . . . . . . . . . . . . 88
SAP - TIPP24.COM . . . . . . . . . . . . . . . . . . . . . 89
SAP - KAESER KOMPRESSOREN . . . . . . . . . 89
SAP - EBAY. . . . . . . . . . . . . . . . . . . . . . . . . . . 90
SAS - SANTIANE. . . . . . . . . . . . . . . . . . . . . . . 92
SAS - ELFE/INED . . . . . . . . . . . . . . . . . . . . . . 93
SAS - UTAC-OTC. . . . . . . . . . . . . . . . . . . . . . . 95
SAS - BANK OF AMERICA. . . . . . . . . . . . . . . . 96
SAS - FRAPORT . . . . . . . . . . . . . . . . . . . . . . . 98
SAS - MACY’S. . . . . . . . . . . . . . . . . . . . . . . . . 99
SAS - NESTLÉ. . . . . . . . . . . . . . . . . . . . . . . . . 100
SAS - RABOBANK. . . . . . . . . . . . . . . . . . . . . . 102
SAS - TELECOM ITALIA. . . . . . . . . . . . . . . . . . 103
SENTELIS - ASSURANCE MUTUELLE . . . . . . 105
SENTELIS - CRÉDIT À LA
CONSOMMATION . . . . . . . . . . . . . . . . . . . . . . 106
SENTELIS - MUTUELLE D’ASSURANCE . . . . 107
SENTELIS - ÉNERGIE. . . . . . . . . . . . . . . . . . . 108
SENTELIS - JEUX EN LIGNE. . . . . . . . . . . . . 110
SENTELIS - EDITEUR SOFTWARE. . . . . . . . . 110
SOFT COMPUTING. . . . . . . . . . . . . . . . . . . . . 113
SYNCSORT - SFR. . . . . . . . . . . . . . . . . . . . . . 115
SYNCSORT - PAGESJAUNES. . . . . . . . . . . . . 115
SYNCSORT - TÉLÉCOMS, MÉDIAS,
ENTERTAINMENT. . . . . . . . . . . . . . . . . . . . . . 116
TABLEAU SOFTWARE - BNP PARIBAS. . . . . . 118
TABLEAU SOFTWARE - CROIX ROUGE. . . . . 119
TABLEAU SOFTWARE - ISCOOL . . . . . . . . . . 120
TABLEAU SOFTWARE - NOKIA. . . . . . . . . . . . 122
TABLEAU SOFTWARE - PHARMASECURE . . 123
TABLEAU SOFTWARE - SKYROCK. . . . . . . . 124
TALEND - LENOVO. . . . . . . . . . . . . . . . . . . . . 126
TALEND - BUFFALO . . . . . . . . . . . . . . . . . . . . 126
VELVET - PAIEMENT. . . . . . . . . . . . . . . . . . . . 129
VELVET - TELECOM . . . . . . . . . . . . . . . . . . . . 129
YSANCE - ARKENA. . . . . . . . . . . . . . . . . . . . . 130
YSANCE - ANOVO. . . . . . . . . . . . . . . . . . . . . . 131
Document réalisé par la Société Corp Events - Janvier 2015
2
Retours d’expériences Big Data en entreprise
ACCENTURE - E-COMMERCE
ACCENTURE’S IMPLEMENTS PATENTED DIGITAL OPTIMIZATION (ADO)
& ACCENTURE RECOMMENDATION ENGINE (ARE) SOLUTIONS HELP
SUSTAIN HIGH GROWTH AND MAXIMIZE SHAREHOLDER VALUE
CLIENT PROFILE
A leader China’s B2C e-commerce portals with 35% market share, and growing at 200% annually. The Company
was exploring alternative growth areas, beyond category expansion.
BUSINESS CHALLENGE
The currently recommended system’s was below industry benchmarks. Especially in contribution to sales.
Over a given week, many changes were applied to the website, but there was no good way to measure its ROI.
Each web-page change was slow and not many were tested each time.
The client had over 2 million unique SKUs, 20 million registered users, 1 million transactions per day and up to 3
billion page views per month. For this reason, it needs to optimize its data management, processes and system.
HOW ACCENTURE HELPED
Derived insight from the data and identified links between data that drive conversion from recommendations.
Identified key data drivers including transactional data (product, customer and purchase history) as well as behavioral data (browser behavior, search data, page views), in order to increase the richness of data analysis.
Accenture’s patented Recommendation Engine (ARE) was implemented. This combine multiple machine learning
techniques (basket analysis, collaborative filtering, nearest neighbour) for different scenarios to optimize recommendation efficiency. The Patented Digital Optimization (ADO) solution was implemented in order to maximize
webpage presentation and online marketing at scale. This industrialized multi-variable testing solution allowed
thousands of design variations to be tested.
HIGH PERFORMANCE DELIVERED
Machine learning algorithms improved using ARE.
Number of users given irrelevant product recommendations minimized
Conversion rates increased.
This recommendation outperformed the clients internally recommended engine by up to an estimated 30%, which
translated into increased revenue initially estimated to be up to $100 million per year and expected to grow over
time. The solution also enabled segment-based testing, which increased efficiency of testing at such a large volume of traffic. This optimization experience delivered a substantial CVR uplift and estimated revenue uplift of about
$200 million per year.
ACCENTURE - MEDIA
HIGH-PERFORMANCE CUSTOMER ANALYTICS WITH A MAJOR PLAYER
IN EUROPE: INSIGHT CREATES COMPETITIVE ADVANTAGE
FOR TV OPERATOR
CLIENT PROFILE
This media client is a leading pay television service operator in Europe transmitting live programs and video-ondemand via cable, satellite, digital terrestrial television and broadband.
The company has 6 million customers, representing nearly 12 million contracts, including more than 4 million customers receiving hundreds of channels.
Document réalisé par la Société Corp Events - Janvier 2015
3
Retours d’expériences Big Data en entreprise
BUSINESS CHALLENGE
Customer churn was rising, partly due to the global economic slump, a corresponding reduction in consumer discretionary income and diminished usage of its pay channels. Free-of-charge TV channels increased their market
share, and Internet service providers launched competing video-on-demand services.
Limited knowledge of customers inhibited long-term growth in the digital era. Customer surveys failed to dig far
beyond generalities such as household size, preferred program type and equipment. As a result, customer campaigns tended to be broad in scope and relatively expensive to implement.
Digitalization and a widening array of viewing devices - including tablets, mobile phones and Web TV -offered huge
opportunities to collect data on usage by household. Web-based giants such as Amazon, Facebook and others
understood this trend and built up customer loyalty by offering tailored suggestions based on analyses of online
interactions. Using customer analytics, virtually every interaction with media player services can be added to a
continually updated log and analyzed for insight.
To compete more effectively, our media customer launched a large-scale program on usage and services statistical
analysis. Extensive sources of data knowledge could be gathered to develop insights for improved services. Their
executives turned to us for assistance with customer and marketing analytics, all aligned with high performance.
HOW ACCENTURE HELPED
Accenture helped its client to define the project, outline the multi-year plan in successive phases, shape the technology solutions, build prototypes, promote these within the organization and monitor the gains.
The project was launched through a proof-of-concept phase, based on a sample of 100,000 customers. Accenture
Interactive organized a pilot for each initiative to gauge potential return on investment.
The project leverages TV digitalization and the ability to gather data per household on television activity, such as
switching channels, use of services, multi-screen usage and so on. One hundred million logs are collected daily,
providing a strong foundation to:
Build new insights: who watches Cable News Network, or do CNN viewers also watch other information channels?
Optimize marketing campaign efficiency: a complete set of usage indicators, calculated at the subscriber level, is
used to refine targets.
Viewing Recommendations, an innovative recommendation engine, integrates statistical analysis of usage and
services data with internal and external evaluations of programs and movies. Accenture developed a unique algorithm to identify “best for you” programs by combining viewer habits and discovery. Each new recommendation
engine release is validated by prototypes, is beta-tested and verified on customer samples. Using business rules
- such as a customer’s preferred themes, or the likelihood of discovering something new he or she would like – the
engine offers a tailored selection of TV programs every evening for each household.
The recommendation engine is embedded within applications, including the electronic TV program guide, customer Website, newsletters, and call-center scripts.
HIGH PERFORMANCE DELIVERED
In an increasingly competitive media market, Accenture has worked closely with its client over four years, contributing to reduced churn, increased customer satisfaction and restoration of the company’s reputation for innovation.
Robust capabilities translate customer preferences into strategies to reduce churn (churn is two percent less
among recommendation engine users), improve service and boost revenue.
Today, the statistical analysis of usage and services project is:
More than 200 key usage indicators per customer, which are used to personalize 40% of marketing campaigns
and newsletters
25 million personal recommendations calculated daily
Helping boost TV consumption among recommendation engine users, which is up more than 20%
More than 2.5 million of our client’s households are expected to enjoy the capabilities of personalized viewing
recommendations in 2013, with a forecast of 3 million by the end of 2014.
“Our recommendation engine goes a step beyond Google” in the words of the media client’s Chief Executive Officer. “Our customers don’t have to seek because our tool anticipates their needs and suggests appealing programs”.
Customer analytics capabilities continue to be refined throughout the media client’s organization, with additional
features offered to millions of subscribers. In addition, the growing base of detailed information about viewing preferences has become an asset in itself that can be monetized and sold to other businesses.
Document réalisé par la Société Corp Events - Janvier 2015
4
Retours d’expériences Big Data en entreprise
ACCENTURE - COMMERCIAL PROPERTY
HIGH-PERFORMANCE BIG DATA ANALYTICS IN SHOPPING MALLS:
BIG DATA IMPROVES KEY BUSINESS DECISIONS FOR COMMERCIAL
PROPERTY COMPANY
CLIENT PROFILE
The client is one of the leading commercial property companies in the world.
BUSINESS CHALLENGE
In a shopping mall, the last touch points with customers are stores. Due to its central position in the customer
journey, the shopping mall can only manage to improve the journey from the entrance of the mall to the entrance of
the shops. Therefore, the choice of stores and their location inside the shopping mall are key business decisions.
Previously, the Client made rent calculations and decisions for store renewals based on financial performance.
Operational performance measures data, such as customer traffic, were used as well but lacked precision and
insights. As a result, a large portion of the operational value of the shopping mall was misunderstood.
Wi-Fi data was a great opportunity for shopping malls. By tracking customer devices, one million logs per day and
day per mall could be used to follow traffic more precisely. Coupled efficiently with stores’ financial performance,
this massive amount of data gives a better picture of their true performance. This commercial property company
asked Accenture to process all Wi-Fi tracking data to follow traffic in the shopping mall and link it with all existing
data in order to better assess the true value of its stores and make the right business decisions.
HOW ACCENTURE HELPED
Accenture helped the commercial property company by launching Wi-Fi traffic tracking and creating value from this
Big Data. Insightful key performance indicators were developed in two malls through a pilot phase.
By combining new and existing data, the shopping malls were able to:
Make better store renewal decisions: by understanding which stores create/consume traffic for/from other stores
and identifying the best performers (in terms of sales and traffic) to decide which stores will stay or be relocated
Identify new potential tenants: by knowing the customers and their journey in the shopping malls and using traffic
synergies between stores. Estimate the rental value of stores more accurately: by putting stores’ financial results
into perspective with their operational performance to improve area pricing Make better marketing investments: by
evaluating the return on investment of different marketing events.
HIGH PERFORMANCE DELIVERED
Accenture worked closely with the commercial property company during the one-year pilot phase to leverage the
maximum value from the Data:
10 sources of data were combined
180 million logs were analyzed
6 data quality algorithms were implemented
… through a Big Data environment:
Cloud-based Hadoop platform
Tableau, html and iPad reports
R, Python, Quantum JS
The project has already improved the key business decisions of the shopping malls: for instance, two undefined
renewal decisions were resolved much faster and the variety of the stores was maintained because of the new
insights. New pricing estimates could improve the rental value of the two pilot shopping malls by several million
euros. Big Data Analytics was quickly integrated in the two pilot shopping malls with noticeable results and would
be improved by extending the analysis to new shopping malls with new data and insights for consistently faster
and better business decisions.
Document réalisé par la Société Corp Events - Janvier 2015
5
Retours d’expériences Big Data en entreprise
CONTACT
Jean-David Benassouli : Managing Director Digital & Analytics
[email protected]
Clara Landry : Digital Marketing Associate Manager
[email protected]
ABOUT ACCENTURE
Accenture is a global management consulting, technology services and outsourcing company, with approximately
319,000 people serving clients in more than 120 countries. Combining unparalleled experience, comprehensive
capabilities across all industries and business functions, and extensive research on the world’s most successful
companies, Accenture collaborates with clients to help them become high-performance businesses and governments. The company generated net revenues of US$30.0 billion for the fiscal year ended Aug. 31, 2014. Its home
page is www.accenture.com.
Document réalisé par la Société Corp Events - Janvier 2015
6
Retours d’expériences Big Data en entreprise
ACCESS INSIGHT - RENAULT
CASE STUDY RENAULT : CONSTRUCTEUR AUTOMOBILE DE RÉFÉRENCE
Constructeur automobile Français de référence, Renault a vendu plus de 2,6 millions de véhicules en 2013, un
chiffre en hausse de 3,1% comparativement à 2012. Très présent sur le marché des particuliers, le constructeur
répond également avec brio aux besoins actuels des entreprises (moteurs compétitifs en terme de consommation
et de fiscalité, pertinence des offres utilitaires) ce qui lui a valu d’être classé numéro un des ventes sur ce secteur.
«En un instant, nous avons rendu la démarche de prospection de nos vendeurs interactive»
Jean-Louis Wiedemann : Chef de service Marketing Ventes - Flottes et Véhicules Utilitaires
LE CHALLENGE
Le service Marketing Flotte Entreprise acquiert régulièrement des données publiques stratégiques concernant le
marché automobile Français. Compilées à d’autres sources de données possédées par Renault sur son marché
cible, ces informations regorgent d’opportunités à identifier et à exploiter.
Mais un problème se pose : comment croiser et retranscrire ces données de façon simple et interactive à leurs
équipes opérationnelles ? Renault se met donc à la recherche d’un outil qui permettrait à ses équipes commerciales et marketing non seulement de pouvoir accéder à ces informations de façon instantanée et en toute
autonomie mais aussi de pouvoir interagir avec les données.
L’accès aux données aura deux buts principaux :
1) Permettre aux vendeurs du réseau de concessionnaires et managers grands comptes d’avoir une vision précise de la part de marché de Renault sur leur secteur et de la façon de l’accroitre. Ces informations permettront
d’optimiser l’effort commercial et de préparer un argumentaire sur mesure.
Pour se faire, l’outil devra permettre de pouvoir « zoomer » en profondeur sur chaque secteur et entreprise pour
révéler toutes les informations au moment voulu.
2) Permettre aux services marketing nationaux ou régionaux d’accéder à une vue globale du marché et des
performances de Renault (part de marché par secteur, taux facilement des campagnes ciblées qui répondent aux
attentes des performances commerciales. La solution devra être interactive et permettre de donner non seulement
une vision globale de la situation du marché mais également une vision précise par secteur et même par commune pour chaque manager. «La démonstration de l’outil en interne a eu un réel succès. D’autres services ont
immédiatement imaginé se servir d’Access Insight pour leurs projets »
Jean-Louis Wiedemann : Chef de service Marketing Ventes Flottes et Véhicules Utilitaires
LE CHOIX
Renault était déjà équipé de nombreuses solutions de Business Intelligence. Cependant, Access Insight s’est
présenté comme le choix le plus judicieux pour ce type de projet de tableaux de bord accessibles en réseau par
un grand nombre d’utilisateurs.
L’outil s’est également distingué des autres car il permettait une mise en place rapide avec un démarrage en
mode SaaS, ne nécessitant pas d’interventions majeures de la part du service IT.
LA SOLUTION
Pour répondre aux besoins de Renault, Access France a présenté au service marketing sa solution de tableaux
de bord interactifs et collaboratifs, Access Insight. Afin de permettre une mise en place rapide de la solution,
Renault a choisi d’utiliser la solution dans le « Cloud »
Document réalisé par la Société Corp Events - Janvier 2015
7
Retours d’expériences Big Data en entreprise
IMPLÉMENTATION
« En deux semaines nous avons délivré une première version opérationnelle, en intégrant les données
d’immatriculation achetées par Renault et en réalisant les premiers tableaux de bord pour que l’équipe marketing
France de Renault puisse les tester » Matthieu Chabeaud, Directeur Commercial Access France
LES RÉSULTATS
Une détection immédiate des opportunités pour les vendeurs du réseau L’accès à des informations précises
sur les entreprises de leur secteur permet aux vendeurs d’identifier en un instant lesquelles sont susceptibles de
renouveler leur flotte ou peuvent être intéressées par de nouveaux véhicules. Bien informés, les commerciaux se
concentrent ainsi sur l’essentiel.
Un argumentaire ciblé : les commerciaux savent exactement quels arguments adopter face à leurs prospects. Les
tableaux de bord leur permettent de pouvoir se préparer en conséquence et d’identifier les opportunités en filtrant
et creusant dans les données.
Un accès instantané à des analyses du marché pour le marketing : Alors que l’accès à des analyses poussées du
marché prenait un temps non acceptable avant le début du projet, le service marketing accède maintenant aux
informations clés sur l’ensemble de ses cibles en un instant et peut planifier plus.
Fort du succès rencontré par l’outil au sein des différents services, Renault prévoit d’étendre cette utilisation.
POST-IMPLEMENTATION
Plus de 600 chefs des ventes et managers grands comptes utilisent à ce jour la solution Access Insight.
de pénétration par rapport aux concurrents, caractéristiques de la flotte des entreprises…). Toutes ces informations permettront une connaissance optimale des entreprises et un ciblage précis. Un message adapté répondant
presque à coup sûr aux besoins de chaque segment pourra facilement être établi.
RÉSUMÉ
Access Insight permet au service marketing et commercial de Renault entreprise une vue instantanée sur ses
performances, sur le marché et sur ses cibles. L’outil permet non seulement une vision globale mais également
une vision par secteur et par prospect ou client pour une préparation optimale des argumentaires commerciaux.
Un avantage concurrentiel non négligeable pour Renault.
Avant la mise en place d’Access Insight, les vendeurs avaient accès à des listings de prospections basiques crées
à la demande par le service marketing. Aujourd’hui grâce à Access Insight, ils ont directement accès à des informations précises sur les entreprises les plus pertinentes, susceptibles d’acquérir des véhicules ou de renouveler
leur flotte.
A PROPOS D’ACCESS INSIGHT
La solution de business intelligence nouvelle génération d’Access permet aux décisionnaires d’analyser rapidement les performances de leur activité, d’identifier les problèmes et de déceler les opportunités en temps réel. Son
coté “user-friendly”, son interface mobile, ses fonctions collaboratives et ses performances font de la solution un
outil adapté aux besoins actuels des utilisateurs.
Document réalisé par la Société Corp Events - Janvier 2015
8
Retours d’expériences Big Data en entreprise
ATOS - MÉTÉO-FRANCE
MÉTÉO-FRANCE CHOISIT LA NOUVELLE GÉNÉRATION
DE SUPERCALCULATEURS BULL, MARQUE TECHNOLOGIQUE
DU GROUPE ATOS, D’UNE PUISSANCE CRÊTE TOTALE DE PLUS
DE 5 PÉTAFLOPS À L’HORIZON 2016
Météo-France développe et utilise un système de collectes de données météorologiques temps réel, mises à jour
toutes les heures pour alimenter ses systèmes de modélisation et ainsi piloter et suivre les évolutions climatiques
et les risques liés à la météo en vue d’informer et de protéger les citoyens, les industriels, les agriculteurs…
Ce système a une double mission : les prévisions météorologiques quotidiennes et la recherche sur le climat.
LES OBJECTIFS DE MÉTÉO FRANCE
• Améliorer et rendre plus précises les prévisions et la localisation des phénomènes météorologiques pour une
prévention des risques plus efficace et de meilleure qualité, pour plus de sécurité au quotidien.
• Diversifier l’offre de services de Météo France : prévisions court terme, définition de nouveaux marchés et de
nouveaux supports de diffusion de l’information météo.
LA SOLUTION D’ATOS :
• Système 12 fois plus puissant que le système précédent
• Architecture évolutive : la puissance système peut être multipliée par 3
• Supercalculateur conçu pour une efficacité énergétique optimale: consommation électrique optimisée, empreinte
carbone réduite grâce à une technologie de refroidissement innovante.
LE PROJET
Les supercalculateurs sont installés à Toulouse. Dotés d’un système de refroidissement innovant ultra performant,
équipés des processeurs Intel® Xeon® de dernière génération, les supercalculateurs bullx livrent actuellement
une puissance de calcul d’environ 1 Petaflops, puis à l’horizon 2016, une performance totale dépassant 5 Petaflops. Cette augmentation des moyens de calcul de Météo-France se double d’une évolution technologique importante : le passage de la technologie vectorielle à la technologie scalaire qui repose sur les standards du marché et
permet de fournir une puissance de calcul parallèle nettement supérieure, pour un TCO moindre.
POURQUOI ATOS ET LES TECHNOLOGIES BULL ?
Le choix de Météo-France souligne le savoir-faire développé par Atos en matière de parallélisation des codes applicatifs utilisés dans les domaines de la météorologie et des sciences du climat. Une plus grande parallélisation
est essentielle pour l’utilisation optimale des nouvelles machines scalaires. Elle exige une évolution indispensable
des codes de calcul qui représente en elle-même un grand challenge, auquel sont confrontés tous les instituts
météorologiques dans le monde.
« Atos est fier du choix de Météo-France pour nos plus récents et nos plus puissants supercalculateurs bullx. » déclare Philippe Vannier, Vice-Président Exécutif d’Atos, Big Data & Security. « Le choix de Météo-France confirme
la capacité d’Atos, appuyé par ses technologies Bull, à aider les grandes organisations dans la modernisation de
leurs infrastructures de calcul, dans les domaines vitaux pour la société et stratégiques pour les États que sont
aujourd’hui la prévision météorologique et l’étude du climat » conclut Philippe Vannier.
Document réalisé par la Société Corp Events - Janvier 2015
9
Retours d’expériences Big Data en entreprise
ATOS - ORANGE BUSINESS SERVICES
UNE SOLUTION DE SUPERVISION RÉSEAU QUI FOURNIT DES
RÉFÉRENTIELS ET PERMET LA PRODUCTION D’INDICATEURS, POUR
GARANTIR UN SERVICE DE HAUTE QUALITÉ
Le projet OpenStat assure en temps réel la collecte d’informations sur les équipements du réseau ou sur les systèmes de médiation, la consolidation des indicateurs et la production d’un reporting interactif pour plus de 15 000
clients entreprise en « near real-time » consultable en IHM, aux formats papier et M2M.
LES OBJECTIFS D’ORANGE BUSINESS SERVICES
• Faire évoluer un système obsolète datant de 15 ans pour assurer le reporting d’usage et de performance des
offres entreprises
• Réduire les coûts de maintenance, d’exploitation et d’évolution
• Accroître l’agilité
- collecter les données et éditer un reporting sans pâtir des évolutions systèmes permanentes et des contraintes
d’un SI hétérogène
- revoir la définition et la liste des indicateurs
LA SOLUTION D’ATOS
• Une solution basée sur l’OpenSource, tirant parti des avancées des solutions NoSQL
• Une base NoSQL de type Graphe (OrientDB) pour le référentiel, apportant une grande souplesse dans la modélisation du réseau et de la performance dans son utilisation
• Une Base NoSQL de type Clé/Valeur (Cassandra) permettant d’absorber le flux continu et important de données,
tout en les parcourant en temps réel pour produire les indicateurs
• Une architecture SOA et 100% évolutive basée sur JEE 7
• La description en XML de la présentation, de la navigation dans l’IHM du calcul du reporting à destination de
l’application en « map reduce » de production des indicateurs
LE PROJET
La solution d’Atos mise en œuvre permet, en toute fiabilité, la captation et le stockage de 10 millions d’indicateurs
bruts toutes les cinq minutes. Sur la base de cette énorme masse de données, des centaines d’indicateurs sont
construits par OBS à destination de 15 000 de ses clients entreprises. Ces tableaux de bord sont consultables en
temps réel sur différents types de supports. Ce projet permet de réduire de manière drastique la production de
nouvelles offres – divisée par environ trois - et rend possible le prototypage en agilité.
ATOS - STADE TOULOUSAIN
LE STADE TOULOUSAIN PREND LE POULS DE SES SUPPORTERS,
FAVORISE LA COMMUNICATION PROACTIVE ET DÉVELOPPE UNE
RELATION SOLIDE AVEC SES PARTENAIRES ET CLIENTS.
Le Stade Toulousain a choisi une solution permettant l’analyse des informations circulant sur les réseaux sociaux,
et en particulier Twitter. Il convient, dans cette énorme volumétrie de données, de trouver l’information utile et utilisable. Ce qui se dit sur le Stade Toulousain et ce qu’expriment les fans est collecté et analysé, des rapports sont
ensuite construits. Cet outil permet d’adapter l’offre aux tendances et aux souhaits des supporters et de développer ainsi de nouveaux business.
Document réalisé par la Société Corp Events - Janvier 2015
10
Retours d’expériences Big Data en entreprise
LES OBJECTIFS DU STADE TOULOUSAIN
• Développer une vision client 360°
• Mieux connaître les fans, identifier influenceurs et ambassadeurs pour adapter les offres
• Mettre en place un marketing ciblé
• Fidéliser les supporters et en attirer de nouveaux.
• Augmenter les ventes de produits dérivés et remplir les stades à plus de 90%
LA SOLUTION FASTCONNECT D’ATOS
La solution s’articule autour de quatre composants majeurs
• Une solution Tibco pour la collecte des données.
• Une plateforme Hadoop et des composants de son écosystème
• Un socle BI temps réel
• Spotfire de Tibco pour le reporting et la construction de tableaux de bord « Social Network Analytics ».
Quelques détails de la solution : FLUME collecte les différents tweets alors que des données sont collectées via
les outils Tibco et déposées au sein de la plateforme Hadoop. La plateforme Hadoop permet le stockage, le tri et
le calcul statistique. De plus des composants de l’écosystème Hahoop sont utilisés : OOZIE orchestre les traitements, HIVE/IMPALA observe les données et les résultats, OPENNLP gère l’analyse sémantique. A cet ensemble
est associé un Datawarehouse pour la consolidation d’information structurée. Enfin la Solution Spotfire de Tibco
prépare et présente le reporting ainsi que les tableaux de bord.
POURQUOI ATOS ?
Ce projet est à l’initiative de FastConnect, société du Groupe Atos, partenaire du Stade Toulousain depuis de nombreuses années : il a été proposé et présenté au Stade Toulousain, la démarche très innovante a séduit, la solution
est en production. La proposition d’Atos représente le compromis gagnant entre un prix compétitif, un savoir-faire
fonctionnel et technique. Le Stade Toulousain a fait le choix de la solution FastConnect, société du Groupe Atos,
pour son expertise dans le Big Data et le support qu’il apporte à une équipe SI client restreinte.
Document réalisé par la Société Corp Events - Janvier 2015
11
Retours d’expériences Big Data en entreprise
BAKAMAP - CCI
LA CCI DE RÉGION NORD DE FRANCE ET BAKAMAP
Le service Innovation de la CCI de Région Nord de France réalise des prestations dans le domaine de la veille,
pour les PME-PMI, pôles d’excellence et de compétitivité de la région. Afin d’améliorer la qualité de son offre de
services, CCI Innovation s’est dotée en 2011 d’une plateforme de visualisation cartographique de l’information.
Depuis le lancement du projet, CCI Innovation confie le développement de son outil et ses évolutions à l’agence
Bakasable. Quatre années de travail qui ont déjà aboutit à une véritable «Formule 1» dans le domaine de la
datavisualisation. De nouvelles fonctionnalités seront implémentées d’ici juin 2015 pour améliorer d’avantage la
performance de l’outil existant.
EXPLORER DES DONNÉES TEXTUELLES PAR LA CARTOGRAPHIE
Basée sur l’analyse de l’information (corpus de textes) et la cartographie temporelle, la solution Bakamap, développée pour la CCI de Région Nord de France, est un véritable outil d’aide à la décision stratégique. Ainsi, elle
permet :
- d’accéder facilement et intuitivement aux informations associées à une thématique (acteur, technologie, etc);
- de naviguer dans un grand volume de données sans se perdre : plus de 20 000 articles, issus de 60 sources web
sont rapidement accessibles grâce la visualisation;
- de filtrer ou de cumuler les thématiques, afin d’affiner la recherche et se focaliser sur une partie du corpus;
- de percevoir les évolutions des thématiques dans le temps - à l’aide d’une timeline et d’un système de régression
linéaire - et de détecter les technologies émergentes;
- de découvrir les interactions entre les acteurs, les technologies, les zones géographiques (navigation de proche en proche),
- d’exporter en vectoriel le résultat de la recherche.
Aujourd’hui, Jean Dufour, conseiller veille au sein de la CCI de Région Nord de France, utilise la cartographie pour
aider les entreprises à identifier des marchés, des acteurs, des technologies en pointe sur un secteur d’activité,
mais aussi à se positionner dans l’écosystème de sa région.
NOUVEAU : BRING YOUR OWN DATA !
QUAND LA DATAVISUALISATION S’OUVRE AU GRAND PUBLIC !
La visualisation de l’information, c’est beau (souvent), utile (parfois)…mais au fond qu’est ce que c’est ? Pour
répondre à cette question, l’agence Bakasable propose aujourd’hui un système de datavisualisation et de cartographie de l’information accessible et compréhensible à tous !
Disponible sur http://www.bakamap.fr/byod/, cet outil gratuit permet non seulement de cartographier en ligne ses
propres bases de données (Excel, Access), mais aussi de comprendre les enjeux de la datavisualisation avec un
exemple concret et personnel.
Les multiples interactions existantes, peu évidentes sur un tableau classique, sont visibles immédiatement grâce à
une représentation claire et graphique. L’utilisateur peut donc visualiser n’importe quel jeu de données, découvrir
les interactions qui les lient entre elles (quels sont les noeuds ? où sont les liens ?), et naviguer facilement à travers
son patrimoine informationnel !
Un tableau de bord permet d’accompagner l’utilisateur dans la configuration de sa carte. Il aura ainsi le choix
d’afficher entre 2 à 5 catégories pour découvrir les interactions entre toutes ses données, mais aussi d’exporter au
format PNG le résultat obtenu.
Ce service gratuit est actuellement en version Bêta. Il s’accompagnera d’une offre payante, d’ici l’été 2015, donnant accès à d’autres fonctionnalités pour aller encore plus loin dans l’exploitation de ses données.
CONTACT
Heidi GHERNATI : 1 rue Suffren - 44000 NANTES
06 03 55 16 78 - [email protected]
Document réalisé par la Société Corp Events - Janvier 2015
12
Retours d’expériences Big Data en entreprise
BIME - WEEKENDESK
BIGDATA & CLOUD : WEEKENDESK.COM, BUSINESS ANALYTICS 100% EN LIGNE
1. OBJECTIFS
Weekendesk est une agence de voyage 100% en ligne, leader de la vente de courts séjours en Europe. Le site
génère plus de 46M€ de Volume d’Affaires sur les 3 pays que sont la France, la Belgique et l’Espagne. Porté par
le département Finance & Business Analytics, leur projet BigData s’articulait d’abord sur une logique de sortie du
Reporting en silo, dû à l’hétérogénéité de leurs sources de données. Il s’agissait en priorité d’agréger des données
financières et de les mixer avec celles du trafic de leurs sites web et du comportement de leurs consommateurs.
2. PRÉSENTATION
a. Nature des données traitées
Weekendesk est un site web marchand dont les 25 000 commandes par mois génèrent un important volume de
données transactionnelles entre les clients et les hôtels. Weekendesk analyse aussi constamment l’évolution de
son trafic et son taux de conversion clients en rapport avec son offre produit et/ou service de son catalogue. Avec
plus de 2 millions de visites par mois en moyenne, Weekendesk utilise Google Analytics. Les données transactionnelles de réservation sont stockées dans des bases de données SQL et un ERP propriétaire en ligne. D’autres
données sont disponibles dans le Google Drive de l’entreprise.
b. Ressources et méthodologie (compétences humaines, outils techniques, fonctionnement du traitement de la donnée)
Le Reporting était précédemment produit via Excel avec une multitude de tableaux croisés dynamiques associés
et d’onglets, pour couvrir tous les indicateurs clés des différents départements métiers. Ce Reporting a rapidement
atteint les limites techniques d’Excel (volumétrie croissante et problème de disparité des données), devenant difficilement exploitable. En sélectionnant BIME, Weekendesk peut désormais reproduire son schéma de Reporting
initial avec comme amélioration majeure la fluidité de se connecter nativement à toutes les sources de données
(SQL, Google Analytics et Drive) depuis un seul et même endroit, puis d’agréger les informations en quelques
clics, pour enfin construire et partager des tableaux de bord de pilotage en ligne avec le top management et les
différents départements.
c. Calendrier de déploiement
Le projet a démarré en avril 2014. La Direction analyse les tableaux de bord depuis août 2014.
Weekendesk a fait appel à un intégrateur pour travailler en amont les connexions on premise aux bases de données SQL.
3. ASPECT NOVATEUR
Weekendesk est une société 100% web, orientée cloud et mobilité. Chaque employé doit impérativement accéder
à ses données métiers depuis n’importe où. La solution de Business Intelligence de BIME, 100% web correspond
parfaitement à cet ADN. Grâce à la gestion des profils et droits utilisateurs, chaque Business Analyst rentabilise
son temps de production des analyses. Un même tableau de bord, agrégeant plusieurs sources de données, peut
en effet être partagé avec le Comité de Direction et les départements métiers. Le Comité accède aux informations
globales de l’entreprise tandis que les métiers (vente, marketing) ne voient qu’un périmètre autorisé.
4. VALORISATION OBSERVÉE DE LA DONNÉE
Exploitation de la richesse du croisement des informations multi-sources dans les tableaux de bord, à la volée,
au même endroit et en ligne. Production simplifiée de graphiques visuels permettant une compréhension rapide
des performances des canaux d’acquisition. Visibilité accrue des résultats des ventes web par région, par canal
de vente (force de vente interne, service client, pur web), par source (ordinateur, tablette, smartphone), dans un
contexte croissant de volume de données. Actualisation real time des indices de compétitivité des offres, disponibles en ligne pour les métiers, chacun étant capable d’exécuter des requêtes adhoc pour répondre à leur question.
5. ETAPES À VENIR ET DÉMARCHE BIG DATA DANS L’ENTREPRISE
Optimisation, augmentation et mix des collectes de données de ventes et de réservations pour renforcer la granularité de l’analyse au client près. Objectif : migrer les données CRM (dont Salesforce) & Marketing (dont les données d’Attribution comme C3 Metrics) dans Google BigQuery pour produire des tableaux de bord des profils clients
et de leurs comportements d’achats, le plus rapidement possible. Bénéficier des technologies Cloud pour rester
fidèle à l’ADN Web de Weekendesk et disposer d’une plateforme d’analyse puissante connectée en direct à toutes
les sources de l’entreprise, pouvant grandir à l’infini.
Document réalisé par la Société Corp Events - Janvier 2015
13
Retours d’expériences Big Data en entreprise
CAPGEMINI - CLOUDERA
ONE OF THE WORLD’S LARGEST HR FIRMS IS USING CLOUDERA
ENTERPRISE TO MATCH JOB SEEKERS WITH OPENINGS AND BUILD NEW
SERVICES FOR ITS CLIENTS
Capgemini and Cloudera Big Data Solution Helps Global Employment Agency Improve Insight into Localized Job Markets
THE SITUATION
The client is one of the world’s largest HR service providers, operating in approximately 40 countries. It faced a
challenge around the sheer volume of information that is increasingly becoming available in job markets today.
Sources include everything from job boards, institutions, LinkedIn, and other social media, to videos and company
reports. Even sources such as weather forecasts can be relevant in relation to seasonal and tourism industry job
opportunities.
The HR service provider wanted to develop a platform to consolidate all available jobs in a particular geography.
They asked Capgemini to demonstrate how an enterprise data hub, based on Cloudera Enterprise, could deliver a
Big Data solution that would help them gain faster access to higher quality information.
The initial objective was to find ways to tackle volumes of information for its own business, with the secondary aim
of developing entirely new HR services for governments and companies. This would include becoming far more
proactive in job markets, anticipating requirements and opportunities, and acting to fulfill recruitment requirements.
THE SOLUTION
A Big Data solution was needed to manage and deliver rapid insight into the sheer volumes of data involved.
Capgemini and Cloudera experts worked closely with the client’s team to list and prioritize the use-cases relevant
for their initial business goals. This led to a proof of concept (POC) project to match job demand and supply in a
specific geography - in this case, France.
Capgemini’s solution involved implementing four major elements not present in the existing system:
• Cloudera Enterprise to store all data and run the data modeling engine
• An analytical SQL database running in conjunction with Cloudera Enterprise
• A data visualization product
• A solution to geo-code the geographical data
As part of the solution, a learning algorithm processes the text within CVs and job openings to identify and flag
similarities. The solution also delivers data from the visualization product to the existing reporting tools which are
already familiar to business users.
Document réalisé par la Société Corp Events - Janvier 2015
14
Retours d’expériences Big Data en entreprise
THE RESULT
The initial project has successfully demonstrated the viability of the Big Data solution to deliver improved insight
into job markets in a specific geography. This enables users to more proactively match job seekers with relevant
openings.
The system automated the matching of offers and CVs. For instance it was able to analyze 200,000 documents
(including offers and CVs) in only two hours using a handful of computers. The client has verified the results of the
analysis, with the feedback that “users have been amazed” by the accuracy of the system.
After a successful and low-cost POC, the project is now being expanded to explore around 15 additional business
use-cases. These include features such as the ability to have the amount of employment contracts signed per
month, per activity, and per work area or the ability to analyze the travel time between the job seeker and the job
offer.
Document réalisé par la Société Corp Events - Janvier 2015
15
Retours d’expériences Big Data en entreprise
COMPLEX SYSTEMS - TELE SHOPPING
KNOWLBOX : PLATE-FORME DE DATA MARKETING UNIQUE, LE PLUS
COURT CHEMIN VERS UNE STRATÉGIE MARKETING OPTIMISÉE
LE BESOIN
Les big data ont envahi l’espace médiatique depuis quelques années. Si nombre d’articles détaillent les bénéfices
qu’elles procurent, tant en termes de connaissance client, d’optimisation de processus ou d’amélioration des
capacités de prévision des entreprises, peu s’attardent sur les méthodes qui permettent de les matérialiser. C’est
certainement la raison pour laquelle seulement 25% des entreprises déclarent avoir déjà mis en place un marketing personnalisé, alors qu’elles sont 80% à souhaiter exploiter davantage leurs données pour optimiser les actions
marketing.
LA SOLUTION:
KNOWLBOX, plate-forme de data marketing unique vous aide à utiliser de manière optimale toutes vos données.
KNOWLBOX propose directement une palette de modules d’analyse métier. Toute l’expertise nécessaire est dans
l’outil. Les résultats présentés sont validés par des tests de significativité statistique. Le déploiement des modèles
sur l’univers de production est réalisé dans le même flux que l’analyse, donc sans risque d’erreur, très simplement
et extrêmement rapidement. Connecté en permanence avec la base de données, les modèles sont mis à jour en
temps réel.
LES AVANTAGES:
Simplicité, rapidité, flexibilité, rentabilité. Quel que soit le type de votre entreprise, KNOWLBOX vous assure de
tirer des conclusions justes pour prendre les décisions en toute sérénité. Vous améliorez ainsi le retour sur investissement de votre stratégie omnicanale, personnaliser vos offres pour fidéliser vos clients, et faire croitre votre
entreprise grâce aux data.
LA DÉMONSTRATION AVEC TELESHOPPING:
Filiale à 100% de TF1, et première société française de téléachat, TELESHOPPING s’appuie sur 4 canaux de
diffusion produits. La télé (1), avec 18 000 heures de programmes par an, qui permet de découvrir près de 300
nouveaux produits par an, les magasins (2), les sites internet (3) et enfin, le catalogue papier (4), avec 6 millions
d’envois annuels. Le catalogue, qui présente une offre produits beaucoup plus étendue que la télé, est un élément
central de la stratégie de fidélisation aux côtés de des cartes de fidélité et des leviers digitaux.
Mais pour Olivier Dubois, responsable du Département Fidélisation e-CRM et Marketing Digital, la question était :
Le catalogue papier est il encore rentablement efficace?
«Nous devions mesurer, dans des temps très courts, l’impact du catalogue sur les ventes, notamment au regard
de l’impact du web et des émissions.
Ceci impliquait d’arrêter de raisonner en silo, et reconstituer une vision business globale. Compte tenu des
volumétries en jeu et du fait qu’il était nécessaire de reconstituer différentes cohortes de clients sur plusieurs années, c’était un vrai projet big data.»
«KNOWLBOX est conçue pour répondre directement à toutes sortes de problématiques marketing, de connaissance client et d’analyse prédictive… La solution répondait tout à fait à nos besoins : quelques jours ont suffi pour
son déploiement, à la fois pour intégrer nos données – 1.2 millions de clients, et l’intégralité de leur historique de
comportement - et pour la paramétrer. Et ceci sans aucun impact sur notre SI.
A partir de là, l’analyse détaillée de l’impact du catalogue sur nos ventes a été menée, conformément à la promesse
de l’outil, en quelques clics !
Nous avons mesuré avec KNOWLBOX une augmentation du nombre de commandes de 50% due au catalogue,
et démontré que la réception du catalogue augmente les ventes de l’émission télé de 20%. Au final, c’est la durée
de vie du client même qui est impactée.
Cette étude nous a aussi permis de découvrir la puissance, alliée à une grande simplicité, de la plateforme analytique KNOWLBOX, avec laquelle des scores d’appétence catalogue ont aussi été développés et déployés.
A TELESHOPPING, nous n’avons plus aucun doute sur la place du catalogue papier dans une stratégie de fidélisation client.»
C’est ainsi qu’à contre-courant d’une bonne partie des VADistes, TELESHOPPING démontre que son catalogue
papier est un facteur de développement des ventes.
Document réalisé par la Société Corp Events - Janvier 2015
16
Retours d’expériences Big Data en entreprise
AVEC SA NOUVELLE PLATE-FORME BIG DATA ANALYTIQUE KNOWLBOX, COMPLEX
SYSTEMS PERMET À TOUTES LES ENTREPRISES DE PRENDRE LES DÉCISIONS BASÉES SUR LEURS DATA.
A la fois éditeur de solutions data analytiques pour le marketing et bureau d’études depuis près
de 20 ans, COMPLEX SYSTEMS innove avec la plate-forme KNOWLBOX qui permet à toutes
les entreprises, quelles que soient leurs contraintes budgétaires, techniques ou humaines, de
pouvoir enfin prendre des décisions reposant sur leurs données.
LA PUISSANCE DE L’ANALYTIQUE À LA PORTÉE DE TOUTES LES ENTREPRISES
La plate-forme KNOWLBOX permet à toutes les entreprises qui ont des données de pouvoir enfin les utiliser pour
optimiser leurs décisions marketing.
Elle supprime les freins à la mise en place d’une démarche data driven - manque d’expertise, coût des logiciels et
temps - et permet une montée en compétence interne progressive et adaptée sur les sujets data. La tarification
sous forme d’abonnement fonction de l’utilisation garantit un budget maitrisé.
Avec KNOWLBOX, COMPLEX SYSTEMS donne à toutes les entreprises le moyen de s’engager simplement,
selon leurs besoins et en toute sécurité dans une démarche marketing data driven gagnante.
KNOWLBOX PLATE-FORME BIG DATA MARKETING FLEXIBLE ET SANS ENGAGEMENT
KNOWLBOX est une plate-forme big data marketing, déployée et paramétrée en 2 jours sur tout type de base ORACLE, MySQL, SQLServer, cloud Amazon Web Services... Sans programmation ni traitements de données,
encapsulant une véritable intelligence datamining et dédiée aux problématiques marketing, KNOWLBOX simplifie drastiquement l’expérience utilisateur. La plate-forme, conçue pour répondre directement aux questions des
directions marketing telles que valeur client, appétence produit, parcours client, cycle de vie, repose sur des
algorithmes éprouvés, et apporte aux dataminers et experts métier des résultats performants immédiatement exploitables. Offre unique sur le marché, elle est utilisable selon les besoins selon 3 modes :
• En mode autonome, la plate-forme logicielle est livrée clé en main, avec un accompagnement sur 2 mois qui
garantit le succès de son implantation.
• En mode collaboratif, à mi-chemin entre logiciel et outsourcing, l’utilisateur bénéficie de l’expertise et du support
des dataminers du bureau d’études de COMPLEX SYSTEMS, et externalise certaines études.
• En outsourcing l’entreprise dispose d’une plate-forme analytique externalisée et du bureau d’études prêt à répondre à toutes les demandes de la direction marketing
Proposée sous la forme d’un abonnement mensuel, sans engagement, KNOWLBOX s’adapte à chaque instant
exactement aux besoins de l’entreprise ; son utilisation peut passer d’un mode à un autre sans contrainte.
L’INNOVATION TECHNOLOGIQUE
KNOWLBOX est la seule plate-forme big data analytique, dotée de fonctionnalités clés en main à la fois prédictives et exploratoires, spécifiquement dédiée aux problématiques marketing. Véritable innovation de rupture,
KNOWLBOX analyse directement les données stockées dans une base de données relationnelle, sans extraction, sans traitement, sans constitution de fichier d’analyse. Le processus analytique est direct, simple, rapide. En
supprimant l’étape de constitution d’un fichier, jusqu’ici incontournable dès qu’on sort du cadre des problématiques
BI, KNOWLBOX raccourcit considérablement le temps de réalisation des modèles prédictifs, apporte une souplesse inégalée, et met enfin l’analytique à la portée de profils métier. C’est une avancée majeure qui permet à un
grand nombre de profils métiers d’utiliser les données.
Document réalisé par la Société Corp Events - Janvier 2015
17
Retours d’expériences Big Data en entreprise
A PROPOS DE COMPLEX SYSTEMS
COMPLEX SYSTEMS a été créé en 1996 à l’époque de l’émergence du datamining par deux passionnés de
data. Avec 20% de son activité consacrée à la R&D data, et près de 20 ans d’expertise datamining, COMPLEX
SYSTEMS, qui a gardé son esprit de start-up, est un éditeur innovant de solutions analytiques de connaissance
client pour le marketing.
COMPLEX SYSTEMS aide les entreprises à exploiter leur capital data, acquérir la connaissance client, développez et déployer les modèles prédictifs dont elles ont besoin.
CONTACT
Hélène Ivanoff - 01 42 21 48 86 - [email protected]
www.complex-systems.fr
Document réalisé par la Société Corp Events - Janvier 2015
18
Retours d’expériences Big Data en entreprise
COUCHBASE - AMADEUS
COUCHBASE HELPS AMADEUS POWER THE TRAVEL INDUSTRY
Today’s travel industry is seeing rapid growth, high customer expectations, fierce competition and pressure on
margins. It’s a market driven by new technologies, new entrants and new business models. Amadeus, the leading
Global Distribution System (GDS) and the biggest processor of travel bookings in the world, looks to NoSQL and
Couchbase to meet stringent data management needs within a demanding industry.
THE NEEDS
The mission of Amadeus is to be the leading provider of IT solutions that enable success in the travel and tourism
industry. The company is a Global Distribution System (GDS), meaning they take travel and tourism data from
airlines, car companies, hotel chains, cruise lines, etc., and distribute it to travel agencies, corporations, travel
websites, airports, and other distributors. As the world’s leading GDS, Amadeus must manage a huge workload
daily, with absolutely no room for service outages, supporting:
• 3.7 Million Bookings per Day
• 1.6 Billion Transactions per Day
• 45 Billion Database Accesses per Day
• 13 Petabytes of Storage
• Response Time of Less than 0.5 Seconds
• Thousands of Developers Pushing New Features (100+ Changes per Day)
Amadeus became interested in NoSQL technology and Couchbase because they needed greater scalabilty and
flexibility for the service-oriented architecture (SOA) on which the business runs. Specifically they needed a lowlatency key-value store to achieve the required service levels for their architecture, including:
• Consistent high performance (submillisecond latency)
• Elasticity to support frequent capacity expansions of their server farms, needed to handle traffic growth
• Seamless topology changes
Data persistence to support a very write-heavy environment
COUCHBASE AT WORK
To get started with Couchbase, Amadeus implemented Couchbase Server for two applications. The first, the Amadeus Selling Platform Connect, is the website professional travel agents rely on for doing business. The Platform
supports 500,000 terminals and 150,000 simultaneous users. All web sessions are long-lived, usually lasting the
entire business day, and the amount of session data that needs to be stored is about a half a terabyte. Amadeus
wanted to offload the user sessions, which were stored in JVMs, and move them to a distributed, scalable robust
system, enabling them to reduce TCO and increase scalability. With Couchbase they can achieve this goal, and
maintain a responsive experience for the end users.
The second application, the Availability Processing Engine, is the engine behind many popular travel sites. If you
have ever booked travel online, you have encountered this engine. which displays travel information such as
prices, flights, and dates. This is a critical application for Amadeus, and the one with the most pressing need for
the performance improvements that key-value technology offers. The original system had 28 relational databases
and over 20 terabytes of data. Peak traffic is two million reads of objects per second, and 400K writes per second.
The average object size is about 1 KB.
Amadeus is a leading provider of advanced technology solutions for the global travel industry. Customers include
travel providers (airlines, hotels, rail and ferry operators, etc.), travel sellers (travel agencies and websites), and
travel buyers (corporations and travel management companies).
The Amadeus group employs around 10,000 people worldwide, serving 195 countries. For the year ended December 31, 2012 the company reported revenues of 910.3 million and EBITDA of 1,107.7 million. Amadeus is listed on
the Spanish Stock Exchange under the symbol “AMS.MC” and is a component of the IBEX 35 index.
Document réalisé par la Société Corp Events - Janvier 2015
19
Retours d’expériences Big Data en entreprise
CRAY - INSTITUTE FOR SYSTEMS BIOLOGY
CRAY SOLUTION BRIEF | CANCER RESEARCH USING
A BIG DATA APPROACH
THE CHALLENGE
Cancer researchers have a wealth of data available to them regarding the molecular and clinical characteristics of
the many forms of cancers and the use of therapeutic drugs to treat disease. This data includes both proprietary
research from their own labs as well as publicly available data such as The Cancer Genome Atlas and other collaborative scientific and public sources.
The hypothesis is that big data could be used to identify potential new drug treatments from data already available
through analysis of gene-drug relationships without performing “wet” lab work first.
However, traditional analytics tools and techniques to test these hypotheses often take several weeks to months
to execute. They are time consuming because data scientists must assemble all of the necessary data into a new
data model to determine whether the researcher’s hypothesis is accurate. Because of the extensive amount of time
between question and answer, the results of the experiment may be irrelevant by the time they are finally delivered.
The researchers at the Institute for Systems Biology (ISB) wanted to determine whether they could significantly
compress this wait time. They wanted a way to get to “yes” or “no” quickly in order to prioritize drug repurposing
opportunities; this would then accelerate the discovery of new cancer treatments that could be moved through the
drug development and approval process quickly, thus making a major difference to cancer patients.
THE URIKA-GD™ PLATFORM ADVANTAGE:
To rapidly validate scientific hypotheses in real time and discover new connections within their
existing data, the ISB team needed a powerful solution that enabled data discovery at scale.
THE SOLUTION
The ISB team worked with Cray to develop an innovative, real-time approach to cancer research discovery using
the Urika-GD™ graph analytics appliance. Using the Urika-GD system, the team was able to assemble all of its
data into a single graph in the appliance’s vast shared memory — eliminating the need to partition the data or create time-consuming and complex data models prior to posing a hypothesis. This solution is scalable, which allows
the data set to expand over time without losing performance or data integrity.
The ISB team identified new cancer therapy candidates by exploring correlations between frequently mutated
genes from tumor samples to identify existing gene-drug associations that could be possible drug candidates. In
addition to discovering promising new therapies, they also sought to rapidly eliminate from consideration those
drugs that would not deliver the desired result..
To deliver results quickly, the researchers needed a way to discover unknown relationships within the data that the
current data management strategy couldn’t deliver. The Urika-GD system enabled ISB’s researchers to look at the
data in a different way than what they’d be limited to with query-based relational database systems, where the data
determines what questions can be asked. This resulted in a clear visualization of the connections and associations
within the data to help identify promising candidates for new therapies.
The graph analytics approach enabled the research team to identify thousands of drug repurposing opportunities
that warranted further investigation. For example, this methodology revealed that nelfinavir, which is used to treat
HIV, showed selectivity in a separate research study for HER2-breast cancer. The ISB team came to the same
conclusion about nelfinavir in a fraction of the time, with no need for hands-on “wet lab” work to test the hypothesis
- validating the accuracy and efficacy of the big data approach for identifying drug treatment solutions.
THE URIKA-GD PLATFORM ADVANTAGE
The Urika-GD system, with its large global shared memory, RDF/SPARQL interface and proprietary Threadstorm™
multithreaded graph processors, allowed the team to rapidly integrate ISB’s proprietary data with publicly available
data, enabling the researchers to identify new relationships in the data without any upfront modeling. No advance
knowledge of the relationships within the data is required to identify non-obvious patterns, facilitating true data
discovery.
Using the Urika-GD platform instead of traditional database strategies and investigative laboratory experiments,
the ISB researchers significantly reduced the time to discovery, saving months or years of research with a higher
probability of success.
Document réalisé par la Société Corp Events - Janvier 2015
20
Retours d’expériences Big Data en entreprise
SOLUTION BRIEF | CANCER RESEARCH
The impact of using a more powerful analytics solution was immediate-and dramatic: In the amount of time it previously took to validate a single hypothesis, the team could now validate 1,000.
About Urika-GD The Urika-GD big data appliance for graph analytics helps enterprises gain key insights by discovering relationships in big data. Its highly scalable, real-time graph analytics warehouse supports ad hoc queries,
pattern-based searches, inferencing and deduction. The Urika-GD appliance complements an existing data warehouse or Hadoop® cluster by offloading graph workloads and interoperating within the existing analytics workflow.
ABOUT CRAY GLOBAL SUPERCOMPUTING LEADER
Cray Inc. provides innovative systems and solutions enabling scientists and engineers in industry, academia and
government to meet existing and future simulation and analytics challenges. Leveraging more than 40 years of
experience in developing and servicing the world’s most advanced supercomputers, Cray offers a comprehensive
portfolio of supercomputers and big data storage and analytics solutions delivering unrivaled performance, efficiency and scalability. Go to www.cray.com for more information.
©2014 Cray Inc. All rights reserved. Specifications subject to change without notice. Cray is a registered trademark
and Urika-GD is a trademark of Cray Inc. All other trademarks mentioned herein are the properties of their respective owners. 20140915
www.cray.com
Document réalisé par la Société Corp Events - Janvier 2015
21
Retours d’expériences Big Data en entreprise
CSC - HGST
AMÉLIORER LA SATISFACTION CLIENT ET LA QUALITÉ DES PRODUITS
AVEC UNE PLATEFORME BIG DATA AS A SERVICE
Western Digital, l’un des leaders mondiaux de la conception et de la fabrication de disques durs s’est attaqué
au défi d’accroître la qualité de ses disques durs, d’améliorer l’efficacité opérationnelle de sa fabrication et de
permettre aux personnes de toute l’entreprise de profiter de nouvelles données. Le problème auquel l’entreprise
devait faire face était des ensembles de données qui devenaient si vastes et complexes qu’il devenait compliqué
de travailler avec ces données en utilisant les outils et techniques habituels. En utilisant la solution CSC Big Data
Platform as a Service pour relever ces défis, la totalité des sources de données disparates de HGST a pu être mise
en pratique professionnelle en fournissant des outils permettant d’afficher l’ensemble de « l’ADN » de l’entreprise
— du développement à la fabrication, en passant par les tests de fiabilité et le marketing et les ventes - pour que
tout soit accessible à tout moment et en quelques secondes. Une fois en production, la plateforme de big data CSC
leur a permis d’accroître les normes de qualité, d’améliorer la qualité du produit fini et d’augmenter les niveaux de
satisfaction des clients. Le retour sur investissement du projet a été immense grâce à des économies tirées des
cas d’utilisation initiaux qui ont payé pour l’intégralité de cet effort en trois mois.
ENJEU
L’unité des disques durs (DD) de Western Digital devait relever plusieurs défis, comme des échéances de projet
très courtes, l’intégration de sources de données disparates, une expertise interne réduite et des volumes de données gigantesques. Lorsqu’une intégration client échoue lors d’un test, le client de Western Digital demande à
voir les données de fiabilité pour tous ses disques durs, afin d’établir une comparaison. Avant, ce processus aurait
pris des semaines d’effort manuel, notamment si les données devaient être extraites de différents silos et bandes
d’archive.
SOLUTION
Infochimps, une société de CSC, a aidé Western Digital en déployant son Big Data Cloud grâce à un moteur
d’analyse de données machine sophistiqué. Nous avons également proposé une infrastructure très évolutive offrant des interfaces simples pour ajouter de nouveaux éléments de données et déployer de nouvelles analyses de
données s’appuyant sur des solutions open source de sociétés leader du Web comme Google, Yahoo !, Facebook.
RÉSULTATS
Grâce à l’analyse des big data, l’intégralité de l’ADN d’un disque - du développement à la fabrication et au test de
fiabilité - est accessible à tout moment. La nouvelle infrastructure implique une charge opérationnelle minimale (en
tant que service entièrement géré), une échéance de développement réduite et une infrastructure souple et agile
pour convertir efficacement les données en recettes.
Document réalisé par la Société Corp Events - Janvier 2015
22
Retours d’expériences Big Data en entreprise
CSC - ASSURANCES AUTO
COMPAGNIE D’ASSURANCE AUTOMOBILE LEADER DU MARCHÉ
AMÉRICAIN : FOURNIR UNE PLATEFORME BIG DATA ÉCONOMIQUE POUR
TRAITER UN VOLUME IMPORTANT DE DONNÉES TÉLÉMATIQUES
RÉSUMÉ
Une compagnie d’assurance automobile leader du marché qui compte plus de 18 000 agents au service de 81
millions de clients aux États-Unis et au Canada souhaitait lancer un programme fondé sur la télématique qui permettrait à ses conducteurs de personnaliser leur prime automobile en fonction de leur conduite. CSC a proposé
une plateforme de big data économique conçue et gérée pour mettre en pratique les exigences de niveau de service à une vitesse sans précédent afin de traiter des volumes élevés de données télématiques par le biais d’une
plateforme à forte disponibilité. La solution a accéléré le délai de mise sur le marché et a permis de respecter les
délais commerciaux essentiels.
ENJEU
Cette initiative particulièrement visible au niveau du Conseil d’Administration visait à rattraper le retard sur d’autres
opérateurs qui offrent déjà des produits sur le marché. Elle nécessitait une plateforme prenant en charge une application analytique fondée sur un haut volume de données télématiques.
Les challenges à relever étant :
- La capacité à répondre aux exigences de mise sur le marché de l’entreprise
- Le fossé de compétences technologiques internes
- les plateformes technologiques actuelles n’étaient pas capables de réaliser ce traitement et n’étaient pas
économiques
SOLUTION
Une plateforme solide, intégrée et sécurisée pour permettre à une application de télématique de tirer le meilleur
parti des technologies d’infrastructure et de sécurité informatiques pour les analyses et la collecte de données.
Un moteur d’ingestion de big data hébergé avec un réseau hautement sécurisé
Conçu pour des volumes élevés de données télémétriques (6 millions de clients)
Haute disponibilité fournie par 2 centres de données pour la continuité de l’activité
Solutions de surveillance et de sécurité de classe mondiale avec assistance 24h sur 24, 7j sur 7
Document réalisé par la Société Corp Events - Janvier 2015
23
Retours d’expériences Big Data en entreprise
RÉSULTATS
La solution a permis la mise en place d‘un programme de discount sur les polices d’assurance lié à la qualité de
conduite. Ce programme s’appuie sur l’analyse des habitudes de conduite en traitant des quantités massives de
données venant de capteurs et en développant des modèles dynamique d’analyse de risques
Les autres bénéfices pour le client furent :
- des dépenses initiales limitées pour un lancement rapide
- une plateforme hautement disponible : conçue et gérée pour mettre en pratique les exigences de niveau de service
- une rapidité de mise sur le marché : la plateforme CSC a permis au client d’accélérer le temps de mise sur le
marché et de respecter ses échéances commerciales essentielles.
- une expansion et une évolution rapide au fur et à mesure que le programme est déployé et adopté au sein des
52 états à couvrir.
CSC - VOYAGISTE ONLINE
COMPAGNIE LEADER DU MARCHÉ WEB EUROPÉEN DES VOYAGES
RÉSUMÉ
Avec l’aide de CSC, ce client leader du marché web européen des offres de voyages et de loisirs a augmenté
significativement son chiffre d’affaire en segmentant sa base clients et en lançant une campagne marketing ciblée.
En utilisant le modèle RFM (Recency, Frequency and Monetary Value), CSC a fusionné et nettoyé 7 sources de
données et réalisé de l’analytique sur sa base clients. Des données ouvertes (open data) – provenant de l’INSEE
– y ont été insérées afin d’améliorer l’algorithme d’évaluation en s’appuyant sur :
- les données géographiques avec coordonnées GPS pour calculer les distances de voyage
- les revenus moyens par zone d’habitation
- l’âge moyen par prénom pour chaque client potentiel
ENJEU
La fusion de ce client avec un de ces compétiteurs engendra le besoin de réaliser des synergies entre les deux
sociétés, la priorité étant de fusionner et moderniser leur Connaissance Client et de construire un nouvel outil commun de gestion de campagne marketing
SOLUTION
L’approche de CSC consista à développer une nouvelle base de Connaissance Client en :
- définir les besoins clients avec des analystes marketing
- dédupliquer et nettoyer les données client
Document réalisé par la Société Corp Events - Janvier 2015
24
Retours d’expériences Big Data en entreprise
- ingérer des données ouvertes pour améliorer l’algorithme d’évaluation
- construire une solution avec les meilleures technologies du marché
CSC a recommandé la segmentation de la base clients en utilisant le modèle RFM (Recency, Frequency and
Monetary Value) et a affiné les évaluations afin d’améliorer le retour sur investissement des campagnes marketing.
RÉSULTATS
CSC a délivré un “Datamart” clients pour faciliter le reporting, l’analyse et la segmentation de la clientèle.
Grace à ce Datamart le client a augmenté :
- sa rétention client de 5%
- ses revenus de 6% en recommandant des stratégies d’upsell
- ses revenus de 10% en recommandant des stratégies de cross sell
Document réalisé par la Société Corp Events - Janvier 2015
25
Retours d’expériences Big Data en entreprise
DATA PUBLICA - CEGID
ALIMENTER LES ÉQUIPES DE TÉLÉPROSPECTION EN NOUVEAUX
PROSPECTS GRÂCE AU BIGDATA
CEGID, PREMIER ÉDITEUR FRANÇAIS DE SOLUTION DE GESTION A FAIT APPEL AU
SERVICE DE C-RADAR L’OUTIL DÉVELOPPÉ PAR DATA PUBLICA START UP SPÉCIALISÉE DANS LA COLLECTE DE DONNÉES B2B.
Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid, avait
besoin de mieux identifier ses cibles de prospection afin d’alimenter les équipes de télémarketing avec des fichiers
neufs. Il cherchait notamment à identifier des cibles très précises à savoir les entreprises sous-traitantes dans les
secteurs de l’automobile et de l’aéronautique. Or il n’existe pas de code NAF qui permet d’identifier les entreprises
de ces secteurs d’activité. Cegid a donc fait appel aux technologies du produit C-Radar pour les aider dans cette
démarche de segmentation.
Grâce à la base de données B2B alimentée par les données du web, ce travail de ciblage a été particulièrement
rapide et efficace. Plusieurs centaines d’entreprises correspondant exactement à la cible désignée ont été identifiées : les équipes de télémarketing du Groupe Cegid ont été alimentées en fichiers de prospection contenant de
nouveaux contacts, jamais identifiés.
“Grâce à la solution C-Radar, nous avons pu traiter rapidement une base de données entreprises de plusieurs
dizaines de milliers d’entités pour en extraire les quelques centaines de contacts très ciblés que nous voulions
prospecter.”
Frédéric Bornuat, responsable du pôle connaissance client et CRM, direction marketing du Groupe Cegid
DATA PUBLICA - CCI PARIS
CLASSER LES ENTREPRISES DANS UNE DIZAINE DE FILIÈRES MÉTIERS
ET SEGMENTER CHAQUE FILIÈRE EN S’AFFRANCHISSANT DES LIMITES
DES CODES NAF GRÂCE AU BIGDATA.
La Chambre de Commerce et d’Industrie Paris Ile-de-France est un interlocuteur privilégié des entreprises de sa
région. En effet la CCI Paris Ile-de-France collabore avec plusieurs centaines de milliers d’entreprises locales qui
représentent près de 30% des entreprises françaises. Elle les accompagne de la création à la transmission en
passant par toutes les étapes de leur développement. Pour être à même de répondre aux besoins des entreprises
et d’apporter une réponse cibléee, la CCI Paris Ile de France met en place une approche par filière pour laquelle
elle avait besoin d’être accompagnée techniquement par des experts du traitement des données B2B.
Catherine Demongeot, directrice du marketing et de la relation clients déclare notamment “Data Publica grâce à
son outil C-Radar nous permet de réaliser une segmentation plus fine que celle réalisée à partir de codes NAF
par exemple. La solution C-Radar de Data Publica est une interface performante qui fournit aux conseillers, au
quotidien, les informations par filières ainsi qu’une fiche de synthèse par entreprises. Sans la technologie de Data
Publica ce classement aurait été moins pertinent. Nous avons apprécié la capacité de DP à mener à bien le projet,
en respectant les délais et le budget.”
Document réalisé par la Société Corp Events - Janvier 2015
26
Retours d’expériences Big Data en entreprise
DATA PUBLICA - B-POST
ANALYSE ET SEGMENTATION PLUS FINE D’UN MARCHÉ. MISE EN PLACE
D’UN NOUVEL OUTIL DE CIBLAGE POUR LA PROSPECTION DE
L’ACTIVITÉ COLIS.
Bpost (la poste belge) a lancé en 2014 un ambitieux projet pour exploiter les promesses du big data dans le domaine de la prospection commerciale afin de démarcher de façon plus efficace et notamment mieux segmenter
le marché.
Sébastien Dreossi, senior expert au service customer intelligence and business analytics et chef du projet déclare:
“ Après avoir consulté 4 sociétés, Bpost a retenu Data Publica du fait de son approche basée sur un produit existant en constante évolution (C-Radar), sa capacité à s’adapter à la spécificité linguistique de la Belgique, et du
fait de son engagement à co-créer une solution adaptée aux besoins et à la taille de bpost.”
Les premiers résultats du projet sont conformes à nos attentes, nous avons apprécié tout particulièrement
l’implication totale des équipes de DP, leur écoute et leur capacité à faire évoluer la solution en fonction de nos
attentes».
Document réalisé par la Société Corp Events - Janvier 2015
27
Retours d’expériences Big Data en entreprise
DATAIKU - BLABLACAR
BLABLACAR FAIT CONFIANCE À DATAIKU
LA CONNAISSANCE DU CLIENT, UN ENJEU DATA
Au cœur de sa stratégie Big Data, BlaBlaCar cherche à améliorer sa connaissance client. Cette connaissance
permet d’entreprendre une communication ciblée pour ses différents profils d’utilisateurs. Grâce à la collecte et à
l’analyse approfondie des données, BlaBlaCar calcule des indicateurs de performance afin d’optimiser le taux de
conversion et d’améliorer la rétention.
DES DONNÉES ACCESSIBLES AUX ÉQUIPES MÉTIERS
Avec le Data Science Studio de Dataiku, les équipes métiers, Marketing et BI ont la main sur les données. Elles
peuvent ainsi acquérir des données externes, les centraliser et les formater afin de générer des rapports BI. Elles
n’ont plus besoin de faire des demandes d’extractions de bases SQL auprès des équipes techniques.
Avec le logiciel Data Science Studio, l’équipe en charge du projet data chez BlaBlaCar peut construire un flux qui
récupère des données depuis diverses sources (bases SQL, données partenaires ou externes…), de les agréger
et de les stocker dans une base Vertica optimisée pour les calculs analytiques en contexte Big Data. Par la suite,
les équipes métiers, marketing et BI peuvent construire et consulter des rapports à loisir sans régénérer des
requêtes complexes et couteuses sur les bases SQL de production. Une fois les rapports générés, Tableau est
branché à la base Vertica et permet de créer des visualisations sur les données.
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR BLABLACAR :
« DSS est prévu pour tous les « corps de métiers » de la Data Team - du data engineer au data analyst. Avec
l’aide de DSS, nous avons créé une structure qui nous permet de rendre autonomes les équipes d’analystes.
Les itérations ne sont pas dépendantes des techniciens, ce qui était un de nos objectifs premiers. »
Gaëlle Périat - BI Manager, BlaBlaCar
A PROPOS DE BLABLACAR
BlaBlaCar a lancé en 2011 le 1er service de réservation en ligne au monde dans le secteur du covoiturage, faisant
de cette nouvelle pratique un véritable moyen de transport. BlaBlaCar compte aujourd’hui plus de 10 millions de
membres dans 13 pays et connaît une croissance de 200% par an. Document réalisé par la Société Corp Events - Janvier 2015
28
Retours d’expériences Big Data en entreprise
DATAIKU - CHRONOPOST
CHRONOPOST FAIT CONFIANCE À DATAIKU
LE BIG DATA OUVRE DE NOUVELLES PERSPECTIVES
Le logiciel de Dataiku, Data Science Studio, ouvre à Chronopost de nouvelles perspectives d’analyses de données
pour mieux servir la stratégie de l’entreprise. L’historique des livraisons de Chronopost, qui contient notamment
des données horaires et géographiques sur plusieurs années, est pleinement exploité afin de créer de la valeur.
Les applications issues de ces données peuvent être d’ordre technique, commercial (nouvelles offres) ou opérationnel (optimisation de l’organisation, des processus de distribution, etc).
OPTIMISATION DU DERNIER KILOMÈTRE AVEC DSS
Chronopost utilise DSS pour analyser et identifier, à l’échelle de la France, les moyens opérationnels engagés chaque
jour pour couvrir l’ensemble du territoire. Grâce à des analyses approfondies de leurs bases de données, Chronopost
assure une qualité constante de ses différentes offres (livraison avant 13h, avant 8h…) au meilleur coût de production. Un score est ainsi calculé pour chaque adresse afin d’indiquer la facilité de livraison à un moment donné.
A terme, l’objectif est d’affiner les moyens routiers nécessaires pour optimiser le dernier kilomètre quelque soit le
moment de l’année, notamment les périodes critiques comme Noël, la fête des mères, etc.
Le projet est mené en interne par le pôle d’assistance à maîtrise d’ouvrage de Chronopost.
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CHRONOPOST :
« DSS nous permet un accès souple et direct à nos données de masse. Nous pouvons plus facilement nous en
faire une vision globale, puis affiner notre recherche rapidement dans une architecture alliant Big Data et architecture standard. »
Régine Buys - Responsable de Domaine BI
A PROPOS DE CHRONOPOST
Chronopost est l’un des acteurs majeurs de la livraison express de colis. En 2013, Chronopost a transporté 102,2
millions de colis dans plus de 230 pays en Europe et dans le monde.
Document réalisé par la Société Corp Events - Janvier 2015
29
Retours d’expériences Big Data en entreprise
DATAIKU - CITYVOX
CITYVOX FAIT CONFIANCE À DATAIKU
CONSOLIDATION DES DONNÉES : UN ENJEU BIG DATA
Afin de mieux comprendre ses utilisateurs et leurs attentes en terme de sorties, loisirs et événements, Cityvox a
décidé de regrouper dans un même environnement l’ensemble de ses données. Par exemple, cela comprend les
données des utilisateurs, les historiques d’utilisation du site internet et des applications mobiles, les notations des
utilisateurs, les renseignements sur les restaurants, etc.
En utilisant le Data Science Studio de Dataiku, Cityvox a été en mesure de regrouper simplement ces données, pourtant hétérogènes, dans le but d’en tirer de la valeur. L’interface graphique et les processeurs intégrés
ont permis de nettoyer, harmoniser, enrichir les données puis de les croiser (par lieu, événement, utilisateur…).
Aujourd’hui, une base Vertica stocke l’ensemble des données consolidées de Cityvox.
UN MODÈLE PRÉDICTIF POUR OPTIMISER LES PAGES RESTAURANTS
Une fois les données centralisées et nettoyées, les équipes de Cityvox ont pu en extraire des informations et obtenir des pistes d’améliorations pour leur business. Par exemple, des optimisations ont été réalisées sur les fiches
restaurants afin d’augmenter les visites sur le site. Pour ce faire, Cityvox a construit avec DSS des modèles prédictifs afin de déterminer les facteurs qui influent sur la satisfaction utilisateur. Une autre valorisation des données
a été réalisée avec la génération de graphiques pour différents reportings internes.
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR CITYVOX :
« DSS est l’outil qui nous permet d’automatiser le nettoyage et la centralisation de toutes nos données au même
endroit. Grâce à l’outil, nous maitrisons entièrement le processus d’entrée et de sortie de nos nombreux flux de
données pour pouvoir en faire bon usage. » Raphaël Guillet - Directeur Technique de Cityvox
A PROPOS DE CITYVOX
Cityvox, entreprise née à Marseille en 1999, est un portail dédié aux loisirs et aux sorties en ville. Avec plus d’un
million de membres et plus de deux millions de visiteurs uniques par mois, Cityvox est le site référent de l’actualité
des sorties en France.
Document réalisé par la Société Corp Events - Janvier 2015
30
Retours d’expériences Big Data en entreprise
DATAIKU - PAGESJAUNES
PAGESJAUNES FAIT CONFIANCE À DATAIKU
LE BIG DATA POUR DE MEILLEURES RÉPONSES
Huit Français sur dix font appel au site PagesJaunes.fr pour se renseigner ou pour faire la promotion de leur
activité, ce qui génère plusieurs centaines de millions de requêtes chaque année. La qualité et la pertinence des
résultats de ces requêtes est donc un enjeu majeur pour PagesJaunes. L’objectif du projet était pour PagesJaunes
d’améliorer la qualité de ses réponses, en automatisant la détection et la correction des requêtes problématiques. DATA SCIENCE STUDIO EN ACTION
PagesJaunes a choisi l’expertise de Dataiku et son Data Science Studio qui combine des outils de gestion de données, de statistiques, de visualisation et d’analyse prédictive en contexte Big Data.
Le projet tire massivement parti de la richesse de l’écosystème Open Source intégré à Data Science Studio :
Python, scikit-learn, Pig, Hive, ElasticSearch, etc. Des données issues de l’utilisation du moteur de recherche
(listes des requêtes, logs de navigation et clics, ordre des visites des pages, etc.) sont assemblées et exploitées
afin d’isoler les recherches infructueuses. Un score est ainsi calculé pour chaque requête afin de prédire celles
qui donnent des réponses non-satisfaisantes aux utilisateurs. Ceci permet de cibler les failles du moteur et par
conséquent d’améliorer l’expérience utilisateur.
Depuis le début du projet, une dizaine de collaborateurs PagesJaunes ont été formés à l’usage d’Hadoop,
des statistiques et du « Machine Learning » via le Data Science Studio. Ce projet a servi de pilote et a permis
l’émergence chez Pages Jaunes de plusieurs autres initiatives d’innovation par la donnée.
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PAGESJAUNES :
« La technologie de Dataiku nous a permis de rationaliser notre approche, en utilisant des statistiques basées
sur des millions de requêtes, le procédé est carré et nous travaillons en conscience ! »
Erwan Pigneul, Responsable Projet PagesJaunes
A PROPOS DE PAGESJAUNES
PagesJaunes.fr est le leader français de la publicité et de l’information locale sur Internet, mobile et papier.
Il est un client historique de Data Science Studio, la solution de Dataiku.
Document réalisé par la Société Corp Events - Janvier 2015
31
Retours d’expériences Big Data en entreprise
DATAIKU - PARKEON
PARKEON FAIT CONFIANCE À DATAIKU
BIG DATA, TROUVE-MOI UNE PLACE DE PARKING
Parkeon a créé « Find Me A Space », une application mobile unique permettant aux conducteurs de trouver une
place de stationnement disponible.
Sous son apparente simplicité se cachent des algorithmes prédictifs de dernière génération, valorisant des millions de transactions de parcmètres chaque jour, croisées avec des données géographiques « crowdsourcées »
d’OpenStreetMap (points d’intérêt tels que les restaurants et commerces) afin de prédire la pression de stationnement de manière individualisée dans chaque rue. Cette application, simple et intuitive, est un exemple typique
de « Data-Product » moderne : exploitation et enrichissement de données machines, algorithmes prédictifs en
environnement Big Data et packaging grand public (application iOS).
DATA SCIENCE STUDIO EN ACTION
Pour développer le back-office prédictif de l’application, Parkeon a choisi d’utiliser le Data Science Studio (DSS) de
Dataiku, qui a permis l’intégration des données parcmètres, l’enrichissement avec des données géographiques, le
développement des modèles prédictifs de stationnement et leur industrialisation à grande échelle.
LES BÉNÉFICES DE DATA SCIENCE STUDIO POUR PARKEON :
« Nous avons été séduits par la capacité de DSS à fonctionner sur des volumétries importantes de
données ainsi que par son côté ouvert et transparent quant au fonctionnement des algorithmes. »
Yves-Marie Pondaven, CTO de Parkeon
A PROPOS DE PARKEON
Parkeon, leader international dans le secteur de la mobilité urbaine, propose des équipements et des services
permettant de maîtriser tous les aspects de la gestion d’une infrastructure de stationnement (notamment des parcmètres, plus de 50% de parts de marché mondiale).
Document réalisé par la Société Corp Events - Janvier 2015
32
Retours d’expériences Big Data en entreprise
DELL - DANSKE BANK
DANSKE BANK, PREMIÈRE BANQUE DANOISE, CHOISIT DELL STATISTICA
POUR OPTIMISER SES PERFORMANCES ET RÉDUIRE SES RISQUES OPÉRATIONNELS
DANSKE BANK, PREMIÈRE BANQUE DANOISE ET L’UNE DES PLUS IMPORTANTES
INSTITUTIONS FINANCIÈRES D’EUROPE DU NORD, ADOPTE LA SOLUTION D’ANALYSE
DE DONNÉES ET DE MODÉLISATION PRÉDICTIVE, DELL STATISTICA, POUR LA GESTION DU RISQUE ET SES OPÉRATIONS DE SCORING.
Danske Bank a déployé la Plate-Forme Décisionnelle Dell Statistica pour la modélisation, le reporting et la gestion du risque. La solution fournit une aide à la décision en temps réel pour des besoins métiers variés et de très
nombreux sites en Europe.
Le logiciel Dell Statistica permet d’accélérer la création, le test et le déploiement des modèles de risque, et permet
à Danske Bank d’offrir à ses clients des services sur-mesure à plus forte valeur ajoutée, dans tous les pays et pour
tous les marchés.
« Travailler avec les experts de la Danske Bank a été réellement passionnant. Nous avons réussi à créer ensemble un système de scoring en temps-réel très performant. Ce système permet une recalibration aisée des
modèles, une grande précision dans la prédiction du risque, et offre d’excellents temps de réponse sur de grosses
volumétries de données en temps-réel et dans un environnement exigeant » confie George Butler, Vice-Président
en charge du Développement chez Dell Statistica. « La solution mise en place est un véritable état de l’art technologique, déployé dans environnement informatique de pointe »
Lorsque Danske Bank a décidé de mettre à jour son système informatisé de gestion du risque et de scoring,
l’opportunité s’est présentée de faire évoluer l’ancienne plate-forme analytique vers une plate-forme plus performante, pouvant facilement répondre aux différents besoins métiers en termes d’ETL, de scoring, de reporting et
d’aide à la décision en temps réel.
Danske Bank a réalisé pendant près de deux ans une étude approfondie et un comparatif minutieux des solutions
et des plates-formes analytiques disponibles sur le marché, qui ont finalement abouti au choix de la Plate-Forme
Décisionnelle de Dell Statistica. Danske Bank a eu recours à Dell Statistica pour la mise en oeuvre de la solution,
la formation des utilisateurs ainsi que d’autres services en vue d’assurer une transition en douceur et dans les
délais impartis pour ce projet.
La solution Dell Statistica est aujourd’hui en production afin de répondre aux besoins de la Danske Bank dans ses
applications métier courantes et ses opérations en temps-réel. Danske Bank a été particulièrement impressionnée par la flexibilité et la convivialité des solutions de Dell Statistica, ainsi que par l’étendue et la puissance des
fonctionnalités offertes.
« Nous sommes très heureux des efforts déployés par Dell Statistica pour comprendre les besoins de Danske
Bank et fournir une solution répondant à ces besoins » déclare Jens Chr. Ipsen, Premier Vice-Président et Directeur du Développement des Systèmes de Gestion du Risque. « La solution proposée a été facile à intégrer, et a
été déployée dans le respect des délais et des coûts impartis. Dell Statistica a été très réactif aux demandes de
modifications fonctionnelles, et les équipes de Dell Statistica sont à la fois professionnelles et sympathiques. La
solution proposée est désormais totalement opérationnelle et fonctionne parfaitement. »
« Dans un environnement de plus en plus complexe pour les modèles de risque, la solution mise en oeuvre par
Dell Statistica constitue un socle solide pour assurer le suivi du contenu, des performances et des versions des
différents modèles » conclut Monsieur Ipsen.
« Cette intégration de la Plate-Forme Décisionnelle de Dell Statistica avec les systèmes de Danske Bank démontre l’importance pour un logiciel d’adhérer aux conventions et aux normes d’intégration actuelles, pour la mise
en oeuvre réussie et rapide d’une solution analytique de pointe dans un environnement informatique mature et
complexe, et qui doit répondre à des besoins multiples comme c’est le cas pour Danske Bank. » souligne George
Butler. « Le fait que Dell Statistica soit en mesure de fournir une plate-forme logicielle moderne, non seulement
très performante mais également capable de coexister en parfaite harmonie avec les systèmes informatiques
existants, est essentielle pour générer de la valeur immédiatement et sur le long terme. »
Les composantes de la plate-forme Dell Statistica déployée chez Danske Bank comprennent Dell Statistica Enterprise Server, Dell Statistica Data Miner avec Optimisation de Processus, le Système Expert de Suivi et d’Alertes
de Dell Statistica, Dell Statistica Live Score ainsi que la Plate-Forme Décisionnelle de Dell Statistica. Le système
est utilisé en particulier pour le développement des modèles analytiques et le scoring du risque crédit, qui sont des
applications essentielles dans toutes les banques du Groupe Danske Bank.
Document réalisé par la Société Corp Events - Janvier 2015
33
Retours d’expériences Big Data en entreprise
AUTRES CAS D’USAGES AVEC LA SOLUTION DELL STATISTICA
Continental Automotive a sélectionné la solution Statistica afin de classer des images transformées numériquement pour prévoir et contrôler la qualité de sa production.
http://www.statsoft.com/Portals/0/Customers/Success_Stories/2013-Continental-Automotive-Success-Story.pdf
EOS KSI a sélectionné Statistica pour optimiser ses processus de recouvrement de la dette http://www.statsoft.
com/Portals/0/Customers/Success_Stories/2013-eosKSI.pdf
Unipetrol RPA utilise Statistica Réseaux de Neurones pour analyser ses processus de production https://www.
statsoft.com/Portals/0/Customers/Success_Stories/StatSoft-Unipetrol-SuccessStory.pdf
A PROPOS DE DELL STATISTICA
Dell Statistica est l’un des principaux éditeurs de logiciels analytiques avec 30 centres de compétences dans le
monde et plus d’1 million d’utilisateurs. Dell Statistica est un système intégrable à l’échelle de l’entreprise qui est
utilisé dans de nombreuses applications critiques, partout où la modélisation prédictive permet d’améliorer la productivité et la rentabilité. Dell Statistica est en outre fier de contribuer à l’amélioration de la santé, au renforcement
de la sécurité et à la préservation de l’environnement.
Plus ergonomique et offrant un meilleur rapport qualité-prix par rapport à ses concurrents,
Dell Statistica est sans conteste l’un des logiciels analytiques les plus performants et les plus évolués à ce jour
; les utilisateurs apprécient particulièrement la qualité et le soin apportés à son développement, garants depuis
toujours de son succès.
INFORMATIONS COMPLÉMENTAIRES :
Pour obtenir plus d’informations visitez notre site Internet : www.statsoft.com
Pour télécharger une version d’évaluation : http://software.dell.com/products/statistica/
Pour obtenir notre livre blanc, la Révolution du Big Data… Comment extraire de la valeur à partir des Big Data :
http://www.statsoft.fr/pdf/la_revolution_du_big_data.pdf
Pour visualiser les vidéos « Le Data Mining en 35 leçons » : https://www.youtube.com/playlist?list=PL0C134C89
8122050E
Pour avoir plus d’informations contactez-nous : [email protected]
Document réalisé par la Société Corp Events - Janvier 2015
34
Retours d’expériences Big Data en entreprise
DELTAMU - SANOFI-PASTEUR
SANOFI-PASTEUR – N°1 MONDIAL DU VACCIN
Dans le cadre de la qualité de ses productions de vaccins, Sanofi Pasteur utilise de nombreuses micropipettes.
Compte tenu de l’exigence Qualité autour de ses vaccins, l’entreprise vérifie périodiquement ses micropipettes.
Ces vérifications consistent en la réalisation de mesures de la masse de volumes d’eau pipetés. Ces masses,
converties en volume à partir de la masse volumique de l’eau (et des conditions environnementales, température,
pression et hygrométrie, de cette mesure), permettent de s’assurer que le volume prélevé est bien le volume souhaité. L’analyse des écarts entre « volume mesuré » et « volume prélevé » permet d’écarter les micropipettes qui
n’ont pas la performance attendue.
L’étude conduite par Delta Mu a permis de montrer que, contrairement aux idées initiales, les écarts observés
étaient dus en grande majorité à la variation de pipetage des techniciens chargés de l’opération plutôt qu’aux
micropipettes. Impossible, dans de telles conditions, de tirer des conclusions pertinentes quant à un phénomène
si la mesure (Dans cet exemple, et finalement, le technicien) n’est pas représentative de la grandeur qu’on croit
mesurer (la micropipette) !
Lire http://www.deltamu.fr/Publications/TelechargerArticlePublication/57
DELTAMU - TRAITEMENT THERMIQUE
PME DANS LE DOMAINE DU TRAITEMENT THERMIQUE
Spécialisée depuis plus de 20 ans dans le traitement thermique de pièces métalliques, la société mesure par
échantillonnage la qualité de sa production. Les mesures sont réalisées sur les pièces, après traitement. Il s’agit
de quantifier la dureté obtenue une fois réalisé le process de trempe. Ses principaux clients lui demandent de
s’assurer de la capabilité de ses processus de mesure, cette exigence étant notamment inscrite au rang des exigences de la norme Qualité qui lui est imposée (FD ISO/TS 16949).
Accompagnée par Delta Mu dans l’analyse des résultats obtenus, l’entreprise se rend (enfin) compte que ses
mesures (qu’elle croyait fiables) dispersent 3 fois plus que le process qu’elle contrôle avec ! Ses mesures ne lui
permettent finalement pas de voir réellement sa production …
Note : L’étude de capabilité consiste à s’assurer, via un plan d’expérience spécifique, que l’incertitude de mesure
(fiabilité) est compatible avec la dispersion du process à analyser.
DELTA MU DANS LE BIG DATA
Forte d’une compétence reconnue dans le domaine de l’évaluation de la qualité des mesures (fiabilité), Delta Mu
intervient à différents niveaux :
• Evaluation de la qualité des mesures, c’est à dire leur capacité à représenter le plus fidèlement possible la grandeur recherchée ;
• Préconisations en vue de l’amélioration de la qualité des mesures (si nécessaire) ;
• Préconisations quant au maintien de la qualité des mesures dans le temps ;
• Préconisations quant à la robustesse des mesures en cas de changement de capteurs.
Note : La robustesse se définit comme étant l’insensibilité d’une mesure à une cause d’incertitude.
La prestation prend plusieurs formes : Diagnostic/expertise sur site, Rapport de préconisations, développement
de briques « logiciel » spécifiques, formation, …
Document réalisé par la Société Corp Events - Janvier 2015
35
Retours d’expériences Big Data en entreprise
HP - AT&T
AT&T LEVERAGES HP VERTICA ANALYTICS PLATFORM TO CHANGE
THE ECONOMICS OF PROVIDING ACTIONABLE INSIGHTS TO
DECISION MAKERS
OVERVIEW
AT&T has made Big Data analytics a core component of the business decision-making process to drive its growth
and maximize customer satisfaction. In May 2013, the telecommunications company augmented its Enterprise
Consolidated Data Warehouse with the HP Vertica Analytics Platform (HP Vertica) to improve the performance of
critical analytics workloads. HP Vertica, a core engine of the HP HAVEn Big Data Platform, has surpassed AT&T’s
expectations and is providing company decision makers with actionable insights into areas such as customer and
network use patterns.
John Yovanovich, Director of Data Strategy, Delivery, and Support at AT&T, explained that his company chose the
HP Vertica Analytics Platform after concluding that “we needed a platform that supported the columnar database
technology required by critical workloads.” This conclusion reflected the increasingly
prominent position of Big Data analytics at AT&T and the potential value the company sees in it.
Yovanovich credits HP Vertica with changing how analytics are consumed and used by AT&T’s lines of business
(LOBs). Above all, his internal LOB clients demand a robust analytics platform that can
run required queries quickly and efficiently. Before deploying HP Vertica, AT&T could not fully exploit the potential
of Big Data analytics because of the cost and time associated with running certain queries on its legacy platform.
With HP Vertica, Yovanovich’s team provides superior outputs at a much lower cost, so business teams are bringing many more projects to his team.
Yovanovich cited a number of ways in which HP Vertica drives value for AT&T. From the onset, the move avoided
investment costs of $11 million in pending capacity expansion. Business decision makers get query results in less
time and can run more complex queries and analyses. As such, they have more actionable information in their hands
sooner, which helps them craft improved business strategies and make better decisions. This results in improved
services for AT&T’s customers, improved customer relationships, and operational efficiencies.
Meanwhile, Yovanovich’s team has benefited from the speed with which HP Vertica runs queries and its ease of use;
he estimates that teams responsible for preparing and carrying out data queries have become roughly 20% more productive since deploying HP Vertica. Finally, AT&T is paying much less to run analytics workloads on HP Vertica than it
was paying to run analytics workloads on its legacy platform. This allows business units to migrate certain workloads
to HP Vertica and pay much less even as the quality and speed of the outputs improve substantially.
Based on discussions with Yovanovich, IDC calculates that AT&T is achieving discounted benefits of
$63.38 million over five years with its to-date deployment of 570TB of data on HP Vertica, including cost savings
on analytical queries compared with its legacy row-based analytics platform, costs avoided for increasing its legacy
platform’s capabilities, more efficient retention of data, and improved productivity for its data analytics team. Over a
projected five-year period, this results in a return on investment (ROI) of 657% and a payback period of 4.0 months.
IMPLEMENTATION
AT&T’s Big Data strategy is centered on leveraging the voluminous customer use data that feeds into the company’s Enterprise Consolidated Data Warehouse to create actionable insights and ultimately business advantages.
As of October 2014, the warehouse employs 3.2PB of storage in total and supports all of AT&T’s home and business solutions product and service lines. The foundation of AT&T’s Big Data strategy is to feed this huge amount
of information — more than 100 million files an hour flow from AT&T cellular towers alone — into shared relational
databases and then move this data into the data warehouse via the Hadoop open source software framework for
analysis driven by analytics platforms.
Two years ago, AT&T began evaluating columnar-based analytics engines after concluding that performance limitations with its legacy row-based analytics solution would prevent it from fully leveraging data to drive its business.
It had discovered that it could not economically run many of the complex data queries and analyses requested by
its LOBs on its legacy row-based analytics platform. As a result, AT&T sought a more robust, query-oriented analytics platform with columnar-based analytics technology to enable it to handle more complex queries and handle
queries more efficiently.
AT&T carried out a proof of concept with several Big Data analytics engines and found that HP Vertica came out
on top in both performance and cost. “No one came close to HP Vertica on price,” Yovanovich said. “We also liked
the fact that they are a market leader in columnar database technology with a proven track record among largevolume customers like us.”
Document réalisé par la Société Corp Events - Janvier 2015
36
Retours d’expériences Big Data en entreprise
AT&T initially deployed HP Vertica in May 2013 over four days with four employees in support. Onsite training was
initially provided for 15 employees and has since continued. “HP Vertica performed well out of the box,” Yovanovich
said. “It has exceeded my expectations. It’s quicker, so we spend less time on design. Also, we’re able to spend
more time on development to make sure we put out the best-performing product possible.”
In the first year, AT&T deployed 70TB of new data that had never been sourced to another data analytics platform
to HP Vertica. It also migrated about 160TB off of its legacy analytics platform to HP Vertica, which opened up
space on that platform and improved its throughput. Yovanovich expects HP Vertica to support a growing percentage of AT&T’s data warehousing operations over the next four years, fueled by new projects, mergers and acquisitions, and organic growth.
BENEFITS
HP Vertica has changed the economics of using Big Data analytics for AT&T’s LOBs while minimizing the likelihood
that performance bottlenecks will prevent business teams from realizing the full potential of Big Data analytics. As
a result, AT&T’s data analytics team can now provide more actionable data, and Big Data analytics has become
an important component of the company’s growth plans. Yovanovich described a number of ways in which AT&T’s
strategic decision makers are leveraging queries and analyses made possible by HP Vertica. He explained: “We’re
enabling our marketing team to create significant customer insights with HP Vertica based on data records that
they never could before.” This results in personalized customer marketing efforts because “we can determine
which messages and ads to present to a customer based on the customer’s profile and use history.” Strategic
business decision makers at AT&T are also increasingly leveraging analytics delivered by HP Vertica to make important decisions. Yovanovich explained that AT&T uses call detail analyses to understand how its customers use
its network of cellular towers and then applies this understanding to its strategy for investing in and expanding its
cellular network infrastructure. This analysis, which took 17 hours to complete on AT&T’s legacy analytics engine,
takes just more than 30 minutes to complete with HP Vertica. This means that AT&T can now run these analyses
more often and provide its strategic decision makers with actionable data and insights into how its network is being
used on a more regular, timely basis.
The speed with which HP Vertica can run queries and analyses means that users get results faster and can better
integrate them into their decision-making processes. AT&T is also leveraging HP Vertica’s improved compression
capabilities — 6:1 rather than 2.5:1 with the legacy system — to double the retention time of data for analytics use
from three months to six months. Yovanovich said that this improves the quality of queries and analyses by providing more complete insights based on a longer history. He said, “My goal is to retain 13 months of data, and I expect
to do this within a year or so, which would give us full seasonality.”
In addition to having a positive impact on AT&T’s lines of business, HP Vertica has altered the economics of Big
Data analytics. HP Vertica costs only a fraction per terabyte (TB) of what AT&T’s legacy analytics platform costs.
This means that Yovanovich’s team can offer the win-win proposition of improved analytics outputs at a much
lower price thanks to the savings it is achieving with HP Vertica. As a result, business teams can afford to support
more projects with analytical queries and data. For Yovanovich, the result is straightforward: “We save our lines of
business so much money on capital with HP Vertica that they give us more projects.” AT&T’s data analytics team
handles this increased project workload in part because of efficiencies it gains by using HP Vertica. Yovanovich
cited the ease of using HP Vertica and its ELT approach (Extract, Load, Transform): “Take the source data, load it
onto the platform, and then transform it on Vertica. This allows you to go directly to provisioning the data because
you don’t need to get it ready to put on the platform.” This allows his team to more accurately track any errant code
and ultimately close tickets faster. Yovanovich estimated that his team is about 20% more efficient with HP Vertica
because “we spend less time with system requirements and development to transform data into an appropriate
model that our internal end users want to see.” HP Vertica has also helped AT&T achieve other cost savings related
to its use of Big Data analytics engines. By migrating projects from its legacy analytics platform onto HP Vertica,
AT&T lengthened the life span of its existing system by about 16 months, which is allowing it to avoid significant
expenses associated with buying more space on the system.
QUANTIFYING THE BENEFITS
Based on interviews with Yovanovich about AT&T’s use of the HP Vertica Analytics Platform, IDC has quantified the
benefits the company is realizing from its to-date deployment of 570TB. When projected
over five years, the benefits from improved data analytical operations, cost reductions, and increased data warehousing team productivity averaged $17.81 million per year.
BUSINESS PRODUCTIVITY BENEFITS/IT INFRASTRUCTURE COST REDUCTIONS
The HP Vertica Analytics Platform has allowed AT&T’s lines of business to make analytics a more central part of
their operations and planning. For the purposes of this study, IDC has quantified the benefits to these business
teams as the difference in cost for the use of the 160TB of capacity on HP Vertica that was transitioned from the
legacy row-based analytics solution while also taking into account employee time costs associated with making
this transition. IDC calculates the value to AT&T’s business teams at an average of $16.53 million per year over
five years.
In addition to these cost efficiencies, AT&T business teams benefit from HP Vertica by being able to afford to run
more queries and analysis and being able to run more robust queries. This translates into productivity gains for
business team end users as well as higher revenue for AT&T through the development of more powerful applications and enhanced strategic decision making, although these benefits have not been quantified separately for the
purposes of this study.
Document réalisé par la Société Corp Events - Janvier 2015
37
Retours d’expériences Big Data en entreprise
IT STAFF PRODUCTIVITY BENEFITS
AT&T’s team dedicated to supporting data analytical operations has also become more efficient and productive
since deploying HP Vertica. In particular, HP Vertica makes the data ingestion process faster and less labor intensive. This means that AT&T has been able to evolve its ELT approach so that staff spend less time on system
requirements and development to transform data into deliverables that serve end users. In addition to benefiting
end users by shortening the overall query process, it also means that the data analysis support team spends less
time on each query or request. As a result, the teams supporting AT&T’s data analysis efforts have been able to
cope with higher demand for their services based on the lower price point for queries run with HP Vertica without
a commensurate increase in staff size. This is a significant benefit for AT&T given that it has several hundred employees supporting its data analytics efforts. IDC calculates that this benefit has a value of $1.28 million per year
over five years in increased efficiency and higher productivity for these team members.
RETURN ON INVESTMENT
IDC projects that over five years, AT&T will achieve total discounted benefits of $63.38 million by using
the HP Vertica Analytics Platform versus a discounted investment of $8.37 million. This results in a five-year ROI
of 657%, with breakeven on its investment in HP Vertica occurring in 4.0 months.
IDC conducted several interviews with AT&T to quantify the benefits and investment associated with its use of the
HP Vertica Analytics Platform and created an ROI analysis from the results.
IDC calculates the ROI and payback period in a three-step process:
1. Measure the benefits from increased IT staff and user productivity and other cost savings since deployment.
2. Ascertain the total investment.
3. Project the investment and benefit over five years and calculate the ROI and payback period. The ROI is the
five-year net present value of the benefit divided by the discounted investment. To account for the time value of
money, IDC bases the ROI and payback period calculations on a 12% discounted cash flow.
IDC ExpertROI® SPOTLIGHT - Sponsored by: HP - Matthew Marden - November 2014
HP - BLABLACAR
HP AIDE BLABLACAR À AMÉLIORER SON EXPÉRIENCE CLIENT
La plateforme communautaire renforce l’efficacité de ses campagnes marketing en exploitant la puissance des
analyses de données Big Data avec HP Vertica
BlaBlaCar, la place de marché communautaire en ligne qui met en relation des conducteurs disposant de places
dans leur véhicule avec des passagers à la recherche d’un trajet en voiture a amélioré la fidélisation de ses clients
et l’efficacité de ses campagnes marketing en réalisant des analyses Big Data avec HP Vertica.
BlaBlaCar, la startup innovante et performante dont le siège est situé à Paris, et dont les équipes sont réparties à
Madrid, Milan, Varsovie, Hambourg, Londres et Moscou, a créé un modèle de réseau social de transport entièrement nouveau. Avec son site web et sa plateforme mobile sophistiqués, un centre de service client dédié et une
communauté d’utilisateurs en forte croissance, BlaBlaCar rend le voyage en voiture moins coûteux, plus convivial
et plus pratique pour plus de 10 millions de membres répartis dans 12 pays.
« BlaBlaCar connait un succès tel parmi les voyageurs européens, que nous transportons chaque mois plus de
personnes que l’Eurostar, et que nous traversons une phase de croissance internationale rapide » déclare Gaëlle
Periat, Manager Business Intelligence chez BlaBlaCar. « La Business Intelligence est au cœur de nos mécanismes de prise de décision. Nous avons choisi une approche centrée sur les données pour améliorer l’efficacité
de notre marketing. Plus de deux millions de personnes utilisent les services de BlaBlaCar tous les mois, et HP
Vertica nous aide à exploiter toute la puissance de nos Big Data pour optimiser la performance de nos campagnes
de Gestion de la Relation Client et améliorer le confort d’utilisation de nos services pour nos clients. »
Le logiciel HP Vertica, installé sur un cluster Hadoop Cloudera, fournit à BlaBlaCar une plate-forme d’analyse
Big Data en temps réel. Conçue pour supporter des charges de travail intensives, elle délivre des performances
de requêtes SQL ad hoc qui ont décuplé l’efficacité des campagnes marketing en permettant la manipulation et
l’analyse des données à une fréquence plus élevée, à un niveau de granularité plus fin et à partir de plusieurs
points d’accès.
Dans le futur, HP Vertica permettra à BlaBlaCar d’affiner encore davantage ses activités marketing en intégrant
Document réalisé par la Société Corp Events - Janvier 2015
38
Retours d’expériences Big Data en entreprise
des informations provenant des réseaux sociaux, et en prédisant le comportement de ses clients grâce à des mécanismes de reconnaissance des tendances.
Supervisé depuis une machine virtuelle sous Debian 6, le cluster distribué Hadoop est composé de deux machines
équipées de HP Vertica, d’une machine tournant le logiciel Tableau pour l’exploration et la visualisation des données, et d’une machine équipée du logiciel Data Science Studio de Dataiku. Cette structure permet à BlaBlaCar
de donner une autonomie informatique complète à ses équipes d’analyses de données et de garantir des temps
de traitement très courts.
« Pour répondre à leurs défis en termes de marketing, des entreprises comme BlaBlaCar ont besoin d’analyser
des volumes massifs de données – structurées, semi-structurées et non-structurées – à des vitesses jamais atteintes » déclare Florence Laget, Directrice de l’activité Big Data chez HP France. « La plateforme analytique HP
Vertica a été conçue pour offrir rapidité, évolutivité, simplicité et ouverture, et architecturée pour effectuer des
traitements analytiques de 50 à 1000 fois plus rapides qu’avec les solutions de DataWarehouse traditionnelles. »
HP - METROPOLITAN POLICE DE LONDRES
LA METROPOLITAN POLICE DE LONDRES UTILISE LES MÉDIAS SOCIAUX
POUR MOBILISER LA COMMUNAUTÉ LOCALE.
Les solutions HP Autonomy permettent à la principale police britannique de mieux impliquer la population et de
répondre à des événements locaux. Conscient des lacunes dans le suivi et l’utilisation des médias sociaux, le
Metropolitan Police Service (MPS) a démarré avec HP pendant l’été des Jeux olympiques de Londres le déploiement d’outils d’analyses des médias sociaux. Le résultat est un engagement plus efficace de la communauté, un
signalement anticipé des problèmes, et une analyse plus précise des sentiments sur les médias sociaux. Ces
résultats ont bénéficié aux opérations de police, y compris les renseignements et les enquêtes criminelles.
Le Metropolitan Police Service (MPS) est la force policière la plus importante du Royaume-Uni, avec 31 000
agents et plus de 10 000 employés de support. Il couvre une population de 7,2 millions d’ habitants et des événements publics majeurs du Royaume-Uni. À l’été 2012, le MPS a supervisé les Jeux Olympiques de Londres et les
Jeux Paralympiques, ainsi que la Royal Jubilee et le Carnaval de Notting Hill annuel. Cela a nécessité un niveau
de maintien de l’ordre sans précédent.
Conscient des missions du MPS et ses projets sur les médias sociaux à long terme, HP Autonomy a proposé un
essai pour aider à mieux comprendre et à utiliser l’analyse des médias sociaux (SMA) pour l’engagement communautaire. HP est un fournisseur important pour la police au Royaume-Uni, fournissant des éléments clés de son
infrastructure informatique. Le déploiement test s’est déroulé de juillet à septembre dans deux arrondissements de
Londres, Haringey et Hammersmith & Fulham. Il a aidé le MPS à élaborer une stratégie à long terme pour les médias sociaux et a donné un aperçu sur la façon dont les médias sociaux peuvent être utilisés pour faire progresser
l’engagement de la communauté, la collecte de renseignements et les enquêtes criminelles.
Rapide à mettre en œuvre, adaptable aisément, la solution HP Autonomy exploite la puissance de IDOL (Intelligent
Data Operating Layer) pour comprendre automatiquement les concepts exprimés dans les tweets, les articles de
presse et les blogs. IDOL est capable d’identifier les tendances, les thèmes et les sujets connexes, naviguant
automatiquement dans la masse des données. Cela offre une compréhension en temps réel de ce qui capte
l’attention du public. Pour le MPS, il a produit des rapports sur des thèmes, des tendances et mots à la mode,
consolidés sur un tableau de bord unique, personnalisable pour chaque utilisateur.
RÉSOUDRE LE PROBLÈME DE «L’ AIGUILLE DANS LA BOTTE DE FOIN »
Le test a été rapidement considéré comme un succès, et a été poursuivi jusqu’en novembre. L’impact le plus évident était que la solution HP autonomy a pu faire face aux grands volumes de données non structurées générées.
En moyenne, il y avait 2 306 796 tweets par jour en provenance de Londres du 12 Juillet au 13 Août, avec un pic
de 3 291 998 le jour de la cérémonie d’ouverture des Jeux Olympiques.
De ce déluge d’informations, MPS a été en mesure de déterminer de nouveaux influenceurs de la communauté et
de recueillir un premier aperçu des questions pertinentes. Il a permis de générer des évaluations de l’impact communautaire beaucoup plus rapidement et avec plus de crédibilité. L’essai a également apporté une contribution
importante aux opérations en cours en permettant à MPS :
• Identifier une connexion entre deux sources de renseignement qui n’étaient pas identifiées jusqu’alors
• Identifier les incidents potentiels et leurs relations beaucoup plus rapidement et avec plus de précision que par
des moyens traditionnels
Document réalisé par la Société Corp Events - Janvier 2015
39
Retours d’expériences Big Data en entreprise
• assurer une réponse opérationnelle proportionnée et appropriée à des événements communautaires très sensibles
• Identifier plusieurs inconnus témoins d’un coup de couteau mortel
• Transférer des tweets concernant des événements de la communauté et répondre à des tweets erronés
• Aider à construire un glossaire des termes à utiliser pour des recherches croisées de mots-clés
En synthèse, la solution a pu fournir une analyse précise sur une base en temps quasi réel par rapport à avant, où
les données n’étaient disponibles que 24 heures après.
• Vitesse de compréhension et de sensibilisation opérationnelle
• Précision de l’évaluation menant à des décisions opérationnelles mieux informées
• Facilité d’accès et d’évaluation de l’humeur du public et de l’opinion
• Analyse plus efficace, fournissant automatiquement des informations plus succinctes et laissant le temps à
l’analyste de mieux se concentrer sur les priorités
• Capacité à prendre des décisions plus éclairées à tous les niveaux, des opérations au commandement
Document réalisé par la Société Corp Events - Janvier 2015
40
Retours d’expériences Big Data en entreprise
INFORMATICA - WESTERN UNION
GRÂCE À LA TECHNOLOGIE INFORMATICA, WESTERN UNION PROFITE
PLEINEMENT DE TOUT LE POTENTIEL DE SES DONNÉES POUR
PROPOSER UNE EXPÉRIENCE CLIENT EXCEPTIONNELLE
Le leader mondial des paiements lance une initiative de transformation opérationnelle et optimise l’expérience client grâce à la solution PowerCenter Big Data Edition
Western Union, leader des services de paiement mondiaux, a choisi Informatica Corporation (Nasdaq :INFA),
premier fournisseur indépendant de logiciels d’intégration de données, dans le cadre de son projet d’intégration de
données. En investissant dans la solution PowerCenter Big Data Edition d’Informatica pour Hadoop, Western Union pourra désormais fédérer les données structurées et non-structurées issues de multiples sources – mainframe,
bases de données disparates et fichiers de logs – et les adapter à des fins de traitement sur Hadoop, quelle que
soit la latence, en temps réel ou sur une base journalière.
L’ambition de Western Union est d’optimiser le traitement intelligent de ses données de façon à perfectionner ses
offres de services numériques, maximiser la satisfaction client et renforcer la fidélisation des utilisateurs à la marque
sur l’ensemble de ses opérations mondiales. En effet, la société dispose d’un volume colossal d’informations qui
transite au sein de son infrastructure. Rien qu’en 2013, à travers le monde, 242 millions de transactions de particulier à particulier et 459 millions entre professionnels, soit, en moyenne, plus de 29 transactions par seconde,
ont été réalisées. Grâce à l’intégration et à l’analyse de ces données transactionnelles, la société va désormais
bénéficier de multiples atouts :
• Identification des tendances en matière d’envoi et de réception de fonds afin d’améliorer davantage l’expérience client
• Suivi minutieux de l’évolution des transferts de fonds pour mieux planifier les stratégies d’expansion,
• et identification des opportunités, afin de proposer à l’utilisateur une expérience intégrée sur de multiples canaux,
notamment Internet, téléphone, boutiques et terminal mobile. « L’ensemble de nos opérations met au centre de
nos préoccupation nos clients. Western Union dispose d›une opportunité unique d’exploiter au mieux le potentiel
de l›analyse des données collectées à travers les nombreuses transactions. L›objectif est d›identifier des tendances nous permettant de mieux définir notre stratégie opérationnelle et, à terme, d’améliorer la satisfaction de
notre clientèle. Nous nous réjouissons de la décision de poursuivre notre collaboration avec Informatica qui nous
offrira la possibilité de maximiser le potentiel mondial de notre entreprise et de notre base clientèle. » explique
Sanjay Saraf, senior vice president and chief technology officer chez Western Union.
LES SOLUTIONS INFORMATICA DÉCLOISONNENT LES SILOS DE DONNÉES
La disponibilité immédiate de la version développeur d’ Informatica PowerCenter a joué un rôle crucial dans la
mobilisation d’un personnel dédié à ce projet. L’ensemble des versions de la solution Informatica PowerCenter
reposent sur Informatica Vibe, la toute première et seule machine de données virtuelle embarquable. Même en
l’absence de compétences Hadoop spécifiques, les développeurs œuvrant sur PowerCenter bénéficient d’une
vélocité de développement cinq fois supérieure sur cet environnement Hadoop, qui est celui de Western Union.
Par ailleurs, Western Union sera à même d’effectuer de manière efficace les opérations d’intégration des données
au fur et à mesure des évolutions technologiques, sans devoir adapter les flux de traitement des données.
« Western Union incarne cette ambition de dimension mondiale qui donne à la notion de ‘ service ‘ toute sa portée.
Comme dans bon nombre de sociétés, les données revêtent, pour Western Union, un caractère fondamental.
Elles sont indispensables à la réalisation de ses objectifs. Etre à l’écoute des besoins de sa clientèle, lui assurer
une expérience homogène quel que soit le canal utilisé, optimiser les opérations et poursuivre ses innovations
constituent aujourd’hui les clés du succès sur ce marché très dynamique. Informatica apporte à Western Union
des solutions pour exploiter ses données, grâce à l›automatisation de l’intégration et de la saisies des données
avant traitement et analyses. » conclut Ash Kulkarni, senior vice president et general manager, Data Integration,
Informatica
A PROPOS DE WESTERN UNION
La société Western Union (NYSE : WU) est un leader dans les services de paiement à travers le monde. Avec
ses services de paiement Vigo, Orlandi Valuta, Pago Facil et Western Union Business Solutions, Western Union
propose aux particuliers et aux entreprises des services rapides, fiables et pratiques pour envoyer et recevoir de
l’argent partout dans le monde, pour réaliser des paiements et passer des ordres de paiement. Au 31 décembre
2013, les services Western Union, Vigo et Orlandi Valuta étaient disponibles dans un réseau de plus de 500 000
points de vente répartis dans 200 pays et territoires ainsi que plus de 100 000 distributeurs automatiques de billets. En 2013, Western Union a réalisé 242 millions de transactions de particulier à particulier à travers le monde,
transférant 82 milliards de dollars entre particuliers et 459 millions de dollars entre professionnels.
Pour plus d’informations sur Western Union : www.westernunion.com
Document réalisé par la Société Corp Events - Janvier 2015
41
Retours d’expériences Big Data en entreprise
À PROPOS D›INFORMATICA
Informatica Corporation (NASDAQ : INFA) est le leader des fournisseurs indépendants de solutions d’intégration
de données. Les entreprises du monde entier font confiance à Informatica pour exploiter le potentiel de leurs
informations et répondre à leurs principaux impératifs métiers. Informatica Vibe, la première et la seule machine
de données virtuelle embarquable du marché, supporte les fonctionnalités exclusives de mapping unique pour
déploiement universel (« Map Once. Deploy Anywhere. ») de la plate-forme Informatica. Plus de 5 000 entreprises
dans le monde s’appuient sur Informatica pour tirer pleinement profit de leurs ressources en matière d’informations
issues des périphériques, des réseaux mobiles et des Big Data, hébergées sur site, dans le Cloud et sur les
réseaux sociaux. Pour en savoir plus, appelez le 01 42 04 89 00 ou visitez notre site www.informatica.com/fr.
Vous pouvez également contacter Informatica sur http://www.facebook.com/InformaticaCorporation, http://www.
linkedin.com/company/informatica et http://twitter.com/InformaticaFr.
Document réalisé par la Société Corp Events - Janvier 2015
42
Retours d’expériences Big Data en entreprise
MAPR - ANCESTRY.COM
ANCESTRY.COM RELIES ON THE HIGH AVAILABILITY OF MAPR TO RUN
THEIR DNA PIPELINE CONSTANTLY, WITH NO INTERRUPTIONS
THE BUSINESS
Ancestry.com, the world’s largest online family history resource, uses machine learning and several other statistical
techniques to provide services such as ancestry information and DNA sequencing to its users.
THE CHALLENGE
According to the Chief Technology Officer, Scott Sorensen, Ancestry.com has more than 12 billion records that are
part of a 10-petabyte (or 10-million gigabyte) data store. If you’re searching for “John Smith,” he explained, it will
likely yield results for about 80 million “Smith” results and about 4 million results for “John Smith,” but you’re only
interested in the handful that are relevant to your John Smith. For Ancestry.com their data is highly strategic. As
Sorensen explains, there are 5 fundamental ways they make use of data to enhance the customer experience.
These include:
• With more than 30,000 record collections
in their data store including birth, death, census, military and immigration records, they mine this data using patterns in search behavior to speak to their more than 2 million subscribers or tens of mil- lions of registered users
in a more relevant way. For instance, only a selection of their users will be interested in newly released Mexican
census data.
• They mine their data to provide product development direction to the product team. Analyzing search behavior
can show where a subscriber might be stuck or where they leave the service and therefore where new content
could be created.
• They rely on big data stores to develop new statistical approaches to algorithmic development, such as record
linking and search relevance algorithms. Today, the vast amount of user discoveries are deter-mined by Ancestry.
com hints derived from strategically linked records and past search behavior (e.g., Charles ‘Westman’ is the same
person as Charles ‘Westmont’). Two years ago, the majority of discoveries were based on user-initiated search.
• Advanced data forensics is used to mine data for security purposes to ensure ap- propriate use of their information.
• DNA genotyping to provide information about genetic genealogy is a new area of focus. Customers spit in a
tube, send the package to Ancestry.com, and then mo- lecular tests and computational analyses are performed
to predict a person’s ethnic- ity and identify relatives in the database. For every AncestryDNA customer, 700,000
SNPs (distinct variable regions in your DNA) are measured and analyzed, resulting in 10 million cousin predictions
for users to-date.
MAPR SOLUTION
A portion of Ancestry.com’s data is processed on three clusters using MapR as the Hadoop distribution. One cluster
is for DNA matching; another is for machine learning and the third, which is just being built-up, is for data mining.
Massive distributed parallel pro- cessing is required to mine through 10 petabytes of data and the large quantities
of DNA data. Ancestry.com runs batch jobs and wants to run the DNA pipeline constantly with no interruptions, so
high availability is very important. MapR’s high availability JobTracker enabled the company to run different tasks
on the same cluster. They have also been pleased with MapR’s service and support, and the ability to quickly get
everything up and running with the graphical user interface and client configuration.
Document réalisé par la Société Corp Events - Janvier 2015
43
Retours d’expériences Big Data en entreprise
MAPR - COMSCORE
COMSCORE RELIABLY PROCESSES OVER 1.7 TRILLION INTERNET &
MOBILE EVENTS EVERY MONTH ON MAPR
THE BUSINESS
comScore is a global leader in digital media analytics and the preferred source of digital marketing intelligence.
comScore provides syndicated and custom solutions in online audience measurement, e-commerce, advertis- ing,
search, video and mobile. Advertising agencies, publishers, marketers and financial analysts rely on comScore
for the industry-leading solutions needed to craft successful digital, marketing, sales, product development and
trading strategies.
c omScore ingests over 20 terabytes of new data on a daily basis. In order to keep up with this data, comScore
uses Hadoop to process over 1.7 trillion Internet and mobile events every month. The Hadoop jobs are run every
hour, day, week, month and quarter, and once they’re done, data is nor- malized against the comScore URL data
dictionary and then batch loaded into a relational database for analysis and reporting. comScore clients and analysts generate reports from this data; these reports enable comScore clients to gain behavioral insights into their
mobile and online customer base.
HADOOP REQUIREMENTS
The comScore engineering team processes a wide variety of Hadoop work- loads and requires a Hadoop distribution that excels across multiple areas:
Performance : As comScore continues to expand, the Hadoop cluster needs to maintain performance integrity,
deliver insights faster, and also needs to produce more with less to minimize costs.
Availability : comScore needs a Hadoop platform that provides data protection and high availability as the cluster
grows in size.
Scalability : comScore’s Hadoop cluster has grown to process over 1.7 trillion events a month from across the
world, in the past comScore has seen increases of over 100 billion events on a month over month basis. Consequently, comScore needs a Hadoop platform that will enable them to maintain per- formance, ease of use and
business continuity as they continue to scale.
Ease of Use : comScore needs things to just work, and operating the cluster at scale needs to be easy and intuitive.
BENEFITS
MapR has been in continuous use at comScore for over two years. MapR has demonstrated superior performance,
availability, scalability, ease of use, and significant cost savings over other distributions.
Performance : Across various benchmarks, MapR executes jobs 3 - 5 times faster when compared to other Hadoop distri-butions and requires substantially less hardware than other distributions.
Availability : MapR protects against cluster failures and data loss with its distributed NameNode and JobTracker
HA. Rolling upgrades are also now possible with MapR.
Scalability
With architectural changes made possible by it’s no NameNode archi- tecture, MapR creates more files faster, processes more data faster, and produces better streaming and random I/O results than other distributions. comScore
now runs more than 20,000 jobs each day on its production MapR cluster.
Ease of Use : comScore’s Vice President of Engineering, Will Duckworth said, “With MapR, things that should just
work, just work.” This means there is a lot less for comScore to manage with MapR. One of the advantages that
Duckworth cites is that everything is a data node. This configuration re- sults in much better hardware utilization
from his perspective. With MapR, it is easy to install, manage, and get data in and out of the cluster.
Speed : comScore is also able to use the MapR advanced capabilities to enforce parallel data allocation patterns.
This enables key analyses to be performed using map-side merge-joins that have guaranteed data locality, resulting
in a 10x increase in computation speed. “The specific features of MapR, such as volumes, mirroring and snapshots, have allowed us to iterate much faster,” said Michael Brown, CTO of comScore.
ABOUT MAPR
MapR delivers on the promise of Hadoop with a proven, enterprise-grade platform that supports a broad set of
mission-critical and real-time production uses. MapR brings unprecedented dependability, ease-of-use and worldrecord speed to Hadoop, NoSQL, database and streaming applications in one unified big data platform.
MapR is used by more than 500 customers across financial services, retail, media, healthcare, manufacturing,
telecommunications and government organizations as well as by leading Fortune 100 and Web 2.0 companies.
Amazon, Cisco, Google and HP are part of the broad MapR partner ecosystem. Investors include Lightspeed Venture Partners, Mayfield Fund, NEA, and Redpoint Ventures. MapR is based in San Jose, CA.
Connect with MapR on Facebook, LinkedIn, and Twitter.
Document réalisé par la Société Corp Events - Janvier 2015
44
Retours d’expériences Big Data en entreprise
MARKLOGIC - DE GRUYTER
21ST CENTURY PUBLISHING
EUROPEAN PUBLISHER TAKES UP TO TEN SYSTEMS OFFLINE WITH A
SINGLE MARKLOGIC BUILT CUSTOMER-FACING APPLICATION
COMPANY OVERVIEW
Academic publishing is a long-standing and venerable industry—and De Gruyter is among the most established.
Since 1749, this European publisher has been producing and distributing English and German content, focusing
primarily on scientific, technical, legal, humanities, and social sciences. With an output of approximately 1,400
books per year—in addition to journals, reference materials, and databases—De Gruyter’s compiled catalog exceeds 65,000 titles. They also offer a program called e-dition, which is essentially e-books on demand. Unlike
other industries, De Gruyter’s customers are not usually the end users: they sell to university libraries and other
academic institutions, and it’s the scientists and educators at those universities who actually use the materials.
CHALLENGES
For many years, scientific publishing was focused on printed materials, but the last decade has seen an increasing
demand for digital access. This industry-wide shift has forced De Gruyter to reassess—and redefine—their
business. “With this change in content output, we’re not really a traditional publisher anymore,” Christian Kohl,
Director of Information & Publishing Technology, explains. “We’re becoming more of a service provider, and also
a hosting platform.” And customers’ needs are changing—both in terms of format and timeframe. As Kohl points
out, they want more granular access to content, and they want it faster. “Purchasing is shifting from ‘just in case’ to
‘just in time’. We can’t afford to have a production time of several years. It needs to be quick, custom, and flexible.”
Since 2006, De Gruyter has invested in a wide range of technologies and support staff. With so many different
types of content and business models, they’ve relied on a variety of legacy databases, websites, and online platforms. Not only was this cumbersome and expensive to maintain, the complicated infrastructure prevented them
from moving forward with new innovations.
The writing was on the wall: in 2009, De Gruyter realized it was time to simplify. “We needed a new, consolidated
platform that would bring increased flexibility, lower costs, and more automation,” Kohl says.
THE SOLUTION
Kohl and his team began searching for a solution that would support all of their various data types and adapt to
constantly changing structures. Excellent searching and browsing capabilities were also high on the list. And with
their limited budget, they needed a turnkey solution that wouldn’t require third-party technologies.
In November of 2010, De Gruyter chose MarkLogic to consolidate up to ten of their legacy systems into one
customer-facing application. The new platform would combine all of
the existing systems on top of a MarkLogic database and search engine. Using an agile development approach,
they were able to implement new iterations for key features. Just a little over a year later, the new platform was
launched.
WHY MARKLOGIC?
Quicker Response, Higher Revenue: With previous systems, it could take up to six months to add new features or
changes. With Marklogic ever-increasing requests can be met in a matter of days—or even hours. This has also enabled the company to increase acquisitions and partnerships with publishing partners. Reduced time to market: Database products and reference works used to take a year to develop and deploy. Now, it’s a matter of days or weeks.
Seamless Integration & Automation: De Gruyter was able to set up XML feeds to send all data from their ERP system - which houses metadata, catalogs, pricing, and other information—directly into MarkLogic. The new platform
also hooks into the company’s CMS and MAM systems, streamlining the flow of content. Streamlined acquisition
process: Historically, acquiring more providers and content was a very painful process, particularly for the IT department. With the new platform, De Gruyter can ramp up data volume without impacting performance.
Reduced Costs: With MarkLogic’s more simplistic structure, there is no longer a need to map between the SQL
database and the application layer—which translates to lower maintenance costs. And by eliminating much of its
hardware requirements, De Gruyter has cut its hosting costs in half.
Out-of-the-box Search: With their limited budget, De Gruyter needed a solution that wouldn’t require a third-party
tool—and MarkLogic delivered. “There’s no need to integrate with the SQL server,” Kohl says. “MarkLogic’s search
is already powerful enough.”
Document réalisé par la Société Corp Events - Janvier 2015
45
Retours d’expériences Big Data en entreprise
MARKLOGIC - ELSEVIER
UNLOCKING THE VALUE OF CONTENT AT ELSEVIER
INTEGRATING CONTENT TO ENABLE THE RAPID DEVELOPMENT AND
DELIVERY OF NEW INFORMATION PRODUCTS.
INDUSTRY OVERVIEW
The last thirty years have seen a major shift in the production, storage and retrieval of content. Elec- tronic, rather
than printed, content now powers a new class of products and services, with the Inter- net key to delivery. Driving
critical activities within companies, it also provides many of their content- based services to customers. Yet this exploding volume of content, typically comprising 85% of an enterprise’s information, is fundamentally dif- ferent from
the structured data that relational database technology was created to deal with. A cornerstone in most enterprises,
relational data- bases function by structuring data and applications into tables. They cannot readily accommodate
the unstructured content residing in vast reservoirs of Word files, lab reports, data sheets, operating manuals, messages, HTML documents, PDFs, Pow- erPoint slides, emails, etc. So organizations wishing to repurpose and realize more value from digital content are stymied, since the applications needed to deliver added value to customers
are difficult and expensive to create. These issues have had even more impact in the publishing industry, where
content is a company’s greatest asset. And for Elsevier, a leading publisher and information provider for medical,
academic and health-related organizations, they were particularly challenging. Elsevier supports, and continues
to enlarge, a digital content repository unsurpassed in its market. Yet despite Elsevier’s significant investments in
search technology, their users found it increasingly time-consuming to extract the information they needed from
this mountain of data. Elsevier was unable to quickly create applica- tions that would make extracting content faster
and easier...until Mark Logic demonstrated a prod- uct that could rapidly ingest enormous volumes of content, and
then execute complex, fine-grained queries against it with lightning speed.
ELSEVIER’S CHALLENGE
Reconciling the need for relevancy with the necessity for volume. One of the world’s leading publishers, Elsevier
prides itself on supplying customers with the information they need to conduct research, perform experiments,
aid patients, and achieve mission-critical objectives. To this end, Elsevier invested heavily in digitizing its content,
amassing vast repositories of medical and scientific information, and making it available via a range of online
database-driven solutions. However, as Chief Technology Officer David Marques points out, users often have little time to locate the data most relevant to their work. “If a doctor is at the point of care or a scientist is working in
the lab on an experiment, they don’t have time to go searching through 10 or 20 possible sources.” Yet as more
content amassed, its sheer volume meant customers were spending more time refining searches to winnow out
the content most relevant to their needs. Elsevier’s greatest asset was growing more difficult to deliver with the
level of granularity required by users. And this, explains Marques, is precisely the kind of value- added service
Elsevier wished to supply. “We wanted to help customers solve the problems they face in their particu- lar setting...
By enabling our customers to extract only the pieces of content that matter to them at that moment, and to flexibly
combine them, Elsevier can provide maxi- mum value per use of content.” To achieve its objective for increased
customer satis- faction, Elsevier set two goals: quickly transform the content rigidly held in its many separate databases into a liquid asset easily tapped by users in any way they desired. And in so doing, establish a common
platform for developing future products.
But facing Elsevier were four formidable challenges:
1. Lack of central repository. Each body of content existed in a separate database – either in a relational database
format or a proprietary one – with several ap- plications on each database.
2. Huge range of file formats. Normalizing content was extremely time-consuming. For one application project
alone, there were 35 different document formats involved.
3. High cost. New functionality was time-consuming and expensive to build. The complex logic needed to deconstruct a document and analyze relationships between documents had to be built application-by-application. Moreover, from a performance perspective, forcing this logic into an application was inefficient, compared to lev- eraging
a specialized content server that can efficiently retrieve large amounts of information.
4. Massive amounts of content. The final content repository was estimated to exceed 5 terabytes in size. Included:
More than five million full-text journal articles across 1,800 journals; over 60 million citations and abstracts (separate from the articles); 20,000 in-print books; 9,000 out-of-print books; and thousands of infor- mational pamphlets.
Document réalisé par la Société Corp Events - Janvier 2015
46
Retours d’expériences Big Data en entreprise
DEFINING REQUIREMENTS
Preparing the way.
In an increasingly aggressive industry, Elsevier required shorter delivery cycles for its competitive offerings. So as
a pioneer in the digital marketplace, they defined the parameters for products that extracted content from authors
fast and put it online even faster. Equally signifi- cant, Elsevier recognized that to give users exactly the information
they wanted, any new solutions must have the power to dynamically assemble relevant information from across
multiple sources. Recognizing the poten- tial of tagged search elements, Elsevier started in the year 2000 to redesign products along Web services architecture.
Beginning with Standard Generalized Markup Language (SGML), Elsevier moved forward, keeping pace with the
evolution of descriptive signature technologies and ultimately investing in the benefits of XML (Extensible Markup
Language). Of course, such advances helped deliver greater content relevancy to users. But enabling the highest
degree of granularity meant the structural relationships of tagged content had to be leveraged in a way that allowed
relevant information deep within docu- ments to be parsed and reassembled into new content.
Accordingly, the absence of a centralized content repository had to be remedied, since an intelligent terminus
would be required for all searches – enabling the deconstruction and synthesis of documents into con- text- specific results. This eliminated the deployment of traditional relational database systems, whose concepts and data
models were conceived in an era of short, highly- structured records of data, and not the unpredictable and timevarying structure found in content.
Instead, the new solution would need to:
• Exploit the wide variety of unstructured content, rather than be constrained by it.
• Eliminate format and content-prejudiced conditions for standardization of information.
• Function without a single, standard, pre-defined schema, and indeed in the presence of many different and
changing schemas
• Achieve performance without sacrificing relevance. Both the user interface and the returned results had to operate quickly and efficiently, and to deliver the right pieces of information at the right time.
Roadblocks to rapid product development
When developing new products, Elsevier had to confront:
• Difficulty in leveraging and synthesizing information from docu- ments held among a wide range of different databases and the applications on each.
• Lack of a “content common denominator” for normalizing informa- tion within applications or databases.
• Risk of poor ROI due to long and expensive implementation of new functionality and applications.
• A mountain of disparate content with no existing unifying solution
PUTTING MARK LOGIC TO THE TEST
Transforming a mountain of documents into a single, searchable contentbase.
By the year 2004, Elsevier had reengineered their products along the lines of web service architectures, creating
an XML repository offering new efficiencies to their IT staff and higher functionality for users. But the apron strings
of relational database technology still tied the company down to long, expensive product develop- ment cycles and
less than optimal performance. To get reasonable content performance from their database management systems
they still needed to pre-define schemas and access paths: time-consuming tasks that ultimately limit content ingestion and the power of resultant searches. And after intensifying their hunt for new ways to shorten time to market
and add greater value to their content they found what looked like a per-fect way to leverage their significant investment in XML: MarkLogic Server.
“We offered to show Elsevier how the MarkLogic Server could leverage their investment in XML to deliver on Elsevier’s vision,” recalls Mark Logic Co-founder and Chief Technologist Paul Pedersen. “Our promise was simple.
Hand us any amount of data, as is, from your archives.
We’ll hand you back an entirely new application based on that content.” And as Pedersen further described to
Elsevier, “The system lets you reach across large content sets, extract exactly the information that you need, and
then present it as a new document that was created automatically.”
Intrigued by the prospect of being able to simply pour existing archives and content into MarkLogic Server and
receive a fully functional application, Elsevier agreed to the test. And to see just how short a timeline Mark Logic
could deliver a competitive product in, they made it a demanding one. According to Pedersen, “...Their team
handed us an entire product line of 20 medical textbooks, each a thousand pages long or more. They didn’t even
provide the DTDs,” he recalls. “They just said ‘Go.’ So we did, and in about a week we came back to them with a
fully functional application.”
Moreover, according to David Marques, the application Mark Logic delivered in just a few days was more flexible
than anything Elsevier had online at the time. This ac- complishment was all the more remarkable considering that
the 0.5 terabytes of content loaded into MarkLogic Server was comprised of over 35 different formats – a flexibility
matched only by the level of granularity provided by searches using the resulting application. Im- pressed, Elsevier
engaged Mark Logic and is using Mark- Logic Server to consolidate all of its archives, rapidly build new applications, and create value-added services from its repository. As Marques affirms, “MarkLogic Server will be a core of
all our major electronic products going forward, since it allows us to even better serve our customers and users.”
BENEFITS OF THE MARKLOGIC SERVER
Putting content in its place, fast.
From Mark Logic, Elsevier found an immediate solution to all the key challenges facing publishers who need to
hasten the deployment of new, more competitive online products. They are now consolidating all of their content
archives, rapidly bringing new applications to market and enhancing existing applications with value-added functionality that makes every last byte of content available to users in the most relevant way.
Combining the power of database-style queries against content, with the speed and scalability of search engines,
Document réalisé par la Société Corp Events - Janvier 2015
47
Retours d’expériences Big Data en entreprise
MarkLogic Server repurposes content on-the-fly, combining information into new content for users seek- ing answers to different questions involving the same subject matter – literally creating new content from old and adding
value in the process. Massively scalable in both storage and performance, it can manage millions of documents
and terabytes of content – with no degrada- tion in executing queries and updates.
A boon to publishers and their customers, Mark Logic revolutionizes search technology by enabling:
• Consolidation of content archives. MarkLogic inte- grates content from many sources into a single reposi- tory,
then creates new content by summarizing informa- tion across various content categories.
• High-performance XQuery implementation. A com- plete XQuery implementation delivers high performance
against multi-terabyte datasets, thanks to MarkLogic’s search-engine-style indexing mechanisms.
• Rapid application development, no fixed schemas. MarkLogic does not require schemas or document type definitions (DTDs). MarkLogic loads content, as is, and allows you to instantly start building applications that leverage it.
• Element-level granularity. Using XQuery, MarkLogic Server fulfills searches by reaching deep inside docu- ments
to identify, analyze, combine, and extract pieces of content exactly relevant to the task of the user, precisely within
the context in which they’re working.
• Extreme flexibility. MarkLogic accepts content “as is” from many sources, eliminating the lengthy process of preparing content. Rather than having to plan ahead for every possible use of the content, publishers can rely upon
the flexibility of the technology to evolve applica- tions over time.
A SINGLE SOLUTION TO MANY BOTTLENECKS
With Mark Logic, Elsevier has achieved:
• Consolidation of all content archives into one centralized repository.
• A high performance platform for multi-terabyte contentbases.
• Higher efficiency through centralized storage of content and indexing.
• Element-level search granularity for users.
• Preparation-free content loading.
• Speedy application development thanks to the power of XQuery and the elimination of extensive content preparation.
• Just-in-time delivery of information that is precisely tailored to users’ needs, within the context they’re working in
and in the form they need.
BENEFITS TO ELSEVIER’S CUSTOMERS
The results.
The power of a database, the speed and flexibility of word and phrase search functionality, the ability to de- liver
it all in a fraction of the time previously necessary... With MarkLogic, Elsevier not only speeds the delivery of new,
more competitive products, but enables users to get exactly the data they need to complete their tasks 5 to 9 times
faster than before.
For example, Elsevier no longer needs to normalize content to transform it into their repository. Now they can build
directly on the inherent variability of dif- ferent types of content – slashing time to availability by two-thirds. And,
says David Marques, the ultimate benefit to users is fantastic granularity: “...When a user has a question, we want
to reduce the number of search results from 10 possible documents down to two precise sections or paragraphs
so we deliver just the right bit of content the user needs.”
But for the Elsevier team, the gratification of providing this kind of added value to users goes beyond feelings of
pride in their technical accomplishment. As Marques explains, by enabling researchers and medical profes- sionals
to find fast answers to urgent questions, they
also help improve treatments and outcomes for patients: “Medical reference books are invaluable resources for
making a diagnosis, but laboriously searching and cross- referencing a number of different books is an inefficient
way to do this. The products we build with MarkLogic allow physicians to quickly pull out only the relevant passages from across a range of different books, in order to reach an informed diagnosis.”
And the future for Elsevier and its customers holds even more promise. MarkLogic has dramatically accelerated
the deployment of products and services, while greatly reducing the costs of content loading and design – translating into even faster research cycles and clinical diagnoses, thanks to a new generation of solutions for helping
professionals find exactly the information they need, when they need it most.
Document réalisé par la Société Corp Events - Janvier 2015
48
Retours d’expériences Big Data en entreprise
MARKLOGIC - HEALTHCARE.GOV
MARKLOGIC PROVIDES ACCESS TO HEALTHCARE INSURANCE FOR
MILLIONS OF AMERICANS MORE THAN EIGHT MILLION APPLICATIONS
PROCESSED ON HEALTHCARE.GOV
OVERVIEW
Following the approval of the Affordable Care Act of 2010, the US Department of Health and Human Services
(HHS) Centers for Medicare and Medicaid Services (CMS) needed to design, build, and implement a technology
platform capable of enrolling millions of Americans in new healthcare plans. CMS’s driving vision was to enable
better access to healthcare for all Americans through smart and efficient tools and systems that would also help
reduce costs.
CHALLENGES
CMS had to develop a Health Insurance Marketplace (HIM) and Data Services Hub (DSH) that would allow millions
of Americans to shop for insurance, check their eligibility against dozens of federal and commercial data sources,
and provide a way for state health exchanges to connect. This was the first time the US government would tackle
an IT project of this kind.
CMS had to overcome some daunting challenges:
Strict time constraints. CMS was mandated by ACA to launch on October 1, 2013.
Stringent security requirements. Whatever solution CMS chose, it would have to provide the transactional consistency, reliability, disaster recovery, security, and auditing capabilities required for the federal government.
Multiple data sources. The system would need to take in a vast array of data from states, health plan providers,
and government entities to evaluate applicants’ eligibility status, including the Department of Homeland Security;
the Internal Revenue Service; the Social Security Administration; and Veterans Affairs.
An unknown data specification. As with most large-scale implementations, when development started, the data
specification was not yet determined. There were numerous changing factors driven by insurance providers and
participating states. The database needed to be able to handle constant change and a schema that could evolve.
Scalability. From the outset, CMS knew the marketplace would serve individuals from as many as 51 jurisdictions
(the states plus Washington, D.C.). CMS needed a technology that could scale rapidly, on cost-effective commodity
hardware, to meet any level of demand.
THE SOLUTION
CMS concluded that the MarkLogic Enterprise NoSQL database platform provided the scalability and agility required to meet an 18-month timeframe from software procurement to launch.
The teams working on this initiative realized the effort to complete this project would take too long using a traditional relational database.
MarkLogic’s schema-agnostic data model ingests data as-is and adapts to modifications, as new data sources are
included and as policies or regulations change, to help meet tight deadlines.
MarkLogic was the only platform able to process massive amounts of poly-schematic information while simultaneously offering ACID-compliant transactions.
WHY MARKLOGIC?
Faster time to production. MarkLogic helped CMS get the Healthcare.gov site running within 18 months. In less
than 5 months after the website launched, MarkLogic supported
5,500+ transactions per second (TPS-backend transactions to database) to help over 8 million people sign up for health insurance.
Nearly limitless scalability with record-breaking performance. MarkLogic has supported 160,000 concurrent users
and delivered over 99.9% availability. More than 99.99% of queries have logged response times of less than 0.1
seconds, without any data loss or data inconsistencies.
A seamless online shopping experience for Healthcare.gov users. MarkLogic’s schema- agnostic data model provided CMS the ability to manage and integrate data “as is” so data from multiple states, government agencies,
health plan providers, and personal information from millions of Americans did not have to be recoded. This allowed the system to qualify Americans and provide them competitive healthcare coverage and options.
Confidence to manage and integrate confidential user information. MarkLogic’s enterprise-grade NoSQL database
platform meant CMS did not have to sacrifice any of the enterprise features expected from a traditional database,
such as government-grade security, ACID transactions, and HA/DR, and could take full advantage of a NoSQL
schema-agnostic document model that handled the heterogeneous and unstructured data.
Document réalisé par la Société Corp Events - Janvier 2015
49
Retours d’expériences Big Data en entreprise
MARKLOGIC - OXFORD UNIVERSITY PRESS
SCALING THE CONTENT DELIVERY PROCESS:
THE VIEW FROM OXFORD UNIVERSITY PRESS
INTRODUCTION
This case study chronicles one organization’s focus on streamlining its publishing process to facilitate the creation and delivery of new products. With the growing use of the Web and other electronic sources for information
discovery and access, organizations like Oxford University Press are
being pressed to deliver content through
multiple channels. They must also create products that are aimed at specific market segments, often
utilizing
multiple information sources.
For Oxford University Press, each new online project meant starting from scratch. Building a standard publishing
platform and using XML for its content format enabled Oxford University Press to quickly produce new products
in much less time and re-use work from previous projects. This company provides an excellent example of an
organization that:
• Continues to introduce new products targeted toward specialized market needs
• Understands that content for its products can come from multiple information sources, possibly with different
content structures, characteristics, and attributes
• Recognizes the inefficiencies of building new workflows and systems for each content product
• Realizes the value that an XML-based publishing platform can provide
• Comprehends the importance of content aggregation and searching as core capabilities for building new products
from the growing base of source information
To obtain these benefits, Oxford University Press built a publishing platform based on an XML content server
from Mark Logic that enabled it to work with multiple content structures. To make the platform extensible for future
needs, Oxford University Press developed an API (application programming interface) that would enable it to work
with multiple development firms without major changes to the platform. Benefits are typically accrued across a
range of projects, but Oxford experienced significant results with its very first project.
COMPANY OVERVIEW
Oxford University Press (OUP) has an illustrious history. The company had its origins in the information technology
revolution of the late fifteenth century, which began with the invention of printing from movable type. The first book
was printed in Oxford in 1478, only two years after Caxton set up the first printing press in England.
Despite this early start, Oxford’s printing industry developed in a somewhat haphazard fashion over the next century. It consisted of a number of
short-lived private businesses, some that were patronized by the University. In 1586, the University itself obtained
a decree from the Star Chamber confirming its privilege to print books.
This was further enhanced in the Great Charter secured by Archbishop Laud from King Charles I, which entitled
the University to print “all manner of books.”
In 1896, Oxford University Press opened an office in New York that followed all of Oxford’s traditions of religious
and academic publication. OUP USA is currently Oxford University Press’s second major publishing center (after
Oxford), annually producing nearly 500 titles.
Since 1896, OUP’s development has been rapid in all areas. Music, journals, and electronic publishing have been
introduced during the past 75 years, and ELT publishing (which started with books to teach English in Africa and
India) has grown into a major international business. OUP is now one of the largest publishers in the U.K. and the
largest university press in the world.
The project to create a publishing platform for its online content was led by New York-based OUP, Inc. This architecture and its resulting benefits would then spread out across Oxford University Press.
BUSINESS DRIVERS
Since the onset of internet publishing, the introduction of each new online product (i.e. OED.com, American National Biography Online) required Oxford University Press to staff its own project team to create a new platform.
Apart from shared best practices, therefore, OUP was unable to fully leverage its investments from one product to
the next. This approach made sense while Oxford University Press was building flagship products like The Oxford
Dictionary of National Biography, but OUP needed a more effective way to build niche products (i.e. a referencebased subscription product for the African American Studies market). This time, Oxford University Press wanted to
produce a project in a way that would make it easier to handle similar projects in the future.
Oxford University Press understood that this could be achieved with the creation of a publishing platform. The
platform needed to be flexible enough to handle varying functional requirements and diverse types of content, but
scaleable enough to meet the needs of large and small projects.
Document réalisé par la Société Corp Events - Janvier 2015
50
Retours d’expériences Big Data en entreprise
CHALLENGES
Oxford University Press made a strategic decision to develop its new platform simultaneously with the first product
implemented on it. While this added complexity to the project, the company believed that this approach would accomplish two goals. First, it would mean that OUP could more quickly realize the fiscal and practical benefits of
the platform. Second and perhaps more importantly, the platform would have a real-world example against which
to test itself.
THE AFRICAN AMERICAN STUDIES CENTER’S REQUIREMENTS
The Oxford African American Studies Center (AASC), edited by Henry Louis Gates, Jr., was developed to be the
online authority on the African American experience. To be the preeminent scholarly reference on African American
studies, the AASC site needed to aggregate and publish a range of content and formats:
• Core content: Five major Oxford encyclopedias covering all aspects of the African American past, including Encyclopedia Africana (5 vol.) and Black Women in America (3 vol.)
• Additional source content from more than 18 Oxford reference sources, all editorially selected and reviewed
• Approximately 1,000 images at the product launch, with an ongoing image research program expected to add
hundreds more images annually
• 100 primary sources, including the Emancipation Proclamation, Frederick Douglass’s slave
narratives, and text of speeches. Brief introductory essays accompany each primary source.
• More than 200 charts, tables, and graphs representing demographic information in areas like history, government
and politics, business and labor, education, law and crime, and the arts
• Over 140 thematic maps illustrating demographics and history in a variety of areas
• A general timeline of African American history, and specific thematic timelines
• Learning center: Designed for the school market, this will be a growing area that aims to help users explore the
content with ready reference tools like country profiles, suggested lesson plans by grade level, and study guides
to match the curriculum
The AASC needed to support two types of users with different expectations for finding information:
• The primary users would be librarians, who are knowledge professionals. This class of users would demand
complex search functionality, including boolean, proximity, field, thesaurus, stemming, and wildcard.
• Secondary users would be students, who would want simple searching capabilities in the model of Google.
PLATFORM REQUIREMENTS
The two guiding principles for developing the platform, according to Alex Humphreys, OUP’s Director of Online
Engineering, were “flexibility and scalability.” He goes on to say, “These two principles should each be realized in
the areas of content creation and management, product development, and project management.”
TABLE 1: PLATFORM REQUIREMENTS
FLEXIBILITY
SCALABILITY
CONTENT
OUP wanted a model where content could
be created once, and then used in multiple products. At the same time, the plat- The platform could not place any constraints
form could not define the content format. It on the volume of content that could be supwould need to use and integrate content in ported.
a variety of formats, from different sources,
and using different DTDs.
PRODUCT
For the platform to be successful, the investIt was critical that the platform did not dicment in features, hardware, and resource
tate product features or capabilities. Intraining needed to be leveraged between
stead, it needed to be extensible to support
products. Each new product could not be a
market-driven needs and requirements.
one-off proposition.
PROJECT
The platform needed to provide multiple
options for integration with other systems
and capabilities. It needed to enable OUP
to work with any number of different vendors, suiting the vendor selection to the
specific needs of each new project.
The platform needed to provide a foundation
that would enable OUP to work on multiple
projects simultaneously. This meant limiting
its dependence on any one vendor by allowing multiple vendors to interact with the platform using a defined API.
To ensure longevity and extensibility of the platform, OUP decided that the platform would need to be standardsbased, utilizing XML to the greatest extent possible.
Document réalisé par la Société Corp Events - Janvier 2015
51
Retours d’expériences Big Data en entreprise
STEPS TO SUCCESS
In March 2005, Oxford University Press selected Mark Logic’s XML content server as the foundation technology
upon which to build its new product platform. MarkLogic Server would provide three things:
• A flexible database for the content that OUP would include in AASC and in all future platform-based projects. As
a database, it was specifically designed for the structured XML documents that constituted OUP’s content.
• A powerful search engine that would enable customized searching on a per-product basis
• The ability to use the XQuery language, a W3C standard that OUP considers to be cutting-edge
Not long after selecting MarkLogic as the basis for its platform, Oxford University Press chose Boston- based Interactive Factory (IFactory) to build the platform and the AASC product. Having worked with IFactory on the Oxford
Dictionary of National Biography (www.oxforddnb.com), OUP was confident in its ability to understand the complex
requirements of the platform and the product. The design phases of both projects began in June 2005.
Meanwhile, OUP was assembling the content for the African American Studies Center. The content took a variety
of paths into the product:
• The core content from the main African American encyclopedias needed to be tagged into XML.
• Other content was used from other products such as Oxford Reference Online and Grove Music Online; this
content required very little work to incorporate.
• Some content needed to be created specifically for the site. This set included articles and features as well as
certain metadata regarding the rest of the content on the site.
By late fall, OUP had solid designs for the product and the platform. The company also had the bulk of the content
created and detailed plans for the remaining elements. With this, the development phase with IFactory began.
The platform was released and tested in an Alpha site in January, and a Beta site in March. The AASC product was
launched in late April, in time to market it for the summer academic library season.
The teams responsible for the project consisted of a core group of four people from OUP and an additional four
from IFactory. Those teams expanded, however, to include other people and roles when the project demanded it.
In all, OUP spent two years on this project. The first year was spent assessing opportunities and needs. Once
MarkLogic and IFactory were chosen, the site and platform were designed and developed in less than eleven
months. The schedule was aggressive, but ultimately successful.
Figure 1: Publishing Platform and AASC Project Timeline
IMPACT OF THE RESULTS
The product implemented on the platform looks similar to existing projects that were done the old way. This is a
testament to the fact that OUP met its goal of not having the platform limit the product’s design or functionality. The
first reviews of AASC have been extraordinarily positive.
The impact of the platform will be felt more significantly on future projects. For one thing, the new project team
now has a resilient new platform on which to work. This should enable OUP to diminish the duration and cost of
implementing new projects. Under the right circumstances (i.e. in the development of new Studies Centers), the
time taken to develop new products could drop from 10 – 12 months to 4 – 6 months.
Document réalisé par la Société Corp Events - Janvier 2015
52
Retours d’expériences Big Data en entreprise
Figure 2: Example from the Oxford African American Studies Center Site
Going beyond the ability to develop and introduce new products faster and more affordably, Oxford University
Press is also likely to see:
• More efficient utilization of technical staff, all trained on and fluent in one platform
• The ability to introduce new types of functionality and content in new and existing products, and the ability to
combine various content types in ways that were once impossible
• Reduced hardware costs through shared servers and better utilization of resources
• The ability to add delivery channels such as print or even mobile
• Flexibility in choosing third-party vendors to develop new sites
As long as it is similar to an existing project—meaning that the content is of a similar structure (DTD) and that the
functionalities of the Web sites are similar—a new project can be replicated fairly quickly. That is not to say that
additional costs will not be incurred on future projects. Three things are likely to increase the cost of a new project:
• New types of content, specifically each new DTD “learned” by the platform. Alex Humphreys, Oxford’s Director
of Online Engineering, noted that “when and if lexical content is added, the platform would need to be taught how
to handle it.”
• New functionality, such as the ability to print to PDF or wiki-based interactivity
• The need for a new implementation vendor to implement a project. “We understand that there will be a learning
curve, and therefore additional costs, when each new vendor implements a product using our platform’s API,”
states Humphreys. “By being able to spread our projects across multiple vendors, we can avoid keeping all of our
eggs in one basket.”
Humphreys concludes, “The key value proposition of this solution is flexibility. The platform provides us with the
flexibility to respond to specific project and product requirements. That could mean launching new products more
quickly, or it could mean scaling the platform’s hardware to handle a site much larger than AASC. We feel that this
flexibility gives OUP a real advantage in responding to the rapidly evolving academic publishing marketplace.”
Oxford University Press has three new products to add to the platform, and many more will follow.
Document réalisé par la Société Corp Events - Janvier 2015
53
Retours d’expériences Big Data en entreprise
LESSONS LEARNED
As with any project, a number of valuable lessons were learned by the Oxford University Press team as it developed its new platform and rolled out the African American Studies Center.
./
Know your content. In addition to understanding the type of information and its structures,
one must also understand how the content is interrelated. Possessing a deep understanding of the information enables you to fully define the content, its metadata, and its publishing requirements. You can then verify that the functionality you have planned properly
leverages the content’s granularity. The information and relationships play directly into the
design of the final product.
./
Understand that technology is not magic. In the end, technology is not a silver bullet that
can do everything for you—it is a tool that enables you to speed the development and publishing of information. In the end, it will not provide 100% automation, nor will it eliminate
the need to work directly with the information. If used correctly, however, technology can
greatly improve the pace and effectiveness of creating and delivering information.
./
Utilize an XML architecture to help ensure flexibility. Using XML helps to remove the dependency of information on any one particular technology, and this ultimately adds longevity to the information and platform. XML-based information can be aggregated with
other information, automatically processed, and published in a more automated manner. It
reduces the amount of direct interaction that is necessary to reuse or repurpose the content. An XML content server like MarkLogic Server can significantly improve this process.
./
Plan for iterations. Functionality, content, and metadata are often intertwined. For instance,
metadata that was not used in the original content may be core to the online product.
According to Alex Humphreys, “Iterations are about coordination. By cycling through these
iterations, we can simultaneously mitigate risk while ensuring that the entire project team
is working towards the same goal.»
PRODUCT REFERENCE: MARKLOGIC SERVER
Mark Logic Corp. helps its customers accelerate the creation of new information products. MarkLogic Server is
an XML content server that enables organizations to build content applications, or applications that are based on
content and that support business processes. With MarkLogic Server, companies can deliver products through
multiple channels, integrate content from different sources, repurpose content into multiple products, build unique
information products, and discover previously unknown information. MarkLogic has a complete implementation of
XQuery, the W3C-standard for querying XML, and provides very fast and highly scalable content retrieval.
San Mateo, California-based Mark Logic is privately-held and backed by Sequoia Capital and Lehman Brothers.
The company serves large, recognized companies in the publishing industry, public sector, and other industries.
MARKLOGIC SERVER OVERVIEW
As MarkLogic Server is an XML content server, it is an ideal platform for content applications. With a native XML
repository and a complete implementation of XQuery, MarkLogic provides robust support for:
• Content loading: Content can be loaded in its current format, converted to XML as necessary, and automatically
indexed for later retrieval. Supporting any number of DTDs or XML schemas, MarkLogic Server is able to make
sense of a disparate array of content.
• Query: With full-text and XML indexes accessible via XQuery, MarkLogic Server provides fine-grained search and
retrieval based on document type, content structure, occurrence, and attributes.
• Content manipulation: MarkLogic Server provides the means to transform, update, and even assemble new content products based on specific needs.
• Rendering content: MarkLogic Server enables companies to format, publish, and deliver content products. If
needed, MarkLogic can be integrated with other publishing technologies to facilitate the delivery of content through
any number of media or channels.
MarkLogic Server enables organizations with high-volume content needs to automate the processes of content
integration, content repurposing, content delivery, and custom publishing.
CONTENT INTEGRATION
Many organizations have numerous disparate silos of content due to unique project needs, mergers and acquisitions, licensing, or changing corporate standards. Much of that content is maintained in different formats. Until the
content has been integrated, however, its true value cannot be realized.
MarkLogic Server bypasses the typical content normalization step by importing content “as is.” It uses the power of
its query system to cut across all of the types and formats in a content base. MarkLogic supports loading, querying, manipulating, and rendering content in consistent ways even if there are no common DTDs, XML schemas,
or formats. Furthermore, MarkLogic Server does not “shred” or “chunk” documents, so there are no problems with
“round-tripping” documents to and from the content base. No information is ever lost.
CONTENT REPURPOSING
Content Publishers often need to repurpose content into multiple products to increase revenues, decrease costs,
or accelerate time to market. The goal is simple—write once, use many. These organizations want to assemble
content components to create customized, purpose-built documents and information products.
Document réalisé par la Société Corp Events - Janvier 2015
54
Retours d’expériences Big Data en entreprise
MarkLogic Server delivers content that is formatted and organized to end-users’ specifications. It can automatically create summary documents that extract relevant content across entire collections. MarkLogic is the basis of
self-service publishing systems that enable customers to assemble their own information collections. Content repurposing is vital when multiple variants of a document are drawn from common materials. For example, a section
of a research article may be combined with different content for Internet portals, print journals, grant applications,
reference manuals, and textbooks. In another example, a master technical document about an aircraft may be excerpted to form manufacturing instructions, maintenance manuals, pilot briefing books, and training presentations.
CONTENT DELIVERY
When documents are ready to be published, syndicated, or otherwise delivered, they must go through an output
formatting and rendering process. Preparing the same content for use in a textbook and a magazine means dealing with different document organizations, formats, and layouts. Meanwhile, publishing the same content for a Web
portal, on-demand PDF, or handheld document reader requires further output rendering.
MarkLogic Server provides the services needed for delivery of content that is optimized for multiple output formats, media, and devices. It also provides a content processing framework that offers custom content processing
pipelines to coordinate multi-step production processes. The content processing framework has a Web services
interface for easy integration of third-party tools and applications, enabling MarkLogic Server to be seamlessly
integrated into existing business processes to create efficient content delivery systems.
CUSTOM PUBLISHING
Custom publishing is the on-demand assembly and production of documents from existing content. With a custom
publishing system, users can build a custom document, book, article, newsletter, or collection of articles simply by
“snapping” together content components from different sources.
MarkLogic Server provides the services that enable content to be located, selected, and then assembled into a
complete book or whatever format is required.
SEARCH AND DISCOVERY
Traditional enterprise search engines can often prove useful, especially when you know exactly what you are looking
for. All too often, however, the potential matches are too numerous to even review. Furthermore, a user may not always
know what he or she wants to find. MarkLogic Server provides extensive enterprise search capabilities (i.e. phrase,
Boolean, wildcard, proximity, parametric, range searches) and language processing features (i.e. stemming, thesauri,
spell checking). All of these features are implemented in a platform that can scale to handle terabytes of content.
Figure 3: MarkLogic Server vs. Enterprise Search Engine
INFOTRENDS’ PERSPECTIVE
The Oxford University Press story is an excellent example of a company that made an infrastructure investment in
a standardized XML publishing system that enhanced its ability to quickly develop new products while also reducing costs. The Mark Logic-based publishing platform enabled OUP to develop new projects in less time than it had
taken to produce one-off projects. This directly translates into a better utilization of resources, the ability to respond
more rapidly to changing market conditions, and the flexibility to respond to new requirements and content in the
future. XML-based publishing solutions are gaining favor as customers and their vendors realize that information
consistency is critical and metadata is paramount for a wide range of publishing projects. In fact, content- centric
applications that assemble and distribute content through multiple touchpoints using open standards such as XML
are no longer in the minority. OUP’s willingness to grapple with its online publishing problem using an XML-based
publishing approach that is built on MarkLogic Server will enable the company to better serve customers in the
future as their information needs continue to evolve.
Mike Maziarka, Craig Cline
Document réalisé par la Société Corp Events - Janvier 2015
55
Retours d’expériences Big Data en entreprise
MARKLOGIC - PRESS ASSOCIATION
DATA IN THE NEWS
MULTIMEDIA CONTENT PROVIDER STREAMLINES DELIVERY WITH A
CENTRALIZED PLATFORM
COMPANY OVERVIEW
For over 140 years, the Press Association (PA) has served as the UK’s biggest provider of fast, fair, and accurate
news content. Today, PA Group provides a range of global multimedia content and editorial services, including
news, sports, data, weather forecasts, images and video as well as more bespoke services. Their diverse customer
base ranges across media and from small businesses to global corporations and government agencies.
CHALLENGE
Originally made up of multiple companies brought together to form PA Group and with such diversification in different types of content and services, more technical cohesion and strategy was needed when John O’Donovan joined
as Director of Architecture & Development.
“All of the different parts of the business were utilizing different technologies,” he says. “Each of the various types
of data - images, video, news stories and so on - were built and managed on different systems.”
PA needed a new, centralized solution that could handle XML, while also merging a large volume of structured
and unstructured content in a useful and efficient way. O’Donovan and his team knew that traditional databases
wouldn’t have that capability: “We needed something that could build a single, common platform to align all of our
diverse and complex content.”
Speed and efficiency were also key considerations. With previous solutions, the company was spending 70% of
their time managing and manipulating data before they could get any use out of it. It was important that the new
platform be fast and flexible.
SOLUTION
PA has enjoyed a beneficial relationship with MarkLogic for several years. Most notably, they used MarkLogic to
facilitate news delivery during the Olympic Games and have rebuilt their central editorial system including certain
sports news systems using MarkLogic as the common content store. During the Olympics, PA fulfilled over 50
billion information requests, including competition results, athlete information, news stories and more. MarkLogic
rose to the challenge, serving up all that data in a
fast and efficient manner for it to be distributed to many different clients in 26 languages across 40 regional territories. “Throughout the whole event, the technology worked exactly the way we wanted it to,” says O’Donovan.
When considering their key objectives for the new platform, MarkLogic was a natural fit; “The platform aligned
perfectly with our business strategy and development goals,” O’Donovan says. “They were equipped to deliver a
central, common database - one system to accommodate all types of data.”
After a successful launch, the PA team immediately recognized several key benefits. The new system had the flexibility and scalability they needed, which will seamlessly accommodate future growth. It also offered a high degree
of security they were seeking.
With the new platform, PA is able to manage data issues much more efficiently. As an example, one specific project
would have taken up to 100 workdays to complete with the old platform; with the MarkLogic solution, it took only
34 days - a 66% boost in efficiency. “There are fewer restrictions and less complexity in transforming data from
one format to another,” notes O’Donovan. “We can store and manage data in a way that aligns with how we want
to present it to customers.”
Overall, PA feels they are utilizing the new tool to the best of its ability, enabling them to not only deliver their existing products, but to also deploy new solutions that were previously too difficult, time-consuming or expensive to
build.
SUMMARY
After successfully launching several key applications, the Press Association has become a huge advocate of MarkLogic. “We’ve converted many people over to their platform,” O’Donovan says. “It’s fun to watch people use it and
have these ‘Eureka’ moments when they realize how easy it is to do things that used to be so complex.”
According to O’Donovan, even the most traditional developers become invigorated by MarkLogic’s clever and
unique way of handling structured and unstructured data. “MarkLogic provides an elegant solution for dealing
with the complex content issues of the PA.” For this high-volume multimedia content provider, such a capability is
newsworthy indeed.
Document réalisé par la Société Corp Events - Janvier 2015
56
Retours d’expériences Big Data en entreprise
MARKLOGIC - REED BUSINESS INFORMATION - 4D CONCEPT
STREAMLINING PUBLICATION PRODUCTION PROCESSES AT REED
BUSINESS INFORMATION FRANCE
CORPORATE OVERVIEW:
Reed Elsevier is the world’s leading publisher of pro- fessional content, with 37,000 employees across 200 offices
worldwide, accounting for sales of nearly 8 billion euros. Its four principal industry divisions – Sciences & Medical,
Legal, Education, and Business – produce more than 15,000 professional references, magazines, books, CDROMs, online information and business intelligence services annually.
As a subsidiary of Reed Elsevier, Reed Business Informa- tion (RBI) provides business professionals across five
continents unrivaled access to a wide range of commu- nication and information channels. With offerings from
magazines to directories, conferences to market re- search, RBI’s main objective is to become the undeniable
reference in key business sectors across a diverse range of industries. The company’s vision is that superior information and communication products help its customers gain competitive advantage in areas such as commerce,
marketing and decision support.
Yet, just as important to its central mission, is to operate as a cost-efficient, high performing organization. When
assessing any new technology, RBI strikes a constant balance between cost and the potential impact of effective, efficient, but substantial investment in new revenue streams. Driving this effort at its core is the utilization of
the Internet as a key delivery channel. RBI’s portfolio of leading prestige brands comprise powerful products and
services that, thanks to Mark Logic OEM partner 4Dcon- cept’s XMS product, leverage all forms of new media to
adapt professional information to specific customer requirements.
RBI FRANCE FACES PUBLICATION CHALLENGES
RBI France publishes a number of successful titles including the leading French weekly business magazine Stratégies, the monthly Direction(s), the #1 electron- ics review in Europe EPN, and its sister publications EPN France
and EDN Europe. Last March RBI acquired Cosmedias, the leading French publisher in the beauty market with
famous magazines like Cosmétique Mag, ICN and Coiffure de Paris. The office also publishes books, guides, CDs
and databases in areas of interest as diverse as social services, education, human resources, public policy, selfhelp, and legal.
RBI France was laboring under challenging content transformation and production processes. Such issues have
even greater negative impact in the publishing industry, where content is a company’s greatest asset. RBI France
was already familiar with the power of XML to tag and index content, but reusing this content often proved quite
difficult. Regarding its magazine content, RBI France remained tethered to use of an SQLServer database as its
content repository. This meant that for reuse purposes, any existing content selected would be exported out into
XML, reprocessed for publishing, and then new pages exported out of XML again for re-stor- age in the database.
This laborious use of XML made the press composition process neither clean nor quick. The constant back and
forth transformations required to produce new content – first for print production and ultimately to the web – was
proving too difficult to man- age. Waiting for production to get print content first and then load it on the Internet had
introduced latency into the update process as well.
It was becoming clear that RBI France’s content produc- tion, storage and retrieval processes were interfering with
fulfilling one of its central missions – understanding and exceeding customer expectations. RBI resells its professional content to business partners who aren’t in the publishing business but rather leverage custom, industryspecific information published by RBI to better serve their own end customers. RBI France’s partners include
banks, consumer sites, retail outlets, and technol- ogy companies. Because of its sometimes laborious production
processes, RBI France’s wish to repurpose and realize more value from its digital content as new services was
stymied, making the creation and delivery of added value to these indispensable partners both dif- ficult and expensive.
REQUIREMENTS FOR A NATIVE XML
DATABASE SOLUTION
Although RBI France’s main technical challenge was in transforming content back and forth from XML, its solu- tion
requirements did not end simply at a database that could handle XML. It needed to be a fully realized enter- prise
content management system leveraging a single centralized XML repository as the main content source for all
publishing operations. This required that the content platform selected offer workflow functionality to speed and
ease production and content management of the French publisher’s books, magazines, websites, applications,
and partner offerings. The company also wanted to be sure that the solution selected was fully compatible with
Adobe Framemaker, InDesign and the other design tools already in use and favored by its editors. Finally, RBI was
seeking a partnership with its supplier that would be long-term and mutually beneficial.
Document réalisé par la Société Corp Events - Janvier 2015
57
Retours d’expériences Big Data en entreprise
Reed Elsevier, the parent company of RBI, has a stated value that pervades the company system-wide: innovation. Management encourages workers to welcome and push change, challenge the status quo, take risks and be
entrepreneurial. Reed Elsevier’s U.S. and U.K. offices first started working with Mark Logic’s XML server back in
2006. Certainly, going with a new solution called an XML Database at that time was a new idea and a bold move
indicative of ‘out-of-the-box’ thinking. By the time their counterparts in France were ready for a similar solution,
Elsevier’s corporate IT department had already completed 2 projects. The result: MarkLogic had a leg up on the
competition in solving the problems of RBI France.
PILOTING MARKLOGIC SPARKS 4DCONCEPT’S XMS, AN EDITORIAL CMS
After the selection of MarkLogic Server, RBI France launched its implementation project at the end of 2006. It
started small, with a pilot based on only one of its profes- sional electronics magazines, EPN (Europe-wide edition), EPN France, and one of its books, Le Guide Familial – the leading French family law guide used by half of
the country’s social workers. Why? Because sales efforts were already aligned behind these products, and success with their high profile brands could be used as a compelling business case to help IT push a larger goal – the
ultimate move to a true enterprise-wide editorial content management system.
To succeed in this challenge, RBI France turned to one of its trusted local IT solution providers, 4Dconcept. 4Dconcept would provide critical know-how in multi-channel publication for the press and publishing industries. After
having learned to integrate Mark Logic in a matter of weeks, 4Dconcept managed the 6-month pilot program to
a successful conclu- sion and also set the foundation for the future editorial con- tent management system. This
solution, called XMS, would drive the production of other RBI France content.
However, it didn’t take RBI France very long to under- stand the distinct advantages of an editorial content management system relying on a database specialized in handling full XML content. This is how RBI France got
involved in the development of XMS. XML simply made sense for a wider solution that would anticipate all RBI
France’s future needs. First, XMS places no limitations on the original structure of the content, meaning it can be
tagged and indexed from any source just as efficiently.
RBI France is able to repurpose content without any con- straint from the media itself. Changes anywhere, even to
a single word in a single story, ripple out to be reflected in all citations automatically without IT intervention.
Finally, editors were able to keep in place all of their pre- ferred publication layout and design tools such as Adobe
InDesign, Framemaker and Bridge.
After the pilot project was completed, RBI France conducted three to four months of analysis to measure its success. This process yielded some best practices to optimize the massive rollout of XMS across RBI France. EPN
and Le Guide Familial are not large publications.
Hence, it was critical that the success of the future XMS be demonstrated and proven in action here before moving on to larger, more prestigious brands.
RBI FRANCE’S USE OF XMS SPURS NEW SERVICES FOR CUSTOMERS
As a result of the successful implementation of XMS, RBI France was actually able to reverse its original production process of new content from web to print, versus print to web. Changing this workflow allows editors
to publish in XML without media constraint, to launch new material on the web in seconds when ready, and to
provide new value-added services for customers and partners. The content lives in XML without needless transformations, streamlining a process that’s cleaner, quicker and always up-to-date. The print production team now
consistently leverages the latest information to churn out RBI France’s magazines weekly and monthly, or its new
book editions on a quarterly basis.
Because of 4Dconcept and Mark Logic’s success with some of the most high profile brands at RBI France, the
division was able to rollout a true enterprise-wide edito- rial content management system – a live, fully functional
solution with direct connections to and from in-house layout and design tools. Seven different RBI brands now
have their content fully loaded as XML in XMS, includ- ing numerous leaflet books and some of the larger, more
prestigious magazines published by RBI France such as stratégies. The high level of scalability and reliability of
XMS ensures work can continue until all of RBI France’s products live in the XML database. The amount of upfront
index definition completed during XMS’ conception means little additional development investment is necessary to
integrate new brands or products into XMS quickly and cleanly.
In summary, RBI France’s investment in XMS is indeed paying off. Streamlined production has lead to the company’s ability to repurpose its digital content and to de- liver more value offering new resale services to partners.
Rich XML allows innovative products to be introduced easily and less expensively, whether internal or external.
One example of dynamically updated custom content resulting in a new service includes the case of one of RBI
France’s major bank customers. This content resale part- ner was able to rapidly produce a new audit guide on
their own website, completely powered by RBI content. Mark Logic and 4Dconcept have thereby helped RBI
France to fulfill another one of its core corporate objectives: to be highly valued and respected by its customers.
The official introduction of XMS to the market occurred in October 2008 in Paris. RBI France, 4Dconcept and Mark
Logic continue to partner for ongoing development and evolution of XMS.
ABOUT 4DCONCEPT
4Dconcept provides leading organizations with services to drive, define, design and deploy documentary and
editorial information systems in the aeronautics, de- fense, construction, manufacturing, telecommunication, transport, publishing, media and administration sec- tors. 4Dconcept addresses matters such as content and knowledge
management, editorial content enrichment and publishing, after-sale market and maintenance engi- neering, and
cross-media publishing. It offers a range of services to advise customers on best practices, develops custom-made
solutions, and produces graphical (2D/3D) and text content applications. 4Dconcept also offers a set of modular
and adaptable turnkey solutions to help customers produce and manage their information in mul- tiple sectors. The
implementation of technologies such as XML enables 4Dconcept to bring relevant information to the people who
need it, when they need it. To learn more about 4Dconcept, visit www.4dconcept.fr.
Document réalisé par la Société Corp Events - Janvier 2015
58
Retours d’expériences Big Data en entreprise
MARKLOGIC - RSC
BIG DATA AS A SCIENCE UK CHEMISTRY SOCIETY UNLOCKS 170 YEARS’
WORTH OF DATA WITH THE POWER AND FLEXIBILITY OF MARKLOGIC
When the content experts at the Royal Society of Chemistry (RSC) found themselves struggling to manage millions
of buried data files, they partnered with MarkLogic to build a new solution. Using the MarkLogic Enterprise NoSQL
database, the RSC has made over a century’s worth of information accessible to entrepreneurs, educators, and
researchers around the world.
COMPANY OVERVIEW
Founded over 150 years ago in the United Kingdom, the RSC is Europe’s largest organization dedicated to furthering awareness of the chemical sciences. With more than 48,000 global members, the RSC is the heir and successor of four renowned and long-established chemical science bodies—The Chemical Society, The Society for
Analytical Chemistry, The Royal Institute of Chemistry, and The Faraday Society. The RSC’s headquarters are in
London and Cambridge, UK with international offices in the USA, China, Japan, India and Brazil.
To strengthen knowledge of the profession and science of chemistry, the RSC holds conferences, meetings, and
public events, and also publishes industry-renowned scientific journals, books and databases.
Adding to its wealth of content, the RSC recently acquired the rights to The Merck Index. Widely considered as
the worldwide authority on chemistry information, this renowned reference book has been used by industry professionals for over 120 years.
CHALLENGE
It’s a tall order to manage a single year’s worth of data—so how about 170 of them? Since the 1840s, the RSC has
gathered millions of images, science data files and articles from more than 200,000 authors. All of that information
was stored in a wide range of formats at multiple locations and was growing by the day.
In 2010, largely due to the huge growth of social media and digital formats, the RSC launched an initiative to make
its data more accessible, fluid and mobile.
David Leeming, strategic innovation group solutions manager for RSC, sums up the society’s goal: “We needed an
integrated repository that would make all of our content accessible online to anyone—from teachers to businesses
to researchers. The key was finding the right technology.”
SOLUTION
After evaluating several major providers, the RSC chose MarkLogic as the best platform for its needs, and built
three sites on it:
• RSC Publishing: http://www.rsc.org/publishing
• Learn Chemistry: http://www.rsc.org/learn-chemistry
• Chemistry World: http://www.rsc.org/chemistryworld
Document réalisé par la Société Corp Events - Janvier 2015
59
Retours d’expériences Big Data en entreprise
Given the society’s wide range of information media— books, emails, manuals, tweets, metadata, and more—the
data does not conform to a single schema, which means a traditional relational database can’t accommodate it.
MarkLogic’s document-based data model is ideal for varied formats and hierarchical metadata. The RSC can
simply load its information as-is, without having to conform to a rigid format.
As Leeming points out, “A book chapter is very different from a journal article. A relational database can’t combine
the two. MarkLogic is flexible enough to handle all types of unstructured content in a single delivery mechanism,
from spreadsheets and images to videos and social media comments.”
MarkLogic offers many key benefits, including the ability to store content as XML documents. The database also
enables logical associations between different types of content.
Each image, video, and article is automatically tagged, allowing users to find, understand, and process the information they need. As shown in the image above, searching RSC publications is a quick, intuitive process using a
standard Web browser.
The new MarkLogic platform will be a significant benefit in the RSC’s acquisition of The Merck Index. “We’re eagerly looking forward to developing The Merck Index for the digital future,” says Dr. James Milne, RSC Publishing
Executive Director. The schema-less MarkLogic database will help to ensure the continued growth of the publication’s online format.
SHARING THE KNOWLEDGE
With the greater data accessibility afforded by the new MarkLogic database, the RSC’s publishing division has
become much more productive, publishing more than 20,000 articles in 2011. “We can now publish three times as
many journals and four times as many articles as we did in 2006, and get them to market faster,” says Leeming.
“And we have the ability to build new educational programs to spread chemistry knowledge among more people.”
In addition, since implementing the integrated MarkLogic database, the RSC has seen a 30 percent increase in
article views, a 70 percent traffic boost on its educational websites, and a spike in research activity in India, China,
and Brazil.
Although the integrated data repository has been the biggest game-changer, the MarkLogic technology has enabled other opportunities. Leveraging MarkLogic’s Enterprise NoSQL database, the RSC has launched many new
research journals, mobile applications, social media forums, and applications for children.
Dr. Robert Parker, RSC Chief Executive, sums up the major role MarkLogic has played in this successful transition.
“Using MarkLogic’s big data platform has allowed us to open up the world of chemistry to a much wider audience,
whilst increasing the volume and quality of the research that we publish.”
Document réalisé par la Société Corp Events - Janvier 2015
60
Retours d’expériences Big Data en entreprise
MARKLOGIC - SPRINGER
SPRINGER TAKES CONTROL OF ITS ONLINE CONTENT DELIVERY
SCIENTIFIC PUBLISHER USES MARKLOGIC TO TURN SPRINGERLINK
INTO THE CORE OF ITS BUSINESS AND IMPROVE PERFORMANCE BY 50%
COMPANY OVERVIEW
For over 160 years, Springer has led the industry in scientific and medical publishing.
With a staff of 6,000 employees around the world, the company publishes more than 8,000 new book titles each
year—and that’s just in print. To meet the growing demand for online delivery, Springer also maintains an online
catalog of more than 169,000 eBooks, and has the world’s largest open access portfolio.
The company’s content delivery platform, SpringerLink, is the heart of the company’s business, hosting more than
8.4 million scientific documents including journals, books, series, protocols and reference works.
CHALLENGES
Launched in 1996, SpringerLink was one of the first publicly available online content platforms. The site was originally used as a home to some of the company’s journals, but as online content became an increasingly important
part of the company’s business, SpringerLink became the hub for every journal the company published, and later,
its entire library of books.
With a massive content library and a shift in revenues from print to electronic, Springer needed a greater level of
flexibility and control over its online content distribution, which had grown to account for two-thirds of total company
revenue. The Springer team required:
• An in-house solution. For the past eight years, Springer had been using a third-party technology provider to power
SpringerLink. As it evolved into a crucial component of their revenue, the company decided that they didn’t want
that strategic asset resting on a technology they didn’t own.
• Rapid deployment. With the end of their outsourced technology contract fast approaching, Springer faced the
daunting task of completing the project in just 11 months.
• Fast search. As online content exploded, readers came to expect better functionality from content providers,
including sub-second search.
THE SOLUTION
Springer chose MarkLogic as its new platform because it allowed them to deliver more rich applications to their
customers so they could create a user experience that went beyond simply delivering a piece of content. It had
previously built and deployed some high-performing applications using MarkLogic technology, including a tool to
track the locations of document authors, a search engine for mathematicians, a program that displays snippets
of scientific language in a publishing context, and SpringerImages, a robust platform that allows users to search
through the millions of images stored in SpringerLink.
BENEFITS
MarkLogic gave Springer an in-house solution that dramatically improved SpringerLink’s performance. MarkLogic
also helped Springer:
• Create revenue. SpringerLink has become the core of Springer’s business, generating 95 percent of Springer’s
online revenue and driving more than 2 million page requests and over a million downloads a day.
• Increase performance. In fractions of a second, SpringerLink can now analyze hundreds of contracts per customer identifying which of the millions of items they can access. During high-traffic periods, the new platform loads
twice as fast, and runs essential functions up to four times faster.
• Boost user engagement. Since moving to MarkLogic, the time users spend on SpringerLink has increased by
one-third, bounce rate has been cut in half, and number of page views grown.
• Re-build SpringerImages. MarkLogic searches image captions as well as relevant text surrounding the image
ensuring more robust and accurate results.
• Fit its agile development process. MarkLogic’s agile approach supports automated tests, continuous integration
and deployment, and weekly iterations.
• Simplify architecture. MarkLogic’s built-in powerful search engine helped Springer simplify its architecture and
allows users to subscribe to their own reusable queries.
• Support multi-language search. MarkLogic is able to change the search parameters based on the user’s language. German-speaking users and English-speaking users will see results tailored to them.
• Go to market quickly. From three releases each year on the old platform to now weekly releases, Springer is able
to take new features to market as soon as a business need is identified.
Document réalisé par la Société Corp Events - Janvier 2015
61
Retours d’expériences Big Data en entreprise
MICROPOLE - L’OBS
L’OBS : DE NOUVELLES OPPORTUNITÉS GRÂCE AU BIG DATA POUR
AMÉLIORER L’EXPÉRIENCE DES LECTEURS
L’OBS (ex-Le Nouvel Observateur), acteur majeur de l’information sur les supports magazine, web et mobile a
retenu en 2013 Micropole et son agence digitale Wide pour l’accompagner dans la définition et sur la mise en place
de sa stratégie multicanal personnalisée.
Avec 8 millions de visiteurs uniques par mois* et plus de 800 000 abonnés, le groupe souhaitait disposer d’une
connaissance 360° de l’ensemble de son audience afin de lui proposer de nouveaux services individualisés à forte
valeur ajoutée.
Dans un contexte de mutation des usages, particulièrement dans le domaine des media et de transformation de
l’information (volume, vitesse et variété), l’OBS entreprend alors :
- D’écouter sur tous les points de contact, digitaux ou offline ;
- D’analyser les données pour mieux connaître et appréhender les centres d’intérêt du lecteur ;
- De comprendre et d’animer en cross-canal l’ensemble de son lectorat traditionnel et digital.
Pour atteindre ces objectifs de collecte, d’analyse et d’engagement de la relation client, l’OBS s’appuie sur la
plateforme Customer Data mise en place par Wide. Cette solution repose sur les principes technologiques du Big
Data et met à disposition les services métiers en mode SaaS (Software as a Service) de la solution Cloud Digital
Marketing Optimization de IBM .
Ainsi, l’OBS est en capacité de proposer un contenu personnalisé en accord avec les préférences de ses lecteurs
et selon leur historique de navigation, ceci en temps réel. Le groupe est également capable d’adresser des communications individualisées (emails, newsletters…) tenant compte de leurs centres d’intérêt.
Cette stratégie digitale a rapidement porté ses fruits car le nombre d’abonnements à la newsletter a augmenté de
25% en seulement 6 mois. Le lecteur abonné est alors reconnu et animé par le CRM.
« Avec IBM et Micropole, nous avons fait le choix de l’ambition et de l’innovation. Grâce aux fonctions avancées
de cette nouvelle plateforme, nous sommes capables de comprendre les centres d’intérêt d’un internaute, sans
pour autant connaître son identité, tout en apportant de nouveaux services à forte valeur ajoutée à nos abonnés.
Plus généralement, ceci nous permet d’offrir à nos lecteurs la possibilité de bénéficier de contenus et de services
personnalisés en temps réel », a déclaré le Directeur Marketing Digital de L’OBS.
*Source : Médiamétrie NetRating mai 2013
Document réalisé par la Société Corp Events - Janvier 2015
62
Retours d’expériences Big Data en entreprise
MICROSOFT - PIER IMPORT
MICROSOFT - PIER IMPORT
With over 1,000 stores, Pier 1 Imports aims to be their customers’ neighborhood store for furniture and home décor.
But the way customers are shopping is different today and Pier 1 Imports recently launched a multi-year, omnichannel strategy called “1 Pier 1”, a key goal of which is to understand customers better and serve them with a
more personalized experience across their multiple interactions and touch points with the Pier 1 brand.
Pier 1 Imports recently adopted Microsoft Azure Machine Learning to help them predict what their customers might
like to buy next. Working with Microsoft partner MAX451, they built an Azure ML solution that predicts what a
customer’s future product preferences might be and how they might like to purchase and receive these products.
Many Microsoft customers across a broad range of industries are deploying enterprise-grade predictive analytics
solutions using Azure ML. You too can get started on Azure ML today.
MICROSOFT - THYSSENKRUPP
MICROSOFT - THYSSENKRUPP USES PREDICTIVE
ANALYTICS TO GIVE BURGEONING CITIES A LIFT
Urban migration is one of the megatrends of our time. A majority of the world’s population now lives in its cities. By
2050, seven of every ten humans will call a city their home. To make room for billions of urban residents to live,
work and play, there is only one direction to go – up.
As one of the world’s leading elevator manufacturers, ThyssenKrupp Elevator maintains over 1.1 million elevators worldwide, including those at some of the world’s most iconic buildings such as the new 102-story One World
Trade Center in New York (featuring the fastest elevators in the western hemisphere) and the Bayshore Hotel in
Dalian, China.
ThyssenKrupp wanted to gain a competitive edge by focusing on the one thing that matters most to their customers
– having elevators run safely and reliability, round the clock. In the words of Andreas Schierenbeck, ThyssenKrupp
Elevator CEO, “We wanted to go beyond the industry standard of preventative maintenance, to offer predictive and
even preemptive maintenance, so we can guarantee a higher uptime percentage on our elevators.”
FIX IT BEFORE IT BREAKS – ‘SMART’ ELEVATORS
ThyssenKrupp teamed up with Microsoft and CGI to create a connected intelligent system to help raise their elevator uptime. Drawing on the potential of the Internet of Things (IoT), the solution securely connects the thousands
of sensors in ThyssenKrupp’s elevators – sensors that monitor cab speed, door functioning, shaft alignment, motor
temperature and much more – to the cloud, using Microsoft Azure Intelligent Systems Service (Azure ISS). The
system pulls all this data into a single integrated real-time dashboard of key performance indicators Using the rich
data visualization capabilities of Power BI for Office 365, ThyssenKrupp knows precisely which elevator cabs need
service and when. Microsoft Azure Machine Learning (Azure ML) is used to feed the elevator data into dynamic
predictive models which then allow elevators to anticipate what specific repairs they need.
As Dr. Rory Smith, Director of Strategic Development for the Americas at ThyssenKrupp Elevator, sums it up,
“When the elevator reports that it has a problem, it sends out an error code and the three or four most probable
causes of that error code. In effect, our field technician is being coached by this expert citizen.”
In other words, these ‘Smart’ elevators are actually teaching technicians how to fix them, thanks to Azure ML. With
up to 400 error codes possible on a given elevator, such “coaching” is significantly sharpening efficiency in the field.
Document réalisé par la Société Corp Events - Janvier 2015
63
Retours d’expériences Big Data en entreprise
MICROSOFT - CARNEGIE
MICROSOFT - MEET CARNEGIE MELLON’S ENERGY SLEUTHS
An academic, architect, researcher and activist for energy conservation—Vivian Loftness is a champion of biophilic
design. Her workspace, surrounded by light and plants, reflects her passion.
Vivian Loftness is obsessed with sustainability and building performance. Having called many different cities
around the world home — from her birth city of Stockholm, to early years in Los Angeles and Paris, to study and
work stints in Boston, Helsinki, New York City, Cologne, Athens, Ottawa and finally, Pittsburgh, where she is a professor at Carnegie Mellon’s School of Architecture — Loftness has checked out more than a few buildings close up.
Loftness’ singular passion is for sustainable architectural design and the need to get buildings in our world to a
“zero state” where they have the smallest possible energy footprint without sacrificing comfort. This is no small
feat, and a problem that is technological as much as it is architectural. But advances in technologies such as cloud
computing, data analytics and services such as Microsoft’s Azure Machine Learning are helping Loftness and two
researchers at Carnegie Mellon’s Center for Building Performance and Diagnostics slowly crack the code, one
building at a time, and in ways previously unthinkable.
THE ‘INTELLIGENT WORKPLACE’ - WHERE THE DATA JOURNEY BEGINS
The Intelligent Workplace, which sits atop the Margaret Morrison Carnegie Hall, was established in 1997 as the first
“Living Laboratory” of its kind dedicated to research in building sustainability.
The Robert L. Preger Intelligent Workplace, which sits atop the stunning Margaret Morrison Carnegie Hall, is where
Loftness and 30 researchers and graduate students are studying the impact of a variety of factors on the quality
of built environments. Natural light dominates this space they call “the Living Laboratory,” streaming in through
skylights and wall after wall of expansive windows that offer sweeping views of the campus grounds. Research
students occupy open, collaborative workspaces. Unfinished wooden building models sit on work tables which, like
the rest of the furniture and walls in the lab, are reconfigurable and movable — all in a matter of minutes. Plants
are everywhere, and if you look closely enough, several are wired with sensors, as are the walls and ceilings of
this “living” workspace.
For these researchers, the journey started with really simple questions: How do you give people who work in buildings a comfortable environment while using the least possible energy? How do you make people accountable for
their own energy footprints? And how can technology assist in that journey?
Senior researchers Bertrand Lasternas and Azizan Aziz work with Loftness, sharing her passion for taking on one
of the most daunting problems facing our generation — How do you make buildings more energy efficient? The
statistics are sobering. Nearly 70 percent of all electricity in the United States goes toward building operations —
heating and cooling systems, lighting, ventilation and plug loads. For these researchers, the journey started with
really simple questions: How do you give people who work in buildings a comfortable environment while using
the least possible energy? How do you make people accountable for their own energy footprints? And how can
technology assist in that journey?
MAKING SENSE OF BUILDING DATA
Not unlike a crew of investigators methodically working their way through evidence at a crime scene, these energy
sleuths have cultivated a healthy respect for data and are capturing it from buildings all across the Carnegie Mellon
campus. They’re about halfway there, drawing data from 40 buildings, with roughly 25 more to go.
Data is how buildings reveal their secrets and to miss one key piece could potentially derail an entire investigation.
“The behaviors of buildings we analyze and the people who occupy them are unique, complex and hard to predict,”
says Loftness. There are students who leave windows open in their dorm rooms during bitterly cold winters when
heat is blasting. There are building managers who leave air conditioning systems running during cool summer
nights. There are offices that enjoy bright daylight but whose staff still leave the lights on all day. And then there
is the challenge of managing “things”— thermostats, computers, microwaves, elevators — as well as analyzing
external factors such as day-to-day fluctuations in weather.
SO MUCH INEFFICIENCY
Loftness conducts a lecture with graduate students at the Intelligent Workplace. Some of her students assist with
the data sleuthing activities.
The large number of variables means one simple thing: Buildings, like those who inhabit them, are living beings.
What are they telling us? More importantly, are we doing enough to listen?
“There is no question that we save 30 percent in most buildings through better awareness of where the energy’s
going, and giving users better controls to adjust for their individual needs while driving down energy usage,” Loftness says.
The stakes are high and so is the urgency. About 40 percent of CO2 emissions globally come from buildings.
Buildings use technologies and products assembled in hundreds of unique ways, generating literally millions of
Document réalisé par la Société Corp Events - Janvier 2015
64
Retours d’expériences Big Data en entreprise
variations. Buildings also vary in age, with generations of local architectural adaptations made over time. Then
there are the occupants — a mix of people with unique activities and comfort thresholds. Understanding how all
these factors mesh together requires historical data and data analysis. A lot of it.
These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is
helping us push boundaries of what is possible in ways I couldn’t have imagined a few years ago. — Azizan Aziz,
Senior Research Architect
THE DATA CHALLENGE MEETS THE DATA SLEUTHS
Making all the captured data from buildings work together is like putting together a massive jigsaw puzzle. Some
buildings on campus, such as the Gates Center, have hundreds of sensors, and others not so many. These sensors are tracking CO2 levels in different rooms, measuring the distribution of temperatures by floor, by room and by
height, monitoring windows, lighting systems and plug loads. And there’s more: People who work inside make up
the most significant part of a building’s heartbeat — so user satisfaction data is being added to the mix based on
occupant surveys in order to have a holistic picture of the indoor environmental quality of the workplace.
To say it’s a complex task would be putting it lightly. Lasternas and Aziz spend a good deal of time being data
sleuths, and finding ways to listen to what the buildings are trying to communicate — the story that lives in the data.
There is a real difference you can make in energy conservation by giving people data that is actionable instead of
asking them to just do their best — Bertrand Lasternas, Senior Researcher
When Lasternas came to Carnegie Mellon from France in 2010, he was a physics and chemistry major working
towards a master’s degree in mechanical engineering and building sciences. Today, he’s an expert in extracting
data from building management systems and sensors, both to understand how buildings work, as well as to help
people manage energy more efficiently.
Recalling challenges from the earlier phases of the research, Lasternas says, “We might have 10 different manufacturers of equipment in a single building, and none of them share information. So how do you pull all of that
together? We wanted to empower people to be more engaged in the living building, more aware of their energy
usage patterns.”
With help from Microsoft’s Global ISV partner OSIsoft, Lasternas and Aziz began using their solution, the PI System, four years ago. It offered the missing “glue” that helped the team bring data together from various sources,
“cleanse” it, store it in a common, usable format, and make it ready for historical and real-time analysis. The PI
System supports more than 400 interfaces that can connect to systems from the many different vendors of building
systems and controls.
THE MACHINE LEARNING BREAKTHROUGH
“We’re not trained data scientists. We went overnight from using complex statistical analysis tools to drag-n-drop
insights. That’s a breakthrough for the work we do” — Senior Researcher Azizan Aziz
Having conquered the data integration and storage challenge, the team dove into analysis — a world of massive
spreadsheets and programming languages such as MATLAB to handle big, iterative computations. It was an
exercise that very quickly got unwieldy. “We’re not trained data scientists by background, and complex statistical
packages are outside of our immediate area of expertise,” says Aziz.
“One of our former students was using MATLAB for analysis,” he recalls. “It took her a long time just to prepare and
sort the data, and then a single run of analysis took 30-45 minutes. That’s far too long to develop good predictions
for demand reduction. We really need to do these iterative analyses in real-time.”
Machine Learning, cloud and data visualization technologies changed the dynamics of their project dramatically.
“With Azure Machine Learning, the time it took to run a single experiment went from 45 minutes to instantaneous,”
Aziz says. “It’s really fun to be able to use multiple types of machine learning algorithms and just have the results
appear immediately. We’re able to play with all the variables and make sense of which ones contribute most to a
specific change in building conditions.”
LETTING THE DATA TELL THE STORY
To let the data tell its own story in a way that is visual and easy to grasp, the Carnegie Mellon researchers build
“digital dashboards” that make data anomalies much easier to spot. Using these dashboards, they’ve been able to
solve puzzles in the buildings they’re working on. In one case, Lasternas recalls, “We saw an unusual area of low
temperature in a building and realized that someone was leaving a window open in the middle of winter, when it
was minus-eight degrees outside.”
According to Aziz, when a strange condition is spotted on the dashboard, the solution is often a simple one. “We
ask people why they have the boiler on when the temperature outside is 85 degrees. Turns out they didn’t know it
was on, because they don’t have the data presented to them clearly,” he says.
Having data-based insight on-the-fly is great, but where things get really interesting is with the potential to do predictive modeling. This is an area where cloud and machine learning technologies have truly been a game changer.
Because Carnegie Mellon is collecting and storing real-time and historical data on campus buildings using the PI
System, they finally have the ability to do predictive analysis using Azure Machine Learning in exciting ways.
For people who live in buildings and use its systems, providing data alone isn’t enough to change behavior. “People need to see the impact of their actions every minute. Digital dashboards often trigger the “aha!” moments.”
— Lasternas
One of the team’s early experiments involved trying to figure out the ideal time to ramp up the heating in campus
buildings to hit 72 degrees at start of business (by 8 a.m.), given predicted variations in outdoor temperature and
sunshine. Using Azure Machine Learning, they built a model that looked at months of “heat up” data from the building’s records and matched that to multi-day external temperatures and anticipated solar radiation. The result? They
were able to zero in on a custom model for each day to start heating a building at the lowest energy use.
“As simple as that victory sounds, the implications for energy and dollar savings are simply enormous —especially
when you scale up,” notes Lasternas. For this group of researchers, the potential to scale up such predictive caDocument réalisé par la Société Corp Events - Janvier 2015
65
Retours d’expériences Big Data en entreprise
pabilities — to forecast factors such as energy demand spikes and equipment failures, to simply and proactively
give people actionable information at their fingertips — is where their research can have real and broad impact.
“These are complex and critical problems we’re trying to solve. And cloud and machine learning technology is helping us push boundaries of what is possible in ways I couldn’t have imagined a few years ago,” Aziz says.
AN ENERGY CROSSROADS
Vivian Loftness checks out a model of a planned second wing to Margaret Morrison called “Invention Works’ where
Carnegie Mellon inventors from across campus could collaborate to create products and systems that improve our
environment, our health and our quality of life.
The journey of these energy crusaders is just picking up steam. Early alliances include partnerships and projects
with United States Department of Energy and the Department of Defense, OSIsoft, the city of Pittsburgh and PNC
Bank, one of the largest diversified financial services organizations in the country.
With the growing commitment to sustainable design initiatives across the public and private sector, Loftness believes the energy conservation movement is quickly hitting a tipping point in the U.S.
“Climate change is a serious challenge and I expect to see energy management in buildings rise from its underchampioned status today to the forefront of the energy conservation movement,” Loftness says. “Technology is
helping us get to better insights, and faster, creating a movement that will ripple across the country in the next few
years, reshaping how we live, work and play.”
Document réalisé par la Société Corp Events - Janvier 2015
66
Retours d’expériences Big Data en entreprise
MONGO DB - BOSCH
BOSCH LEADS THE CHARGE INTO INTERNET OF THINGS
BETS ON MONGODB FOR BUILDING APPS NEVER BEFORE POSSIBLE
Things (e.g., devices, assets) are getting more intelligent. And every day, more and more of them are connecting
to the Internet. This is forming the Internet of Things (IoT).
There’s no company more connected to this trend than the Bosch Group, a multinational engineering conglomerate
with nearly 300,000 employees. Known for its appliances in the U.S., Bosch is also the world’s largest automotive
components manufacturer. From smart power tools and advanced telematics to microelectromechanical systems
(MEMS), it’s at the forefront of IoT.
With such a wide-reaching, diverse product base, IoT represents a huge opportunity for the Bosch Group to increase efficiency and to develop new business models. It also poses a significant challenge, to design, develop
and operate innovative software and industry solutions in the IoT. Bosch Software Innovations (Bosch SI) spearheads all IoT activities inside the Bosch Group and helps their internal and external customers to be successful in
the IoT.
IoT is in its infancy, but growing up fast. By some estimates, 50 billion devices, appliances and systems will be
connected by 2020. Traditional systems cannot support the volume, speed and complexity of data being generated
across such a vast spectrum of potential use cases. Bosch SI was looking for an innovative partner to meet the
challenges of Big Data in IoT.
IOT DATA MADE VALUABLE
IoT goes beyond simply connecting assets and devices. It requires creating services that gather data and deliver
immediate insight. The Bosch IoT Suite and the integrated database from MongoDB make this possible.
“IoT is the culmination of agility and flexibility on the one side and big data on the other side – and this is where
MongoDB is of great value to us.”
Dirk Slama, Bosch Business Development Take, for example, the automotive field data app that Bosch is piloting.
The app captures data from the vehicle, such as the braking system, power steering and windshield wipers. The
data can then be used to improve diagnostics for preventative maintenance needs, as well as analyze how components are performing in the field. The value isn’t simply in the sensor attached to the electromagnetic components, but in how the back-end service is able to improve maintenance and product design processes.
In another example, an app based on the Bosch SI technology gives aircraft manufactures unprecedented control
over how operators use highly advanced power tools used to tighten the six million screws, nuts and bolts on an
airplane -- a mission-critical job with zero room for error.
The app captures all data transmitted wirelessly, including battery level, operator details and time-series calibration
readings. If the torque or angle is off by the slightest bit, the app sets off an alarm so the operator can make on-thefly adjustments. It manages maintenance schedules, tracks and traces details to prevent loss, and also creates an
audit trail of tightening processes for compliance with the FAA and other regulatory bodies. By connecting data to
manufacturing processes in real-time, the app makes that power tool exponentially more powerful.
In both instances, the Bosch IoT Suite collects data from individual sensors and equipment – the car’s braking
system, or the wireless tightening tool. MongoDB stores, manages and analyzes all of this event data in real-time.
MongoDB also stores business rules that trigger alarms and notifications, such as “alert driver when brake pressure drops below a certain level” or “send alarm when tool is being used incorrectly.”
DATA MANAGEMENT REIMAGINED FOR IOT
The massive volume and increasingly unstructured nature of IoT data has put new demands on Bosch SI’s entire
technology stack, especially the underlying database. Rigidly defined RDBMS data models have limited use in IoT.
They lack the flexibility, scale and real-time analytics needed to quickly capture, share, process and analyze IoT data.
IoT calls for a new mindset, and a new database. MongoDB helped Bosch SI reimagine what’s possible. Here’s how:
1. Manage complex data types. IoT data arrives at higher speeds, in greater volumes and variability of structure. MongoDB can easily handle the full spectrum of data: structured, semi-structured, unstructured. Efficient modeling of data
using JSON makes it easy to map the information model of the device to its associated document in the database.
2. Support continuous innovation and business agility. Changes in IoT customer requirements, standards and use
cases will require frequent data model changes. MongoDB’s dynamic schema supports agile, iterative development methodologies and makes it simple to evolve an app. Adding new devices, sensors and assets is straightforward, even when you’re dealing with multiple versions in the field concurrently. Instead of wasting time dealing
with the mismatch between programming language and the database, MongoDB lets developers focus on creating
rich, functional apps.
3. Create a unified view. Creating a single view of an asset or customer with a relational database is complicated.
Source schema changes require additional changes to the single view schema. MongoDB makes it easy to aggregate multiple views of related data from different source systems into one unified view.
Document réalisé par la Société Corp Events - Janvier 2015
67
Retours d’expériences Big Data en entreprise
4. Power operational insight with real-time analysis. Apps handling fast-moving IoT data can’t wait on ETL processes to replicate data to a data warehouse. They need to react and respond in real time. MongoDB’s rich indexing
and querying capabilities – including secondary, geospatial and text search indexes, the Aggregation Framework
and native MapReduce – allow users to ask complex questions of the data, leading to real-time operational insight
and business discovery.
5. Be enterprise-ready. MongoDB complements agility with enterprise-grade availability, security and scalability.
Zero downtime with replica sets. Proven database security with authentication, authorization, auditing and encryption. Cost-effective scale-out across commodity hardware with auto-sharding. As IoT data volumes continue to
explode, Bosch will be able to efficiently scale without imposing additional complexity on development teams or
additional cost on the business.
A BET THAT PAID OFF
Bosch SI is making a strategic bet on MongoDB to drive innovative apps in every industry where it does business. It
can improve the retail shopping experience with in-store maps and personalized notifications. Create safer working
conditions in manufacturing environments. Trace agriculture through the food chain to support farm-to-table initiatives.
“It’s great to see MongoDB as a stable and growing company that we can strategically bet on” Dirk Slama, Bosch
Business Development
The use cases are limitless. And MongoDB makes every single one possible.
The IoT market is exploding and Bosch is moving quickly. Bosch SI is continuing development on new apps and
working closely with MongoDB to scale up existing apps – like growing a three million car pilot to a 300 million car
application.
With MongoDB, scale-out will be fast, reliable and cost effective.
As a technology provider, partner and fellow innovator, MongoDB is in lock-step with Bosch SI. Bosch SI is accelerating implementation of new IoT apps and business models, ensuring the business units and customers it serves
don’t miss a beat as new generations of sensors and equipment come online.
Copyright © MongoDB Inc 2014
MONGO DB - METLIFE
RETHINKING THE CUSTOMER EXPERIENCE AT METLIFE: FROM STALLED
TO SUCCESS IN THREE MONTHS
Reinventing customer service. In 2011, MetLife’s new executive team knew they had to shake up how the insurance giant catered to customers. Because today’s consumers – hyper connected, digitally empowered, information
savvy – have little patience and even less loyalty.
MetLife wanted to harness Big Data to create a 360-degree view of its customers so it could know and talk to each
of its more than 100 million clients as individuals. But the Fortune 50 company had already spent many years trying
unsuccessfully to develop this kind of centralized system using relational databases.
Which is why the 145-year old insurer in 2013 turned to MongoDB. Using MongoDB’s technology over just 2
weeks, MetLife created a working prototype of a new system that pulled together every single relevant piece of
customer information about each client.
Three short months later, the finished version of this new system, called the “MetLife Wall,” was in production
across MetLife’s call centers. The Wall collects vast amounts of structured and unstructured information from
MetLife’s more than 70 different administrative systems. After many years of trying, MetLife solved one of the
biggest data challenges dogging companies today. All by using MongoDB’s innovative approach for organizing
massive amounts of data.
INSIDE THE METLIFE WALL
Today, when a customer calls MetLife to ask about a claim, add a new baby to a policy, or dig into coverage details,
customer representatives use the Wall to pull up every bit of information they need in seconds – name, address,
policies, and life events.
Using a touchscreen and a design based on how Facebook dishes up information, The Wall is instantly familiar to
MetLife’s call center operators. Which means customer reps can quickly and efficiently answer questions, handle
claims, suggest new services, or offer promotions, while slashing wait and call times. MetLife now understands
and serves each customer individually.
Document réalisé par la Société Corp Events - Janvier 2015
68
Retours d’expériences Big Data en entreprise
POWER OF THE FLEXIBLE DATA MODEL
What sparked this change? We’re all too familiar with typical customer service. Call any business and you enter an
endless maze where you’re passed around to different people who ask for the same bits of information.
The culprit is data silos. Like most companies, MetLife has scores of data systems created or acquired over the
years. MetLife’s systems contain a huge array of structured and unstructured data, including policy and customer
information and transactional history about everything from claims to payments. Few are connected and many are
on mainframes with cumbersome interfaces.
Ripping out its administrative systems and replacing them with one unified system wasn’t an option for MetLife.
So the company had tried over the years to use relational databases, which require a common schema and strict
mapping of data sources. Adding each new system was an expensive and time consuming process of changing
schemas, and extracting, cleansing, and matching data – one that MetLife never won.
Working with MongoDB, MetLife could finally sidestep this whole exercise. What makes MongoDB different is its
flexible data model. MongoDB looks at data more naturally, making it easy to evolve schemas in real time. If relational databases are like Excel spreadsheets – where data is organized into sheets but where you add a column
every time you add a field, creating a structured but unwieldy project – MongoDB is a series of Word documents.
Each entry is a document that can have its own schema.
FLEXIBLE, SCALABLE, USER FRIENDLY
MongoDB also makes the most of today’s computing resources, including commodity hardware and cloud infrastructure. This helps slash the cost of ownership and lets organizations scale their operations and applications
quickly. MongoDB’s horizontal scaling via automatic sharding provides reliable partitioning of massive amounts of
data across multiple servers. And it’s flexible, allowing organizations to leverage multiple data centers and multitemperature storage techniques.
Just as crucial for productivity and agile application development is the ease of use MongoDB provides developers.
Developers can interact with the database in the same programming language they use to write the application,
whether Java, Ruby, Python, or something else. Which means they can focus on building apps instead of wrestling
with ORMs.
And MongoDB provides a variety of rich features, such as integrated search, geospatial, and native analytics, that
don’t exist in a traditional database. Giving companies the right resources they need to get projects done quickly.
A CATALYST FOR INNOVATION
“MongoDB helped us to deliver that 360 view of the customer in just 90 days. That was really ground-breaking for
MetLife, ground-breaking for the insurance industry. And it really set an example of the type of company that we
want to be recognized as.”
John Bungert, senior architect at MetLife
Working with MongoDB led not just to The Wall’s success, but a wave of innovation inside MetLife. Harnessing Big
Data is letting the insurance giant do things it never could do before.
NOW, METLIFE IS:
• Rolling out The Wall internationally
• Developing a version of The Wall for its sales force
• Creating a real-time analytical system that predicts customer attrition rates, prompting customer reps to offer
Document réalisé par la Société Corp Events - Janvier 2015
69
Retours d’expériences Big Data en entreprise
alternative products or promotions
• Considering adding social data and data from mobile apps into The Wall to gain an even better understanding of
customers, something that’s easy to do with MongoDB.
With MongoDB, MetLife joined the vanguard of the Big Data revolution. By quickly and successfully cracking one
of the biggest problems it faced, MetLife changed the expectations of what is possible.
Copyright © 2014 MongoDB, Inc
MONGO DB - OTTO
OTTO REINVENTS E-COMMERCE PERSONALIZATION FOR MORE THAN
2 MILLION VISITORS PER DAY
SLASHES SITE CATALOGUE UPDATE TIME FROM 12 HOURS TO 15 MINUTES
Online retailers have access to troves of data. They know more about their customers than the corner store shopkeeper knew decades ago. Smart retailers use that data to give shoppers a highly personalized, painless shopping
experience. That’s how you attract – and keep – today’s customer.
OTTO is Germany’s top online retailer for fashion and lifestyle goods; the company turns over more than €2B per
year and has more than two million daily site visitors. It has long held the customer at the centre of its retail strategy.
Yet existing systems were slowing it down – loading new catalogue updates for two million products often took all day.
With a MongoDB-powered catalog, OTTO gets an edge with speed. It’s fast to develop. Fast to load data. And fast
to personalize a shopping experience for a great number of customers.
“Personalization based on real-time data is the key success factor for e-commerce sites.”
Peter Wolter, head of OTTO’s e-commerce Solutions & Technology Division
PERSONALIZATION MADE FAST
OTTO’s previous site was static, slow and expensive to change. So was its approach to development. OTTO had
one big system with one big team. Only small fragments of the site could be changed to personalize the customer
experience. This prevented it from quickly responding to market changes, such as competitive price fluctuations. It
also lacked the ability get the most relevant products in front of customers as soon as they hit the site.
SLOW REACTION TIME IS A CONVERSION KILLER
The average customer doesn’t stay on an e-commerce web site for very long. OTTO has only 1-2 seconds to access customer profiles in real time and decide how to react.
This is especially challenging with a product catalogue as diverse as OTTO’s. It offers one stop shopping for over
5,000 brands -- everything from jeans to sofas to stereo systems, each of which has a different set of attributes
(such as name, colour, size). In addition, product pricing and availability are dynamic, and need to be constantly
refreshed to maintain competitive advantage.
Using a relational database to update a site with such variation in products and attributes is painful, often requiring
reading from dozens of tables to update a single product. Querying is complicated. Scaling is slow and difficult.
MongoDB’s flexible data model erases that complexity and is well suited to an asset catalogue. OTTO can quickly
iterate data schema for changes to products, attributes and customer profiles – without taking the database offline
or affecting performance. Plus, all product information can be read from a single JSON document, allowing for incredibly fast reads. Complete insight into customer behaviour hinges on analytics that take advantage of real-time
data. This is what drives true personalization.
Document réalisé par la Société Corp Events - Janvier 2015
70
Retours d’expériences Big Data en entreprise
OTTO has scaled up to 800 page impressions per second that generate 10,000 events per second – every click,
every hover is stored in MongoDB. This rich insight into shopping behaviour enables OTTO to deliver a unique site
with a personalized set of products, navigation and filters for every customer.
It can also move incredibly fast. In-memory speed and on-disk capacity have led to dramatically improved site
response times. In addition, all touch points – browser, mobile, tablet – are integrated, so OTTO can deliver instantaneous personalization during each customer’s journey on the site.
The result is boosted engagement, revenue and a new way to deliver superior customer service.
DEVELOPMENT AGILITY
OTTO needed fast results. MongoDB delivered.
Parallel teams spanning business, project management, and IT all individually chose MongoDB as the best tool to
quickly and easily achieve results. MongoDB was the go-to preference for every team, even though the business
problems varied. Today, each team has its own MongoDB installation to get done what it needs to do without any
architectural governance on top. This is only possible because MongoDB has proven to be easy to use, easy to
integrate and easy to operate.
With loosely coupled teams, architecture, and operations, OTTO has removed the bottleneck to deploy and test.
Teams can easily correct errors and innovate risk-free. Complete autonomy means they move at speeds never
before possible. This move to agile development wasn’t mandated. It was inspired by MongoDB and driven by the
teams. Now, both business and IT can produce fast results while staying focused on enterprise operation, scalability, request handling, and speed.
OTTO has successfully bridged two worlds: a lean approach and sustainable enterprise operations.
“We always want to be at the forefront of an increasingly competitive online trading market,” said Wolter. “We now
have a modern, digitally-oriented application development environment which allows us to implement our innovative ideas as quickly as we create them.”
In changing its operations, development, technology tools, and the way in which they cooperate, OTTO took a risk.
But it was a risk worth taking – one that’s paying off for the business and for customers.
THE ENDLESS AISLE – NOW PERSONALIZED
New channels. More traffic. An endless aisle of products. E-commerce is booming and OTTO is ready.
OTTO already has a strong foundation of a 65-year-old trusted brand, loyal customers, and innovative retail strategies. Now it has the stable, proven technology architecture and agile development to match – vital pieces that will
propel it forward in the face of unknown challenges and growing demand.
Copyright © 2014 MongoDB, Inc.
Document réalisé par la Société Corp Events - Janvier 2015
71
Retours d’expériences Big Data en entreprise
MONGO DB - WEATHER CHANNEL
KILLER FEATURES. FAST. THE WEATHER CHANNEL LAUNCHES NEW
FEATURES IN HOURS, NOT WEEKS
Weather changes quickly. In its extreme form, it’s volatile, sometimes dangerous and often thrilling. Given its impact on lifestyle, people are eager to get their hands on the latest information. They want to know – now – what’s
happening.
In 1982, The Weather Channel started a 24x7 television network to meet the demand for non-stop, as-it-happens
weather reporting. Several years later, they made the natural progression online with weather.com. But because
the site was built on a cumbersome relational database backend, developing mobile apps was difficult. The Weather Channel team needed to iterate more quickly, with responsive apps and a scalable system. For a user base
of 40 million and quickly growing on smartphones, the Weather Channel brand needed to move beyond a legacy
relational database approach.
THE WEATHER CHANNEL TURNED TO MONGODB TO GET KILLER FEATURES OUT TO
USERS QUICKLY. CHANGES THAT USED TO TAKE WEEKS CAN NOW BE PUSHED OUT
IN HOURS.
They’ve replaced high costs and complexity with simplified scale and speed. And now that they’ve modernized on
a cloud infrastructure, they are transitioning news, lifestyle and some weather content from their digital properties
to MongoDB.
With a fleet of apps built on MongoDB, users can personalize their experiences across mobile devices, tablets and
the website. They can view incredibly fast radar maps and receive severe weather alerts in real-time.
WHATEVER USERS CLAMOR FOR, THE WEATHER CHANNEL IS READY TO DELIVER.
“As we work with our user base to figure out killer features, rapid innovation cycles with MongoDB are a real benefit.”
Luke Kolin, vice president of architecture at The Weather Channel
SEVERE WEATHER ALERTS, FASTER THAN THE STORM
Five million users rely on The Weather Channel for the severe weather alert feature. It’s a competitive differentiator
for the brand, and a must-have feature for many users.
If the National Weather Service (NWS) issues a storm warning for Cook County, Illinois, for example, The Weather
Channel has to notify those 125,000 local subscribers as fast as possible.
With MongoDB, The Weather Channel can quickly distribute those weather alerts to subscribers in affected geographic locations in real-time.
According to Kolin, MongoDB’s secondary indexes and fast ad hoc querying make it the only product that can reliably perform that kind of lookup on such a large user base in mere seconds.
Document réalisé par la Société Corp Events - Janvier 2015
72
Retours d’expériences Big Data en entreprise
SIMPLIFIED SCALE IN THE CLOUD
Weather is hard to predict. So is the online traffic for weather apps.
With MongoDB, The Weather Channel doesn’t have to worry about app performance during unpredictable peak times.
The apps typically handle two million requests per minute, including weather data and social sign-ins. As the user
base scales, so will MongoDB. With its native scale-out capabilities, MongoDB can support thousands of nodes,
petabytes of data and hundreds of thousands of ops per second.
The Weather Channel initially planned to build its own management services for the new cloud infrastructure.
Instead, they saved significant time and money by taking advantage of MongoDB’s management application,
MongoDB Management Service (MMS). Built by the same engineers who develop MongoDB, MMS is a cloud
service that makes it easy to run MongoDB at any scale. Features like performance visualization, custom alerts
and point-in-time recovery ensure The Weather Channel can mitigate issues before they arise and optimize its
MongoDB deployment.
FAST APPS, WITHOUT THE WAIT
MongoDB met The Weather Channel brand’s needs from day one, with no significant optimization needed.
“As part of our infrastructure redesign, we needed to ensure that new app development was never waiting on the
back-end,” said Kolin.
MongoDB was made for this mission.
Today, The Weather Channel team can iterate rapidly without worrying about schema changes. They can adapt.
They can push out changes to users in a fraction of the time. And at much lower cost.
New features, new devices, new expectations. Users want awesome apps that keep getting better. And now, MongoDB helps The Weather Channel deliver.
Copyright © MongoDB Inc 2014
Document réalisé par la Société Corp Events - Janvier 2015
73
Retours d’expériences Big Data en entreprise
NEO4J - EBAY
EBAY NOW CHOISIT NEO4J POUR LA GESTION DU ROUTAGE DE SON
SERVICE DE LIVRAISON E-COMMERCE
La société londonienne Shutl était réputée pour l’incroyable rapidité de ses services avant même son acquisition
par eBay, leader mondial du e-commerce. Depuis sa création en 2009, sa mission est de livrer le plus rapidement
possible les achats effectués sur Internet à leurs destinataires. Qu’il s’agisse de jouets, de chaussons, de cravates
ou encore d’iPhones, eBay fait désormais appel à la plateforme nouvelle génération de Shutl pour redéfinir le ecommerce en accélérant et en simplifiant la livraison des commandes passées sur Internet ou appareil mobile.
eBay élimine le plus gros obstacle entre les vendeurs et les ache- teurs en ligne en proposant une livraison des
articles le jour même. Aujourd’hui, la plateforme de Shutl est à la base des opérations du service de livraison locale
eBay Now dans quatre marchés américains et son extension à 25 grandes villes aux États-Unis et au RoyaumeUni est prévue pour la fin 2014. Volker Pacher, développeur senior pour eBay, fait partie de l’équipe principale de
la plateforme de services chargée de fournir une API aux transporteurs et aux marchands. Les requêtes envoyées
à l’API ont connu une croissance exponen- tielle, d’où un allongement des temps de réponse. L’équipe a donc
entièrement repensé la première plateforme SaaS de Shutl. Volker Pacher savait qu’une base de données orientée
graphe permettrait de simplifier la modélisation du domaine sans affecter la structure existante. À l’aide de Neo4j
et d’une structure de graphe sans schéma (schema-less), l’équipe a créé une base de données permettant aux
requêtes de rester localisées à l’intérieur du graphe, améliorant les performances grâce à la facilité d’expression.
Comme aime à le dire Volker Pacher : « Notre système fonc- tionne sur sept lignes de Cypher ».
La plateforme Shutl orchestre les livraisons entre les boutiques, les coursiers et les acheteurs 24 h/24 et 7 j/7. Les
envois s’effectuent directement depuis les points de vente. Le service organise la collecte et la livraison des articles
selon les préférences des clients, généralement dans un délai de deux heures, ou dans une fenêtre de livraison d’une
heure choisie par les clients. Le résultat : un service innovant qui améliore la qualité de service pour les clients ainsi que
la producti- vité des partenaires revendeurs et transporteurs. Tous les acteurs sont gagnants : les clients disposent de
plus de choix pour la livraison, les coursiers ne perdent plus de temps à attendre et les boutiques peuvent proposer des
services supplé- mentaires à leurs clients sur Internet. Shutl « sauve les petits commerces » dans chaque ville en faisant
appel à leurs services marchands et de livraison et en leur permettant ainsi de rester compétitifs.
LE DÉFI
Le service de livraison le jour même de Shutl s’est développé de manière exponentielle et couvre aujourd’hui
jusqu’à 85 % du Royaume-Uni. Sa plateforme de services a dû être entièrement repensée afin de prendre en
charge l’explosion du volume de données et les nouvelles fonctionnalités. Les join- tures MySQL utilisées auparavant ont créé une base de code trop lente et complexe. Les délais d’exé- cution des requêtes de sélection
du meilleur coursier étaient tout simplement trop longs et Shutl avait besoin qui permette à son service de rester
compétitif. Volker Pacher et l’équipe de développement pensaient qu’en ajoutant une base de données orientée
graphe à l’AOS et à la structure de services, il serait possible de résoudre les problèmes de performan- ces et
d’évolutivité. L’équipe a choisi Neo4j, la meilleure solution à ses yeux.
POURQUOI NEO4J?
Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa simplicité d’utilisation. Son modèle de graphe à
propriétés était parfaitement com- patible avec le domaine modélisé. La base de données ne nécessitant pas de
schéma, cela a simplifié son extensibilité et a permis d’accélérer la phase de développement. Enfin, les limitations
en termes de rapidité et d’évolutivité de la solution précédente ont été surmontées. « Notre solu- tion Neo4j est
littéralement des milliers de fois plus rapide que la solution MySQL précédente, avec des requêtes qui nécessitent
de 10 à 100 fois moins de code. Dans le même temps, Neo4j nous a permis d’ajouter des fonctionnalités jusqu’ici
impossibles », explique Volker Pacher. Cypher a permis d’exprimer les requêtes sous une forme très compacte et
intuitive, ce qui a accéléré le développement. L’équipe a pu exploiter le code existant à l’aide d’une bibliothèque
Ruby pour Neo4j prenant égale- ment en charge Cypher.
LES AVANTAGES
Basée sur jRuby, Sinatra, MongoDB et Neo4j, la nouvelle plateforme garantit des transactions rapides avec des
performances relativement constantes. Par ailleurs, son modèle de données permet aux requêtes de rester localisées à l’intérieur de leurs portions respectives du graphe. « Nous avons obtenu des performances constantes pour
les requêtes en utilisant Neo4j pour créer un graphe qui est son propre index. Cette flexibilité de développement
est tout simplement unique », explique Volker Pacher. La phase d›implémentation a été réalisée dans les délais
prévus, en à peine une année. Les requêtes sont désormais simples et rapides. Le résultat est une plateforme
évolutive capable de prendre en charge le développement de l›entreprise, et notamment la croissance de l›activité
à laquelle elle doit faire face en tant que plateforme du service eBay Now.
Document réalisé par la Société Corp Events - Janvier 2015
74
Retours d’expériences Big Data en entreprise
NEO4J - GAMESYS
GAMESYS MISE LA CROISSANCE DE SA PROCHAINE GÉNÉRATION DE
JEUX SUR NEO4J, PAR UNE INTÉGRATION SOCIALE AVANCÉE.
La société Gamesys est l’un des leaders des jeux d’argent en ligne. Elle a été nommée en tant que compagnie
technologique privée ayant eu la plus forte cro- issance au Royaume-Uni par le Sunday Times, avec des paris
d’argent à hauteur de 4,3 milliards de Livres en 2012. Leur produit phare récompensé par un prix, « Jackpotjoy »,
est depuis le principal site en ligne de Bingo et de jeu à gain instan- tané (Instant Win), avec plus de quatre millions de joueurs. Gamesys a fait passer sa plate-forme de jeux au niveau supérieur en ajoutant une plate-forme
sociale basée sur Neo4j pour offrir une intégration à Facebook, un système de gestion des données de référence,
et bien plus encore. La versatilité de Neo4j a permis à Gamesys d’apporter de nouvelles fonctionnalités en ligne
facilement, en offrant aux utilisateurs finaux un système très performant et fiable.
PROBLÈME D’AFFAIRES
Face au challenge que représente la création d’un nouveau réseau social, Gamesys a considéré les types de bases de données disponibles. Après avoir réalisé que les bases de données relationnel- les ne sont pas adaptées à
la gestion une intercon- nexion de données massive; Gamesys a évalué les solutions NoSQL et réalisé rapidement
que les graphes étaient une solution naturellement adaptée à leur problématique. La maturité de la base de données choisie était plus importante que tous les autres facteurs. Si Gamesys pariait son expansion dans l’espace
social sur une base de données, cel- le-ci devait être très utilisée, compter un bon ser- vice de support, être bien
documentée, et avoir fait ses preuves dans des déploiements en production multiples et à grande échelle.
LE CHOIX DE NEO4J
Les ingénieurs de GameSys ont évalué plusieurs bases de données de graphes. Après avoir inspecté d’autres offres, ils ont vite réalisé que Neo4j était de loin la plus mûre. Par rapport à d’autres vendeurs, il est clair que Neo4j
et Neo Techno- logy étaient le monstre sacré de l’univers des graphes, et un bon investissement à long terme.
Lors de l’évaluation des bases de données relationnelles, il est devenu clair qu’une base de données de graphes
était un choix plus avisé et plus sûr pour ce pro- jet. L’un des facteurs les plus importants était la résistance au
changement. Les données et requêtes étaient clairement adaptées à un graphe, et il était évident que la manipulation de données au format tabulaire générerait des coûts signi- ficatifs pour le projet et une augmentation importante des temps de traitement. L’avantage majeur était que la base de données graphes répondait aux exigences
opérationnelles et analytiques environnement technique
Avant l’introduction de Neo4j, Gamesys utilisait principalement des bases de données relationnelles. Gamesys a
profité du lancement de son nouveau projet social pour porter un nouveau regard sur les options technologiques.
Les bases de données de graphes, naturellement adaptées au domaine social sont une technologique qui correspond bien mieux cet usage que les bases relationnelles,.
Gamesys a débuté le projet avec trois groupes d’instances hautement disponibles, un choix adapté à l’évolutivité
de leurs besoins et à des exigences de disponibilité maximales. Gamesys a également déployé une instance pour
un projet d’analytique. Gamesys de exécute de cette façon des requêtes temps-réel en direct sur les données sans
besoin d’un entrepôt de données, ce qui leur permet de découvrir de nouveaux indicateurs et des mesures inédites
sans délai et sans besoin de pré-calculs.
CONCLUSION
Gamesys propose à ses clients une offre sociale compétitive et convaincante en utilisant Neo4j. Les capacités de
développer rapidement et avec souplesse, ainsi que les coût raisonnable de Neo4j leur a assuré le succès. En
introduisant une base de données de graphes comme Neo4j dans son architecture, Gamesys a sécurisé sa croissance future en terme d’évolutivité et d’extensibilité à un plus grand nombre d’utilisateurs.
Document réalisé par la Société Corp Events - Janvier 2015
75
Retours d’expériences Big Data en entreprise
NEO4J - GLASSDOOR
GLASSDOOR ÉTEND SA PLATE-FORME SOCIALE INTÉGRÉE AVEC NEO4J
LE DÉFI DE GLASSDOOR
Glassdoor est une communauté en ligne dédiée à l’emploi qui aide les deman- deurs d’emploi à prendre des
décisions professionnelles éclairées et conseille les entreprises afin d’attirer les meilleurs collaborateurs du marché. Forte de plus de 20 millions de membres, Glassdoor offre une vision à 360 degrés du travail au sein d’une
entreprise particulière et à un poste donné grâce aux contributions de ses membres. Sa base de données en
croissance constante contient désormais plus de 4 millions de publications anonymes : rapports sur les salaires,
analyses d’entreprises, évaluations de PDG, questions posées en entretien d’embauche et autres enseignements
sur l’environnement de travail.
Glassdoor exploite l’idée répandue selon laquelle les réseaux personnels et professionnels permettent généralement d’obtenir un emploi, et a lancé une nouvelle initiative afin de se démarquer
davantage des autres acteurs du marché de l’em ploi en ligne. En effet, elle a créé un système
appelé InsideConnections permettant aux demandeurs d’emploi d’identifier parmi leurs amis de
leur réseau Facebook ceux qui travaillent pour des entreprises particulières.
Lorsque les membres s’inscrivent sur Glassdoor via Facebook, ils doivent fournir des renseignements basiques
permettant d’améliorer leur expérience sur le site, tels que leurs emplois actuels et pré- cédents ainsi que leur
formation. En contrepartie, les membres de Glassdoor peuvent découvrir qui, parmi leurs connaissances, travaille
dans certaines entreprises, et recevoir des recommandations pro- fessionnelles davantage personnalisées.
sélECtion d’unE basE dE donnéEs oriEntéE GraphE
Glassdoor avait besoin d’une base de données pour gérer les informations four- nies par les amis des membres
et leurs amis, ainsi que les relations avec l’em- ployeur. Il a été convenu qu’une base de données orientée graphe
constituait la solution parfaite pour obtenir cet ensemble de données connectées. Neo4j, qui s’intègre à sa technologie existante, a été désignée comme étant la base de don- nées idéale grâce à sa maturité et ses fonctions
intégrées.
ÉCHELLE, CONNEXION ET NEO4J
Au cours de la première année de lancement d’InsideConnections, Glassdoor a connu une croissance phénoménale. Sa base de données sociale en constante évolution a rapidement compté plus de 600 millions de personnes,
soit plus de la moitié du graphe Facebook. L’installation de Neo4j par Glassdoor a connu une croissance régulière.
Toutes les données ont été réunies dans un cluster unique (et de grande capacité) haute disponibilité, conçu pour
s’adapter à des débits élevés de lecture et d’écriture.
CONCLUSION
Neo4j constitue la technologie adaptée à la technologie de recherche d’emploi étendue de Glassdoor, et la solution
idéale pour gérer les données connectées de Glassdoor. Glassdoor, qui compte dans sa base de données plus de
600 millions de membres qu’elle relie entre eux, détient l’un des plus vastes graphes sociaux du monde, offrant à
ses membres une portée exceptionnellement étendue.
Neo4j s’adapte au gigantesque graphe social de Glassdoor en exploitant son affinité naturelle avec les données
connectées, sa technologie de clustering haute disponibilité et ses fonctionnalités de partition- nement de cache,
permettant ainsi à Glassdoor d’accroître sereinement sa communauté ainsi que sa popularité.
Document réalisé par la Société Corp Events - Janvier 2015
76
Retours d’expériences Big Data en entreprise
NEO4J - SNAP INTERACTIVE
SNAP INTERACTIVE CONQUIERT LE MARCHÉ DE LA RENCONTRE
EN LIGNE AVEC NEO4J
La vocation de la société basée à Manhattan SNAP Interactive, Inc. (OTCBB: STVI) est de permettre aux per-
sonnes d’accéder au 3e degré. Êtes-vous intéressé ? Voici la question posée à tous les utilisateurs de l’application
Web et mobile de rencontre en ligne AYI (AreYouInterested?). Cette question a fait de SNAP l’un des leaders du
développement d’applications pour sites Web et plate- formes mobiles de réseaux sociaux.
Depuis 2005, SNAP cherche à améliorer la réussite des rencontres en ligne en mettant des amis en relation et en
recoupant leurs intérêts. SNAP a choisi d’ex- plorer le filon des données des connexions de 3e degré. Ingénieur
Big Data chez SNAP, David Fox connaissait les statistiques. « La probabilité qu’une personne se connecte avec
un ami du 3e degré est presque la même que pour un ami du 2e degré, où ils ont un ami commun », explique-t-il.
« Il s’agit d’un point essentiel pouvant faire exploser l’engagement et la taille d’un réseau. » Mais ces données sont
extrêmement difficiles à récupérer avec une base de données relationnelle.
Le défi de SNAP consistait à représenter les données de type « amis des amis ». L’équipe ne disposait d’aucun
moyen efficace de trouver les connexions de 3e degré au sein de son immense réseau social, avec plus d’un milliard d’individus dans le graphe et plus de 7 milliards de relations.
David Fox a exploité Neo4j pour modéliser les données entre les utilisateurs amis et créer des connexions de 3e
degré visibles (c’est-à-dire les amis d’amis ainsi que les amis des amis d’amis) à l’échelle de l’application AYI. Le
retour s’est avéré colossal.
Aujourd’hui, AYI est l’une des applications sociales les plus utilisées sur Internet, avec plus de 70 millions
d’installations, des millions de visiteurs actifs et un par tenariat stratégique avec Match.com. « Nous continuons
à innover avec Neo4j en exploitant la puissance des traversées multi-saut en temps réel pour gérer le volume de
données sociales et sommes passés de 7 à 8 milliards de relations », explique David Fox.
LE DÉFI
À l›origine, le service de SNAP était basé sur Apache Solr et reliait les amis de 2e degré, présentant les données
de type « amis des amis ». L›équipe ne parvenait pas à trouver une solution efficace pour rechercher les connexions de 3e degré au sein d›un corpus de données comptant plus d›un milliard de nœuds d›individus et plus de 7
milliards de relations. Après avoir minutieusement exploré et testé MySQL, l›équipe a conclu que cette plateforme
ne permettait pas de gérer les connexions de 3e degré ni d›autres problèmes complexes. Le temps nécessaire au
développement et à la maintenance de l›indexation et des jointures aurait été trop important et la solution aurait
été incapable de gérer le trafic et le volume de données existant.
David Fox a alors pris la décision de passer à une base de données orientée graphe et a choisi Neo4j, seule et
unique solution à ses yeux capable de gérer la croissance du service AYI.
POURQUOI NEO4J?
Le choix s’est porté sur Neo4j pour sa flexibilité, sa vitesse et sa sim- plicité d’utilisation. SNAP a ainsi pu proposer
une offre particulière- ment distinctive en améliorant nettement le nombre de recomman- dations de rencontres à
travers l’exploitation des connexions de type
« amis des amis ». Grâce à Neo4j, le développement a été simplifié. Cypher, le langage de requête de Neo4j, a
accéléré la phase d’implé- mentation en facilitant grandement le codage. La possibilité d’utiliser Java en natif a
aidé SNAP à respecter les spécificités en termes de lecture et a offert une vitesse et une flexibilité maximales pour
optimi- ser l’importation d’un volume de données considérable.
LES AVANTAGES
Le service AYI de SNAP offre aujourd’hui des temps de réponse rapi- des sur l’un des graphes sociaux les plus
vastes au monde, comptant plus d’un milliard d’individus, gérant les recommandations de ren- contres entre «
amis d’amis » avec des performances en temps réel constantes. Le choix de Neo4j pour gérer le réseau social de
SNAP a également permis de réduire sensiblement les délais de développe- ment et le coût global par rapport à
MySQL. Neo4j a facilité l’ajout de fonctionnalités et permet des requêtes rapides et flexibles.
Aujourd’hui, 98 % des requêtes sont exécutées plus rapidement que prévu. L’utilisation de Neo4j pour gérer les
relations « amis d’amis » s’avère plus que payante. « Les utilisateurs vont interagir s’ils voient qu’ils ont un ami
en commun, la 3e connexion. SNAP révèle les «amis des amis», générant ainsi un nombre d’utilisateurs de plus
en plus important, ce qui augmente d’autant l’interaction entre les utilisa- teurs et permet une croissance rapide
du réseau. Cela représente un engagement colossal, qui a fait augmenter le nombre de relations de 7 à presque
8 milliards depuis l’implémentation de Neo4j. C’est de bon augure pour notre entreprise », explique David Fox.
Document réalisé par la Société Corp Events - Janvier 2015
77
Retours d’expériences Big Data en entreprise
À travers Neo4j, SNAP a également gagné une précieuse vue d›ensemble de son réseau d›utilisateurs.
« Lorsque nous étudions une représentation géospatiale du réseau social générée par des algorithmes, nous
pouvons voir les connexions qui relient les amis ainsi que leur localisation. Cela nous donne une meilleure vision
d›ensemble du réseau et permet à SNAP de proposer des fonctionnalités innovantes et d›améliorer le service AYI.
Nous y voyons de nouvelles méthodes pour améliorer les probabilités d›in- teraction. Neo4j a fourni à SNAP un
moteur de base de données évolutif capable de prendre en charge l›expansion de l›entreprise et de l›application
AYI, s›imposant ainsi en tant que partenaire stratégique incontournable pour d›autres services de rencontre en
ligne tels que Match.com.
NEO4J - TELENOR
AUTORISATION DE RESSOURCES: PROBLÈME RÉSOLU AVEC UNE BASE
DE DONNÉES DE GRAPHES
Telenor Norvège est le principal fournisseur de télécommunications et de services de données du pays. Avec plus
de 3 millions de souscripteurs mobiles, c’est éga- lement le fournisseur numéro un de bande passante de la nation
et, en tant que partie du Groupe Telenor, l’un des plus grands opérateurs mobiles du monde.
Les systèmes de Telenor exposent les données du client et du produit à une gamme de canaux différents, avec
entre autres une solution web en autoservice, où les entreprises clientes peuvent gérer leur propre portefeuille.
La disponibilité du système et les temps de réponse d’accès et de récupération sont critiques pour la satisfaction
du client.
SITUATION
Derrière le portail d’autogestion en ligne de Telenor, vous trouverez l’intergiciel responsable de la gestion des
structures d’organisation des clients, des accords, des souscriptions et de l’accès des utilisateurs à leurs souscriptions mobiles d’af- faires. L’intergiciel est soutenu par Sybase, avec des demandes implémentées en tant que procédures stockées. Comme les souscriptions mobiles ont augmenté, en donnant de grands portefeuilles de clients,
et comme les utilisateurs attendent une ponctualité et des temps de réponse en temps réel des systèmes en ligne,
le module d’autorisation de ressource existant écrit en SQL n’était plus assez perfor- mant. Les autorisations de
ressources prenaient jusqu’à 20 minutes pour les cli- ents les plus importants et devaient être pré-calculées et
mises en cache chaque nuit, ce qui causait également l’apparition de données obsolètes.
Sebastian Verheughe, architecte et développeur de Telenor Mobile Middleware Services, déclare: « En tant que
fournisseur premium Telco en Norvège, nous avi- ons besoin d’un système fiable pour pourvoir aux besoins de notre importante base de données. La base de données Neo4j offre des services de haute perfor- mance pour notre
chaîne de valeur. La solution couvre à la fois les clients entre- prises et les résidents, leur structure corporative, les
souscriptions contenant le numéro de téléphone, le plan de financement et le propriétaire/payeur/utilisateur des
souscriptions, les comptes de facturation et tout accord d’affaires ou résidentiel offrant des réduc- tions pour tous
les membres de l’accord.
POURQUOI NEO4J?
La modélisation du graphe de ressources de Neo4j était naturelle étant donné que le domaine modelé était un
graphe par essence. Neo4j a fourni un accès rapide et sécurisé, et des réponses à des questions importantes,
comme: À quelles souscriptions peut avoir accès un utilisateur, est-ce que l’utilisateur a accès à une ressource
donnée, et de quels accords un client fait il partie ? La vitesse et la pré- cision de ces opérations sont critiques,
parce que les utilisateurs du sys- tème ne peuvent pas accéder à des données tant que le calcul d’autorisa- tion
n’a pas eu lieu. « Avec des dépendances complexes entre les comptes, les produits et les entreprises, le moteur
à haute performance de Neo4j offre une flexibilité de représentation des données, avec des caractéristiques qui
vont au-delà des bases de données relationnelles habituelles ».
BÉNÉFICES
En surmontant à la fois les limites de performances et de fiabilité des données du projet précédent, Neo4j a permis des performances élevées et une exécution fiable des règles d’autorisation. La transition a eu pour résultat
non seulement des performances plus importantes, mais aussi un code plus mainten- able, car les règles d’accès
peuvent être exprimées encore plus facilement dans un graphe. Les temps de réponse ont été réduits à quelques
secondes, voire millisecondes, dans de nombreux cas, alors qu’ils étaient de plusieurs minutes auparavant.
Document réalisé par la Société Corp Events - Janvier 2015
78
Retours d’expériences Big Data en entreprise
NEO4J - WALMART
WALMART S’APPUIE SUR NEO4J POUR OFFRIR À SES CLIENTS LA
MEILLEURE EXPÉRIENCE WEB PAR LE BIAIS DE RECOMMANDATIONS
PERSONNELLES PERTINENTES
Walmart est unique : une entreprise familiale qui en un peu plus de 50 ans est dev- enue la plus grande société
anonyme par actions au monde avec plus de 2 mil- lions d’employés et un chiffre d’affaires annuel de 470 milliards
de dollars1. En ayant su comprendre les besoins de ses clients, Walmart est devenu le plus grand détaillant au
monde, et la base de données Neo4j représente un atout essentiel pour maintenir cette position.
Plus de 250 millions de clients se rendent chaque semaine dans l’un des 11 000 magasins Walmart répartis
sur pas moins de 27 pays et sur son site Web de vente accessible dans 10 pays. Le groupe d’e-commerce brésilien de Walmart a choisi Neo4j pour parvenir à comprendre le comportement et les préférences des acheteurs en
ligne, avec une précision et une vitesse telles qu’il devient pos- sible de proposer des recommandations personnalisées en temps réel et ainsi maximiser les bénéfices.
Marcos Wada, développeur logiciel du service d’e-commerce de Walmart, groupe Brésil, nous en dit plus : « Neo4j
nous aide à comprendre le com- portement de nos clients en ligne et la relation entre nos clients et nos produits.
Il s’agit de l’outil parfait pour les recommandations de produits en temps réel. »
LE DÉFI
Dans sa quête de la meilleure expérience Web pour ses clients, Walmart cherchait à optimiser ses recommandations en ligne. De nos jours, les clients s’attendent à des recommandations parfaitement person- nalisées et
répondent de moins en moins bien aux suggestions universelles. Cela requiert toutefois des bases de données
capables d’établir des liens entre les don- nées client et produit – complexes et volumineuses – et les données
connectées en général, dans le but de mieux appréhender les besoins des clients ainsi que les tendances de
consommation. Walmart s’est rendu compte du défi auquel il faisait face avec la technologie de base de données
rela- tionnelle traditionnelle. Comme l’explique Marcos : « En raison de la complexité de nos requêtes, une base de
données relationnelle ne suffisait pas pour satisfaire nos exigences en matière de performance et de simplicité. »
Pour pallier à ce problème, l’équipe de Marcos a décidé d’utiliser une base de données orientée graphe Neo4j, le
leader du marché.
POURQUOI NEO4J ?
Les bases de données orientées graphe peuvent rapidement interroger l’historique d’achat des clients, ainsi que
capturer les nouveaux intérêts manifestés par les clients au cours de leur visite sur le site, ce qui s’avère essentiel
pour proposer des recommandations en temps réel. Faire correspondre les données d’historique et de session de
cette manière est chose aisée pour les bases de données orientées graphe telles que Neo4j, qui surpassent de
loin les performances des bases de données relationnelles et NoSQL. Marcos a assisté pour la première fois à une
démonstration de Neo4j à la conférence QCON de New York en 2012 et a tout de suite compris :
« Neo4j peut nous permettre de remplacer un processus lourd de traite- ment par lot par une base de données
orientée graphe simple et en temps réel. » À partir de là, son équipe a testé la technologie et a obtenu des résultats
positifs qui l›ont aidé à mûrir sa décision. Son verdict ? « Il est parfaitement adapté à nos besoins. »
LES AVANTAGES
Walmart utilise Neo4j pour analyser le comportement des acheteurs en ligne afin de favoriser la montée en gamme
et les ventes croisées des prin- cipales lignes de produits dans les marchés clés.
Neo4j a été déployé dans son application de marketing de relance, gérée par l’équipe informatique d’e-commerce
de l’entreprise basée au Brésil. Walmart utilise Neo4j en production depuis début 2013 et est passé à la version
2.0 cette année. Marcos nous explique les avantages : « Neo4j nous a permis de remplacer un processus par
lot com- pliqué que nous utilisions pour préparer notre base de données relationnelle par une base de données
orientée graphe simple et en temps réel. Nous avons pu concevoir un système de recommandation simple et en
temps réel avec des requêtes à faible latence. » Il conclut : « En tant que leader actuel sur le marché des bases
de données orientées graphe, Neo4j représente l’outil idéal pour atteindre nos objectifs, notamment grâce à ses
fonctionnalités métier offrant évolutivité et disponibilité. »
À PROPOS DE NEO TECHNOLOGY
Les graphes nous entourent. Neo Technology a joué un rôle prépondérant en rendant la technologie des graphes
accessible à de nombreuses organisations, comprenant une base globale de 2 000 clients qui ne cesse de croître,
parmi lesquels Cisco, HP, Accenture, Deutsche Telekom et Telenor. En assistant la production de ses clients depuis plus de dix ans, Neo4j s’est imposé comme le leader mondial dans le domaine des bases de données orientées
graphe, grâce à un large éventail de partenariats et des dizaines de milliers de déploiements couronnés de succès.
Document réalisé par la Société Corp Events - Janvier 2015
79
Retours d’expériences Big Data en entreprise
SAP - MOBILINK
LA SOLUTION SAP INFINITEINSIGHT A PERMIS À MOBILINK DE BOOSTER
DE 380 % LE TAUX DE RÉPONSE DE SES CAMPAGNES
Société Mobilink | Siège social Islamabad (Pakistan) | Secteur d’activité Télécommunications | Produits et services Services de communication fixes et sans fil haut débit – Services de communication de données | Salariés
7000 | Chiffre d’affaires 1,1 milliard $USD; Rapprocher les personnes à travers des solutions de communication
innovantes, c’est la solution adoptée par Mobilink pour devenir le principal fournisseur de télécommunications
du Pakistan. Face à la croissance explosive du marché et à une concurrence féroce, Mobilink avait besoin de se
protéger contre le taux d’attrition des clients en proposant certains services aux bons clients et au bon moment.
Pour relever ce défi, Mobilink a dû extraire de la connaissance client de ses 35 millions d’abonnés et de 200.000
distributeurs présents dans 10.000 villes et villages du Pakistan.
LES PRIORITÉS DE L’ENTREPRISE
• Devancer la concurrence à travers une approche « prochaine action ciblée », qui permet de proposer les meilleures offres, aux meilleurs clients, au meilleur moment
• Utiliser les big data et l’analyse prédictive pour renforcer la confiance des clients, les fidéliser, diminuer le taux
d’attrition toute en maintenant les marges de profit
LA SOLUTION
• Après avoir étudié les solutions d’autres fournisseurs telles que SAS et SPSS, a rapidement déployé la solution
SAP InfiniteInsight pour bénéficier de ses excellentes capacités prédictives, de son interface ergonomique et de
sa compatibilité avec de nombreuses autres solutions
• A élaboré des modèles prédictifs, combinés avec des techniques de clustering et d’analyse des big data collectées sur les réseaux sociaux pour dégager une connaissance essentielle sur le comportement des clients
LES PRINCIPAUX AVANTAGES
• Campagnes mieux ciblées et promotions plus efficaces, ce qui s’est traduit par une utilisation accrue des services à valeur ajoutée tels que SMS, sonneries et musique
• Réduction du taux d’attrition par prédiction puis prévention du comportement des clients
• Meilleure connaissance des communautés d’intérêt (grandes ou petites), ce qui a permis d’injecter du marketing
viral dans de nouveaux segments en vue d’acquérir de nouveaux clients et de réduire le taux d’attrition
8x : Augmentation de l’efficacité des offres de rétention des clients (de 0,5 % à environ 4 %) avec une dépense réduite
380 % : Augmentation du taux de réponse aux campagnes grâce à l’analyse des réseaux sociaux
<1 jour : Pour déployer de nouveaux modèles prédictifs
SAP - COX
AMÉLIORATION SPECTACULAIRE DE LA RELATION CLIENT AVEC SAP
INFINITEINSIGHT
Société Cox Communications Inc. | Siège social Atlanta (Géorgie) | Secteur d’activité Télécommunications | Produits
et services Services bande large et divertissement par câble | Salariés 50.000 | Chiffre d’affaires 15 milliards $USD
Troisième plus grand prestataire de services large bande et de divertissement par câble aux États-Unis, Cox Communications a été l’un des premiers à proposer une offre groupée de services de téléphone, télévision et Web pour
permettre aux consommateurs de s’adresser à un fournisseur unique. Pour améliorer son service à la clientèle et
la vie numérique des individus, Cox avait besoin de technologie pour personnaliser ses offres auprès de 6 millions
d’abonnés dans 28 régions.
Document réalisé par la Société Corp Events - Janvier 2015
80
Retours d’expériences Big Data en entreprise
LES PRIORITÉS DE L’ENTREPRISE
• Élaborer des modèles prédictifs pour faciliter la création d’offres personnalisées, plus rapidement et avec une
plus grande précision pour plus de 6 millions d’abonnés dans 28 régions
• Doubler le taux de conversion des campagnes de marketing direct
LA SOLUTION
• A déployé la solution SAP InfiniteInsight pour analyse prédictive, y compris segmentation, classification, régression et agrégation des données
• A optimisé ses processus d’analyse du marché à l’échelle de l’entreprise grâce à une équipe analytique centralisée chargée de couvrir ses 28 régions
LES PRINCIPAUX AVANTAGES
• Une solution évolutive pour accompagner les besoins à court et long terme, y compris modélisation prédictive
pour les acquisitions de client, la rétention des clients, l’évaluation des clients sur la durée et le marketing événementiel
• Analyse précise et rapide de 10 millions d’observations et de 800 variables pour analyser le comportement des
clients, dont propension à l’achat, risques d’attritions et risques de solvabilité
14 % : Augmentation du nombre de produits par foyer
28 % : Réduction du taux d’attrition des clients
80 % : Réduction du temps de création des modèles
42x : Rendement plus élevé pour les analystes (de 40 à 1680 modèles prédictifs par an)
SAP - BELGACOM
PRÉVOIR DES TENDANCES SUR L’ENSEMBLE DES CANAUX
D’INTERACTION CLIENT AVEC SAP® INFINITEINSIGHT®
Société Groupe Belgacom| Siège social Bruxelles, Belgique | Secteur d’activité Télécommunications| Produits et
services Services de téléphonie fixe et mobile, de télévision et d’Internet| Salariés 15 859 (2012) | Chiffre d’affaires
6,4 million d’€ (2012). En matière de services de téléphonie, d’Internet et de télévision, Belgacom est un opérateur de
télécommunications incontournable en Belgique. En règle générale, il est pourtant difficile de réussir le lancement de
nouveaux produits sur ce marché hautement compétitif. Avec la solution SAP® InfiniteInsight®, Belgacom a pourtant
su relever ce challenge en automatisant les outils d’exploration de données (« data mining ») qui permettent de mieux
comprendre les besoins de chaque client et de déployer ainsi des services et des campagnes personnalisés répondant précisément à leurs attentes. Résultat : le taux de satisfaction des clients de Belgacom ne cesse d’augmenter.
OBJECTIFS
• Exploiter de précieuses informations cachées sur la clientèle permettant d’augmenter la fidélisation et d’identifier
de nouvelles perspectives de croissance
• Améliorer la détection des risques de défection, accélérer le déploiement de modèles prédictifs et identifier les
sources de revenus potentiels à toutes les étapes de la relation client
POURQUOI SAP
• Un savoir-faire et des résultats reconnus dans le secteur des télécommunications
• Des modèles prédictifs puissants et fiables pour analyser les comportements clients (professionnels et particuliers) avec la solution SAP® InfiniteInsight®
• Une solution flexible et conviviale, au service de statisticiens et d’analystes de gestion qualifiés
AVANTAGES
• Un marketing prédictif opérationnel sur tous les canaux d’interaction avec les clients, des centres d’appels
aux boutiques en ligne
• Des échanges de qualité optimale d’un bout à l’autre de la relation client permettant de tirer profit d’une mine
d’informations de grande valeur
• De nouvelles opportunités de revenu issues de failles ou de lacunes du marché
• Des taux accrus de satisfaction et de rétention des clients
• Un meilleur retour sur investissement marketing
• Un temps de modélisation ramené de plusieurs mois à quelques jours
Document réalisé par la Société Corp Events - Janvier 2015
81
Retours d’expériences Big Data en entreprise
SAP - BANGLALINK DIGITAL COMMUNICATIONS
MAINTENIR LE CHIFFRE D’AFFAIRES ET AMÉLIORER L’EXPÉRIENCE CLIENT
Société Banglalink Digital Communications Ltd. | Siège social Dhaka (Bangladesh) | Secteur d’activité Télécommunications | Produits et services Services de télécommunication intégrés (technologies voix, données, mobile traditionnel et mobile haut débit, fixe)| Salariés 2500 | Chiffre d’affaires 550 millions $USD : Depuis 2005, Banglalink Digital
Communications Ltd. se positionne comme l’un des principaux opérateurs de téléphonie mobile du Bangladesh.
Cette société améliore la vie des citoyens en leur proposant des services de télécommunication à coût modéré. Pour
faciliter la diffusion de ses solutions de télécommunications mobiles au plus grand nombre, Banglalink a utilisé la
solution SAP InfiniteInsight. En définissant des modèles prédictifs, Banglalink parvient à conserver d›importants flux
de chiffre d›affaires en luttant contre le taux d›attrition et à améliorer l’expérience globale de ses clients.
OBJECTIFS
• Améliorer les résultats des campagnes de rétention pour lutter contre le taux d’attrition des clients
• Analyser les big data générées par des sources telles que les enregistrements des centres d’appel, les abonnements aux produits, les transactions de vouchers, les conversions de forfaits et les relais cellulaires
POURQUOI SAP
• Supporte l’élaboration de modèles prédictifs, même par les utilisateurs ayant peu ou pas d’expérience en informatique ou en statistiques
• Inclut des modèles prédictifs et une architecture de données analytiques. Ces éléments prédéfinis permettent
de réduire le temps nécessaire pour préparer les données analytiques, élaborer les modèles prédictifs et déployer
les scores résultants en production
AVANTAGES
• A pu définir un modèle capable de détecter plus d’un quart des clients en risque d’attrition, en utilisant seulement
un échantillon de 10 % des scores les plus élevés
• A déployé la solution SAP InfiniteInsight en moins de cinq mois
• A découvert les outils nécessaires pour créer et déployer des modèles de prévision en quelques heures, et non
en plusieurs semaines ou plusieurs mois
PLANS FUTURS
• Intégrer des modèles prédictifs dans le système de gestion des campagnes, de manière à proposer aux abonnés
la meilleure offre au meilleur moment, dans tous les canaux côté clients
• Ajouter l’application SAP InfiniteInsight Social pour identifier les influenceurs en vue de les intégrer dans des
programmes de marketing viral, et pour détecter toute activité frauduleuse chez les clients
SAP - VODAFONE
CIBLER LES CLIENTS AVEC DES OFFRES PLUS PERTINENTES
Société Vodafone Pays-Bas| Siège social Amsterdam (Pays-Bas) | Secteur d’activité Télécommunications | Produits et services Services de télécommunication, y compris paiement à la réception pour consommateurs et entreprises, paiement fixe, paiement à l’envoi et paiement de machine à machine
« L›analyse prédictive est importante, car elle permet à une entreprise de tirer le meilleur parti possible de ses
dépenses marketing. Nous utilisons SAP InfiniteInsight pour que nos offres soient plus pertinentes pour nos clients, et
pour éviter de les contacter trop souvent. » Viliah Overwater, Analyste senior en modélisation, Vodafone Pays-Bas
Document réalisé par la Société Corp Events - Janvier 2015
82
Retours d’expériences Big Data en entreprise
SAP - XL
XL DOUBLE LES RÉSULTATS DE SES CAMPAGNES MARKETING AVEC LA
SOLUTION SAP® INFINITEINSIGHT®
Société PT XL Axiata Tbk | Siège social Djakarta (Indonésie) | Secteur d’activité Télécommunications | Produits et
services Communications mobiles, Internet haut débit, communication de données, services 3G | Salariés 2,000 |
Chiffre d’affaires 2,1 milliards $USD « Nous avons pu exécuter des campagnes marketing finement ciblées grâce
aux modèles prédictifs générés par SAP InfiniteInsight. Depuis le déploiement de cette solution, nous avons réduit
le taux d’attrition de 8,2 % dans tous les domaines et nous avons augmenté notre base de clientèle de près de 25 %. »
Pradeep Kumar, directeur général de l’analytique client chez PT XL Axiata Tbk
PRINCIPAUX OBJECTIFS
• Devancer la concurrence dans un marché concurrentiel et presque saturé
• Générer des relations plus profitables avec nos clients et améliorer leur rétention et leur fidélisation
POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ?
• La modélisation prédictive permet d’analyser des données sur plus 40 millions d’abonnés et de déterminer certaines
caractéristiques telles que l’attractivité des produits et les risques de taux d’attrition
• Plébiscitée par rapport aux solutions concurrentes et traditionnelles de gestion de la rétention et de la fidélisation des
clients parce qu’elle elle est rapide à déployer, facile à utiliser et qu’elle contribue à l’agilité des opérations marketing
PRINCIPAUX AVANTAGES
• Possibilité d’élaborer des modèles prédictifs en quelques heures
• Utilisation des données d’éligibilité du client, de disponibilité en inventaire et de profitabilité pour prioriser la
présentation des offres et déployer une approche « prochaine action ciblée »
• Optimisation des campagnes pour rétention maximale, ventes croisées/ventes de gamme supérieure dans les
différents canaux marketing, augmentation du chiffre d’affaires et de l’activité des abonnés
• Identification proactive et ciblage très en amont des clients en risque d’attrition
200 % : Augmentation du taux de conversion des campagnes
28 % : Augmentation de la précision des prédictions lors du ciblage des influenceurs sociaux
66,6 % : Réduction globale du taux d’attrition de 8,2 % et acquisition d’abonnés à plus forte valeur
25 % : Croissance de la base de clientèle
102 % : Retour sur investissement
SAP - AVIVA
CONNAISSANCE DU CLIENT PAR L’ANALYSE PRÉDICTIVE
Société Aviva plc | Siège social Londres (Angleterre) | Secteur d’activité Assurance | Produits et services Assurance générale, assurance-vie | Clients 31,4 millions, dans plus de 15 pays | Salariés 27.700 (monde) | Bénéfice
d’exploitation 2,5 milliards €. Aviva protège environ 31 millions de clients dans le monde entier avec ses produits
d’assurance, d’épargne et d’investissement. Aviva est le plus grand assureur du Royaume-Uni, et également l’un
des principaux prestataires européens en assurance, assurance-vie et gestion d’actifs. Fermement engagée dans
le service de ses clients pour proposer des offres plus fortes, plus durables et ayant une incidence positive sur la
société, Aviva a choisi la solution SAP InfiniteInsight. Ses modèles prédictifs aident Aviva à dégager la connaissance nécessaire au ciblage des meilleurs clients avec la meilleure offre et au meilleur moment.
Document réalisé par la Société Corp Events - Janvier 2015
83
Retours d’expériences Big Data en entreprise
OBJECTIFS
• Utiliser l’analyse prédictive pour élaborer des modèles de propension décrivant des groupes de clients spécifiques plutôt que des modèles génériques portant sur l’ensemble des clients
• Éviter de contacter les clients trop souvent tout en améliorant les taux de réponse des campagnes
• Augmenter le retour sur les investissements marketing et améliorer le succès des campagnes en identifiant les
clients les plus susceptibles de répondre
POURQUOI SAP
• Les nombreux graphiques permettent aux experts marketing de visualiser l’impact prévisible des modèles
• L’automatisation très efficace de la modélisation permet de définir rapidement et facilement une gamme complète de modèles
• L’analyse automatique de la contribution à un modèle de plusieurs centaines de variables remplace l’examen
visuel d’un nombre limité de variables
AVANTAGES
• Taux de réponse aux campagnes plus élevé et plus grande valeur des clients sur la durée grâce à des offres
mieux personnalisées
• Augmentation significative du nombre de modèles de propension utilisés dans la société (dont plus de 30
modèles en production)
• Possibilité d’utiliser les données les plus récentes pour actualiser les modèles et capturer les dernières tendances
PLANS FUTURS
• Améliorer nettement le retour sur les investissements marketing par une modélisation des intentions des clients
capable de prédire l’impact des initiatives de marketing sur des groupes cibles spécifiques
• Élaborer des modèles prédictifs pour analyser l’acquisition et la relance des clients
SAP - ELDORADO
AMÉLIORATION SPECTACULAIRE DE LA PRÉCISION DES PRÉVISIONS DE
VENTES AVEC LA SOLUTION SAP INFINITEINSIGHT
Société Eldorado LLC | Siège social Moscou (Russie) | Secteur d’activité Distribution | Produits et services Électronique grand public et appareils électroménagers | Salariés 15.000 | Chiffre d’affaires 2.4 milliards € (2012)
Pour les produits électroniques, les appliances, les ordinateurs, etc., les Russes plébiscitent Eldorado. Réseau
fort de 700 magasins et franchises, plus de 30 présences en ligne et 120 points de commande et d’enlèvement, ce
distributeur russe doit gérer d’importants volumes de données pour améliorer la prévision de ses ventes, exploiter
un potentiel de chiffre d’affaires insoupçonné et réduire considérablement ses frais d’inventaire. Pour exploiter au
mieux ses big data grâce à l’analyse prédictive, Eldorado a choisi la solution SAP InfiniteInsight.
OBJECTIFS
• Analyser les données stockées dans la solution SAP 360 Customer, générées par plus de 1,5 millions de transactions
sur les points de vente. Ventes portant sur plus de 420 groupes de produits et plus de 8000 références par mois
• Améliorer la précision des prévisions pour booster les ventes et réduire le coût des inventaires
POURQUOI SAP
• Partenaire technologique de confiance avec une expérience démontrée et des succès dans l’ensemble du secteur
• Possibilité d’utiliser plus efficacement l’accès en temps réel aux gros volumes de données déjà disponibles avec
l’application SAP Business Warehouse (avec SAP HANA) et avec l’application SAP Planning for Distribution
• Facilité d’utilisation, précision des modèles prédictifs et outils automatisés innovants disponibles avec la solution
SAP InfiniteInsight
AVANTAGES
• Élaborer environ 500 modèles prédictifs par mois – une tâche impossible à envisager avec les techniques de
modélisation traditionnelles qui exigent plusieurs semaines ou plusieurs mois pour définir un seul modèle
• Création de prévisions pour la planification des assortiments, réapprovisionnement des étagères, analyse des prix et
des promotions, fusion de magasins, sélection de l’emplacement des magasins et planification des ventes et des achats
• Précision jusqu’à 82 % des prévisions de ventes, une amélioration de 10 % par rapport aux techniques précédentes
Document réalisé par la Société Corp Events - Janvier 2015
84
Retours d’expériences Big Data en entreprise
PLANS FUTURS
• Migrer d’autres applications SAP vers SAP HANA pour tirer pleinement partie du potentiel de la technologie de
traitement en mémoire
• Poursuivre l’expansion et faire évoluer les activités de l’entreprise en faisant appel à des systèmes IT performants et à l’innovation
SAP - SAMSE
OPTIMISER LA PRÉVENTION DES RISQUES, LES INVESTISSEMENTS
MARKETING ET LA GESTION DES STOCKS AVEC SAP® INFINITEINSIGHT®
Société Groupe SAMSE | Siège social Grenoble, France | Secteur d’activité Grande distribution | Produits et services Distribution de produits et services (matériaux et outils de construction) | Salariés 5,000 | Chiffre d’affaires1,138
million d’€. Que ce soit pour entreprendre un projet de développement de grande envergure ou rénover son domicile, les professionnels comme les bricoleurs du dimanche français font confiance aux outils, matériaux et conseils
personnalisés que propose le groupe SAMSE. Grâce à la solution
SAP® InfiniteInsight®, Groupe SAMSE peut développer des modèles prédictifs pour analyser et exploiter les énormes masses de données clients recueillies chaque jour. Avec des taux de réponse aux campagnes marketing en
augmentation de 220 %, Groupe SAMSE propose à ses clients des offres taillées pour leurs besoins.
OBJECTIFS
• Optimiser les performances des campagnes marketing, la prévention des risques et la planification des stocks
pour 25 marques et 290 points de vente
• Analyser des téraoctets de données issues de plus de 300 000 détenteurs de cartes de fidélité et de 30 000
entreprises clientes chaque jour
• Développer une vision globale des relations entre entreprises (B2B) et avec les clients (B2C) et la compléter
d’analyses approfondies
• Mettre à jour les modèles prédictifs chaque semaine, plutôt que mensuellement, pour renforcer la fiabilité des prévisions
POURQUOI SAP
• Des analyses réutilisables et facilement modifiables avec la solution SAP® InfiniteInsight®
• Des modèles prédictifs qui facilitent la planifica- tion de plus de 75 unités de gestion des stocks de produits et
l’analyse de la cote de solvabilité pour prévoir le risque de défaut de paiement des clients
AVANTAGES
• Des taux de réponse aux campagnes de marketing direct en augmentation de 220 %
• La mise à jour des modèles prédictifs ramenée de plusieurs mois à une semaine seulement
• Un équilibre entre une exploration systématique et flexible des données quotidiennes relatives aux marques du
groupe à l’aide de modèles prédictifs
• Un système d’alerte précoce pour les projets de construction de particuliers, permettant d’établir des recommandations de produits personnalisées quasiment en temps réel sur plusieurs canaux d’interaction avec les clients,
notamment les magasins, les centres d’appels et les commerciaux
PLANS FUTURS
• Attirer toujours plus de clients grâce à une juste appréciation de leurs comportements
• Poursuivre une stratégie d’optimisation de l’activité en adoptant des technologies de pointe
Document réalisé par la Société Corp Events - Janvier 2015
85
Retours d’expériences Big Data en entreprise
SAP - HSE24
INFLUENCER POSITIVEMENT LE COMPORTEMENT D’ACHAT DES
CONSOMMATEURS AVEC UN LOGICIEL ANALYTIQUE PLUS PERFORMANT
ET AVEC SAP HANA®
Société Home Shopping Europe GmbH (HSE24) | Siège social Ismaning (Allemagne) | Secteur d’activité Distribution | Produits et services Mode, bijoux, produits de beauté pour la maison | Salariés Environ 2900 (y compris
centre d’appels externe et personnel logistique) | Visiteurs 515 millions € (2012)
« Avec SAP HANA, nous avons vu une opportunité d›influencer le comportement d›achat de nos clients et de
réduire le taux de retour des produits. Chaque année, plus de 11,5 millions de colis HSE24 sont envoyés à 1,5
millions de clients. Spécialisés dans le VPC, nous estimons que diminuer notre taux de retours de seulement 1 %
pourrait conduire à une économie à sept chiffres ! »
Michael Kuenzel, vice-président IT chez Home Shopping Europe GmbH (HSE24)
LES PRIORITÉS DE L’ENTREPRISE
• Devenir une entreprise de vente et de service clientèle de classe mondiale
• Réduire les retours des commandes en VPC
• Réagir à la demande en temps réel
LA SOLUTION
• Déploiement du logiciel SAP® Predictive Analysis et de l’application analytique SAP Audience Discovery and
Targeting (avec SAP HANA®) • Définition d’un plan de migration de l’application SAP Customer Relationship
Management à SAP HANA (phase II du projet d’implémentation de SAP HANA)
LES PRINCIPAUX AVANTAGES
• La vue à 360 degrés des informations client permet de définir des campagnes ciblées plus précises et mieux
ciblées et facilite les interactions avec les clients
• L’accès instantané à l’ensemble des données client permet aux spécialistes marketing de prendre les mesures
appropriées pour réduire le taux de retours
• Les interactions plus riches avec les clients facilitent la définition d’offres pertinentes pour les consommateurs
et reflètent mieux les exigences uniques de chaque personne - Temps réel : L’agrégation des données fournit une
vue complète de chaque client - Efficace : Interactions plus puissantes et plus efficaces avec les clients - Ciblé :
Des campagnes marketing qui mettent l’accent sur des segments spécifiques de clientèle - Pertinent : Des offres
qui répondent avec une meilleure précision aux demandes de clients
SAP - MONEXT
RÉDUIRE LA FRAUDE SUR UN MILLIARD DE TRANSACTIONS
ÉLECTRONIQUES ANNUELLES AVEC LA SOLUTION SAP®
INFINITEINSIGHT®
Société Monext SAS | Siège social Courbevoie, France | Secteur d’activité Banque | Produits et services Solutions
et services de traitement des paiements et des cartes de paiement | Salariés 480 | Chiffre d’affaires €67 million
(2011) « SAP InfiniteInsight nous procurera un réel avantage concurrentiel et nous fera ainsi économiser chaque
année des centaines de millions d’euros. »
Annabelle Gerard, Analyste de Business Intelligence et de Data Mining, Monext SAS
Document réalisé par la Société Corp Events - Janvier 2015
86
Retours d’expériences Big Data en entreprise
OBJECTIFS
• Réduire la fraude électronique pour quelques-uns des principaux e-commerçants, distributeurs et banques européens
• Remplacer une solution analytique externalisée qui utilisait un modèle générique pour prédire la fraude électronique
• Diminuer les fausses alertes pour améliorer l’expérience client et réduire les coûts du centre d’appels
POURQUOI SAP
• Modélisation prédictive adaptée à chaque fournisseur de carte et type de carte, notamment les cartes de crédit,
de débit, prépayées, premium, disponible avec la solution SAP® InfiniteInsight®.
• Formation automatisée pour une modélisation rapide, alliée à une interface puissante et conviviale
AVANTAGES
• Un analyste à mi-temps suffit pour créer des modèles personnalisés pour chaque fournisseur et type de carte
• Résultats fiables obtenus en quelques heures au lieu de plusieurs jours ou semaines
• Analyse des Big Data collectées sur des centaines de millions de transactions et jusqu’à 500 attributs natifs et
dérivés utilisés pour évaluer les transactions en quelques millisecondes
• Économie de centaines de millions d’euros sur les pertes annuelles potentielles de revenus pour les fournisseurs
de cartes afin de procurer un réel avantage concurrentiel et d’améliorer considérablement l’expérience client
PROJETS À VENIR
• Innover davantage pour effectuer des paiements de manière encore plus pratique et sûre sur tous les canaux
électroniques
• Continuer à soutenir et à protéger les entreprises et les consommateurs à l’aide de la technologie logicielle SAP
SAP - AMERICAN AUTOMOBILE ASSOCIATION
EN ROUTE VERS UNE MEILLEURE COMPRÉHENSION DES CLIENTS
Société American Automobile Association (AAA) | Siège social Orlando (Floride) | Secteur d’activité Assurance |
Produits et services Assistance aux automobilistes – Véhicules, voyages et services financiers | Salariés > 40.000
Sur la route, des millions d’Américains font confiance à l’American Automobile Association (AAA) pour ses services
d’assistance, d’assurance et de dépannage. Pour optimiser les services des 44 automobile-clubs AAA des ÉtatsUnis et du Canada, le AAA National Office a créé un « centre d’action » centralisé pour dégager une meilleure
connaissance des besoins de ses membres. Avec l’analyse prédictive performante proposée par la solution SAP
InfiniteInsight, AAA peut répondre aux besoins de ses membres au moment précis où ils les expriment.
SAP - SKYROCK
MONÉTISER LE RÉSEAU SOCIAL AVEC SAP® INFINITEINSIGHT®
RECOMMANDATION
Société Skyrock.com | Siège social Paris | Secteur d’activité Médias| Produits et services Services de partage de
réseaux sociaux, de blogs et de médias | Salariés 80 | Visiteurs 12 million per month
En matière de contenu en ligne, les internautes font confiance à leurs amis pour découvrir de nouveaux sujets
d’intérêt. En mettant gratuitement à disposition de ses membres un espace Web personnalisé pour y créer des
blogs, ajouter des profils et échanger des messages avec d’autres membres inscrits, Skyrock.com est l’un des
réseaux sociaux de blogs les plus dynamiques au monde. Toutefois, la société recherchait une solution lui permettant de tirer parti de toutes ces données clients et monétiser sa croissance rapide.
Document réalisé par la Société Corp Events - Janvier 2015
87
Retours d’expériences Big Data en entreprise
LES PRIORITÉS DE L’ENTREPRISE
• Décrypter les sources de Big Data pour obtenir des prévisions précises et des recommandations personnalisées
sur les produits, les amis et le contenu
• Améliorer la fidélité au site et l’engagement social
• Augmenter le nombre de pages consultées par visite pour proposer des annonces publicitaires payantes plus
rémunératrices et doper les revenus
LA SOLUTION
• Déploiement de l’application SAP® InfiniteInsight® Recommendation, en permettant la segmentation à l’aide de
l’analyse des réseaux sociaux et les recommandations sociales d’« amis »
• Lancement d’un projet pilote pour recommander des blogs aux visiteurs et aux membres selon des profils et des
goûts pour accroître la fidélité au site
LES PRINCIPAUX AVANTAGES
• Possibilité de fournir chaque matin des recommandations d’« amis » pertinentes aux membres du site
• Meilleure compréhension des utilisateurs, facilitant ainsi l’identification des communautés partageant les
mêmes centres d’intérêt, des caractéristiques et des comportements, comme les fans de shopping, les amateurs
d’équitation, les jeunes mamans et les passionnés d’automobile
20 : Recommandations d’amis pertinentes envoyées chaque matin aux membres du site
2x : Plus de demandes d’ajout d’ami et augmentation correspondante du taux d’acceptation
<600 000 : Nouveaux liens d’amis chaque jour
20 000 : Communautés distinctes identifiées
SAP - COOPERATIVA ITALIANA DI RISTORAZIONE
AMÉLIORER L’EFFICACITÉ ET PRENDRE DES DÉCISIONS PLUS AVISÉES
AVEC LES SOLUTIONS SAP
Société Cooperativa Italiana di Ristorazione S.C. (CIR food) | Siège social Reggio Emilia (Italie)| Secteur d’activité
Voyages et transport – Événementiel | Produits et services Services alimentation et restaurants, tickets repas,
traiteur/catering, planification de services de formation | Chiffre d’affaires 500 millions € | Salariés 11.500 | Partenaire B4C Consulting. « CIR food compte sur ses partenaires pour l›aider à atteindre ses objectifs commerciaux.
Les solutions SAP nous aident non seulement à obtenir des résultats exceptionnels, mais elles nous permettent
également de réduire notre dépendance envers le département IT et à atteindre nos objectifs de chiffre d’affaires. »
Luca Baccarini, DSI chez Cooperativa Italiana di Ristorazione S.C. CIR food
OBJECTIFS
• Implémenter un système de reporting performant pour dégager plus rapidement de la connaissance sur le statut
des budgets et pour réduire les temps de réaction
• Réduire la charge du département IT en proposant des rapports en libre-service à l’ensemble des utilisateurs,
sur le lieu de travail et en mobilité
• Proposer un système de prévision qui diffuse aux restaurants des données susceptibles d’améliorer les décisions d’achat et d’embauche
POURQUOI SAP
• Fournit des solutions innovantes pour la plupart des activités de l’entreprise, dont gestion des ressources (ERP),
gestion des stocks, Business Intelligence (BI) et analytique
• Propose un portefeuille complet de solutions analytiques qui s’intègrent parfaitement avec les logiciels SAP
Business Suite
AVANTAGES
• Avec le logiciel SAP HANA, reporting nettement plus rapide (surtout sur les terminaux mobiles)
• Meilleure navigation des données de la base SAP HANA grâce au logiciel SAP Lumira®. Réduit la dépendance
envers le département IT
• Le logiciel SAP Predictive Analysis dégage une meilleure connaissance des tendances en matière de restaurants, ce qui facilite les décisions d’inventaire et d’embauche
• Avec l’application SAP Business Planning and Consolidation, réduction de 4,5 mois à 1 mois du temps nécessaire pour générer le budget.
77 % : Réduction du temps nécessaire pour générer le budget (avec SAP Business Planning and Consolidation)
4 000 % : Augmentation du nombre moyen d’utilisateurs quotidiens des outils de BI
Plus grande Indépendance des utilisateurs, d’où une réduction des sollicitations du département IT
Document réalisé par la Société Corp Events - Janvier 2015
88
Retours d’expériences Big Data en entreprise
SAP - TIPP24.COM
MULTIPLICATION PAR 4 DES PERFORMANCES DE SES CAMPAGNES
MARKETING AVEC SAP® INFINITEINSIGHT®
Société Tipp24.com | Siège social Londres (Angleterre) | Secteur d’activité Sports et divertissement | Produits et
services Loteries en ligne
Pour mieux comprendre ses clients et améliorer la précision de ses activités marketing, Tipp24.com, un des principaux intermédiaires de loterie sous licence d’Europe, a opté pour une solution d’analyse prédictive. En faisant
appel à la solution SAP® InfiniteInsight® pour sa modélisation prédictive, Tipp24 a pu améliorer de 300 % la
précision de ses ciblages. Ces résultats lui permettent de proposer les meilleures loteries aux joueurs et de leur
souhaiter Bonne chance !
PRINCIPAUX OBJECTIFS
• Mieux comprendre le client sur la durée pour suivre les clients de grande valeur, augmenter les opportunités de
vente croisée et de vente de gamme supérieure et réduire l’attrition
• Collecter des données détaillée sur le comportement des clients pour optimiser les campagnes marketing
• Mettre à la disposition des activités marketing et des canaux client une solution efficace de modélisation prédictive
POURQUOI LA SOLUTION SAP® INFINITEINSIGHT® ?
• Améliorer les performances et l’évolutivité par rapport aux logiciels SAS et SPSS d’IBM
• Possibilité d’identifier les tendances de comportement des clients en vue d’améliorer leur satisfaction
• Possibilité de prédire les clients qui risquent de devenir inactifs et les clients inactifs qui sont susceptibles de
redevenir actifs
PRINCIPAUX AVANTAGES
• Optimise les campagnes et le comportement des clients sur la durée dans plusieurs canaux, y compris téléphone, marketing direct et mail
• Permet la gestion proactive des relations avec les clients à grande valeur (existants et potentiels)
• Réduit le taux d’attrition et augmente la valeur des clients sur la durée
300 % : Amélioration de la précision de ciblage, y compris identification des joueurs qui seraient les plus intéressés
par des participations hebdomadaires, mensuelles ou permanentes à certaines loteries
25 % : Réduction de la taille de l’audience ciblée pour une campagne donnée (grâce à des fonctions analytiques
plus précises)
90 % : Réduction du temps nécessaire pour créer et déployer des modèles prédictifs (de plusieurs semaines à
quelques jours), augmentation de la productivité de l’équipe Analytique
SAP - KAESER KOMPRESSOREN
TRANSFORMATION DES ACTIVITÉS AVEC SAP® BUSINESS SUITE
(ET SAP HANA®)
Société Kaeser Kompressoren SE | Siège social Cobourg (Allemagne) | Secteur d’activité Machines et équipements industriels | Produits et services Systèmes à air comprimé (y compris services de consulting) | Salariés
4400 | Chiffre d’affaires 600 millions € (2012) | Partenaire SAP® Consulting
« Nous allons mettre à profit toute la puissance de SAP HANA pour améliorer les processus métier existants, déployer des processus entièrement nouveaux et réduire notre TCO. Nous avons pris un excellent
Document réalisé par la Société Corp Events - Janvier 2015
89
Retours d’expériences Big Data en entreprise
départ avec la migration en douceur et rapide de SAP CRM vers SAP HANA. Cette opération va être
suivie par le déploiement d›autres applications SAP Business Suite et de solutions personnalisées. »
Falko Lameter, DSI chez KAESER KOMPRESSOREN
OBJECTIFS
• Définir un environnement IT innovant et capable de supporter l’évolution vers un business mode de prestataire
en solutions
• Améliorer les processus commerciaux existants et exploiter la puissance des big data et de la maintenance
prédictive pour devenir plus concurrentiel, plus proactifs et plus à l’écoute des clients
• Tirer parti de la plate-forme SAP HANA® pour transformer et simplifier le paysage de solutions SAP
IMPLÉMENTATION TECHNIQUE
• Migration efficace de l’application SAP Customer Relationship Management (SAP CRM) à SAP HANA en 2,5
mois – et avec un temps d’arrêt limité à 1,5 jour
• Excellente collaboration avec SAP pendant toutes les phases du projet
PLANS FUTURS
• Déployer des fonctionnalités de maintenance prédictive (solution personnalisée basée sur SAP CRM et SAP
HANA) pour améliorer le service client
• Migrer toutes les applications de SAP Business Suite vers SAP HANA (dont SAP ERP, SAP Supply Chain Management et SAP Business Warehouse)
• Déployer SAP CRM (avec SAP HANA) dans le cloud avec d’autres offres cloud telle que la plate-forme de
logiciels sociaux SAP Jam™ en vue d’activer une stratégie de relation client (CRM) plus mobile et plus sociale
SUCCÈS
SAP CRM (avec SAP HANA) lancé en production sans aucune difficulté
VITESSE
Temps de réponse de la base de données x5 plus rapides
SIMPLICITÉ
Un environnement IT et des processus métier plus simples et plus agiles
DURABILITÉ
Socle pour la maintenance prédictive
SAP - EBAY
SYSTÈME DE DÉTECTION DE SIGNAUX PRÉCOCES GRÂCE À L’ANALYSE
PRÉDICTIVE DE SAP HANA
Société eBay | Siège social San Jose (Californie) | Secteur d’activité Services spécialisés | Produits et services
Place de marché en ligne | Salariés 31.500 (2012) | Chiffre d’affaires 14,1 milliards $USD (2012)
« SAP HANA met toute sa puissance au service de la connaissance. Pour l›utilisateur, il suffit de spécifier des
indicateurs : il n›a pas à se préoccuper de la qualité des algorithmes, et il peut utiliser facilement le système parce
que celui-ci est intelligent et configurable. »
Gagandeep Bawa, responsable Analyse et planification financière (FP&A) pour l’Amérique du Nord chez eBay Inc.
DÉFIS COMMERCIAUX
• Améliorer la capacité de séparation des signaux et du « bruit » afin d’identifier les principaux changements subis
par la place de marché d’eBay
• Améliorer la prévisibilité et la fiabilité des prévisions portant sur l’économie virtuelle d’eBay
• Améliorer la connaissance des écarts et de leurs causes
DÉFIS TECHNIQUES
• Difficulté à détecter les signaux critiques dans la masse de 100 péta-octets de données stockées dans le data
warehouse principal d’eBay
• Processus hautement manuel, exigeant l’intervention des analystes (impossibilité d’appliquer un modèle unique
aux différents indicateurs)
Document réalisé par la Société Corp Events - Janvier 2015
90
Retours d’expériences Big Data en entreprise
PRINCIPAUX AVANTAGES
• Le système de détection automatique des signaux (alimenté par l’analyse prédictive SAP HANA) sélectionne le
modèle le mieux adapté aux indicateurs de l’utilisateur – ce qui a pour effet d’augmenter la précision des prévisions
• Un système fiable et évolutif génère un aperçu en temps réel qui permet aux analystes de se concentrer sur les
tâches stratégiques
• Une arborescence décisionnelle et la possibilité d’ajuster les scénarios permet à eBay d’adapter le meilleur
modèle à ses différents types de données
Détermine avec une précision de 100 % et avec une confiance de 97 % qu’un signal est positif Système de détection de signal automatique et précoce avec SAP HANA
Document réalisé par la Société Corp Events - Janvier 2015
91
Retours d’expériences Big Data en entreprise
SAS - SANTIANE
LE GROUPE SANTIANE CAPITALISE SUR SA CULTURE DE LA DONNÉE
AVEC LA DATA VISUALISATION DE SAS
Le premier courtier en ligne d’assurance-santé adopte SAS® Visual Analytics pour exploiter les grands volumes
de données dont il dispose et ainsi optimiser ses ventes de contrats santé.
Société de courtage d’assurance santé pour les particuliers et les entreprises, le Groupe Santiane est devenu en
moins de 5 ans le premier courtier en ligne en France. Cette forte croissance a nécessité une structuration à la
hauteur des ambitions de l’entreprise, avec notamment, le développement de ses équipes de direction. Pure player de l’assurance santé en ligne et empreint d’une forte culture numérique, Santiane a équipé ses nouvelles équipes dirigeantes (générale, financière, commerciale) de l’outil SAS Visual Analytics, pour guider leurs décisions en
explorant les données sur PC et tablettes. “La grande force de SAS Visual Analytics, c’est son interopérabilité l’outil
s’est branché naturellement à nos systèmes mais aussi aux données externes issues de Facebook et Google.”
Alexandre Ginesty, Directeur des Systèmes d’Information
EMBRASSER L’ENJEU DU BIG DATA
« Grâce à la puissance de traitement et d›analyse de SAS Visual Analytics, nous puisons dans nos grands volumes de données des informations riches et parfois insoupçonnables sur notre portefeuille clients, explique Alexandre Ginesty, Directeur des Systèmes d›Information du Groupe Santiane. « Avec notre équipe d’actuaires, nous
avons notamment pu découvrir de nouvelles variables explicatives sur le comportement de notre portefeuille, par
exemple sur des éléments en tout début de la chaîne du contrat »
Le domaine de l’assurance santé induit pour le Groupe Santiane une grande diversité des populations ciblées, et
bien que très jeune, cette société dispose d’un historique de données très riche, stocké depuis 2007. En tant que
premier courtier de santé sur Internet, le Groupe est d’autant plus armé pour embrasser l’enjeu du Big Data : des
données complètes sur les parcours en ligne enrichies de celles issues de Google et Facebook, sur les nouvelles
acquisitions de contrats et plus globalement la vie des contrats, sans oublier la chaîne de traitement commercial.
SAS® VISUAL ANALYTICS RÉPOND À UN BESOIN CONSÉQUENT D’ACCÈS À LA DONNÉE
La stratégie du Groupe Santiane s’est toujours appuyée sur les nouvelles technologies et le passage à la data
visualisation éclaire aujourd’hui les managers et les rend plus autonomes. Sur iPad ou PC, les utilisateurs peuvent élaborer eux-mêmes leurs tableaux de bord et les partager en mode collaboratif. Ainsi, une dizaine de profils
(sur un effectif total de 250 personnes) utilisent SAS Visual Analytics, essentiellement la Direction Générale. La
Direction Financière et actuarielle, le Digital Marketing ainsi que les Directions Opérationnelles. Les délégués
commerciaux de la filiale Néoliane Santé & Prévoyance profitent en particulier de la version tablette pour leurs
déplacements sur le terrain.
Des données qui jusque-là étaient inertes, sont aujourd’hui utilisées pour améliorer la construction des produits,
à la fois dans une meilleure segmentation du risque pour les partenaires, et en adéquation avec les besoins des
clients. Entièrement numérisé jusqu’à la signature en ligne des contrats d’assurance, le Groupe Santiane optimise
aujourd’hui la vente de ses contrats santé grâce aux données et grâce à la data visualisation.
« Nous souhaitions donner les moyens à nos directeurs d’explorer les données sans qu’ils aient nécessairement
des compétences informatiques particulières, pour ainsi soulager notre R&D sur-sollicitée », ajoute Alexandre
Ginesty. « La grande force de SAS Visual Analytics, c’est son interopérabilité ; l’outil s’est branché naturellement
à nos systèmes mais aussi aux données externes issues de Facebook et Google. Nous avons choisi avec SAS
l’outil de dataviz le plus abouti du marché, sa puissance de calcul in-memory nous permet aujourd’hui d’être plus
créatifs grâce aux temps de réponse très rapides ».
L’OFFRE QUICKSTART DE SAS : UNE MISE EN ŒUVRE RAPIDE DE LA SOLUTION
Parmi les principaux points forts de SAS Visual Analytics, le Groupe Santiane a bénéficié d’un déploiement très
rapide grâce à l’offre Quickstart de SAS, permettant d’accéder aux premiers tableaux de bord en un temps record.
L’outil fait en outre gagner du temps en proposant un modèle de données préconçu.
Pour la filiale Neoliane Santé & Prévoyance, courtier grossiste pour les professionnels, dont les forces commerciales ont vocation à développer le réseau de partenaires sur le terrain, les fonctionnalités de géolocalisation
sont particulièrement intéressantes. L’outil leur donne une meilleure vision sur l’implémentation géographique des
partenaires, et leur permet de suivre sur iPad leur activité dans une dimension collaborative.
Document réalisé par la Société Corp Events - Janvier 2015
92
Retours d’expériences Big Data en entreprise
SAS® VISUAL ANALYTICS : VITESSE, AGILITÉ ET MOBILITÉ
SAS Visual Analytics, la solution phare de SAS dédiée au reporting agile, à l’exploration visuelle et à l’analyse des
données, est disponible désormais sur des petits serveurs, ouvrant son utilisation aux entreprises de toutes tailles.
Accédez partout et immédiatement à vos informations.
Testez gratuitement SAS Visual Analytics en ligne avec des données correspondant à votre secteur d’activité.
Vos données comme vous ne les avez jamais vues : qu’importent votre secteur d’activité, votre profil ou le volume
de données à analyser, vous pouvez, avec SAS Visual Analytics, explorer toutes les données pertinentes rapidement et aisément. Rejoignez-nous sur nos évènements
Lancée en 2012, SAS Visual Analytics a déjà été adoptée par plus de 2 600 entreprises dans le monde, dont plus
de 100 en France.
GROUPE SANTIANE
Enjeux
• Transformer rapidement de gigantesques quantités de données en informations stratégiques
• Améliorer la construction des produits en adéquation avec les besoins des clients
• Exploiter les données sans avoir de compétences informatiques particulières avec un modèle de données préconçu
• La vente des contrats santé est optimisée grâce aux données et à la data visualisation
• Sur iPad ou PC, les utilisateurs élaborent eux-mêmes leurs tableaux de bord et les partagent en mode collaboratif
Les résultats présentés dans cet article sont spécifiques à des situations, problématiques métiers et données particulières, et aux environnements informatiques décrits. L’expérience de chaque client SAS est unique et dépend
de variables commerciales et techniques propres, de ce fait les déclarations ci-dessus doivent être considérées
dans un contexte. Les gains, résultats et performances peuvent varier selon les configurations et conditions de
chaque client. SAS ne garantit ni ne déclare que chaque client obtiendra des résultats similaires. Les seules
garanties relatives aux produits et services de SAS sont celles qui sont expressément stipulées dans les garanties contractuelles figurant dans l’accord écrit conclu avec SAS pour ces produits et services. Aucune information
contenue dans le présent document ne peut être interprétée comme constituant une garantie supplémentaire. Les
clients ont partagé leurs succès avec SAS dans le cadre d’un accord contractuel ou à la suite de la mise en œuvre
réussie du progiciel SAS. Les noms de marques et de produits sont des marques déposées de leurs sociétés
respectives.
SAS - ELFE/INED
ELFE/INED ÉTUDIE LE DÉVELOPPEMENT DE L’ENFANT
À L’AIDE DE SAS® VISUAL ANALYTICS
L’étude scientifique ELFE tire parti de la richesse fonctionnelle de SAS Visual Analytics pour dresser une image
précise de la situation de l’enfance en France, à travers le regard de multiples chercheurs.
SAS, leader mondial de la business analytics annonce que l’Institut national d’études démographiques (Ined) a retenu sa solution d’exploration et de visualisation des données SAS® Visual Analytics dans le cadre du programme
ELFE. L’Ined, le plus important institut de recherche démographique au monde, étudie les populations de la France
et des pays étrangers avec les outils du démographe et les apports des autres disciplines : histoire, géographie,
sociologie, anthropologie, économie, biologie, épidémiologie. Ses chercheurs travaillent dans des domaines aussi
divers que la contraception et l’avortement, les migrations, les populations en marge et l’allongement de la durée
de vie. L’Ined emploie environ 200 personnes, dont 60 chercheurs titulaires, 110 techniciens ou ingénieurs, une
vingtaine de doctorants, ainsi que des chercheurs associés.
« Les fonctions analytiques proposées par SAS Visual Analytics sont particulièrement sophistiquées -exploration, constitution dynamique de rapports, croisements, etc.- et nous ouvrent de nouvelles perspectives. »
Ando Rakotonirina, Directeur des systèmes d’information de l’unité de recherche ELFE de l’Ined
ELFE : Etude Longitudinale Française depuis l’Enfance
ELFE, l’un des programmes de recherche phares de l’Ined, vise à suivre, pendant 20 ans, 18 300 enfants nés
en 2011, pour mieux comprendre comment les conditions périnatales et l’environnement dans ses différentes
dimensions affectent le développement, la santé et la socialisation des enfants, de la période intra-utérine à
l’adolescence. Le projet est pluridisciplinaire et se construit à partir des propositions de plus de 100 chercheurs
associés. En tout, plus de 300 équipes de recherche – démographes, économistes, médecins, généticiens, spéDocument réalisé par la Société Corp Events - Janvier 2015
93
Retours d’expériences Big Data en entreprise
cialistes de l’environnement, épidémiologistes, etc. – participent à ce programme, soit au total 1500 personnes.
« Ce programme, de très grande ampleur, doit prendre en compte une quantité dantesque de variables associées
aux enfants : santé, sciences sociales, environnement, génétique, environnement familial, etc. Il repose sur des
enquêtes menées chaque année et déclinées en quatre vagues (qui correspondent aux saisons). Les données
issues de ces enquêtes sont stockées dans un système hautement sécurisé de base de données et décrivent la
situation de l’enfant à travers des milliers de variables » témoigne Ando Rakotonirina, Directeur des systèmes
d’information de l’unité de recherche ELFE de l’Ined. « Nous apportons un soin tout particulier aux contrôles qualité
afin de garantir à nos chercheurs des données cohérentes. Si nous avons réalisé ces contrôles manuellement lors
des premières enquêtes (maternité et 2 mois), nous avons souhaité industrialiser ce processus particulièrement
chronophage. »
Dans le passé, les réponses aux questionnaires étaient stockées dans une solution SAS déployée sur un poste
autonome (non relié au réseau) et gérées par une personne chargée de réaliser des tests de cohérence et de
travailler sur la « validité » des données avec des chercheurs affectés à cette étude en leur mettant à disposition
des informations sous la forme d’extractions. Pour des raisons de confidentialité, les chercheurs ne peuvent pas
accéder à l’intégralité des données de toutes les enquêtes, des extractions étaient donc nécessaires à chaque
demande. Ces pré-études de données permettaient de faire des redressements ou corrections éventuelles. Pour
obtenir une base propre pour une collecte contenant 5 200 variables pour 18 300 individus – pouvant être mise à
disposition de chercheurs du monde entier – il fallait compter un an et demi.
FLUIDIFIER CES ÉCHANGES, ACCÉLÉRER LA MISE À DISPOSITION DES DONNÉES
« Les travaux de contrôle qualité nécessitant de multiples extractions étaient très fastidieux et la transmission
des données était réalisée via des supports physiques. De nombreux échanges étaient nécessaires avec les
chercheurs pour déterminer exactement quelles données ils souhaitaient recevoir » poursuit Ando Rakotonirina. «
Nous cherchions une solution permettant de fluidifier ces échanges, d’accélérer la mise à disposition des données
et de garantir le principe d›un dépôt unique réclamé par les autorités. Par ailleurs, la future loi sur la protection
des données scientifiques va dans ce sens (limitation des extractions des données) pour préserver la maîtrise de
propriété des données des chercheurs. Au vu des volumétries que nous traitons, cette solution devait en outre offrir
une grande puissance de traitement. »
Si, au départ, le Pôle SI de ELFE de l’Ined a privilégié des outils open source, il a pris conscience que ceux-ci ne
répondaient qu’à une partie des objectifs. Une veille a été réalisée sur les outils de SAS et particulièrement SAS
Visual Analytics (VA). Plusieurs maquettes ont été développées.
« Nous avons finalement décidé non seulement d’adopter VA, mais également de nous affranchir des anciennes
solutions sur postes autonomes pour basculer sur SAS Server, puisque nous avions la garantie d’éviter les extractions grâce au système de dépôts sécurisés combiné à une gestion personnalisée des accès. Les fonctions
analytiques proposées par l’outil sont particulièrement sophistiquées (exploration, constitution dynamique de rapports, croisements, etc.) et nous ouvrent de nouvelles perspectives » explique Ando Rakotonirina. « Depuis la
mise en œuvre de VA, le Pôle SI et l’administrateur de données ELFE ont pris en main la solution pour créer des
rapports et des explorations de base qu’ils ont mis à disposition des chercheurs. Ceci dans un premier temps pour
améliorer l’adhésion. Dans un deuxième temps, les chercheurs pourront choisir en toute autonomie les données
sur lesquelles ils travaillent et la manière de les présenter. »
SAS® VISUAL ANALYTICS, PIÈCE MAÎTRESSE DE L’INFRASTRUCTURE ANALYTIQUE
DU PROGRAMME ELFE
En quelques mois, SAS Visual Analytics est devenue une pièce maîtresse de l’infrastructure analytique du programme ELFE. Non seulement les multiples extractions ne sont plus nécessaires puisque chaque chercheur
dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur web, mais de plus, l’ensemble des modifications et des mises à jour sont tracées.
Pour Ando Rakotonirina, le principal objectif du projet a été atteint : « La problématique de sécurité des données
liée aux extractions a été résolue. Nous respectons les contraintes légales et réglementaires, ce qui est bien sûr
capital. Mais parallèlement, nous avons gagné en efficacité en termes d’organisation des contrôles qualité : les
données sont mises à disposition dans SAS VA ce qui évite les nombreux allers-retours entre nos services. Pour
l’enquête «2 mois», 18 mois ont été nécessaires pour rendre nos données exploitables. Avec VA, ce délai va être
réduit à 5 mois ! » se réjouit-il. « Parallèlement, VA nous offre une richesse fonctionnelle qui permet de nouvelles
dimensions d’analyse. Par exemple : nos utilisateurs peuvent, de manière autonome, visualiser dynamiquement la
répartition des enfants allaités dans chaque département sur une carte. Filtrer les données selon leurs envies et
obtenir les résultats instantanément. ».
Avec SAS, Elfe/Ined se déclare parfaitement équipée pour exploiter ses big data : « Les big data sont le carburant
de la recherche moderne ! Elles sont en train de révolutionner notre profession : auparavant, chacun travaillait
dans son coin et sur un mode vertical, les chercheurs partageaient difficilement leurs découvertes. Aujourd’hui,
nous sommes en mesure d’enrichir nos analyses et de susciter la collaboration » conclut Ando Rakotonirina.
ENJEUX
•Prendre en compte une quantité dantesque de variables.
•Fluidifier less échanges entre les chercheurs.
•Accélérer la mise à disposition des données.
•Garantir le principe d’un dépôt unique réclamé par les autorités.
Document réalisé par la Société Corp Events - Janvier 2015
94
Retours d’expériences Big Data en entreprise
SOLUTION
•SAS Visual Analytics
BÉNÉFICES
•VA va réduire de 18 à 5 mois le délai nécessaire pour rendre les données exploitables
•Les multiples extractions ne sont plus nécessaires (chaque chercheur dispose de droits de consultation personnalisés et d’espaces de travail sécurisés, accessibles via un simple navigateur web).
•L’ensemble des modifications et des mises à jour sont tracées.
•VA offre une richesse fonctionnelle qui permet de nouvelles dimensions d’analyse.
•Visualisation dynamique de la répartition des données en toute autonomie.
•Résultats obtenus instantanés.
•Exploitation des big data pour enrichir les analyses et susciter la collaboration.
SAS - UTAC-OTC
UTAC-OTC : PREMIER TOUR DE PISTE AVEC SAS® VISUAL ANALYTICS
POUR L’ORGANISME DE SUPERVISION DU CONTROLE TECHNIQUE
Chaque année, plus de 20 millions de contrôles techniques (100 000 par jour environ) sont centralisés par
l’Organisme Technique Central (OTC, groupe UTAC/CERAM).
Pour mieux explorer et exploiter ces données, l’OTC s’est doté en 2013 de SAS® Visual Analytics. Retour sur une
première année de mise en œuvre, avec les premiers résultats, les premiers enseignements, et les perspectives de
développement. Mis en place en 1992 pour les véhicules légers, le contrôle technique automobile est aujourd’hui
assuré par 6 000 installations de contrôle, la plupart appartenant à l’un des cinq grands réseaux opérant sur tout
le territoire. Depuis l’origine, l’UTAC a été notifié par le ministère des Transports comme Organisme Technique
Central pour recueillir, aujourd’hui en temps réel, les données issues de chaque contrôle. L’organisme surveille
les opérateurs et délivre les agréments, s’assure de l’homogénéité des contrôles et tient à jour des informations
sur l’état du parc automobile français pour adapter et faire évoluer les équipements et les méthodes de contrôle.
Aujourd’hui, l’OTC dispose de plusieurs bases de données contenant l’ensemble des contrôles techniques depuis
1992 – soit environ 400 millions de contrôles au total, avec quelque 450 variables relevées !
INSTALLATION DE L’OUTIL : UNE FORMATION EXPRESS
Déjà équipé d’outils SAS pour l’analyse des données, l’OTC a choisi en 2013 de se doter de SAS Visual Analytics. « Avec une telle volumétrie, il était impossible d’ignorer la data visualisation... au moins pour voir ! » explique
Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM. L’OTC a donc choisi de
partir sur une configuration minimale (un serveur de 16 cœurs avec 100 Go de données lues sur disque et 50 Go
de données en mémoire) pour tester l’exploration de données et les possibilités de l’outil en matière d’édition de
rapports. Une base de données de 42 Go contenant tous les contrôles effectués depuis 2008 (soit 43 colonnes et
148 millions de lignes), a ainsi été chargée « in memory ».
La mise en place de SAS Visual Analytics s’est réalisée en quatre jours : deux jours pour l’installation du produit,
puis deux jours de formation et de prise en main pour les quatre statisticiens chargés d’explorer l’outil. Travailler
en amont avec les consultants SAS pour assurer le transfert de compétences constituait pour Thierry Ageron un
investissement humain essentiel : « on imagine souvent qu’on peut en faire l’économie, on se dit que ‘ça va passer’... mais prendre le temps au départ n’est pas un luxe inutile : c’est un vrai facteur de succès ! ».
ANALYSE EXPLORATOIRE : TRAVAILLER PLUS VITE SUR DE MEILLEURES DONNÉES
La première étude menée avec « VA » a concerné les temps de contrôle. Avec d’emblée, un atout important : la
détection très facile des données atypiques (des contrôles inférieurs à 5 minutes, par exemple... voire des durées
négatives en cas de mauvaise saisie des données), et la possibilité de les éliminer in-memory pour travailler plus
vite sur une base statistiquement plus fiable. « Nous n’avions pas cette souplesse auparavant ! » note Thierry
Ageron, qui rappelle qu’outre les études statistiques, les cas les plus étonnants peuvent être transmis aux services
dépendant du ministère des transports, qui peuvent ainsi « contrôler les contrôleurs ».
Des premières analyses ont ainsi été réalisées pour comparer les durées moyennes selon les réseaux, l’installation
de contrôle, le jour de la semaine - ou selon les mois de l’année, avec des changements qui apparaissent clairement lors des deux mois d’été... Le bilan ? « SAS Visual Analytics permet de bien voir les tendances générales,
avec la possibilité de zoomer sur une situation qui semble atypique, et de retourner en un clic à la donnée de base
pour l’examiner. Ce qui nous prenait beaucoup de temps avant se fait ici très facilement ». Un mode d’exploration
idéal pour échanger sur nos hypothèses lorsque l’on explore les données à plusieurs.
Document réalisé par la Société Corp Events - Janvier 2015
95
Retours d’expériences Big Data en entreprise
RAPPORTS : FACILITÉ D’EXPORT ET DIFFUSION MOBILE
L’échange, c’est ce que permet aussi Visual Analytics avec l’édition de rapports dynamiques, qui peuvent être
diffusés sur tablette auprès des « clients » de l’OTC : ministère des transports et directions régionales, réseaux
d’opérateurs, gendarmerie, douanes... Thierry Ageron salue la facilité d’export, reste à voir si la diffusion mobile
entrera dans la culture de ses interlocuteurs. Jusqu’ici, son équipe en est restée à des premiers tests – pour
comparer deux centres sur un mois donné, par exemple. « Nous avons déjà plusieurs centaines de rapports sous
format pdf, explique-t-il. Certains donnent pleine satisfaction à nos clients, il nous faut encore réfléchir avant de
passer au tout-VA. »
Le moment est venu en effet pour l’organisme d’étudier l’opportunité d’intégrer plus avant Visual Analytics dans
les processus de production et de restitution des informations. Restera-t-il un outil parmi d’autres dans l’arsenal
de l’OTC, ou peut-il à terme remplacer le portail décisionnel actuel ? Une décision à la fois technique, financière
et culturelle, qui tiendra aussi compte de l’apparition récente du « petit frère » de VA, SAS® Visual Statistics...
DES PERSPECTIVES MULTIPLES
En attendant, une autre utilisation de la data visualisation est déjà envisagée, pour étudier les retards de présentation des véhicules au contrôle technique. « Pendant longtemps, nous n’avons pu réaliser ces analyses que sur des
échantillons, et travailler sur la base en frontal était gênant. Aujourd’hui, nous pouvons travailler sur l’exhaustivité
des données grâce à un ODS dédié. Reste à tester l’analyse avec SAS Visual Analytics, pour voir ce que pourra
apporter la souplesse de l’outil. »
Parmi les perspectives se profile aussi l’intégration de données non structurées – en reliant par exemple les informations du contrôle technique avec des données d’accidentologie venues de l’extérieur. Mais la route est encore
longue !
ENJEUX
- Optimiser l’accès à la donnée
- Améliorer la recherche de données atypiques
- Produire des statistiques pertinentes et les mettre rapidement à disposition des clients
SOLUTIONS
- SAS® Visual Analytics
« SAS Visual Analytics permet de bien voir les tendances générales, avec la possibilité de retourner en un clic à
la donnée de base pour l›examiner »
Thierry Ageron, responsable Etudes & Productions Statistiques du groupe UTAC/CERAM
SAS - BANK OF AMERICA
BANK OF AMERICA AVOIDS GRIDLOCK IN CREDIT
RISK SCORING, FORECASTING
Modeling portfolio credit risk is a fundamental function in banking today. Loan products, such as lines of credit,
mortgages and credit cards, entail a high degree of risk for banks, and on a large scale, especially in turbulent
economic periods -- defaults produce difficult situations and huge implications for both the lender and the borrower.
Banks regularly employ credit-risk management processes to monitor and assess credit portfolios, to make certain
estimates, and to understand their risk position and value of assets at any given time. In today’s complex and everchanging financial system, powerful, rigorous and accurate credit-risk management processes and technology
play a critical role in mitigating a lending institution’s exposure.
“ Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately, the bank
would be behind the market.”
Russell Condrich, Senior Vice President, Corporate Investment Group
With approximately 59 million consumer and small business relationships, 6,000 retail banking offices and more
than 18,000 ATMs, Bank of America is among the world’s leading wealth management companies and is a global
leader in corporate and investment banking and trading across a broad range of asset classes.
The Corporate Investments Group (CIG) manages Bank of America’s available-for-sale portfolio and is responsible for modeling and calculating the probability of default (PD) on the 9.5 million mortgages it services. In addition,
the group calculates the market value, prepayment speeds and sensitivity to changes in interest rates and hedges
these risks for the $19 billion mortgage-service-rights asset. Recently, CIG began assisting with the task of forecasting loan losses for the bank’s credit card portfolio.
Document réalisé par la Société Corp Events - Janvier 2015
96
Retours d’expériences Big Data en entreprise
THE NEED FOR SPEED
CIG had been using analytics from SAS for credit-risk modeling for many years, but with the addition of the creditcard loss forecasting responsibility, it was forced to reassess its use of an internal shared-services environment
to run its modeling and calculation processes. Doing so would help reduce processing time, increase access and
availability of resources for ad hoc analysis, while ensuring business continuity for this mission-critical function of
the bank’s business.
“We needed a solution that addressed today’s business problems, as well as a solution with the flexibility for any
future business requirements,” says Russell Condrich, Senior Vice President, Corporate Investment Group. “Processing large, multi-terabyte datasets in a quick, efficient manner was a key requirement for us and SAS performed
flawlessly. Without SAS, processing times would be longer, hedging decisions would be delayed and, ultimately,
the bank would be behind the market.”
SAS AND IBM SHOW RESULTS
To meet its performance requirements, the group moved its processing to a dedicated platform comprised of SAS®
Enterprise Risk Management on SAS® Grid Computing, SAS® Scalable Performance Data Server on a 224 core
IBM BladeCenter® grid and the IBM’s XIV® Storage System. The initiative has already produced considerable
results, such as reducing the bank’s probability of default calculation time from 96 hours to just four. Processing
time for ad hoc jobs has been reduced by 90 percent and, according to the CIG, they are processing at three times
the speed of the previous environment.
The platform pulls data from eight systems of record (SOR), amounting to hundreds of millions of records, or 30
terabytes of source data, and allows the SAS environment to consume 3.9 gigabytes of I/O throughput per second
from IBM’s XIV storage environment. Approximately 30 users now have unfettered access to the environment, as
opposed to the shared services environment of the past, in which user time was competitive and response times
varied dramatically due to the high number of jobs being executed.
‘UNPARALLELED’ PERFORMANCE
“We now have an environment that provides users with a robust platform on which to schedule and prioritize jobs,
based on duration or computational requirements, so that ad hoc usage is not competing with scheduled work,”
says Stephen Lange, Managing Director, Corporate Investments Group. “This advanced grid platform is giving us
unparalleled performance. SAS is indispensable for its unique way of handling large data sets.”
As an example, Lange adds, “we have to score a particular portfolio of 400,000 loans with our suite of models,
using multiple scenarios, and we need to run it over the 360 months of the mortgages’ life. That process used to
take three hours, now it takes 10 minutes because of the parallelization capabilities of the grid. The ability to go
from three hours to 10 minutes on a job demonstrates a tremendous increase in our ability to deliver information
and make decisions.”
“The bank has a strong desire to enable loss forecasting as accurately and quickly as possible, right up to the
senior executive layers of the organization,” says Lange. “The only way we can do that is to have sufficient IT
resources to score loans and appropriately assess risks. The partnership between SAS, IBM and our internal technology group has provided a platform for us to demonstrate risk management leadership.”
CHALLENGE
• Reduce processing time for credit-risk modeling, scoring and loss forecasting.
• Increase ad hoc analysis time while ensuring business continuity and guaranteed “up-time” for these missioncritical functions.
SOLUTION
• SAS® Enterprise Risk Management
• SAS® Grid Manager
• SAS® Scalable Performance Data Server®
BENEFITS
• Reduced probability of loan default calculation time from 96 hours to just four.
• Yields timely decisions around defaults.
• Reduced its scoring routine of 400,000 loans from three hours to 10 minutes.
• Helps minimize losses and can handle new growth opportunities for bank’s loan portfolio.
• Reduced processing time by 90%.
The results illustrated in this article are specific to the particular situations, business models, data input, and
computing environments described herein. Each SAS customer’s experience is unique based on business and
technical variables and all statements must be considered non-typical. Actual savings, results, and performance
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee
or represent that every customer will achieve similar results. The only warranties for SAS products and services are
those that are set forth in the express warranty statements in the written agreement for such products and services.
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful
implementation of SAS software. Brand and product names are trademarks of their respective companies.
Document réalisé par la Société Corp Events - Janvier 2015
97
Retours d’expériences Big Data en entreprise
SAS - FRAPORT
PLOT A COURSE TO REDUCE COSTS
FRAPORT USES SAS® VISUAL ANALYTICS TO MAKE REAL-TIME OPERATIONAL DECISIONS
Frankfurt Airport in Germany flies more than 57 million passengers and 2 million metric tons of freight to 113
countries each year – making it Europe’s third-busiest airport, behind only London Heathrow and Paris-Charles de
Gaulle. It’s up to transport company Fraport AG to make sure that airport operations can handle so much traffic.
“ In addition to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization with SAS Visual Analytics.”
Dieter Steinmann, Manager of Information and Communication Services for Business Systems
Using SAS® High-Performance Analytics and SAS Visual Analytics, Fraport is reducing the cost of operations and
boosting the performance of decision-support processes.
“We need to analyze massive quantities of data in real time,” explains Dieter Steinmann, Fraport’s Senior Manager
of Information and Communication Services. “High-performance analytics is the perfect solution for us. In addition
to the extra speed, we’re also looking forward to new opportunities for data exploration and visualization with SAS
Visual Analytics.”
Migrating from the tried and tested SAS Business Analytics platform to SAS High-Performance Analytics, Fraport
sets a course toward the most advanced approach to data analysis. Fraport also opted for SAS Visual Analytics,
which allows users to analyze data quickly and intuitively using a graphical interface.
Fraport implemented SAS Visual Analytics on a Pivotal DCA (formerly EMC Greenplum DCA), which was optimized with SAS for big data analytics.
“With its decision in favor of big data analytics, Fraport AG is creating a huge competitive advantage for itself. We
are very pleased that, together with SAS, we can provide the technology basis for this,” declares Sabine Bendiek,
CEO of EMC Germany.
CHALLENGE
Fraport required a solution to reduce operation costs and improve analysis of big data.
SOLUTION
• SAS® High-Performance Analytics
• SAS® Visual Analytics
BENEFITS
The airport saves both time and costs by analyzing data efficiently.
The results illustrated in this article are specific to the particular situations, business models, data input, and
computing environments described herein. Each SAS customer’s experience is unique based on business and
technical variables and all statements must be considered non-typical. Actual savings, results, and performance
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee
or represent that every customer will achieve similar results. The only warranties for SAS products and services are
those that are set forth in the express warranty statements in the written agreement for such products and services.
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful
implementation of SAS software. Brand and product names are trademarks of their respective companies.
Document réalisé par la Société Corp Events - Janvier 2015
98
Retours d’expériences Big Data en entreprise
SAS - MACY’S
DO YOU KNOW WHAT’S ‘IN STORE’ FOR YOUR CUSTOMERS?
MACY’S ENHANCES ITS CUSTOMERS’ ONLINE SHOPPING EXPERIENCE, INCREASES
OVERALL PROFITABILITY
After more than 80 years in business, Macy’s Inc. is one of America’s most iconic retailers. With annual revenues
exceeding $20 billion, Macy’s enjoys a loyal base of customers who come to its stores and shop online each
day. To continue its legacy of providing stellar customer service and the right selection of products, the retailer’s
e-commerce division – Macys.com – is using analytical software from SAS to better understand and enhance its
customers’ online shopping experience, while helping to increase the retailer’s overall profitability.
To more effectively measure and understand the impact of its online marketing initiatives on Macy’s store sales,
Macys.com increased its analytical capabilities with SAS® Enterprise Miner™, resulting in an e-mail subscription
churn reduction of 20 percent. It also uses SAS to automate report generation, saving more than $500,000 a year
in comp analyst time.
“... they can look at data and spend more time analyzing it and become internal consultants who provide more of
the insight behind the data.”`
Kerem Tomak, Vice President of Analytics
ENDING “ONE SIZE FITS ALL” EMAIL MARKETING
“We want to understand customer lifetime value,” explains Kerem Tomak, Vice President of Analytics for Macys.
com. “We want to understand how long our customers have been with us, how often an email from us triggers a
visit to our site. This helps us better understand who our best customers are and how engaged they are with us.
(With that knowledge) we can give our valuable customers the right promotions in order to serve them the best
way possible.
“Customers share a lot of information with us – their likes and dislikes – and our task is to support them in return
for their loyalty by providing them with what they want, instantly,’’ adds Tomak. Macys.com uses Hadoop as a data
platform for SAS Enterprise Miner.
Initially, Tomak was worried that segmenting customers and sending fewer, but more specific emails would reduce
traffic to the website. “The general belief was that we had to blast everyone,’’ Tomak said. Today, emails are sent less
frequently, but with more thought, and the retailer has reduced subscription churn rate by approximately 20 percent.
TIME SAVINGS, LOWER COSTS
Tomak’s group is responsible for creating a variety of mission critical reports – some daily, some weekly, others
monthly – that go to employees in marketing and finance. These data-rich reports were taking analysts four to
twelve hours to produce – much of it busy work that involved cutting and pasting from Excel spreadsheets. Macys.
com is now using SAS to automate the reports. “This cuts the time dramatically. It saves us more than $500,000
a year in terms of comp FTE hours saved – a really big impact,’’ Tomak says, noting that the savings began within
about three months of installing SAS.
Now his staff can maximize time spent on providing value-added analyses and insights to provide content, products and offers that guarantee a personalized shopping experience for Macys.com customers.
“Macy’s is a very information-hungry organization, and requests for ad hoc reports come from all over the company.
These streamlined systems eliminate error, guarantee accuracy and increase the speed with which we can address requests,’’ Tomak says. “Each time we use the software, we find new ways of doing things, and we are more
and more impressed by the speed at which it churns out data and models.”
MOVING FORWARD
“With the extra time, the team has moved from being reactionary to proactive, meaning they can examine more
data, spend quality time analyzing and become internal consultants who provide more insight behind the data,” he
says. “This will be important to supporting the strategy and driving the next generation of Macy’s.com.”
As competition increases in the online retailing world, Tomak says there is a push toward generating more accurate, real-time decisions about customer preferences. The ability to gain customer insight across channels is a critical part of improving customer satisfaction and revenues, and Macys.com uses SAS Enterprise Miner to validate
and guide the site’s cross- and up-sell offer algorithms.
Tomak is also training staff on SAS/OR®, business process optimization software, to further optimize the promotions that the company sends to clients. “We want to maximize the efficiency in sending these promotions to the
right customer at the right time.’’
Document réalisé par la Société Corp Events - Janvier 2015
99
Retours d’expériences Big Data en entreprise
CHALLENGE
Macys.com needed enhanced customer insight, online and across channels, to effectively measure and understand the impact of its online marketing initiatives on Macy’s store sales.
SOLUTION
• SAS® Enterprise Guide®
• SAS® Enterprise Miner™
• SAS/OR® Software
BENEFITS
Increased customer insights; cross-sell and up-sell effectiveness; productivity, revenue and customer satisfaction,
an approx.20 percent reduction in churn rate and more than $500,000 savings in productivity annually in terms of
FTE time saved.
SAS® and Cloudera for big data
“We chose Cloudera’s Platform for Big Data for its unparalleled Hadoop management and SAS Analytics for deep insight into our data. These combined technologies make our customer interactions more aligned to their preferences, which leads to improved satisfaction. Ultimately, working
with these two industry leaders allows my team and me to have more time to focus on more strategic
initiatives through automated processes instead of manually collating reports for our business stakeholders.”
Kerem Tomak, Vice President of Analytics, Macys.com
The results illustrated in this article are specific to the particular situations, business models, data input, and
computing environments described herein. Each SAS customer’s experience is unique based on business and
technical variables and all statements must be considered non-typical. Actual savings, results, and performance
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee
or represent that every customer will achieve similar results. The only warranties for SAS products and services are
those that are set forth in the express warranty statements in the written agreement for such products and services.
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful
implementation of SAS software. Brand and product names are trademarks of their respective companies.
SAS - NESTLÉ
HOW TO KEEP FRESH PRODUCTS ON THE SHELVES
ACCURATE FORECASTING OPTIMIZES CUSTOMER SERVICE, MINIMIZES INVENTORY
OVERSTOCKS AND LAYS THE GROUNDWORK FOR EFFECTIVE MARKETING AT NESTLÉ
A billion units roll off Nestlé production lines every single day. This number illustrates the sheer quantity of goods
produced by the world’s biggest food company. To deliver on its promise of “Good Food, Good Life,” Nestlé has
brought to market a whopping 10,000 products aimed at improving consumers’ lives with better and healthier foods
and beverages.
To ensure the right amounts of those products make it to the shelves and into customers’ hands, Nestlé relies on
forecasting. After all, even the best marketing promotions can backfire if the shelves are empty when the customers show up for their favorite foods.
It comes as no surprise that Nestlé’s interest in closely managing the supply chain and keeping inventories within
tight limits is proportionate with the size of its operations. Its sheer size makes planning on a global scale highly
complex. Product categories, sales regions and an abundance of participating departments combine to weave a
tangled web.
It’s also the nature of the food and beverage industry that makes operational planning a challenge. Seasonal influences, being dependent on the weather to provide a good harvest, swings in demand, other retail trends and the
perishable nature of many products make it difficult to plan production and organize logistics.
“ We’re now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and special offers into the statistical models.”
Marcel Baumgartner, Head of Global Demand Planning Performance and Statistical Forecasting
TIED DOWN BY CONFLICTING KPIS
“Supply chain management is a well-established, recognized stream and process at Nestlé,” explains Marcel
Baumgartner, who leads global demand planning performance and statistical forecasting at Nestlé’s corporate
headquarters. “Our professionals take care of transportation networks, run efficient warehouses and are the first
point of contact with customers. One area of focus is planning – or, more precisely, demand and supply planning.
According to Baumgartner, this process tackles two important metrics: customer service levels and inventory levels. One can improve customer service levels – defined as the percentage of complete and on-time deliveries – by
Document réalisé par la Société Corp Events - Janvier 2015
100
Retours d’expériences Big Data en entreprise
expanding inventories. But that ties up capital, and it’s often difficult to find storage space. The freshness of the
product suffers as well.
In this industry, products are processed in very large batches to keep unit prices low, ensure quality and take
advantage of raw ingredient availability. This make-to-stock production strategy contrasts with the make-to-order
principle frequently seen in other sectors such as the automobile industry. “To have the right quantity of the right
products at the right place and time, we rely heavily on being able to predict the orders our customers will place as
precisely as possible,” says Baumgartner.
Other business metrics, such as budgets and sales targets, are also important factors. The overarching goal, according to Baumgartner, is to be able to “take proactive measures instead of simply reacting.” To accomplish this,
Nestlé focuses on strong alignment processes, stronger collaboration with customers and the use of the proper
forecasting methodology.
STATISTICS VS. INSTINCTS
There are two main options for generating forecasts. The subjective method is mainly dependent upon on the
estimation and appraisal of planners based on the experience they draw upon. The statistical method approaches
the forecasting problem with data.
Before using SAS, Nestlé was primarily using SAP APO’s underlying forecasting techniques, together with models
from the open-source statistical software R, integrated into APO. Those forecasts were then revised by the Nestlé
demand planners. SAS enhances this, and thus complements SAP APO perfectly.
Statistical forecasting tends to be more reliable if sufficient historical data is available. “But one thing has become
clear to us — you can’t predict the future with statistics by simply looking at the past. It doesn’t matter how complex
your models are.”
So it’s not the statistical methodology that’s the problem for Baumgartner and his team. The critical factor in this
complex environment is being able to assess the reliability of forecasts. Two elements have attracted the most attention within this context: dealing with volatility, and SAS.
“Predictability of demand for a certain product is highly dependent on that product’s demand volatility,” says Baumgartner. “Especially for products that display wide fluctuations in demand, the choice and combination of methods
is very important. SAS Forecast Server simplifies this task tremendously.
Of particular importance for demand planning are the so-called “mad bulls,” a term Nestlé uses to characterize
highly volatile products with high volume. A mad bull can be a product like Nescafé, which normally sells quite
regularly throughout the year, but whose volumes are pushed through trade promotions. A simple statistical calculation is no more useful in generating a demand forecast than the experience of a demand planner for these less
predictable items. The only way out is to explain the volatility in the past by annotating the history. Baumgartner and
his team rely on the forecast value added (FVA) methodology as their indicator . The FVA describes the degree to
which a step in the forecasting process reduces or increases the forecast error.
MORE KNOWLEDGE, LESS GUESSING
According to Baumgartner, SAS® Forecast Server is the ideal tool for this scenario. The solution’s scalability allows a handful of specialists to cover large geographical regions. And selecting the appropriate statistical models is
largely automated, which is seen as one of the strongest features of SAS Forecast Server. “At the same time, we’re
now able to drill down through customer hierarchies and do things such as integrate the impact of promotions and
special offers into the statistical models.”
The results paint a clear picture. In a comparison between the conventional forecasting method and SAS Forecast
Server procedures – for the most part using default settings – the results showed that Nestlé often matches and
improves its current performance for the predictable part of the portfolio and thus frees up valuable time for demand planners to focus on mad bulls.
Last but not least, Nestlé emphasizes that even a system as sophisticated as SAS Forecast Server cannot replace
professional demand planners. “Particularly for mad bulls, being connected in the business, with high credibility,
experience and knowledge is key.” With more time available to tackle the complicated products, planners are able
to make more successful production decisions. And that means really having enough Nestlé ice cream at the
beach when those hot summer days finally arrive. .
CHALLENGE
Ensure the right amounts of products make it to the shelves and into customers’ hands. Manage supply chain, plan
operations and organize logistics on a global scale based on a variety of influences and factors.
SOLUTION
SAS® Demand-Driven Planning and Optimization
BENEFITS
Reliable forecast methods free up time to focus on demand planning for highly volatile products. More successful
production decisions ensure products are available when customers want them.
About
Nestlé
Nestlé is the world’s biggest food company. More than 330,000 employees work at 469 locations in 86 countries to
generate annual revenues of more than 90 billion Swiss francs. These sales figures make Nestlé the global market
leader by a large margin.
The results illustrated in this article are specific to the particular situations, business models, data input, and
computing environments described herein. Each SAS customer’s experience is unique based on business and
technical variables and all statements must be considered non-typical. Actual savings, results, and performance
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee
Document réalisé par la Société Corp Events - Janvier 2015
101
Retours d’expériences Big Data en entreprise
or represent that every customer will achieve similar results. The only warranties for SAS products and services are
those that are set forth in the express warranty statements in the written agreement for such products and services.
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful
implementation of SAS software. Brand and product names are trademarks of their respective companies.
SAS - RABOBANK
HOW DOES YOUR DATA FIT TOGETHER?
As Manager Concern Controller at Rabobank, John Lambrechts was assigned to implement chain management to
improve the bank’s ability to quickly gain insights from information coming from its chains or groups and improve
decision making. The Rabobank Group, a leading global financial services provider serving more than 10 million
customers and headquartered in The Netherlands, wanted to optimize its operations by improving the financial and
collaborative alignment across its chains.
“ We are much more flexible in our ability to provide information and direct our chain managers more effectively. Our people have become more engaged because they can quickly see the results of what they do. ”
John Lambrechts, Manager Concern Control
Lambrechts explains, “The first step we took to properly set this up, was to look at the data available and to determine how this could be viewed. We discovered that there was an enormous amount of data available from all
groups of the bank’s organizational chain such as departments, business units and local branches. We needed one
system to integrate and structure all the information efficiently and provide the ability to share results.”
NEW INSIGHTS
Lambrechts found data visualization to be the perfect match.
“Data visualization lets us analyze large amounts of data. The diverse visual options lead us to ask new questions
that we had not asked before,” said Lambrechts. “We are much more flexible in our ability to provide information
and direct our chain managers more effectively. Our people have become more engaged because they can quickly
see the results of what they do.”
Rabobank developed new cost and chain models with partner Finext and implemented SAS Visual Analytics. “The
bank also created a new data scientist job function for banking chain specialists. These specialists can probe the
data more extensively, evaluate cost backgrounds, and establish relationships and causes.”
Because of the resulting transparency, Rabobank can see exactly who does what within the chain and which areas
must be tightened to optimize the profit of the chain. And although the solution is scalable to the number of users,
the banking group is using it in a strictly controlled environment to standardize how information is provided to chain
managers and organizational leaders.
POSITIVE OUTCOMES
“I am extremely proud of what we have achieved so far. We have seen an increase in our managers’ use of chain
information,” says Lambrechts.
“Another important outcome has been the removal of boundaries between the chains and the motivation to develop
new thought processes. In the past, for example, departments would look within to find cost savings. But this type of
siloed action was sub-optimal and not always in the organization’s best interests. With the knowledge and access to
all chain information, we are able to let go of old business models and replace them with more dynamic ones.”
CHALLENGE
Improving how information is retrieved and shared from all groups within Rabobank’s organizational chains to
optimize operations and make faster decisions.
SOLUTION
SAS® Visual Analytics
BENEFITS
• A centralized view of information about the bank’s organizational chains for improved financial and collaborative
alignment.
• A dynamic organization where the boundaries between departments and business components are removed and
chain information is embraced by decision makers.
Document réalisé par la Société Corp Events - Janvier 2015
102
Retours d’expériences Big Data en entreprise
The results illustrated in this article are specific to the particular situations, business models, data input, and
computing environments described herein. Each SAS customer’s experience is unique based on business and
technical variables and all statements must be considered non-typical. Actual savings, results, and performance
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee
or represent that every customer will achieve similar results. The only warranties for SAS products and services are
those that are set forth in the express warranty statements in the written agreement for such products and services.
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful
implementation of SAS software. Brand and product names are trademarks of their respective companies.
SAS - TELECOM ITALIA
VISUALIZING DATA MAKES HEARING IT MUCH EASIER
To operate in the crowded telecommunications industry, service providers must answer the call for speed and availability millions of times each day. To prosper, they have to pick up the phone before it ever rings.
As Italy’s largest telecommunications provider, and with a notable presence in Latin America, Telecom Italia always
looks for ways to improve customer experience. That means delivering the reliable service that subscribers expect
today – and knowing which offers they will expect tomorrow.
“ We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics. ”
Fabrizio Bellezza, Vice President of National Wholesale Services and Head of Market Development
LISTEN TO THE DATA
As part of a program to improve customer experience for its 32 million mobile subscribers, the company had to
extend and reinforce its ability to monitor network service. To make sense of the enormous amount of unique and
varied data at its disposal, Telecom Italia turned to SAS for a way to make wise decisions quickly based on up-tothe-minute trends.
“We need to be able to respond quickly with new and improved offerings to our customers, and to analyze the
impact of these offers for the foreseeable future,” says Fabrizio Bellezza, Vice President of National Wholesale
Services and Head of Market Development at Telecom Italia. “Analysis that is valuable and makes sense today
may be irrelevant tomorrow. And we need to see well beyond tomorrow.”
To understand how it stacks up to the competition, Telecom Italia needed to define and analyze key performance
indicators for mobile network voice and data traffic. In a fast-changing market filled with devices and applications
running on different generations of technology, what’s relevant today might not be tomorrow. And beating the competition means always knowing the right offer for each customer at the right time.
THE SOLUTION
With SAS® Visual Analytics, business executives at Telecom Italia can compare the performance between all
operators for a key indicator – such as accessibility or percentage of dropped calls – on a single screen for a quick
overview of pertinent strengths and weaknesses.
Using SAS, Telecom Italia adds in-memory analytics and advanced data visualization to the provider’s geomarketing system, simplifying the decision-support and operational processes that go into technical and commercial
planning. “SAS Visual Analytics supports us in identifying network shortcomings and making fast improvements,”
Bellezza says. “It also allows us to calculate the statistical correlations between various KPIs for more effective
further analysis.
“SAS Visual Analytics has allowed us to identify profitable areas that we can strengthen in terms of infrastructure
and services to be marketed.”
IN-DEPTH ANALYSIS OF KPIS
A company whose leadership has always understood the role of sophisticated analytics in monitoring network traffic and performance, in addition to spotting trends, Telecom Italia has used SAS since the 1990s.
SAS Visual Analytics allows Telecom Italia to analyze a range of KPIs at different levels of aggregation for both
voice and data traffic. These can be viewed on a single screen and can include:
• Accessibility
• Drop rate
• Call setup time
• Data throughput
Document réalisé par la Société Corp Events - Janvier 2015
103
Retours d’expériences Big Data en entreprise
“This gives us a rapid overview of areas of competitive strengths and weaknesses,” Bellezza says.
SAS Visual Analytics allows Telecom Italia to analyze coverage of specific areas and identify possible scenarios as
“make” or “buy,” prioritized by cost and benefit.
It helps analyze customer behavior and create a predictive model, forecast services and evaluate the profitability
of a development area after an investment.
A USER-FRIENDLY FORMAT
“When initially analyzing data, it’s impossible to predict the questions users may ask – and often even the users
themselves are unaware of them,” Bellezza says. “SAS Visual Analytics helps us gain insights by simplifying the
transformation of data and enabling us to put it into a user-friendly format.”
As a result, decision makers get a more comprehensive understanding of what’s happening in the market, he adds.
“We’re very impressed in terms of the usability and flexibility – and time to market, too – of SAS Visual Analytics,”
Bellezza affirms.
CHALLENGE
Telecom Italia required a flexible, user-friendly solution for visualizing large amounts of data.
SOLUTION
SAS® Visual Analytics
BENEFITS
SAS Visual Analytics allowed the company to display data in a user-friendly format.
The results illustrated in this article are specific to the particular situations, business models, data input, and
computing environments described herein. Each SAS customer’s experience is unique based on business and
technical variables and all statements must be considered non-typical. Actual savings, results, and performance
characteristics will vary depending on individual customer configurations and conditions. SAS does not guarantee
or represent that every customer will achieve similar results. The only warranties for SAS products and services are
those that are set forth in the express warranty statements in the written agreement for such products and services.
Nothing herein should be construed as constituting an additional warranty. Customers have shared their successes
with SAS as part of an agreed-upon contractual exchange or project success summarization following a successful
implementation of SAS software. Brand and product names are trademarks of their respective companies.
Document réalisé par la Société Corp Events - Janvier 2015
104
Retours d’expériences Big Data en entreprise
SENTELIS - ASSURANCE MUTUELLE
CADRAGE DU SI DIGITAL GROUPE VERS L’ARCHITECTURE 3.0
CLIENT : Grand groupe d’assurance mutuelle et paritaire de protection sociale - N°1 en retraite complémentaire
Porteur du Projet : Damien LEPRETRE
CONTEXTE
Transformations importantes au sein de l’entreprise : • Rapprochement avec une autre structure
• Avènement du « monde digital » Ces deux grands défis induisent des effets structurels sur les SI et sur le fonctionnement de la DSI, auxquels l’entreprise doit se préparer pour : • Faciliter la convergence vers le futur SI commun du groupe (‘best in class’, rationalisation, industrialisation et effets d’échelle,…) • Anticiper et accélérer la «
digitalisation » du groupe – offres et services, relation client, culture et capacités test & learn, mode Lab, maîtrise
du capital informationnel interne et externe, agilité / time to market, small apps,…
OBJECTIFS DE LA MISSION SENTELIS
L’objectif de la mission a été de construire une vision CONVERGEE CIO/CDO de la Stratégie SI Digitale et de
l’organisation cible DSI/CDO/Métiers pour une approche conjointe auprès du COMEX
MÉTHODE :
La mission a été menée en 4 étapes : • Prise de connaissance afin de s’approprier le contexte SI • Identifier le
niveau des réflexions digitales et le traduire en « capacités digitales » • Partager, au sein de la DSI, une vision du
SI Digital et de ses impacts sur le fonctionnement de la DSI • Confronter et faire converger les visions : CIO / SI
Digital - CDO / Stratégie Digitale de l’Entreprise
Document réalisé par la Société Corp Events - Janvier 2015
105
Retours d’expériences Big Data en entreprise
SENTELIS - CRÉDIT À LA CONSOMMATION
CONSTRUCTION DE L’ARCHITECTURE DIGITALE DE RÉFÉRENCE
(FRANCE, INTERNATIONAL & CORPORATE)
CLIENT : Grand acteur international du crédit à la consommation
Porteur du Projet : Jérôme BESSON
CONTEXTE
Nouvelle stratégie d’entreprise basée sur 3 piliers :
• Transformation digitale
• Simplification et industrialisation des process
• Augmentation des marges
OBJECTIFS DE LA MISSION SENTELIS
L’objectif de la mission a été de définir la nouvelle architecture de référence SI commune à l’ensemble des filiales
du Groupe pour répondre à la disruption digitale et l’accélération de la transformation de l’entreprise vers le tout
numérique :
• Fédération des exigences des différentes entités du groupe : omnicanalité de l’expérience utilisateur, dématérialisation étendue des processus métiers, contextualisation et personnalisation à la volée de la proposition de valeur
client et prescripteur et de l’expérience vécue (interaction, processus & informations), cross-selling/up-selling,
évolution réglementaire…
• Définition de la cible d’architecture, des principes directeurs en respect des cadres d’architecture d’entreprise
• Analyse critique architecturale de l’existant des différentes filiales et maturité de leur SI vis-à-vis de la cible
• Co-construction avec les différentes DSI filiales des architectures de transition, des trajectoires de transformation
et d’investissements pour atteindre la cible de référence
• Fédération du portefeuille des projets des différentes filiales. Identification des projets transformant. Détection
des synergies transnationales. Animation de la communauté des architectes. Conduite du changement auprès
des DSI et Directions Métiers, France et International.
Cette mission a également consisté à conduire des études d’architecture ciblées intégrant la mise en place
d’une infrastructure fédérée de données (Shared Data Backbone) : Cible d’architecture décisionnelle et cible
d’architecture du poste de travail des agents commerciaux.
Document réalisé par la Société Corp Events - Janvier 2015
106
Retours d’expériences Big Data en entreprise
SENTELIS - MUTUELLE D’ASSURANCE
MISE EN ŒUVRE DE LA FONDATION BIG DATA GROUPE
CLIENT : Grand groupe français de Mutuelle d’Assurance
Porteur du Projet : Sébastien LAYER
CONTEXTE
Grand programme de transformation – Ambition Client 2020 autour de 4 axes :
- Valoriser L’ACTIF CLIENT
- Développer la PROXIMITÉ Digitale
- Créer l’AGILITE INDUSTRIELLE
- Fonctionner en ECOSYSTÈME COLLABORATIF
OBJECTIFS DE LA MISSION SENTELIS
Mettre en place un socle Big Data INDUSTRIEL CROSS-METIERS pour gagner la bataille des données, la
bataille de la modernisation digitale et la bataille du lien client
CAS D’USAGES CIBLES TOTALISANT 15 PROJETS MÉTIERS SUR 2015
• Analyse réactive (contextualisation temps réel de la relation client sur tous les canaux)
• Analyse historique du portefeuille client sur l’ensemble des données à disposition (micro-segmentation, qualité et
évolution de la relation, segmentation comportementale)
• Analyse prédictive du portefeuille client (détection d’opportunités, prévention des risques)
NATURE DES DONNÉES TRAITÉES
Intégration dans un lac de données d’une très grande variété de données représentative du système d’information
(données transactionnelles, évènementielles, conversationnelles, sociales référentielles, décisionnelles…) pour
un volume avoisinant plusieurs milliards de données.
ETAPES MAJEURES ET CALENDRIER DE MISE EN ŒUVRE DE LA FONDATION BIG
DATA GROUPE:
• Conduite d’une preuve-de-concept sur un usage emblématique (vision 360° Client) à valeur métier et architecturale, basée une infrastructure Commodity Hardware et des composants Open Source de l’écosystème Hadoop
. Réalisation par une équipe mixe métier-SI en mode agile (Utilisateur métier, Ergonome, Analyste Donnée, Statisticien, Architecte Big Data, Développeur Big Data) – 3 mois
• Choix des composants de la stack Big Data du projet de mise en œuvre – 2 mois
• Industrialisation d’un core-model groupe multi instancié au niveau des différentes enseignes + déploiement des
premiers usages en production – 6 mois
• En parallèle, définition de l’offre de service associée à la fondation Big Data et de l’organisation à mettre en place
pour en assurer la pérennité et le déploiement dans l’entreprise
• Enrichissement « versionné » du socle core-model groupe en phase avec les besoins et exigences métiers
ASPECT NOVATEUR
Une innovation à plusieurs niveaux :
• Architecturale, avec la validation de la pertinence du modèle d’architecture 3.0
• Comportementale, avec le décloisonnement des données entre les métiers, entre monde opérationnel et monde
analytique
• Usages
o Amélioration d’usages existants (ex : vision 360 Client, Contrat)
o Perspective de nouveaux usages (ex : analyse de la couleur et la teneur de la conversation client, corrélation
des flux comptables)
o Capacité d’innovation renforcée (Test & Learn, Data Lab)
• Technologique, avec la mise en œuvre de solutions innovantes issues des géants de la donnée, permettant de
motoriser l’architecture 3.0
VALORISATION OBSERVÉE DE LA DONNÉE
Le projet a permis d’envisager une exploitation de toutes les données disponibles structurées et non-structurée
comme jamais auparavant, sans frontière de temps ni d’espace (ex : analyse des commentaires clients dans les
questionnaires de satisfaction et corrélation avec la notation ; détection de nouvelle segmentation via des algorithmes d’analyses non propriétaires).
Document réalisé par la Société Corp Events - Janvier 2015
107
Retours d’expériences Big Data en entreprise
AUTRES ÉLÉMENTS STRUCTURANTS
La mise en place du lac de données a été un révélateur et un catalyseur de nouveaux usages pour l’ensemble des
métiers, encouragés par des coûts et une performance de traitement sans commune mesure avec l’existant. Elle
ouvre la place, au-delà de l’amélioration de la Business Intelligence et du développement de la Business Analytics,
au développement de la Data Science pour tirer le maximum de valeur du capital informationnel de l’entreprise.
Elle a mis en évidence la nécessité d’une gouvernance de la donnée resserrée pour maîtriser l’explosion des données et des usages.
Le lac de données est la première étape vers la construction d’une infrastructure fédérée des données entre
monde opérationnel et monde analytique (Shared Data Back Bone), dont la frontière disparait.
SENTELIS - ÉNERGIE
CADRAGE DE LA 3ÈME PLATEFORME (BIG DATA & DIGITAL READY)
CLIENT : Un des plus grands groupes mondiaux du secteur de l’énergie
Porteur du Projet : Jean-Baptiste CECCALDI
CONTEXTE
Plusieurs tendances de fond, déjà engagées, révèlent et vont cristalliser les limites des Systèmes d’Informations.
Ces tendances de fond concernent toutes les Branches, toutes les BU. Elles vont induire de nouvelles exigences
multi-branches et reflètent les enjeux du digital pour l’entreprise.
Des expérimentations ont déjà été entamées par les BU pour répondre localement à ces sujets. Mais des stratégies ou des choix locaux non encadrés (modèle d’architecture, technologies, recours au cloud,…) peuvent se
montrer incompatibles avec les enjeux ou créer de nouveaux risques, de nouvelles limites.
La DSI Corporate souhaite porter les transformations des SI du groupe et de ses pratiques.
OBJECTIFS DE LA MISSION SENTELIS
L’objectif de la mission a été de cadrer cette transformation au niveau groupe destinée à proposer à l’ensemble
des entités et filiales une réponse architecturale et technologique adaptée aux enjeux de partage/maîtrise/exploitation de la donnée pour accompagner les évolutions digitales à venir ou déjà engagées par les métiers.
Document réalisé par la Société Corp Events - Janvier 2015
108
Retours d’expériences Big Data en entreprise
LA DÉMARCHE A ÉTÉ LA SUIVANTE :
• Définition de la feuille de route globale à 18 mois : cible architecturale et technologique, trajectoire de transformation opérationnelle, organisation et cadre de gouvernance, plan de communication et de conduite du changement,
services à activer, budgets requis…
• Communication de la vision et de la proposition de la DSI Groupe auprès de la Direction Groupe et des Directions
des multiples entités
• Identification des premières cibles d’expérimentations concrètes – nécessaires pour démontrer et convaincre
rapidement de la pertinence des gènes du modèle « Architecture 3.0 »
• Préparation des éditeurs/fournisseurs technologiques aux sollicitations à venir
• Identification des contributions de partenaires clés – en particulier la Production sur les infrastructures et services
de production
• Approfondissement avec les BU/BL des cas d’application ou des besoins concrets déjà identifiés
Document réalisé par la Société Corp Events - Janvier 2015
109
Retours d’expériences Big Data en entreprise
SENTELIS - JEUX EN LIGNE
CADRAGE DU SOCLE BIG DATA & DES PREMIERS USAGES PILOTES 2015
CLIENT :Acteur majeur français du jeu
Porteur du Projet :Jean-Baptiste CECCALDI
CONTEXTE:
Le plan stratégique de cette entreprise vise entre autres :
• A renforcer la connaissance de ses clients et de ses modes relationnels
• A développer une offre multi canal
La DSI identifie des axes sur lesquels le SI présente des faiblesses structurelles, en particulier autour de la
maîtrise et du partage de la donnée
MISSION DE SENTELIS:
La mission a permis de délivrer en 6 semaines l’ensemble des éléments permettant de lancer sereinement la
fabrication :
• D’un SOCLE ‘Big Data’, garant de l’exigence industrielle en production, regroupant les fonctionnalités requises
pour supporter les premiers cas d’usage etpermettant de préparer le ‘coup suivant’
• Des premiers ‘USAGES’ pilotes, à choisir parmi les projets candidats inscrits au plan 2015, et permettant de
démontrer rapidement la valeur du modèle tout en maîtrisant les risques opérationnels
LES LIVRABLES SUIVANTS ONT ÉTÉ PRODUITS :
• Périmètre fonctionnel des pilotes, les objectifs associés (métiers et DSI)
• Orientations architecturales et technologiques, l’infrastructure nécessaire
• Planning de réalisation, échéances de livrables
•Equipe de réalisation et organisation
•Coût, prérequis de démarrage, risques majeurs à mettre sous contrôle
•Cible architecturale à long terme (inscrire les actions court-terme dans la bonne direction)
LES PROCHAINES ÉTAPES :
•Lancement de la phase d’industrialisation du socle Big Data et des projets candidats sélectionnés lors du cadrage
•Identification d’autres cas d’usage et accompagnement des projets pour leur mise en œuvre avec prise en
compte des évolutions nécessaires du socle
SENTELIS - EDITEUR SOFTWARE
PLAN DE TRANSFORMATION D’ENTREPRISE
CLIENT :Editeur et fournisseur de solutions informatiques mutualisées d’une grande banque internationale Française. Porteur du Projet : Jean-Nicolas BIARROTTE-SORIN
CONTEXTE :
Plan de transformation à 3 ans autour des axes suivants :
•Renforcement de la position vis-à-vis des filières à l’international
•Développement d’un nouveau business model et operating model
•« Fast IT »
•Sécurisation des données et applications
•Poursuite de la stratégie d’industrialisation
Document réalisé par la Société Corp Events - Janvier 2015
110
Retours d’expériences Big Data en entreprise
OBJECTIF DE LA MISSION SENTELIS :
La mission a consisté à :
•Définir les orientations d’architecture
•Elaborer le plan d’action de transformation
LES PILIERS MAJEURS DE CETTE NOUVELLE ORIENTATION ARCHITECTURALE SONT :
•Architecture Data Centric
•Architecture anywhere, anytime, any devices
•Mise en place de modèles permettant de déployer de nouvelles solutions transverses de niveau Groupe, en
s’appuyant sur trois dimensions complémentaires:
oUne approche socles différenciés, adaptée à la variété des entités,
oune approche SOA, pour faciliter l’intégration aux paysages locaux et avec le Corporate,
oune approche Cloud, pour être capable de supporter une variété de stratégie de déploiement (interne, externe,
hybride), en ligne avec la diversité des entités.
Document réalisé par la Société Corp Events - Janvier 2015
111
Retours d’expériences Big Data en entreprise
Document réalisé par la Société Corp Events - Janvier 2015
112
Retours d’expériences Big Data en entreprise
SOFT COMPUTING
BIG DATA : PREMIÈRES LEÇONS APRÈS 3 ANS D’APPLICATIONS
SUR LE TERRAIN.
LES ENJEUX
La révolution numérique qui se déroule sous nos yeux a pour corollaire une explosion des données, encore accentuée par le développement des objets connectés et la digitalisation des interactions. Ce déluge de données
ouvre de nouveaux horizons en matière de connaissance et de dialogue avec les clients. Le marketing devient
résolument conversationnel, individualisé, contextualisé, mobile, social, temps réel et omnicanal.
Fort de plus de 30 ans d’expérience en matière de valorisation du Capital Client, Soft Computing, Entreprise de
Services du Numérique spécialiste en CRM, Big Data et Digital, réunit près de 400 consultants, délivrant des prestations de Conseil, de Technologie et de Marketing Services.
Ainsi, nous accompagnons annonceurs & organisations, désireux de mettre en place des plateformes Big Data et
omnicanal, à relever les défis opérationnels suivants :
Comment capter, analyser, exploiter (en temps réel ou non) l’ensemble des données off line et on line pour activer
une animation visiteur/client rentable, engageante, cohérente sur l’ensemble des points de contacts ?
Comment réconcilier des données de navigation & « empreintes digitales » (authentifiés ou non) et données du
CRM tout en garantissant l’unicité, la qualité des données, ainsi que le respect des règles légales locales et/ou
internationales ?
Comment créer une infrastructure de données pérenne et agile, fondée à la fois sur la réalité des besoins opérationnels d’aujourd’hui et l’esquisse des usages de demain ?
Comment appréhender les nouvelles technologies émanant à la fois du monde innovant Open Source, des « pureplayers » et des éditeurs traditionnels et solides?
Comment préparer les organisations à la fois dans leur montée en compétence et leur transformation : DataScientism, Marketing prédictif, Agilité ?
NOS INTERVENTIONS
Nous menons plusieurs projets Big Data dans les secteurs de la Banque, le Retail, les Transports, l’énergie et des
Télécoms. Notre démarche pragmatique, pour maîtriser ces enjeux, guide nos interventions autour de 5 axes :
Cadrer : Aligner la stratégie, les besoins métiers et SI pour établir une trajectoire de mise en œuvre volontaire face
aux enjeux de marchés hautement concurrentiels,
Evaluer : Choisir les solutions technologiques pour répondre aux enjeux métiers & SI puis valider leurs bon fonctionnement et potentiel à travers des phases d’expérimentation ou Proof Of Concept,
Décliner : Mener les chantiers par priorité pour construire une solution pérenne, orientée résultat et génératrice
d’efficacité opérationnelle,
Déployer : Piloter toutes les phases projet pour garantir la bonne mise en œuvre et implémentation du nouveau
dispositif,
Piloter : Consolider les indicateurs de performance, QOS, QOD et mesurer leurs évolutions dans le temps tout en
mobilisant les ressources internes et externes au regard des objectifs définis.
Nos retours d’Expériences : L’accompagnement de l’un des acteurs majeurs de l’énergie en France, dans la mise
en œuvre d’une DMP (Data Management Platform) a fait ressortir les points clés suivants :
DÉMARRER PETIT POUR FINIR GRAND :
Limiter le nombre de données first party en face des millions de lignes clients permet d’intégrer progressivement
des données complémentaires. Démarrer par des cas d’usages métiers simples et raisonnables permet de valider
le fonctionnement de la DMP par itération avant d’investir des cas complexes à forte volumétrie
SOIGNER LA RÉCONCILIATION DES DONNÉES WEB ET CRM :
Réconcilier les données Web et clients suppose de porter une attention particulière sur la gestion des identifiants
Internautes (cookies, IP, Mac…) et CRM (email, Id foyer, …). La connexion à l’espace client reste un vecteur privilégié et efficace pour rapprocher internaute et client (plus que le clic dans un e-mail par exemple).
AJUSTER LE DISPOSITIF DE TRAITEMENT AU REGARD DES USAGES :
Connaissance client, rebond entrant, campagne marketing ne nécessitent pas la même réactivité et le même type
de réponse. Aussi il est crucial de définir les usages temps réel versus batch à J+1 pour adapter le dispositif aux
différents besoins métiers L’accompagnement d’un leader du marché des Télécoms dans la mise en place d’un
socle de connaissance client omnicanal (Big Data) afin de parfaire sa maîtrise des canaux (reporting & dataviz),
l’analyse comportementale client, puis déclencher des actions personnalisées auprès des visiteurs sur des canaux
traditionnels (point de vente, service client…) et digitaux (bannière web, selfcare…), nous amène à souligner les
points suivants :
Document réalisé par la Société Corp Events - Janvier 2015
113
Retours d’expériences Big Data en entreprise
CONCEVOIR UNE SOLUTION AGILE ET INTEROPÉRABLE
Ne pas tenter de présumer des usages de la donnée de demain, mais plutôt imaginer le dispositif agile (architecture) qui permettra d’absorber rapidement une nouvelle source ou un nouveau format de donnée « sans retour
arrière » et sans déstabiliser les chaînes d’information critique (ERP, DWH…)
DIFFUSER EN TEMPS RÉEL LES INDICATEURS À FORTE VALEUR AJOUTÉE
Se mettre en situation de propager des données client à forte valeur ajoutée en temps réel (tags, éléments de
parcours ou scores) pour pouvoir demain activer la bonne action (push ou argumentaire de vente) au bon moment
quel que soit le canal (une poste vendeur ou une bannière web)
PENSER EXPÉRIENCE CLIENT CROSS CANAL SIMPLE ET ROI DIRECTEMENT
Expérimenter et driver des premiers développements à partir de use cases simples, réalistes simplifiant une expérience cross canal et génératrice d’un ROI rapide
Laisser place à la découverte des données
Laisser du temps aux équipes opérationnelles pour s’approprier et « cruncher » des nouveaux univers de données
(c’est le cas des données de navigation mobile ou selfcare) pour imaginer à la fois de nouveaux modèles statistiques prédictifs et de nouveaux processus client.
En synthèse, les principes mis en œuvre dans les projets de relation clients depuis plusieurs années s’appliquent
encore aujourd’hui dans cette nouvelle aire du « digital data driven ». Il apparait important de s’ouvrir aux nombreuses nouveautés qu’offrent ces perspectives tout en gardant une démarche pragmatique et orientée vers des
résultats opérationnels tangibles et concrets.
Document réalisé par la Société Corp Events - Janvier 2015
114
Retours d’expériences Big Data en entreprise
SYNCSORT - SFR
PROJET HADOOP CHEZ SFR
EFFICACITÉ ACCRUE GRÂCE AU PROJET HADOOP
En tant qu’opérateur télécom majeur comptant plus de 21 millions de clients, SFR collecte quotidiennement une
quantité énorme de données. L’objectif du projet Hadoop chez SFR était en premier lieu de réduire les coûts
d’exploitation de ces données. Au fur et à mesure que le volume de données augmente, il est de plus en plus
difficile et coûteux de stocker et traiter les données. En utilisant de façon optimale le cluster Hadoop et les outils
puissants de tri et ETL de Syncsort, il est possible de limiter l’investissement dans du nouveau hardware.
UN PROJET QUI NE SE TERMINE JAMAIS
SFR a décidé de lancer le projet Hadoop à la fin de 2013. Dans une première phase, le choix s’est porté sur la
distribution Hadoop Cloudera et début 2014, il a été décidé de travailler avec DMX-h de Syncsort pour loader et
offloader des données à partir du cluster Hadoop. SFR utilisait déjà l’outil ETL DMX de Syncsort pour quatre autres
projets, pour lesquels il avait fait ses preuves. Les très bonnes performances de DMX-h de Syncsort ont ensuite
pu être démontrées dans le cadre du Proof of Concept pour le projet Hadoop. “Nous travaillons encore en mode
batch,” explique François Nguyen, en charge de la division ‘Connaissance Client’ chez SFR. “ Cela implique que
nous disposons d’une fenêtre de traitement réduite. Nos engagements précédents avec Syncsort se sont révélés
très efficaces. Leurs capacités de tri n’ont pas d’équivalent sur le marché, et nous sommes très heureux que Syncsort soit l’un des véritables innovateurs sur le marché Hadoop. Leur mécanisme de tri est incorporé à la distribution
Hadoop que nous utilisons.
Au cours de l’été 2014, les premières sources de données ont été loadées dans le cluster Hadoop, et davantage
de sources seront ajoutées toutes les deux ou trois semaines. “Il ne s’agit pas d’un projet avec un horizon déterminé, nous allons continuer à ajouter des sources de données en permanence,” explique François Nguyen.
A l’heure actuelle, la division Connaissance Client gère une base de données très volumineuse , qui n’arrête pas
de croître. Les données traitées dans le cadre du projet Hadoop sont principalement des données structurées mais
on y retrouve également des données semi-structurées provenant de logs.
EN PRIMEUR
Le projet chez SFR est l’une des premières véritables expériences Big Data et Hadoop sur le marché français. Le
projet permettra à SFR de réaliser des économies, grâce à la performance des solutions implementées.
DE PREMIERS RÉSULTATS RAPIDES
L’une des premières réussites du projet a été la capacité à concrétiser les premières étapes dans le délai imparti
et selon le budget, ce qui est une prouesse compte tenu qu’il s’agit de l’introduction de technologies de pointe. La
mise en route aussi rapide du projet est principalement due au fait que SFR n’a pas eu à effectuer une phase de
tuning avant de commencer à utiliser DMX-h pour manipuler les données ni à réaliser de codage supplémentaire.
Les résultats seront évalués en permanence au fur et à mesure que de nouvelles sources de données s’ajoutent
au cluster Hadoop.
L’utilisation des puissantes capacités de tri de Syncsort DMX h n’ont pas rendues nécessaires l’acquisition de
hardware supplémentaire.
.
SYNCSORT - PAGESJAUNES
SYNCSORT AIDE PAGESJAUNES À TIRER LE MEILLEUR DES BIG DATA
PagesJaunes, filiale à 100% de Solocal Group (groupe coté sur le marché Euronext Paris), migre sur la plateforme
Hadoop pour optimiser ses outils d’aide à la décision. L’ETL pour Hadoop de Syncsort est apparu comme la solution la plus fiable, tant en termes de volumétrie que de rapidité, pour répondre aux nouveaux besoins business
dans le contexte d’une transformation numérique qui fait cas d’école aujourd’hui.
Document réalisé par la Société Corp Events - Janvier 2015
115
Retours d’expériences Big Data en entreprise
PagesJaunes est le leader français de la publicité et de l’information locale sur Internet (pagesjaunes.fr, pagespro.
com), mobile (sites et applications) et imprimé (l’annuaire PagesJaunes et l’annuaire PagesBlanches). PagesJaunes est aussi un des leaders des services de renseignements par téléphone et SMS (118008), des petites
annonces en ligne (annoncesjaunes.fr) et est le premier créateur de site Internet en France.
En pleine transformation numérique de ses métiers, PagesJaunes est à la recherche de solutions analytiques
agiles qui permettent à ses équipes commerciales de prendre les bonnes décisions, rapidement. « L’entreprise
s’est engagée dans une transformation de sa plateforme d’aide à la décision pour sortir de la Business Intelligence traditionnelle et tirer réellement des avantages business des Big Data. Notre ambition est de faire parler
les données, » situe Abed Ajraou, responsable de Domaine Business Intelligence au sein de Business Solutions
chez PagesJaunes. Il a rejoint l’entreprise il y a un an environ pour mettre en place une stratégie Big Data, dans
le contexte d’une migration d’une infrastructure base de données IBM avec appliance Netezza vers le framework
Hadoop. L’objectif est de faire face aux défis techniques en termes de capacité (explosion du volume des données), de stockage de données non structurées et de reporting en temps réel.
SYNCSORT PIONNIER SUR LE MARCHÉ
« ETL pour Hadoop permet d’optimiser notre informatique décisionnelle, » explique Abed Ajraou. En résumé,
l’enjeu consiste à mettre à disposition des responsables commerciaux des capacités d’analyse granulaire, leur
permettant d’optimiser leurs forces de vente par secteur géographique notamment.
La solution DMX-h fournie par Syncsort est utilisée pour l’extraction, la transformation et le chargement (ETL) sur
Hadoop, ainsi que pour des fonctions d’exportation et importation de données. « Les échos du marché étaient
positifs quant aux performances de l’ETL Hadoop de Syncsort. Des progrès considérables ont été réalisés en 2
ans. Nos tests et notre proof of concept ont également été concluants. Venant du monde du mainframe, le fournisseur jouissait déjà d’une réputation de solidité. Ce sont les premiers à fournir ce genre d’outil sur Hadoop.,»
souligne Abed Ajraou.
Bien que la vocation première du projet Hadoop chez PagesJaunes ne soit pas de réaliser des économies, mais
bien d’améliorer la qualité des données et booster ainsi les performances commerciales, le coût abordable de la
solution Syncsort est également un argument non négligeable : « la solution devrait nous permettre de faire des
économies substantielles sur les coûts de support logiciel. Nous pourrons faire beaucoup plus avec beaucoup
moins, » affirme Abed Ajraou. Le déploiement d’applications sur Syncsort DMX-h a démarré début 2015. Un
premier retour d’expériences est attendu pour mars et sera d’ailleurs partagé à la conférence Big Data de Paris.
REPORTING FINANCIER EN TEMPS RÉEL
Une demi-douzaine d’applications web sont progressivement mises en production. Elles visent pour la plupart à
booster les performances des équipes marketing et ventes en accélérant le reporting financier, le cas échéant sur
un appareil mobile. Les applications sont en effet conçues selon les principes du ‘responsive design’. « Un point
central porte sur la possibilité de rafraîchir les chiffres de ventes, toutes les 5 minutes, par produit, par segment,
par géographie ou par agence. »
Globalement, les enjeux de performances techniques sont davantage liés à la rapidité des temps de réponse et à
la granularité des données analysées qu’au volume de données en tant que tel. « Nous parlons de 45 millions de
lignes de data, ce qui n’est pas si énorme comparé à d’autres implémentations sur Hadoop. La plateforme nous
permet à l’avenir de gérer de gros volumes de données pouvant atteindre entre 15 et 20 To de données, » poursuit
Abeb Ajraou. Ce projet Big Data sur Hadoop est emblématique d’une stratégie d’entreprise qui met l’informatique
au service du business, n’hésitant pas le cas échéant à anticiper les besoins des équipes commerciales et à
leurs donner des instruments de proactivité. « Ce n’est pas pour rien qu’au sein de PagesJaunes, le département
‘systèmes d’information » a été rebaptisé ‘Business Solutions’, avec une mission qui va bien au-delà d’un simple
support opérationnel. Ce type de projet contribue à renforcer la valeur ajoutée de l’informatique auprès de la direction générale,» souligne Abed Ajraou.
SYNCSORT - TÉLÉCOMS, MÉDIAS, ENTERTAINMENT
COMMENT LIBÉRER LES CAPACITÉS DES BASES DE DONNÉES ET
RÉDUIRE LES COÛTS AVEC HADOOP
Profil de l’entreprise : Grand groupe de télécoms, médias et home entertainment.
PROBLÉMATIQUE
Acteur majeur du home entertainment, cette entreprise génère et collecte des volumes de données parmi les plus
importants du marché. Pour cela, elle exploite un data warehouse Netezza de plusieurs pétaoctets dont le volume
suit chaque année une croissance à deux chiffres. Comptes clients, communications, programmes de fidélisation,
paramètres de confidentialité, mesures d’audimat… ce data warehouse sous-tend les applications critiques de
toute l’entreprise.
Document réalisé par la Société Corp Events - Janvier 2015
116
Retours d’expériences Big Data en entreprise
Au départ, l’entreprise avait choisi d’associer Informatica à du codage SQL manuel pour effectuer ses traitements
ELT lourds dans la base de données Netezza, y compris des operations courantes comme le tri, l’agrégation et
la CDC (Change Data Capture). Or, cette approche extrêmement gourmande en capacités Netezza s’est très tôt
révélée ingérable car très coûteuse en mises à niveau des matériels, logiciels et bases de données. Côté ressources, la pression était également énorme car les développeurs ETL devaient consacrer un temps précieux à
optimiser et maintenir des centaines de lignes de code SQL, ne laissant que très peu de marge à la gestion des
nouveaux besoins métiers.
SOLUTION
Face à la hausse des coûts de ses logiciels de bases de données et ETL, l’entreprise décida de stopper tout investissement dans sa plate-forme ETL existante — devenue ni plus ni moins qu’un planificateur de tâches onéreux
— et d’offloader plus de 500 opérations ELT vers Netezza.
Pour mettre la solution en place, elle s’est tournée vers Syncsort. Rapide et sécurisé, le logiciel d’entreprise Syncsort DMX-h permet aux entreprises de développer des flux de données sophistiqués dans Hadoop, sans aucune
écriture ni optimisation de code. Syncsort DMX-h s’exécute nativement sur YARN. Contrairement à d’autres solutions, ce logiciel ne génère aucun code Java, Pig ou HiveQL et ne nécessite aucune compilation, optimisation ou
maintenance de code.
Une fois les objectifs et le cahier des charges connus, Syncsort a proposé à son client une solution d’offload de
son data warehouse.
L’une des principales vocations d’Hadoop consiste à prendre le relais de systèmes anciens et coûteux pour le
stockage et le traitement de données. Or, sans les outils appropriés, l’identification, l’accès et le transfert des
données vers Hadoop peuvent rapidement se révéler complexes. C’est pourquoi Syncsort offre des outils ciblés
permettant d’offloader rapidement et efficacement les traitements batch et ELT des data warehouses vers Hadoop.
Pour l’entreprise, l’adoption d’une solution d’offload Syncsort-Hadoop représentait le meilleur moyen de réduire
ses coûts et de préparer son infrastructure de gestion des données aux futures initiatives métiers. Ainsi, outre la
forte preference du client pour l’open source pure, le partenariat étroit entre Syncsort et Hortonworks a favorisé sa
décision en faveur d’Hortonworks Data Platform comme plate-forme Big Data pour son projet d’offload.
RÉSULTATS
En offloadant le data warehouse, la solution Syncsort-Hortonworks est appelée à générer plusieurs millions de
dollars d’économies sur différents facteurs de coûts dans les années à venir :
•’’Matériels et logiciels de bases de données
•’’Licences logicielles ETL
•’’Maintenance et optimisation des codes SQL
La pénurie de développeurs Hadoop compétents en Pig, Hive et MapReduce constituait l’un des principaux obstacles à l’adoption d’Hadoop dans l’entreprise. Grâce à son interface graphique, Syncsort DMX-h a permis aux
développeurs d’exploiter leurs compétences ETL existantes pour créer des flux et traitements de données sophistiqués, sans aucun codage manuel. Par exemple, il n’a fallu qu’une semaine à un développeur pour transférer une
opération ELT de 340 lignes SQL vers DMX-h. Cette même opération lui aurait pris entre trois et quatre semaines
de codage.
La connectivité complète de DMX-h à Hadoop permet aux équipes informatiques d’extraire et de charger nativement les données depuis la plate-forme HDP ou d’exécuter une opération « hors cluster » sur un serveur ETL.
Par ailleurs, l’intégration étroite de DMX-h à Apache Ambari, au JobTracker d’Hadoop et aux protocoles standards
de sécurité comme LDAP et Kerberos leur permet de déployer, maintenir, monitorer et sécuriser leur nouvel environnement HDP en toute simplicité.
Enfin, cette nouvelle architecture offre une plate-forme plus flexible, scalable et économique pour le déploiement
de nouvelles initiatives métiers : collecte et analyse d’un plus grand nombre de données issues des box TV-Internet, augmentation des mesures d’audimat et assimilation des données d’activité des internautes.
L’ENTREPRISE SYNCSORT
Syncsort propose des logiciels d’entreprise sûrs et performants. Solutions Big Data dans Hadoop ou applications
Big Iron sur mainframes : quels que soient les enjeux de nos clients, nous intervenons dans le monde entier pour
accélérer la collecte, le traitement et la diffusion de leurs données, tout en réduisant les coûts et les ressources
engagés. C’est pourquoi la majorité des entreprises du Fortune 100 font confiance à Syncsort. Utilisés dans plus
de 85 pays, nos produits vous permettent de réaffecter vos charges coûteuses et inefficaces, d’accélérer les traitements dans votre data warehouse et sur votre mainframe, et d’optimiser l’intégration de vos données au Cloud.
Pour en savoir plus, rendez-vous sur www.syncsort.fr
Document réalisé par la Société Corp Events - Janvier 2015
117
Retours d’expériences Big Data en entreprise
TABLEAU SOFTWARE - BNP PARIBAS
LA CONCEPTION DE L’AVENIR DE L’UNE DES PRINCIPALES SOCIÉTÉS DE
SERVICES FINANCIERS D’EUROPE
oPartner : BNP Paribas
oContact person : Pierre Thebault (BNP Paribas) and Edouard Beaucourt (Tableau Software)
OBJECTIFS
Innover pour développer des parts de marché, remporter de nouveaux clients et augmenter la part du portefeuille
de clients existants.
PRÉSENTATION:
Le géant bancaire français a misé sur Tableau pour recueillir et analyser ses données en seulement quelques minutes. La division BNP Paribas du Sud-Ouest de la France dispose maintenant de la capacité de visualiser les tendances de géocodage utilisées dans le cadre des campagnes commerciales et marketing de la banque. Et l’aperçu
partagé et détaillé de la performance de 2 000 agences à travers la F contribue à renforcer la compétitivité.
ASPECTS INNOVANTS
Pierre Thebault, géoanalyste, est chargé d’analyser et d’identifier les tendances de géocodage au sein d’une région. Grâce à Tableau, il traque les opportunités de prospecter de nouveaux clients et de développer de nouvelles
campagnes marketing extrêmement ciblées : « Tableau est le moyen le plus rapide de passer des données aux
décisions ». Il est à même de localiser et de visualiser le nombre de prospects dans la région de Toulouse, et de
les segmenter par revenus, par risques et selon les services financiers de BNP Paribas dont ils disposent déjà.
S’ils ont souscrit un prêt immobilier, ils constituent un candidat potentiel pour la souscription d’une assurance habitation ou d’une carte de crédit. Tableau permet de visualiser l’ensemble des données en quelques secondes, ce
qui permet son équipe de transmettre ce public cible segmenté aux équipes commerciales internes de la banque
pour un suivi immédiat.
BNP Paribas recherche constamment des manières de différencier ses services en offrant une expérience plus
localisée. Tableau permet à la banque d’étudier la localisation des distributeurs automatiques de billets des concurrents et d’identifier les sites potentiels pour de nouveaux distributeurs : « Comparer la localisation de nos clients
avec la disponibilité du réseau existant de distributeurs automatiques de billets nous permet de cibler de nouveaux
emplacements de distributeurs », déclare Pierre Thebault.
Malgré l’expansion des services bancaires en ligne, les français restent attaches aux agences physiques. Tableau
représente la source primaire pour les rapports sur la performance des 2 000 agences BNP Paribas française.
Directeurs et responsables partagent un aperçu détaillé de la performance de chacune des agences : chiffre
d’affaires, rentabilité, personnel, adoption des services bancaires en ligne de la part des clients, etc. « L’accès
rapide à des données fiables, grâce à Tableau, se traduit par une prise de décision vive et fiable concernant les
agences », affirme Pierre Thebault. Il poursuit, « Avant Tableau, nous utilisions des feuilles de calcul et une base
de données Access. Cela nous prenait des heures, des semaines, voire des mois, pour trouver les données
correctes et les réponses dont nous avions besoin. Désormais, grâce à Tableau, l’intégration homogène et la
simplicité d’utilisation signifient que nous obtenons les réponses en quelques minutes. Cela rend-il la banque plus
perspicace ? Oui, sans l’ombre d’un doute. »
PROCHAINES ÉTAPES
La majeure partie de l’inspiration pour ce programme couronné de succès appartient à Mydral, le partenaire
d’exécution de BNP Paribas. La vision, la perspicacité et l’expérience de l’équipe de Mydral ont contribué au
lancement de Tableau en quelques jours. Mydral a également fourni à BNP Paribas trois jours de formation et de
transfert des connaissances afin de garantir que l’équipe soit opérationnelle presque immédiatement.
Ce projet attire désormais l’attention d’autres services de la banque. BNP Paribas déploie actuellement Tableau
sur les sites régionaux de Paris et Nantes dans le cadre d’un projet de segmentation de la clientèle. Ces données
sont utilisées pour comprendre les tendances, concevoir de nouvelles campagnes, et maximiser la valeur de BNP
Paribas tirée des données marketing.
Document réalisé par la Société Corp Events - Janvier 2015
118
Retours d’expériences Big Data en entreprise
TABLEAU SOFTWARE - CROIX ROUGE
TABLEAU SOFTWARE AMÉLIORE L’ANALYSE TRANSVERSE ET VISUELLE
DES INDICATEURS DE LA CROIX ROUGE FRANÇAISE.
oPartner : Croix Rouge française
oContact person : Marie-Ange Tnani (Croix Rouge française) et Edouard Beaucourt (Tableau Software)
OBJECTIFS :
La Croix-Rouge française faisait face à un cloisonnement des systèmes d’information, sans vision transversale,
avec une remontée d’informations irrégulières. L’association souhaitait mettre en place un système d’information
décisionnel transverse s’appuiant sur une plateforme complète: un outil d’ETL, une base de données et un outil
de tableaux de bord.
PRÉSENTATION:
Association à but non lucratif, la Croix-Rouge française dispense ses services dans les domaines sanitaire, social,
médico-social, de la formation, et de l’action humanitaire. Près de 54000 bénévoles renforcent les 18112 salariés
qui sont répartis dans plus de 570 établissements. Au cœur de l’association, les systèmes d’information (SI)
ont pris une place prépondérante, accompagnant le développement et les besoins des différents métiers de la
Croix-Rouge française. Quarante-trois personnes travaillent à la Direction des Systèmes d’Information, auxquelles
s’ajoutent 7 responsables informatiques régionaux. Le budget de la Direction des Systèmes d’Information dépasse
8 millions d’euros.
«Les années 2000 ont vu le développement des systèmes d’information dans l’optique d’un meilleur pilotage
de l’ensemble de l’association» explique Laurent Monnet, Directeur des Systèmes d’Information de la CroixRouge française, «en suivant une logique d’harmonisation de nos solutions, de rationalisation de nos ressources». L’ambition affichée de la Direction des Systèmes d’Information est d’optimiser le pilotage de l’activité de
l’association.
« Lors de la construction des SI, nous étions focalisés sur le développement de la partie support et transactionnelle. Désormais, l’attente des utilisateurs est forte pour des outils de pilotage. Le moment était venu de réfléchir à
une architecture décisionnelle» développe Laurent Monnet. La Croix-Rouge française faisait face à un cloisonnement des systèmes d’information, sans vision transversale, avec une remontée d’informations irrégulières.
«Nous souhaitions en complément de notre outil de reporting un outil convivial, intuitif pour les utilisateurs, qui
permette des représentations graphiques dynamiques, des résultats en temps réel» précise Marie-Ange Tnani,
Pôle Applications et Développement et Chef de Projet Système d’Information Décisionnel. Aidée par Altic, intégrateur de solutions Open Source pour le Décisionnel, le traitement des flux de données et les outils collaboratifs, la
Direction des Systèmes d’Information a fait le choix de Tableau Software.
«Spécialiste dans son domaine, Altic a su comprendre nos besoins, dans une vraie logique d’accompagnement,
en nous orientant vers une architecture complète, performante et évolutive » se satisfait Marie-Ange Tnani, « La
Document réalisé par la Société Corp Events - Janvier 2015
119
Retours d’expériences Big Data en entreprise
nécessité était forte d’un outil qui permette une grande autonomie des utilisateurs, donc avec une ergonomie
soignée, une grande facilité d’usage.» Les premiers résultats probants n’ont pas tardés. En l’espace de 2 mois et
demi, un datawarehouse complet a été construit sur les EHPAD (Établissements d’Hébergement pour Personnes
Âgées Dépendantes). Cet entrepôt de données comprend 43 indicateurs et 6 sources de données différentes
(comptabilité, ressources humaines, budget, métier, trésorerie, organisation).
ASPECTS INNOVANTS:
« En 3 semaines, avec Tableau, la Croix-Rouge française disposait de son premier tableau de bord. Par expérience, il aurait fallu 6 mois pour un tel résultat » insiste Marc Sallières, fondateur d’Altic. Tableau joue un rôle
majeur d’accélérateur et catalyseur en étant un outil de data visualisation majeur dans une chaine de Business
Intelligence, qui apporte agilité, souplesse et rapidité dans la restitution de l’information.
« Tableau nous a permis de donner aux managers des indicateurs pour piloter leur organisation. Les utilisateurs
découvrent et s’approprient les données » détaille Marie-Ange Tnani.
« Les résultats tangibles sont immédiats : en cassant les silos, on crée un langage commun autour de la donnée.
Les utilisateurs se retrouvent autour de définitions. Cela créé un cercle vertueux d’amélioration continue de la
qualité des données, en mettant en relief les incohérences existantes.»
Tableau Software offre une représentation géographique
PROCHAINES ÉTAPES:
Les premières restitutions graphiques ont conforté la Direction des Systèmes d’Information dans son choix. « Tableau
offre une vue transverse qui intègre des indicateurs de différentes sources, avec une représentation géographique
de certains de ces indicateurs » souligne ainsi Marie-Ange Tnani. A terme, la Direction des Systèmes d’Information
de la Croix-Rouge française vise la fourniture de tableaux de bord pour ses 570 établissements, consultables via le
reader de Tableau. « Le cout global de la solution, maitrisée, nous autorise cette ambition » conclut Laurent Monnet.
TABLEAU SOFTWARE - ISCOOL
EN CINQ ANS, ISCOOL A QUADRUPLÉ SES REVENUS
GRÂCE À TABLEAU SOFTWARE
oPartner : IsCool
oContact person : Gaëlle Periat (IsCool) et Edouard Beaucourt (Tableau Software)
PRÉSENTATION:
Des revenus issus du jeu qui ont quadruplé en cinq ans. Plusieurs teraoctets de Big Data concernant les joueurs ont
été exploités, afin de permettre une prise de décision agile et efficace. « Des analyses visuelles ont été réalisées
en quelques minutes, contrairement aux semaines d’attente qui étaient parfois nécessaires avec une précédente
solution d’informatique décisionnelle. Il ne s’agit que de quelques uns des principaux aspects de l’utilisation que
Document réalisé par la Société Corp Events - Janvier 2015
120
Retours d’expériences Big Data en entreprise
fait IsCool de la solution d’analyse par virtualisation en temps réel de Tableau Software. En comprenant mieux les
préférences, les comportements et les besoins des joueurs, cette importante société de jeu européenne fait croître
en taille et en nombre ses communautés mondiales de joueurs, pour un coût de possession remarquablement bas.
UN CHEF DE FILE DU MARCHÉ EUROPÉEN DU JEU EN LIGNE
Chef de file européen dans le secteur du jeu en ligne, IsCool Entertainment réunit 2,8 millions d’utilisateurs sur
Facebook et d’autres médias, au sein de jeux interactifs comme IsCool, Star Connect et Temple Of Mahjong. L’un
des catalyseurs du succès de cette société est son utilisation extrêmement précise des outils d’informatique décisionnelle, c’est-à-dire une approche rigoureuse de l’analyse des profils des clients, de l’adoption par les utilisateurs
et des modes de jeu.
Trois ans auparavant, alors qu’IsCool disposait d’une base de 400 000 utilisateurs et annonçait des bénéfices
de 3 millions de dollars, cette société parisienne se basait sur une approche simple de l’intégration des données et de l’informatique décisionnelle pour guider ses choix. Celle-ci était composée d’outils d’intégration open
source et d’une solution logicielle commerciale de visualisation décisionnelle. Cependant, les 18 millions d’actions
aujourd’hui générées quotidiennement par les utilisateurs ainsi que des revenus quadruplés par rapport à 2009
imposent à cette société de s’axer sur une analyse agile des Big Data.
« Les données de jeu croissent exponentiellement et évoluent en temps réel », explique Gaëlle Periat, analyste
numérique chez IsCool. « Nous collectons des données issues des journaux des applications, des publications
Facebook et des repères analytiques. Il est impératif que ces données soient fournies sans délai aux décideurs
commerciaux afin qu›ils puissent, en temps opportun, proposer de nouvelles offres aux joueurs, prendre des décisions en matière de développement des jeux et conférer aux campagnes publicitaires un impact maximal. »
IsCool avait également besoin d’une approche flexible concernant la visualisation et la présentation des données.
Les concepteurs de jeux, par exemple, souhaitaient bénéficier de graphiques visuels et intuitifs, afin de pouvoir
ajouter de nouvelles fonctionnalités à leurs réalisations actuelles les plus populaires. Les développeurs préféraient
consulter des rapports générés à partir des fichiers journaux techniques. Les cadres supérieurs d’IsCool nécessitaient quant à eux une vision instantanée des prévisions de revenus, des pipelines et des dépenses publicitaires.
DES RAPPORTS QLIKVIEW PÉRIMÉS DÈS LEUR CRÉATION
Encore récemment, IsCool était équipée d’un outil QlikView. Selon Gaëlle Periat, la nature fermée de cette technologie impliquait la présence permanente d’un analyste qui devait participer à l’intégration des données. « Chaque
fois qu’un cadre supérieur exigeait un rapport, nous devions mettre en place certains scripts, ce qui retardait inévitablement la fourniture des résultats », explique-t-elle.
Afin de pallier à cette situation, IsCool a adopté en standard une solution d’analyse visuelle en temps réel proposée par Tableau. À la pointe de sa catégorie, cette solution d’informatique décisionnelle efficace, rentable et collaborative est utilisée par 20 équipes au sein de la société, afin de permettre des prises de décisions ponctuelles
et fiables. IsCool peut connaître instantanément le nombre d’utilisateurs de ses jeux (trafic), les fonctionnalités
les plus couramment utilisées, la durée des sessions de jeu, les téléchargements les plus populaires, et bien plus
encore.
UNE AUGMENTATION DE 23 % DE L’INTERACTION AVEC LES JOUEURS
En exploitant les Big Data, l’équipe peut également étudier la corrélation entre la taille d’une communauté de
joueurs et son niveau d’interaction. Une fois l’une de ces communautés identifiée (qu’il s’agisse d’un simple
binôme de joueurs ou d’un regroupement de moyenne ou grande envergure), l’équipe peut interagir avec elle de
façon plus efficace, la fidéliser et la faire croître de façon spectaculaire.
Des jeux spécifiques passent eux aussi sous le microscope que constitue la génération de rapports. Tableau
permet de répondre à des questions telles que : « Un jeu est-il trop riche en fonctionnalités ? », « Quelles sont
les fonctionnalités utilisées par telle catégorie de joueurs ? », et « Comment optimiser l’accès aux fonctionnalités ? » De plus, IsCool peut désormais établir de façon fiable et rapide les différentes catégories d’utilisateurs,
caractérisées par leur profil d’interaction et leur utilisation des fonctionnalités. Cette meilleure compréhension de
l’interaction des utilisateurs avec les jeux IsCool a mené à une augmentation incrémentielle de 23 % de celle-ci,
pour certaines catégories d’utilisateurs ciblés.
Dans le même temps, les cadres autorisés d’IsCool reçoivent un rapport quotidien et essentiel de veille commerciale, qui comprend les revenus générés la veille classés par catégories, le nombre d’utilisateurs simultanés du
jour et le nombre de joueurs actifs. « Alors qu’il nous fallait jusqu’à une semaine pour préparer nos rapports dans
QlikView, nous pouvons maintenant élaborer et partager de nouvelles idées en quelques minutes avec Tableau. »
PRODUCTIFS EN QUELQUES MINUTES AVEC TABLEAU
Gaëlle Periat a été convaincue dès le début. « Lorsque j’ai intégré l’équipe d’IsCool, celle-ci m’avait dit : voici
Tableau, il sera ton meilleur ami. Sur le coup, je n’avais pas pris cette déclaration au sérieux. Mais en quelques
minutes, j’étais productive. Je pouvais développer de nouveaux rapports en temps réel et mettre en évidence des
résultats concernant l’expérience de jeu. Je n’aurais jamais pu faire cela auparavant. »
En transformant IsCool en une organisation de jeu agile et axée sur les données, Tableau a aidé cette société à
quadrupler ses revenus en cinq ans. « Tableau a permis à IsCool de prendre le contrôle des Big Data et a rendu
notre processus de prise de décision plus rapide, plus simple et plus efficace. Je doute qu’IsCool aurait pu passer
de 3 millions de dollars de revenus en 2009 à 13,2 millions de dollars aujourd’hui, sans la visualisation interactive
des données que nous procure Tableau », ajoute Gaëlle Periat.
Une autre composante essentielle de ce succès a été l’innovante base de données analytique Actian Vectorwise. En remplaçant une plate-forme open source, Vectorwise fournit à IsCool des performances ultra rapides et
rentables en matière de bases de données et d’informatique décisionnelle. Installée sur des serveurs virtuels pour
un traitement extrêmement efficace des Big Data, cette solution stocke jusqu’à un teraoctet de données de jeu.
Vectorwise permet à Gaëlle Periat et ses collaborateurs d’analyser un volume de données plus grand que jamais,
Document réalisé par la Société Corp Events - Janvier 2015
121
Retours d’expériences Big Data en entreprise
pour une fraction du coût du traitement classique de celles-ci. Elle précise : « En utilisant Vectorwise, IsCool peut
traiter et exploiter d’énormes quantités de Big Data sur des machines bien plus faiblement dimensionnées. Cette
rationnalisation permet à notre société d’économiser chaque année plus de 10 000 dollars de matériel. Pour une
petite entreprise dynamique comme IsCool, il s’agit d’une économie significative.
Pour Gaëlle Periat, il n’existe qu’une seule façon de résumer la valeur de Tableau. « Chez IsCool, nous pensons
que Tableau est très cool », conclut-elle.
TABLEAU SOFTWARE - NOKIA
L’EXPÉRIENCE UTILISATEUR À LA VITESSE DE LA PENSÉE : NOKIA
oPartner : Nokia
oContact person : Ravi Bandaru (Nokia) et Edouard Beaucourt (Tableau Software)
PRÉSENTATION:
L’auteur Robin Bloor est analyste principal chez Bloor Group, une société d’analyse en conseil, recherche et
technologie ciblant la recherche libre et l’utilisation des médias modernes pour regrouper des informations et
les redistribuer aux utilisateurs. Pour plus d’informations, consultez les sites www.TheBloorGroup.com et www.
TheVirtualCircle.com.
Cet entretien de Bloor Group s’inscrit dans le cadre d’un projet de recherche.
RÉSUMÉ
Avant Tableau, Nokia confiait ses rapports et ses analyses de données à des intermédiaires informatiques. Désormais, ce sont les utilisateurs qui tiennent les rênes. « L’analyste réalise à présent l’analyse lui-même dans une plus
grande mesure, sans que le service informatique n’intervienne entre lui et les données. »
Ravi Bandaru, responsable produit pour la visualisation et l’analyse des données chez Nokia, utilise Tableau depuis juillet 2010. Il affirme qu’au sein de cette société, 350 à 400 personnes utilisent Tableau (sous forme bureautique
ou interactive). Une véritable communauté s’est ainsi formée.
«Avant, les utilisateurs étaient effrayés à l’idée d’utiliser les outils de solution décisionnelle existants. Ils se reposaient alors sur des intermédiaires, comme le personnel informatique, pour s’occuper de leurs données», déclare-t-il.
L’ANALYSE INTERNE DE LA MÉMOIRE ACCÉLÈRE L’ANALYSE ET REND
L’EXPLORATION POSSIBLE
Selon lui, les capacités de mémoire interne de Tableau offrent deux avantages : une interface personnalisable et
une augmentation de la vitesse des performances des requêtes.
«L’analyste réalise à présent l’analyse lui-même dans une plus grande mesure, sans que le service informatique
n’intervienne entre lui et les données», déclare-t-il. «Ces capacités de mémoire interne me permettent d’explorer
des ensembles de données plus complexes et plus vastes, qui m’étaient auparavant inaccessibles.»
Nokia utilise Tableau dans le cadre d’analyses marketing et l’a installé sur sa propre base de données. Bandaru
déclare que les requêtes en direct normalement exécutées dans leur base de données ne donnent pas les temps
de réponse escomptés, à la différence de celles exécutées dans le moteur de données Tableau, qui apportent une
réponse instantanée à partir de laquelle il peut travailler. Il ajoute que Tableau est utile dans le cadre des analyses
ad hoc et que la plupart des analystes actualisent leurs données de façon hebdomadaire.
Bandaru poursuit en disant qu’il lui arrive de recommander Tableau à certains types d’utilisateurs. Parfois, ce sont
les utilisateurs eux-mêmes qui viennent à lui pour pouvoir l’utiliser. Toutefois, l’utilisateur final standard auquel il est
confronté n’est pas intéressé par les analyses, les statistiques ou le langage SQL.
UTILE POUR TOUS LES UTILISATEURS
Bandaru déclare : «Si l’utilisateur final est passionné de données ou d’analyses, il adorera utiliser Tableau car ce
logiciel lui permet d’accéder désormais à de nombreuses sources de données.» Un utilisateur moins expérimenté
peut l’utiliser simplement comme outil de solution décisionnelle. Il revient ensuite à la direction de proposer des
formations et d’expliquer que «cet outil permet de générer des travaux complexes, impossibles à réaliser avec
d’autres outils.»
Nokia utilise actuellement Tableau Version 6/6.1. Bandaru explique qu’il attend des
améliorations dans la version 7.0, telles que le partage d’extraits dans les classeurs, permettant ainsi à un extrait
de faire office de source de données, ou encore le partage d’extraits entre plusieurs utilisateurs du monde entier.
Document réalisé par la Société Corp Events - Janvier 2015
122
Retours d’expériences Big Data en entreprise
Il déclare que ce type de collaboration rationalisée serait particulièrement utile pour un nouvel employé non familiarisé avec le fonctionnement de l’entreprise. De nos jours, affirme-t-il, nous devons encore accéder à la source de
données d’origine. Mais il serait bénéfique à l’avenir que ce même employé soit capable d’extraire et d’utiliser les
données créées par n’importe quel service, et ce n’importe où.
Bandaru essaie de faire en sorte que le produit soit adopté dans une plus grande mesure en proposant des outils
de collaboration internes, tels que des wikis, des sessions des formations, des documents et des meilleures pratiques.
LA DIFFÉRENCE QUI FAIT LA DIFFÉRENCE
Comme l’illustre cette expérience utilisateur de Tableau version 6, Tableau passe du statut d’outil décisionnel dans
le sens traditionnel du terme à un statut de plate-forme décisionnelle capable de prendre en charge une grande
partie des besoins de solution décisionnelle d’une entreprise. D’un point de vue technique, la différence se situe au
niveau de l’architecture. La connexion directe tire profit de sources de données existantes très performantes. De
plus, le moteur de données de mémoire interne génère d’innombrables possibilités. Grâce aux fonctions de mise
en mémoire cache et de traitement, les ensembles de données ne doivent pas être nécessairement chargés en
totalité dans la mémoire pour que l’analyse puisse débuter.
Mais il est probable que l’utilisateur ne le sache pas ou ne s’en soucie guère. Seules la vitesse et la portée sont
importantes à leurs yeux. L’analyse peut s’effectuer à la vitesse de la pensée. Il est ainsi possible d’exploiter davantage de données sur un matériel plus restreint. On peut parler de véritable analyse ad hoc lorsque l’utilisateur
n’est pas obligé de déterminer à l’avance les mesures à agréger ou à interroger. L’utilisateur peut explorer les
données sous toutes ses formes, y entrer dans le détail ou les résumer en catégories. Quasiment tous les types
de visualisation de données sont regroupés dans cette solution, et capables de traiter des ensembles de données
volumineux à la vitesse de la pensée.
TABLEAU SOFTWARE - PHARMASECURE
PHARMASECURE ENHANCES ITS CUSTOMER VALUE
PROPOSITION WITH TABLEAU
oPartner : PharmaSecure
oContact person : Abhijit Acharya (PharmaSecure) et Edouard Beaucourt (Tableau Software)
PRÉSENTATION:
PharmaSecure, a technology provider for the healthcare industry, recognised that the company’s success was
underpinned by its ability to understand patient data, derive critical insight and share it with customers regularly.
Today, Tableau is helping PharmaSecure adopt an insight-driven customer service strategy that has helped the
company:
•Cut reporting time by weeks
•Instill a culture of data-driven decision making in the organisation
•Add value to stakeholder ecosystem—helping customers understand patient consumption behaviour and enabling patients to better depend on medicine
CREATING A DATA-CENTRIC VALUE SYSTEM FOR CUSTOMERS
PharmaSecure is a US-based software and technology company working towards improving global public health.
Its offerings encapsulate a range of solutions that work towards eliminating counterfeit drugs, connecting patients
with safe medicines, and impacting patient adherence.
The company works with pharmaceutical companies to print unique, randomly generated codes on medicine packages. These identification codes serve two purposes: First, they allow manufacturers to track each strip or blister
pack and shipping carton they produce. Second, patients can verify the authenticity of their medicine through SMS,
mobile app or by feeding it on the company website.
As part of this verification process, PharmaSecure enables access to a mobile health platform, allowing users
to opt in to customized mobile heath programs. These programs have applications such as reminders to refill
medicines, dosage checks, providing health tips etc. By creating this valuable ecosystem, PharmaSecure acts a
facilitating link adding immense value to healthcare users and drug manufacturers.
Document réalisé par la Société Corp Events - Janvier 2015
123
Retours d’expériences Big Data en entreprise
RECOGNIZING AN OPPORTUNITY
With the industry-wide transformation in the way healthcare is obtained, delivered and paid for, pharmaceutical
companies are scouting for tools that can help them decode patients’ behaviour and consumption patterns.
In the context of this trend, PharmaSecure wanted to gain insights from its growing data repository to help strengthen their partnerships with pharmaceutical customers while helping patients manage their diseases better.
“Data is at the corner stone of our business and we needed to make that our differentiating element. As a company,
our data volumes, client portfolio and maturity had undergone an evolutionary curve and it was time for us to use
an effective solution that could generate definable, powerful and intuitive analytics,” says Samit YADAV, Senior
Director, Technology and Operations, PharmaSecure.
At first, the team analysed its data through a cumbersome and inefficient process. Team members would dedicate
time every week to extracting information from different sources, populating Excel sheets with the data and finally,
deriving graphs to visually represent the findings. To address this challenge, the company wanted an analysis solution that would offer a faster, interactive experience.
USING THE POWER OF SIMPLICITY FOR POWERFUL ANALYTICS
After a careful evaluation of the players in the visual analytics marketscape, in 2013 PharmaSecure chose Tableau
software due to its polished and comprehensive offering.
Today Tableau software is used by most members of PharmaSecure’s Operations team. Typically, PharmaSecure’s MySQL and Excel data sources generate transactional databases of 200-500 rows a day, slated to reach
1000-2000 rows over the next six months.
Throughout the span of 18 months that the company has used Tableau, they are gaining value by drawing insights
from an ever increasing quantum of data. Today all internal reports are generated on Tableau with insights extracted from data every week and every month. This move to a prescriptive style of analytics triggers faster decision
making for the company.
BELIEVING IN DATA ANALYTICS AND ITS INFLUENCE
Using Tableau, the company has been able to maximise the value from their growing data without having to invest
any additional resources.
“Tableau’s power lies in its simplicity and intuitiveness. Putting Tableau over our data integration layer, has given
us substantially greater insight across the business operations- supply chain, time to market, program enrollment,
distribution, sales force effectiveness among other aspects,” Abhijit elaborates.
Going forward, PharmaSecure will also start Tableau deployment with its customers whereby they will be able to
not only access but build Tableau data charts on their own.
“The biggest highlight of using Tableau has been that our entire team now truly believes in the power of insightful
data. Thanks to Tableau, we as an organisation have become a lot more excited about using data in impactful and
interesting ways for our customers.”
TABLEAU SOFTWARE - SKYROCK
SKYROCK.COM S’OFFRE UN OUTIL DÉCISIONNEL
RAPIDE ET FACILE À UTILISER
oPartner : Skyrock.com
oContact person : Loïc Cadiot, chef de projet chez Skyrock et Edouard Beaucourt (Tableau Software)
OBJECTIFS:
Uniformiser les outils décisionnels. En effet, jusqu’à récemment, la réponse de Skyrock consistait à autoriser
chaque service à utiliser son propre outil décisionnel, au détriment de l’efficacité, de la productivité et de la convivialité. Par exemple, les utilisateurs Marketing pour la partie « éditeur » (construisent le site) utilisaient un système,
tandis que ceux de la régie publicitaire (monétisent le site), en utilisaient un autre pour présenter les impressions
de page, les visiteurs uniques, le CA généré… etc. Skyrock s’est rendu compte que le choix d’une solution décisionnelle standardisée, unique et ultraperformante transformait la capacité de ses utilisateurs à analyser et comprendre les données. Cela s’explique par le fait que naturellement, on voit et on comprend plus efficacement les
données avec des visualisations interactives. Au final, le nouveau système de Skyrock a apporté des réponses aux
questions, permettant ainsi de faire progresser les audiences web et les revenus publicitaires.
PRÉSENTATION :
Skyrock.com est le premier réseau social de blogs français et européen, avec plus de 34 millions de blogs dans
le monde. « Skyrock doit analyser de grandes quantités de données, et Tableau est une solution ultraperformante
Document réalisé par la Société Corp Events - Janvier 2015
124
Retours d’expériences Big Data en entreprise
qui facilite grandement le reporting. La production de rapports devient plus ludique et efficace », explique Loïc
Cadiot, chef de projet chez Skyrock. « Étant donné que nous gagnons du temps sur la collecte et la présentation
des données, nous pouvons consacrer plus de temps à l’essentiel : l’analyse des données et la prise de décisions
qui favorisent la progression des audiences et les revenus publicitaires. »
Le problème : des systèmes informatiques hétérogènes. Comment bénéficier d’un outil décisionnel (business
intelligence) ultrarapide et facile à utiliser, portant sur les usages des utilisateurs sur les blogs et l’efficacité des
campagnes publicitaires ?
ASPECTS INNOVANTS
Les solutions faciles à utiliser font gagner du temps et améliorent l’analyse. Skyrock utilise une version complète
de la technologie Tableau afin d’analyser rapidement les usages web et les revenus publicitaires générés par ses
annonceurs. Les salariés se sont servis de Tableau pour créer des tableaux de bord intuitifs, publier les données
dans un navigateur et les incorporer dans des e-mails afin qu’elles puissent être partagées par les autres utilisateurs de la société. La majorité des employés accède à Tableau à partir d’un navigateur et est capable d’obtenir
les réponses à ses questions en quelques clics.
L’un des facteurs clés de la réussite de Tableau est son extrême rapidité et sa facilité d’utilisation. Le déploiement
de Tableau au sein de Skyrock a été géré en interne, sans soutien d’experts en technologie de l’information, et
aucune formation formelle n’a été nécessaire. Le personnel s’est formé principalement à l’aide de courtes vidéos
en ligne. Et les résultats parlent d’eux-mêmes : les rapports sur l’étude des usages web, qui autrefois nécessitaient une demi-journée, sont désormais créés en moins de 30 minutes. Par ailleurs, Tableau permet également la
production de rapports sous différents systèmes d’exploitations, réconciliant les plateformes Windows et Mac – un
problème auquel la société avait déjà été confrontée auparavant.
Document réalisé par la Société Corp Events - Janvier 2015
125
Retours d’expériences Big Data en entreprise
TALEND - LENOVO
LENOVO SÉLECTIONNE TALEND BIG DATA INTEGRATION POUR
AMÉLIORER ET ACCÉLÉRER SES PRISES DE DÉCISIONS BUSINESS
TALEND ENTERPRISE BIG DATA ACCROIT CONSIDÉRABLEMENT SON AGILITÉ ET SES
PERFORMANCES, TOUT EN RÉDUISANT SES COÛTS D’INTÉGRATION
Talend, le leader mondial des logiciels d’intégration des Big Data, annonce aujourd’hui que Lenovo a sélectionné
Talend Enterprise Big Data afin de mieux connaître ses clients en analysant des données issus d’un grand nombre
de points de contact – tiers, API et flux de réseaux sociaux – et en dégageant de ces données une image très
précise de ses clients.
N°1 mondial des fabricants de PC et n°4 des constructeurs de smartphones, Lenovo cherchait à rationaliser ses
processus d’intégration ainsi que le développement de rapports qu’utilise son département marketing pour analyser l’efficacité de ses campagnes. L’architecture open source de Talend et son modèle de licence prédictible basé
sur l’utilisation lui a offert la flexibilité nécessaire pour répondre à ses besoins, tout en garantissant l’évolutivité du
système d’intégration.
Grâce à Talend Enterprise Big Data, Lenovo assure l’intégration de ses Big Data à l’aide de près de 300 processus
exploités simultanément – chiffre qui est voué à croître dans les prochaines années. Parmi les nombreux bénéfices
obtenus par Lenovo depuis la mise en œuvre de Talend, les réductions de coûts enregistrées représentent environ
140 000 $ pour les seuls coûts de migration. En outre, Talend a aidé Lenovo à améliorer les performances de son
reporting, tout en raccourcissant les délais de traitement de plusieurs heures.
« Nous devons améliorer continuellement les délais d’acquisition des données et la facilité d’utilisation de la plateforme de Talend nous permet d’y parvenir » déclare Marc Gallman, Manager of Data Architecture chez Lenovo.
Ces gains d’efficacité se traduisent au final par l’amélioration et l’accélération des prises de décision, ce qui a un
impact positif sur les stratégies marketing du constructeur – à la fois localement et mondialement. Avec un accès
plus fréquent et plus rapide aux données, Lenovo est en mesure d’ajuster rapidement ses campagnes.
« Si les entreprises exploitent de plus en plus de données, elles continuent à éprouver des difficultés pour les
analyser, notamment du fait de leur incapacité à intégrer des données issues de systèmes traditionnels, des
réseaux sociaux et des nombreux systèmes déployés dans le Cloud » commente Mike Sheridan, Executive Vice
President of Sales, chez Talend. « Nous sommes fiers de voir Lenovo choisir les solutions de Talend et sommes
impatients de les aider à accéder plus rapidement et plus fréquemment à leurs données pour améliorer les prises
de décision. »
TALEND - BUFFALO
BUFFALO STUDIOS OPTIMISE LA VALEUR DES DONNÉES POUR
ACCROÎTRE SA COMPÉTITIVITÉ DANS LE SECTEUR DES JEUX SOCIAUX.
LA SOLUTION DE GESTION BIG DATA TALEND ENTERPRISE CONFÈRE À L’INFRASTRU
CTURE D’INTÉGRATION DES DONNÉES LA FLEXIBILITÉ DONT ELLE A TANT BESOIN
Buffalo Studios, une filiale de Caesars Interactive Entertainment (CIE) basée à Santa Monica en Californie, crée
des jeux de casino en ligne conviviaux et accessibles permettant aux utilisateurs de trouver de nouveaux amis
grâce au divertissement interactif. Le projet le plus considérable de Buffalo Studios est Bingo Blitz, le jeu de bingo
en ligne gratuit le plus diffusé dans le monde.
Document réalisé par la Société Corp Events - Janvier 2015
126
Retours d’expériences Big Data en entreprise
Des millions d’utilisateurs actifs propulsent chaque mois Buffalo Studios au sommet des classements sur Facebook, iOS, Android et Kindle. Barry Sohl, le directeur technique chez Buffalo Studios, est bien conscient des immenses opportunités d’affaires que génère la notoriété de leurs jeux. Encore faudrait-il savoir comment exploiter
les données efficacement…
« De manière générale, le secteur dans lequel nous évoluons fonde sa croissance sur les informations, » commente Sohl. « En effet, les informations que nous récoltons déterminent toutes nos décisions au niveau du marketing et du développement des produits. C’est grâce à cela que nous sommes toujours en avance sur nos concurrents. »
Dans le cas de Bingo Blitz, Buffalo recueille des données permettant de savoir quelles cartes ont été jouées
lors de chaque partie, si le joueur fait bingo ou pas, combien de crédits sont gagnés et dépensés, etc. « Chaque
mouvement des données récupérées est vital. Et nous avons des centaines de points de collecte d’informations
dans chaque jeu, » remarque Sohl, en ajoutant que l’entreprise traite plus de 100GB de données tous les jours, un
volume qui devrait augmenter rapidement.
Mais, bien sûr, il y a un obstacle. Selon Sohl : « Avant que ces données ne deviennent vraiment intéressantes
pour nous, nous devons les exploiter. Alors seulement pourront-elles se transformer en levier de croissance et en
avantage concurrentiel. Voilà pourquoi il est indispensable que les informations soient fiables et qu’elles puissent
être intégrées à l’intérieur de notre Data Warehouse. »
Élimination des blocages coûteux
L’intégration de données à l’intérieur du Data Warehouse a toujours représenté un défi à Buffalo, qui utilisait un
ensemble désordonné de code personnalisé et de scripts Python. Le résultat était bien en-dessous des attentes.
“Chaque semaine, nous délivrons de nouvelles fonctionnalités pour nos jeux, surtout pour Bingo Blitz. Nous avons
besoin d’outils spécifiques afin d’analyser leur comportement et identifier les plus performantes d’entre elles, »
explique Sohl. « Nous voulons savoir qui les utilise et mesurer leur incidence sur l’environnement du jeu. »
Pourtant, le système d’intégration de données tel qu’il était paramétré chez Buffalo rendait l’ajout de ces nouveaux
points de mesure extrêmement fastidieux. Comme Sohl l’indique : « Il s’agissait d’une opération manuelle très
pénible, au point que tout se bloquait au niveau de l’équipe chargée du traitement des données. Des informations
nouvelles et importantes se retrouvaient coincées dans l’infrastructure et souvent ne passaient même pas la
phase de l’extraction à partir des fichiers logs bruts. » Ces ralentissements ont hélas conduit l’équipe BI à penser
que les données n’existaient pas. « Pourtant, nous les récupérions. Simplement, elles n’arrivaient jamais au Data
Warehouse à cause de la lourdeur du flux, et les événements sur les données ne pouvaient y être ajoutés, » résume Sohl.
Le directeur technique et ses collaborateurs savaient pertinemment qu’ils devaient trouver une solution capable
d’apporter une plus grande flexibilité au niveau de l’intégration des données, ce qui leur permettrait d’ajouter de
nouveaux points de mesure, et de repérer les informations cruciales pour une prise de décisions éclairée.
FLEXIBILITÉ TOTALE : LA RÉPONSE DE TALEND
Après avoir pris en considération la possibilité de développer en interne en Java pur, Sohl et le service technique
ont décidé de s’adresser au meilleur éditeur sur le marché capable de répondre à leurs besoins. Talend est ressorti
de leurs recherches. En effet, précise Sohl, « Nous nous sommes aperçus immédiatement que Talend proposait
un environnement de développement plus complet et abouti que toutes les solutions faisant l’objet de nos évaluations. » Buffalo Studios a alors décidé d’effectuer des essais opérationnels de validation avec Talend et d’autres
éditeurs. Talend a donné les résultats les plus convaincants.
Et Sohl de poursuivre : « La solution d’intégration de données de Talend était basée sur Java, et nous avons beaucoup apprécié, parce que cela nous permettait de nous appuyer sur les compétences avérées de notre équipe.
Sans compter qu’elle offrait davantage de flexibilité et qu’elle pouvait être utilisée immédiatement telle quelle, sans
modifications, conjointement avec notre code Java personnalisé. »
Après réflexion, Buffalo Studios a donc choisi la solution d’intégration de données Talend, y incorporant quelques
composants spécifiques en Java, compatibles avec Talend.
LA MISE EN PLACE
Buffalo Studios a fait preuve de toute la diligence nécessaire afin de déterminer l’utilisation la plus efficace de
la solution Talend pour l’intégration des données, et l’implémentation de la version de production s’est faite de
manière rapide et indolore.
Avec l’aide d’Artha Data Solutions, un partenaire intégrateur de Talend, Buffalo Studios est passé de la conception
à l’implémentation du projet en quelques mois à peine. Et, puisqu’aucun de ses collaborateurs n’avait d’expérience
avec les solutions Talend, l’entreprise a adopté le système de formation en ligne, ce qui a permis à ses ingénieurs
d’acquérir en très peu de temps toutes les connaissances nécessaires.
Leads plus faciles à exploiter : analyse des informations plus rapide et plus grande productivité
Aujourd’hui Buffalo Studios utilise la solution d’intégration Big Data de Talend, et a obtenu la flexibilité qui lui
manquait auparavant. « Quand nous avons des besoins d’analyse spécifiques, nous pouvons maintenant écrire
nos propres composants Java et les incorporer à la solution Talend, » explique Sohl. « Et quand il s’agit d’ajouter
de nouveaux points de mesure des données, nous ne bloquons plus le processus à notre niveau, car nos développeurs travaillent simplement avec les outils sans avoir à effectuer manuellement de laborieuses modifications. »
Ce type de gestion allégée, à son tour, permet à Buffalo Studios d’ajouter de nouveaux points de données chaque
semaine. D’après Sohl, le problème des blocages au niveau des fichiers logs bruts devrait maintenant être totalement résolu.
Cet avantage revêt une importance capitale pour Buffalo Studios. En effet, si le service technique de Sohl n’arrive
pas à livrer les informations cruciales à la direction, les décisionnaires restent dans l’incertitude. « Nous avons
besoin de mesurer la performance de nos fonctionnalités, qu’elle soit bonne ou mauvaise, presque en temps réel.
Plus l’exploitation des données sera simple pour nous, plus l’équipe BI pourra en tirer parti. Talend nous aide à
Document réalisé par la Société Corp Events - Janvier 2015
127
Retours d’expériences Big Data en entreprise
optimiser les processus, à améliorer la rapidité et à accroître la valeur que nous pouvons tirer de nos données, »
précise Sohl. De plus, les ingénieurs de l’équipe technique gagnent en productivité, puisqu’ils n’ont plus de problèmes d’intégration à résoudre et peuvent de nouveau se concentrer sur la construction de technologie innovante.
C’est ce qui assure la croissance et la fidélisation des clients.
PERSPECTIVES
Globalement, Buffalo Studios est extrêmement satisfait de sa collaboration avec Talend.
« Nous portons beaucoup d’intérêt à l’exploration des nombreuses possibilités offertes par Talend en termes de
qualité des données. Je pense qu’il y aura un vrai potentiel à exploiter en élargissant le savoir-faire de Talend à
d’autres applications, et que nous pourrons alors bénéficier de nombreux avantages au fur et à mesure que nous
progresserons, » déclare Sohl.
Document réalisé par la Société Corp Events - Janvier 2015
128
Retours d’expériences Big Data en entreprise
VELVET - PAIEMENT
MONÉTISATION DE LA DATA D’UN ACTEUR DE LA CHAÎNE DU PAIEMENT
DANS LE CADRE D’UNE MISSION D’ÉTUDE D’OPPORTUNITÉ
Dans le cadre de sa stratégie de développement et de diversification de son offre, un acteur majeur de la chaîne du
paiement a été accompagné par Velvet pour concevoir des offres de monétisation de son capital data, valorisant
les volumes considérables de transactions gérées.
Le projet a consisté dans un premier temps à évaluer l’opportunité d’offres : analyse et diagnostic des data existantes, interview de potentiels futurs clients pour évaluer le niveau de demande du marché, benchmark des
acteurs de l’écosystème de la donnée et SWOT, pour in fine définir 7 offres de services.
Dans un second temps, il s’est agi de définir un Go To Market : priorisation de 5 offres en fonction de leur complexité et revenu, analyse juridique détaillée des offres, design détaillé des offres satisfaisant aux contraintes juridiques
avec description, pricing, gains totaux (financier et non financier), complexité de mise en marché et illustrations, et
enfin identification des partenaires potentiels pour leur lancement commercial.
Cette mission a permis de valider l’intérêt du marché pour plusieurs offres de monétisation de la Big Data transactionnelle de cet acteur, avec une valorisation estimée de 5% à 10% de chiffre d’affaires additionnel.
VELVET - TELECOM
TRANSFORMATION ET COACHING DES ÉQUIPES BUSINESS
INTELLIGENCE D’UN OPÉRATEUR TÉLÉCOM DANS L’EXPLOITATION
OPTIMALE DE SON ENVIRONNEMENT BIG DATA
Cet opérateur global des Télécoms a investi dans une architecture Big Data, convaincu du levier de performance
apporté par cette démarche pour l’ensemble de l’organisation, notamment dans un marché ultra concurrentiel. Afin
d’accompagner sa transformation Big Data, ce dernier a confié à Velvet la réalisation d’une mission de 4 mois de
formation, coaching et aide à la réalisation de traitements et projets dans le nouvel environnement.
Cette mission vise deux principaux objectifs :
- Rendre autonome l’équipe en place dans son activité au quotidien dans l’environnement Big Data
- Profiter de cette transformation pour optimiser l’efficacité du pôle en retravaillant les modes de fonctionnement
et pratiques de l’équipe.
Après une phase de diagnostic de l’existant (sur les plans de l’organisation, des compétences, des relations avec
les entités Marketing, Commerciale, Relation client, et CRM), l’équipe est montée en compétence grâce à un plan
de formation constitué des modules suivants : Mise à niveau Java, Concept Big Data et langage, Map Reduce par
l’exemple, Machine Learning et Scala, Interrogation de données (Hive, Impala, Pig, …), Diverses technologies Big
Data (Scoope, Flume, …) et Outils de visualisation.
Afin de mettre en pratique les acquis de ces formations et de valider l’efficacité de l’exploitation de l’environnement
Big Data, l’équipe a été coachée dans le cadre de la réalisation de projets concrets nourrissant des analyses et
réflexions autour des problématiques Foyer et Expérience Client.
Cette équipe est aujourd’hui autonome sur les principales pratiques de traitements Big Data et des premiers gains
d’efficacité se sont déjà fait ressentir.
Pour en savoir plus – à propos de Velvet
Velvet est un cabinet spécialisé en Marketing, Digital, Ventes et Relation Client situé à Paris et Lyon. Il intervient
sur l’ensemble de la chaîne de valeur client, de la définition de la stratégie à sa mise en œuvre opérationnelle et
technique, grâce au levier de la Data.
Velvet propose une approche globale du Big Data, résolument orientée Valeur (IT, Métier, Analytique et Organisation).
Document réalisé par la Société Corp Events - Janvier 2015
129
Retours d’expériences Big Data en entreprise
YSANCE - ARKENA
LES ENJEUX D’UNE PLATEFORME BIG DATA TEMPS RÉEL POUR ARKENA
CONTEXTE
Arkena, commercialise une plateforme permettant de distribuer des contenus audio et vidéo sur tous les écrans
(Streaming Web, Mobile, Box, B2B, etc.)
Ces contenus sont transmis via plusieurs technologies, en particulier un CDN internet qui repose sur de nombreux
serveurs à travers le monde. Ces serveurs génèrent de très grande quantité de logs, actuellement utilisés pour
monitorer le CDN, mais aussi pour déterminer la facturation client selon l’usage.
Avec l’augmentation du nombre des clients et de la volumétrie diffusée, l’architecture en place de collecte et traitement de ces logs (Rsyslog, Postgresql, Java), ne permettait plus d’assurer les services attendues (Supervision,
Alerting, Analyse et facturation).
Arkena souhaitait donc remplacer ce système par une architecture hautement scalable, facile à maintenir et disposant d’un faible TCO.
ENJEUX TECHNIQUES
•Collecte et stockage des logs en temps réel (+ de 60 000 logs par seconde)
•Archivage des logs sur au moins 3 ans
•Calcul au fil de l’eau de plus de 300 KPI (Mise à jour toutes les minutes)
•Mise à disposition de ces indicateurs via des appels API REST
•Garantir que chaque ligne de log sera intégrée une et une seule fois
•Remplacer Rsyslog par une solution plus fiable pour la collecte et la centralisation des logs depuis 30 datacenters et en garantissant l’acquittement de réception de chaque log.
•Offrir un très haut niveau de disponibilité, des mécanismes de reprises sur erreur et une forte capacité de montée
en charge
ARCHITECTURE
L’architecture mise en place par Ysance est de type “Lambda” et repose sur trois stacks techniques :
Spark pour les traitements temps réel, MapReduce pour les traitements Batch et Elasticsearch pour la couche
présentation.
•Vitesse : La couche temps réels reposent sur Apache Spark, et calculent les KPI sur une fenêtre de temps d’une
minute (agrégation de 3,6M de logs / mn). L’objectif est d’alimenter au plus vite la couche de restitution avec des
indicateurs qui ne nécessitent pas de retraiter l’ensemble de l’historique des données.
•Batch : La couche Batch vise à créer une vision définitive, et si nécessaire corrigée des données traitées par la
couche de vitesse (en cas d’arrivée trop tardive, de redémarrage du process temps-réel, …), ainsi qu’à calculer les
KPI nécessitant de traiter un historique de données plus long. (dans le cas de la dimension temps, les aggrégats
à l’heure, journée, semaine, mois, …) Elle repose sur le moteur MapReduce, au travers de Hive ou de développement spécifiques Java.
•Présentation : La couche de présentation réconcilie les données traitées par la couche vitesse et la couche
batch, et permet ainsi d’analyser et d’aggréger dans un même dashboard des données issues de Spark et de
Hive. Cette couche repose sur Elasticsearch, qui offre la possibilité d’appliquer des aggrégats au requêtage, et
permet ainsi de sommer, de compter distinctement, etc… sur l’ensemble des données, avec des temps de réponse
inférieurs à la seconde.
•Transport : La couche transport repose sur Apache Flume. L’objectif est de collecter en streaming l’ensemble
des lignes de logs vers la plateforme Hadoop, sans provoquer de blocage applicatif. La communication entre les
agents Flume présents sur les edge et ceux qui écrivent sur le cluster Hadoop est effectuée par appel RPC / Avro.
Document réalisé par la Société Corp Events - Janvier 2015
130
Retours d’expériences Big Data en entreprise
Cette architecture Lambda permet de traiter un même flux de données de manière synchrone et asynchrone :
•Calcul temps-réel de certains indicateurs sur une fenêtre temporelle réduite (1 min) avec un débit jusqu’à 60 000
messages / sec
•Recalcul batch de l’ensemble des indicateurs à J+1
•Indicateurs sur une fenêtre plus longue (5mn)
•Prise en compte des « arrivées tardives » et consolidation des résultats
•Maintient d’un jeu de résultats unique et accessible
BÉNÉFICES
•2 mois pour la mise en place du projet
•Plateforme Big Data moderne (Fast Data) et hautement scalable
•Enrichissement du périmètre fonctionnel actuel avec de nouveaux KPI désormais envisageables avec cette architecture
•Coût projet réduit notamment grâce à l’usage systématique de solutions Open Source
YSANCE - ANOVO
COMMENT ANOVO A BÂTI RAPIDEMENT SON NOUVEAU SI DÉCISIONNEL
GROUPE GRÂCE AUX SOLUTIONS BIG DATA D’AMAZON WEB SERVICES ?
ANOVO, leader au niveau européen en prestation de services techniques et logistiques pour les opérateurs télécoms et multimédia, est un des principaux acteurs de la gestion durable du cycle de vie des produits électroniques.
Chaque année, il donne une seconde vie à plus de 20 millions de produits dans le monde entier.
Elle collabore avec des fabricants, des distributeurs et des opérateurs pour proposer à leurs clients des solutions
de réparation, de logistique, de régénération et d’extension de garantie. Parmi les produits électroniques qu’elle
traite, figurent les décodeurs, les set top boxes, les téléphones portables, les modems et les équipements réseaux
des entreprises.
Document réalisé par la Société Corp Events - Janvier 2015
131
Retours d’expériences Big Data en entreprise
CONTEXTE
Dans le cadre de ses activités, Anovo produit et diffuse un ensemble de tableaux de bord et reporting permettant
à ses clients de suivre et analyser les travaux et services rendus par la société. A cause d’un ensemble de solutions BI développées en internes et spécifiques à une usine, un pays ou un service, Anovo souffrait des problèmes
suivants : 1/ Développements et déploiements sans cadre IT structuré 2/ Absence de mutualisation des besoins et
donc multiplications des développements spécifiques. En conséquence, la plateforme décisionnelle d’Anovo souffrait de rigidité, d’obsolescences et de surcoûts notamment pour faire évoluer et maintenir les rapports existants.
Pour y remédier, la DSI d’Anovo a sollicité Ysance pour concevoir une nouvelle architecture décisionnelle de type
Big Data et l’implémenter en s’appuyant sur les solutions de Amazon Web Services et Tableau Software. Les deux
solutions ont été choisis pour les bénéfices suivants : Rapidité de mise en œuvre, simplicité de déploiement sur un
ensemble des pays / usines, mutualisation des usages et autonomie des utilisateurs, réduction des coûts de run
et enfin évolutivité et pérennité.
ARCHITECTURE
Après un POC réalisé en début 2014, l’architecture technique qui a été retenue est la suivante :
•Extraction quotidienne des données utiles directement depuis les systèmes opérationnelles des sites Anovo
présents dans différents pays
•Stockage et archivage de ces données dans Amazon S3
•Contrôles qualités au fil des remontées des données sources (alerting)
•Chargement en delta des données collectées dans un DWH Redshift
•Mise à disposition des données dans Tableau Software
•Création, pour les utilisateurs métiers, des rapports et tableaux de bord nécessaires aux pilotages de leurs activités
•Diffusion des KPI de suivi de la production, à leurs clients, via Tableau Online
Document réalisé par la Société Corp Events - Janvier 2015
132
Retours d’expériences Big Data en entreprise
AUTOMATISATION DES CHARGEMENTS :
Le nombre de tables sources devant être chargées dans le DWH Redshift étant très importants, une procédure
automatisée écrite en Python permet de convertir automatiquement les DDL source (SQL Server) en DDL RedShift
•Angleterre: 1300 tables en production
•France : 750 tables en production
•Prochains pays : Chili, Pérou, Espagne
•40 à 60 JH de développement par pays
Avec sa nouvelle plateforme BI mixant Cloud et Big Data, Anovo dispose d’un environnement décisionnel unique,
évolutif, peu couteux et très scalable, consolidant les données de toutes ses entités à travers le monde et garantissant agilité et rapidité pour intégrer de nouvelles sources et permettre aux métiers de produire simplement de
nouveaux rapports et tableaux de bord pour leurs besoins et ceux de leurs clients.
Document réalisé par la Société Corp Events - Janvier 2015
133