trophee de l`innovation big data 2013

Transcription

BIG DATA PARIS
CONGRÈS EXPO, 3 & 4 avril 2013
CNIT Paris La Défense
2e édition
TROPHEE DE L’INNOVATION
BIG DATA 2013
43 projets Big Data mis à l’honneur
Des applications dans de multiples secteurs : retail, banque, administrations,
sports, recherche, industrie, telecom, Internet…
Remise des trophées en salle d’exposition le Jeudi 4 avril 2013 de 14h00 à 14h30
En partenariat avec Sopra Group
et avec le soutien du Journal du Net
Flashez moi !
édito
Organisé par Corp Events, en partenariat avec Sopra Group et avec le soutien du Journal du Net, le Trophée de
l’Innovation Big Data 2013 est la première initiative de ce type organisée en France sur le Big Data : pour la première
fois depuis l’émergence de ce phénomène, des projets d’application matures du Big Data ont été collectés et analysés
par un jury de 8 professionnels, qui ont ensuite sélectionné les plus innovants et les plus performants.
Au total nous avons recueilli pas moins de 43 candidatures issues de petites comme de grandes entreprises,
preuve de la vitalité du Big Data en France !
Le jury a statué le 25 mars dernier et les résultats seront connus le jeudi 4 avril à 14H au cœur du salon Big Data.
Pour sélectionner les 3 meilleurs dossiers, 4 critères avaient été déterminés :
- la nature Big Data du projet
- le caractère innovant de l’application
- la valorisation des données
- la démarche Big Data adoptée au cœur de l’entreprise
Nous avons également été particulièrement attentifs à la nature « projet » des dossiers : toute description pure de
solution technologique n’a pu être retenue dans le vote. Nous avons d’ailleurs choisi de faire figurer ces candidatures
dans la brochure, mais dans une rubrique séparée intitulée « Solutions ».
Vous retrouverez donc dans cette brochure les synthèses des dossiers reçus ; elles vous donneront un aperçu de la
qualité du travail mené en France sur le sujet et vous renseigneront sur les initiatives en cours dans les différents
secteurs identifiés (banque, télécom, retail, recherche scientifique, industrie, sports…).
Par-dessus tout, elles vous convaincront de l’intérêt d’adopter des démarches Big Data en entreprise, au regard de la
valorisation observée des données dans les candidatures.
Nous vous souhaitons donc une bonne lecture à la découverte de l’innovation Big Data en France !
Blandine LAFFARGUE
Conference Manager
+33 (0)1 45 63 43 58 / [email protected]
Le jury du Trophée de l’Innovation Big Data 2013
• Thierry BARDY, VP Innovation marketing, ORANGE
• Bernard BENHAMOU, Délégué aux usages de l’Internet, MINISTERE CHARGE DE L’ECONOMIE NUMERIQUE
• Yann COHEN-ADDAD, Greenplum Regional Director Europe South, EMC GREENPLUM
• Antoine CROCHET-DAMAIS, journaliste, JOURNAL DU NET
• Bruno JACQUIN, Ingénieur Chercheur, EDF R&D
• Christian RUETSCH, Secrétaire Général, LE CERCLE LAB
• Vincent TALLEPIED, Directeur Conseil, SOPRA GROUP
• Denis WEISS, DSI Industrie, LA POSTE
Les réunions et les sessions de vote ont été présidées par
• Jean-Marie MESSAGER, Directeur Practice BI, SOPRA GROUP
• Blandine LAFFARGUE, Responsable Conférences, CORP EVENTS
2
Projets
PROJET
Trophée de l’innovation Big Data 2013
Gaia Satellite Data Processing Challenges
Porteur du projet
Prochaines étapes
The data sent by the external Data Processing centres will be gathered
and integrated in a central repository, analysing and verifying its
integrity in order to find possible flaws in the processing will be far from
trivial and need significant IO demands due to the large number of
records.
Jose Luis Hernández Muñoz,
Gaia Operational Data and Calibration Engineer
European Space Agency
Partenaires
Intersystems, Jose Ruperez, Jose Costa, Robert Bira
Sometime in 2020 the final catalogue should be made available to the
scientific community, the archive and data access mechanism is starting
to shape now and will also be highly demanding in terms of data access.
Often disentangling instrument or processing artifacts from real issues
will require the execution of user provided algorithms which can
discover hidden correlations within the data.
Objectifs
Gaia is a cornerstone mission of the European Space Agency to be
launched towards the end of 2013. It will scan the sky for 5 years
measuring with unprecedented accuracy the positions and motions of
more than 1000 million stars from the Galaxy. This data will allow us to
create a 3D model of the Milky Way. Gaia which will revolutionize may
fields of Astronomy.
Information additionnelles
The trend in astronomy and other scientific fields in the last decades has
been to build more sensitive and powerful instruments, larger antenas
and better satellites/observatories, this has led to a huge increase in the
amount of data to be processed. Simultaneously this has been
compensated by the developments in in the IT Industry at the software
and hardware levels. The processing of Gaia’s data presents unmatched
challenges in this respect and will open the road too future missions.
Présentation
The satellite will send to ground every day its observations amounting
to 50 GB, this data will be processed continuously in order to asses the
satellite performance. The daily processing is critical in terms of
robustness and reliability as it is needed in order to adjust the
instrument settings on board Gaia to meet the scientific requirements.
At the end of the mission we will have of the order 100 TB of raw
compressed data.
The long term processing of this data involves 6 European Data
Processing Centres and will be done multiple times with increasing
amounts of data. The estimated size of the data processed after the 5
year mission will be in the order of 1 Pbyte and the final catalogue
should be published by 2021.
In order to achieve the necessary precision every factor affecting the
observations needs to be modelled, this means adapting the model as
we process the data in an iterative manner. The core processing
implemented in Java will use over 200 million stars and their 160,000
million measurements. A direct solution is not computationally
affordable due to the huge number of unknowns, instead an iterative
process adjusting the stars positions, motions, satellite orientation, and
calibrations has been designed and implemented.
Innovation
The data processing is very intense in terms of IO and many tests with
different alternatives and increasing amounts of data have been
performed. We will outline some of the problems found along the way.
Since 2008 we have had a fruitful collaboration with Intersystems Cache
which has been non-traditional in many aspects as we have had
costumer-provider contacts at multiple levels (management, experts,
developers), this has proven very beneficial for both parties and has lead
to fast turn-around time in getting new versions, problems fixed, new
features. It has also allowed us to optimize the system for our needs and
obtain adequate performance without going for expensive top hardware
solutions.
Résultats
We have now in place the core systems which will be needed to start
receiving and processing the data sent by Gaia by the end of the year, so
far one of the main worries in the project which was the performance
and scalability of the data access rate needed for the processing has
been solved.
www.bigdataparis.com
4
PROJET
Artimon, service de collecte et d'analyse
de métriques à large échelle
Porteur du projet
La facilité d’instrumentation des applicatifs permet de rapidement
disposer de métriques éclairant les métiers sur l’activité de leur
périmètre. Les spécialistes des différents domaines ont le sentiment de
ne plus être aveugles et cantonnés à des chiffres à J+1.
Matthias Herberts - Engineer
Credit Mutuel Arkea
Résultats
Objectifs
La disponibilité des métriques en temps réel mais également sur un
historique d’un an permet d’envisager différentes applications.
Offrir un service de centralisation de métriques à caractère technique
et fonctionnel permettant un suivi temps-réel et historique du
fonctionnement de l’entreprise.
L’analyse de la distribution statistique des indicateurs permet de faire
de la détection d’anomalie, par exemple lorsqu’une machine est sur le
point de tomber en panne suite à un défaut de refroidissement, ou que
le volume d’opérations d’un certain type est atypique par rapport au
volume habituellement observé le même jour sur la même plage
horaire.
Présentation
Le projet Artimon définit un format universel de métriques, les différents
périmètres fonctionnels et techniques de l’entreprise produisent des
indicateurs (de type compteurs ou jauges) sous ce format. Ces
indicateurs sont collectés toutes les minutes sur l’ensemble des
machines du groupe Crédit Mutuel Arkéa et remontés sur la plate-forme
Big Data basée sur Hadoop.
En cas d’incident, la priorité est donnée au rétablissement du service,
la disponibilité des métriques sur la période précédant la survenue de
l’incident permet lorsque la situation est rétablie de procéder à une
analyse post-mortem de l’indicent et à la mise en place de mécanismes
d’alertes adaptés.
La collecte concerne entre 1 et 2 millions de métriques par minute, avec
un total quotidien de collecte supérieur à 2 milliards de métriques.
Ces métriques sont conservées une année minimum afin de permettre
des analyses de tendances sur un cycle de 12 mois glissants.
L’existence de métriques dont la signification est maîtrisée permet de
mettre en place des contrats de services (SLA) basés sur des éléments
objectifs. L’historisation de ces métriques permet de tester différents
modes de calculs des indicateurs de SLA afin de déterminer par exemple
si un abaissement de seuil est ou non compatible avec la réalité de la
production.
Les données d’une année représentent environ 50 To pour 800 milliards
de mesures.
Ce projet a été initié dans les équipes techniques du groupe Crédit
Mutuel Arkéa qui ont mis au point l’infrastructure de collecte et de
stockage. Les premières métriques collectées furent techniques
(températures de machines, espaces disques disponibles, charge
machine, ...) et ont été utilisées pour la mise au point de fonctions
d’analyse de ce type de données. Ces fonctions d’analyse sont capables
de déclencher des alertes, permettant une réaction rapide à des
situations anormales.
Prochaines étapes
Les étapes à venir pour ce projet sont l’instrumentation de nouvelles
applications et l’exploitation des métriques produites. La disponibilité
de métriques vise à centrer les processus de décisions de l’entreprise
autour de données objectives.
Information additionnelles
Ce projet s’inscrit dans une démarche Big Data plus large initiées dès
2009 au sein du groupe Crédit Mutuel Arkéa.
Une fois la chaîne complète mise au point sur le périmètre des données
initiales, les équipes en charge des périmètres fonctionnels (spécialistes
métier et développeurs) ont été accompagnées dans l’instrumentation
de leurs applications et la mise au point de fonctions d’analyse propres
à leurs métiers.
Ce projet a été réalisé par des équipes internes du Crédit Mutuel Arkéa.
Les métriques mises en place et les outils les exploitant permettent
d’avoir une vision temps réel du comportement du parc applicatif, et ce
tant du point de vue métier que technique. Il est par exemple possible
de connaître chaque minute la température moyenne des machines de
chaque rangée de nos datacenters, mais également le nombre et le
montant des virements effectués sur les sites de banque en ligne,
ventilés par devise, canal ou tout autre critère jugé utile.
Les travaux sur ce projet ont débuté en 2009, le périmètre de collecte
s’est agrandi graduellement pour couvrir depuis fin 2012 l’ensemble des
serveurs du groupe Crédit Mutuel Arkéa.
Innovation
L’utilisation d’un format universel de métriques permet de ne pas avoir
autant d’outils de monitoring (technique ou business) que de périmètres,
il en découle des possibilités d’analyses croisées riches d’enseignements
(quel est l’impact d’une augmentation de température sur le
comportement des bases de données et in fine sur les temps de
traitements des requêtes issues des sites Web).
5
PROJET
ICANIC : Intellectual Capital Analytics
Porteur du projet
Innovation
Les brevets sont jusqu’à présent considérés comme ne pouvant relever
que d’appréciation d’expert et le projet de traiter les brevets comme des
données qu’il est possible de traiter statistiquement pour en tirer du
sens constitue une révolution dans cet univers.
L’augmentation du nombre de brevets et le poids croissant de leur valeur
économique rend indispensable la création d’un outil technologique qui
permette de donner à tout moment et pour tous les brevets une
expression synthétique de leur valeur.
Patrick Terroir - Directeur Général Délégué
CDC Propriété intellectuelle
Partenaires
Bluestone est notre partenaire pour les travaux de modélisation
statistique. Arnaud Laroche est notre directeur de mission depuis
2010. Fourniture des données et hébergement : Questel
Expertise sur la vie des brevets : Marks&Clerk France
Résultats
Objectifs
Icanic est un instrument destiné aux entreprises, notamment aux PME,
aux investisseurs financiers, aux analystes économiques, et il constitue
plus généralement un outil de base pour la valorisation des actifs de
l’économie de la connaissance.
La valorisation commerciale d’Icanic s’effectuera de trois manières :
- par son utilisation par les entreprises et leurs interlocuteurs
financiers, auxquels il donnera le moyen d’évaluer objectivement la
valeur d’un portefeuille de brevets ; la distribution en direction de ces
clients sera assurée par les principaux éditeurs de base de données
brevets (Questel, Thomson Reuters...) ;
- en direction des investisseurs financiers par la création d’indices
boursiers de type « CAC 40 » qui permettront d’identifier la performance
des entreprises inventives et de diriger l’épargne vers elles. La mise en
œuvre sera effectuée par des gestionnaires de marché comme Euronext
ou FTSE.
- L’intégration des notes dans les analyses vendues par des agences de
notation sociale. L’analyse de la capacité d’innovation des entreprises
est un complément naturel aux analyses existantes de ces agences,
telles que Vigeo.
L’objectif est de créer un instrument de mesure de la valeur intrinsèque
des brevets, fondé sur des critères objectifs et statistiques, qui
s’applique à l’ensemble des brevets du monde. Dans un contexte où le
nombre des brevets augmente de façon croissante et où les besoins
d’acquisition et de diffusion des inventions se multiplient, la difficulté et
le coût d’analyser qualitativement la valeur des brevets empêche le
développement d’une économie ouverte, transparente et sécurisée dans
le domaine de l’innovation. Cette situation pénalise notamment les PME
et les organismes publics de recherche qui sont pourtant les sources
majeures de l’innovation.
Présentation
Nature et volume des données traitées :
Les volumes sont considérables puisqu’il s’agit de traiter l’ensemble
des données sur les brevets contenues dans les bases des offices de
propriété intellectuelle de tous les pays du monde, ce qui doit
représenter selon nos estimations plus de 500 milliards d’octets.
Les types de données traitées sont en outre très hétérogènes tant dans
leur contenu (texte, chiffres, dates, dessins, étapes de procédure), que
dans leur forme (notamment plusieurs langues, dont à l’avenir les
écritures asiatiques), et dans leur support (flux XML, document pdf…).
Ces informations doivent être renouvelées en permanence, compte tenu
du flux d’entrée des nouveaux brevets.
Le schéma suivant résume la valorisation escomptée de l’outil :
Description des traitements opérés sur les données :
•Mise en place de web-crawlers et de flux XML permettant
d’industrialiser la récupération en temps réel des informations brevets
(évènements de procédures, textes, citations)
•Mise en place d’une architecture de stockage et d’une architecture de
calcul / ré-estimation de scores temps réel en environnement Big Data
(choix d’architecture en cours)
•Analyse de type text-mining sur les textes de brevets permettant de
créer des données qualifiantes structurées à partir de données non
structurées (domaine technologique d’application, obsolescence de la
technologie…)
• Croisement des données qualifiantes du brevet avec les données
administratives et de citations, pour créer un environnement
d’informations extrêmement riche sur les brevets
•Mise en place de modèles statistiques de durée de vie, permettant
d’estimer la durée de vie résiduelle d’un brevet en fonction de ses
caractéristiques intrinsèques (proxy de la valeur)
• Développement de web services de restitution des données (en cours)
Prochaines étapes
Finalisation et lancement commercial de la V1 pour fin 2013.
La prochaine étape sera d’étendre la capacité de notation aux brevets
américains et asiatiques.
Ressources et calendrier :
Depuis le lancement des développements en 2010 à la finalisation de la
V1, fin 2013, CDC PI aura investi près de 2M€. Le prototype a été testé
avec succès auprès de 5 grands industriels en 2011.
Schéma d’architecture :
6
PROJET
ELLICIBLE
Porteur du projet
Innovation
Ellicible s’appuie sur une technologie européenne novatrice et apporte
la commodité du « search » grand public au poste de travail du
professionnel en marketing direct. Dans les sélections, elle rend la
donnée accessible immédiatement et élimine les temps de latence dans
l’affichage des résultats.
Exprimé d’une autre manière, l’application utilisant le moteur de
ParStream réalise à grande échelle un « facetted search » sur plus
d’une centaine de dimensions en temps réel.
L’outil associe à cette technique novatrice une politique d’intégration de
nouvelles sources partenaires visant des données riches et
volumineuses tant nationales ou internationales que métiers.
La combinaison « technique » et « données » permet de répondre aux
nouveaux usages et demandes de nos clients à la recherche de
performances permettant de cibler le plus juste et le plus rapidement
possible leurs clients potentiels.
Bernard Simon - Responsable Marketing Data Solutions
COFACE SERVICES
Partenaires
Partream GMBH
Peter Livaudais, Sr. Director Solutions
Objectifs
Agrégeant des milliards de données issues des meilleures sources
publiques, privées et collaboratives, Coface Services propose la base de
données la plus riche en information sur les entreprises françaises.
Pour répondre aux évolutions technologiques et à la demande du «
realtime marketing » où l’information produite n’est plus segmentée en
silos fonctionnels mais selon les usages de la cible, Coface Services a
entrepris la refonte de son offre « Solutions Data ». Lancée le 20 mars
2013, www.ellicible.fr est une plateforme marketing direct « big data»
en temps réel et à haut débit. Sa vocation est de cibler, trier, ventiler,
explorer, segmenter, surveiller et extraire des populations d’entreprises
dans un espace multidimensionnel de plusieurs dizaines de milliards
de données.
En quelques clics sur des critères descriptifs, les clients gèrent de
manière autonome leurs opérations de marketing direct et de
surveillance autour de groupes homogènes en fonction de segments
identifiés.
Résultats
Ellicible permet de traiter des milliers de requêtes à très forte
volumétrie d’informations (milliards de données) en temps réel
(millisecondes). L’utilisateur, à travers la combinaison de multiples
critères, compte de manière instantanée des potentiels au fur et mesure
de l’élaboration de ces stratégies et identifie des entreprises. Le rôle
d’Ellicible est de construire des groupes homogènes pour mettre en
place des opérations de marketing direct différenciées en fonction de
segments identifiés.
Présentation
Prochaines étapes
Issue d’une analyse marché intégrant des phases intensives de R&D
autour de retours d’expérience (anciens projets, prototypes et
maquettages), Ellicible est une offre internet disponible en temps réel
et accessible pour l’utilisateur en toute autonomie. Sa vocation est de
cibler, trier, ventiler, surveiller et extraire des populations d’entreprises
de plusieurs dizaines de milliards de données.
Ellicible intègre le moteur « big data analytics » de ParStream GmbH.
Elle transforme le concept de ciblage et comptage haut débit temps réel
en réalité opérationnelle sur des données volumineuses.
Ce moteur repose sur une approche innovante d’index compressés à
très hautes performances couplée à un traitement parallèle de requêtes.
Cette mécanique permet l’accès aux données à haut débit et à très faible
latence. C’est ainsi que sous une faible empreinte énergétique et
matérielle des milliers de requêtes sont traitées sur de très fortes
volumétries d’informations (milliards de données) en temps réel
(millisecondes).
Avec cette technologie novatrice associée à ses solutions métiers,
Coface Services a su surmonter les problématiques techniques
traditionnelles des bases de données. Ellicible s’affranchit de l’UX «
essai-erreur » et de la gestion des tâches complexes et asynchrones
tout en maintenant une très forte réactivité data avec de faibles
ressources.
Ces performances comparées aux technologies traditionnelles, ou
même avec NoSql, bouleversent les usages de la profession du
marketing direct habituée à des temps de calcul et d’affichage
importants avant d’avoir le résultat d’un ciblage.
Avec www.ellicible.fr, par une interface d’utilisation simple et
multicritères, le marketing direct rentre dans l’ère du temps réel et de
la simplification d’accès aux données B2B.
Réel projet d’entreprise associant tant la direction générale que les
experts métier et les marketeurs, l’objectif de www.ellicible.fr est de
créer avec cette technologie innovante unique sur son marché de
nouvelles opportunités de développement en « Solutions Data ».
Dans les étapes à venir pour accompagner les besoins utilisateurs, sera
associée à cet outil une politique d’intégration de données
complémentaires avec la possibilité de recherche textuelle.
7
PROJET
Tableau de bord des Territoires
Porteur du projet
François Bancilhon - PDG
DATA PUBLICA
Partenaires
F. Lainée, PDG CetaData
Objectifs
Proposer aux utilisateurs une base de données toujours à jour de
l’ensemble des données de description (démographiques, économiques,
immobilier, activité, mobilité, …) des territoires (bassin d’emplois,
communes, …)
Présentation
Les données sont issues de toutes les sources publiques accessibles en
ligne et susceptibles de contribuer au portrait des territoires.
Le volume est d’abord dimensionné par le nombre de territoires, de
l’ordre de 37.000, et quelques dizaines/ centaines de données par
territoire. Ces données sont chacune rafraîchies une ou plusieurs fois
par an, ce qui fait de la mise à jour automatique une difficulté
significative du projet.
Ce projet est déployé, les données étant d’ores et déjà accessibles pour
les clients de Data Publica.
Innovation
L’innovation du projet tient à (i) la mise à disposition de l’ensemble des
données structurée selon la dimension géographique, (ii) la mise à jour
automatique et permanente et (iii) la disponibilité en ligne customisée
au besoin du client, en terme de géographie et de dimensions de
contenu.
Prochaines étapes
Data Publica est « développeur de jeux de données », c’est-à-dire qu’il
produit des jeux de données pour ses clients. Pour cette production,
Data Publica identifie les sources, extrait les données brutes des
sources, transforme les données brutes en données structurées et livre
ses données, sous forme de flux ou de visualisation. Ces jeux de données
sont produits sur mesure (le client spécifie ses besoins et Data Publica
produit le jeu de données suivant ses spécifications) ou sur étagère (Data
Publica définit et produit le jeu de données après une analyse des
besoins du marché). Les jeux de données sont livrés en DaaS (Data as a
Service) et facturés sous forme d’abonnement (un jeu de données est
un objet vivant mis à jour en permanence).
8
PROJET
Domirama, un outil d'exploration des historiques
de comptes au service de nos clients
Porteur du projet
Innovation
L’aspect le plus novateur est de redonner la maîtrise de leurs opérations
à nos sociétaires et clients, et ce sur une profondeur d’historique sans
équivalent puisque nos concurrents se limitent généralement dans le
meilleur des cas à 12 mois d’historique.
Matthias Herberts – Engineer
CREDIT MUTUEL ARKEA
Objectifs
Résultats
L’objectif de ce projet est la création d’un outil permettant à nos
sociétaires et clients d’effectuer des recherches sur l’historique des
opérations réalisées sur leurs comptes bancaires et d’enrichir ces
historiques par des métadonnées personnalisées.
La possibilité d’effectuer des recherches en temps réel sur l’historique
de leurs opérations permet à nos clients d’appréhender la gestion de
leurs finances dans d’excellentes conditions.
Prochaines étapes
Présentation
Les évolutions visant à enrichir les opérations de métadonnées seront
sources de création de valeur supplémentaire.
Les données manipulées dans le cadre de ce projet sont constituées de
l’ensemble des mouvements bancaires de nos clients depuis mai 2001.
La date retenue correspond au moment où les opérations en francs ne
représentaient plus qu’une part infime du flux, et ce afin d’éviter d’avoir
à gérer une approche multi-devises.
Informations supplémentaires
Ce projet s’inscrit dans une démarche Big Data plus large visant à
valoriser le patrimoine ‘données’ du groupe Crédit Mutuel Arkéa.
Ces données représentent environ 5 milliards d’enregistrements pour
un volume légèrement inférieur à 3To. Le rythme de croissance est de
l’ordre de 500M d’enregistrements annuels sur le périmètre actuel.
Ce projet a été réalisé par des équipes internes du Crédit Mutuel Arkéa,
garantissant au groupe l’exclusivité de la maîtrise des technologies
mises en œuvre, gage d’avantage concurrentiel durable.
Ce projet est l’un des premiers s’appuyant sur la plate-forme Big Data
basée sur Hadoop mise en place dès 2009 au Crédit Mutuel Arkéa. Il est
issu d’un travail conjoint entre les équipes en charge du périmètre
banque à distance pour les aspects restitution, les équipes des différents
métiers (comptes à vue, livrets, cartes, SEPA) pour la fourniture des
données, et l’équipe Big Data/Hadoop pour la mise au point du moteur
de recherche.
Les données sont stockées dans HBase, permettant un accès en tempsréel à celles-ci. Le moteur de recherche est optimisé pour n’indexer les
opérations qu’à la demande, offrant ainsi des performances élevées.
Une recherche complexe sur près de 12 années d’historique s’effectue
dans 90% des cas en moins de 500ms.
Les recherches peuvent se faire sur des critères de dates, de montants,
de choix de comptes mais également sur les libellés des opérations. Les
débits et crédits cumulés des résultats de recherche sont restitués
conjointement avec les opérations qui répondent aux critères de
sélection. Il est ainsi possible par exemple d’obtenir immédiatement le
montant des salaires ou prestations d’assurance maladie perçus sur
une période, les montants dépensés en assurance, impôts, téléphonie
mobile, chez des e-commerçants ou dans la grande distribution. Ces
recherches peuvent être effectuées sur différentes périodes pour les
comparer.
Les opérations peuvent être annotées afin de simuler le pointage des
comptes. Il est envisagé à l’avenir de permettre l’ajout d’URLs, d’une
localisation géographique, d’un commentaire, voire d’une note se
rapportant à chaque opération.
Ce service est en production depuis fin 2011 pour nos sociétaires et
clients des fédérations du Crédit Mutuel de Bretagne, du Sud-Ouest et
du Massif-Central, de Fortunéo ainsi que de la Banque Privée
Européenne.
9
PROJET
BIG DATA GETS PERSONAL
Porteur du projet
L’équipe dédiée chez dunnhumby est composée de :
- 1 Project Manager pour adapter l’outil Media Centre pour la base de données Monoprix
- 1 Data Manager
- 1 Analyste pour sélectionner les clients éligibles pour les offres proposés
- 1 Campaign Manager pour organiser et coordonner la mise en place du ciblage
Hannah Whittall – Directrice Coms & Media
DUNNHUMBY France
Partenaires
Monoprix Stéphanie Guillonneau
Directrice Fidélité
Objectifs
-Récompenser les clients les plus fidèles de l’enseigne avec des offres personnalisées
- Créer une occasion supplémentaire de venir en magasin
- Exploiter et valoriser l’intégralité des données de transactions
-Améliorer le retour sur investissement du programme de Fidélité
Chez Monoprix le projet était mené par l’équipe Fidélité avec deux
personnes dédiées à la mise en place opérationnelle.
La conception et création du mailing était mené par l’agence Rosa Parks.
Présentation
Nous avons créé avec Monoprix un rendez-vous mensuel dédié aux
clients les plus Fidèles pour les récompenser avec des offres
personnalisées sur leurs marques et rayons préférés. L’exploitation des
big data nous permet de personnaliser un mailing intégrant 8 coupons
envoyé à environ 600 000 clients par mois.
Innovation
En relation avec les marques nous constituons au fil de l’année une
banque de coupons. Pendant la phase de préparation du mailing, nous
entrons les offres disponibles dans un outil propre à dunnhumby.
L’algorithme d’allocation intégré à cet outil a été développé grâce à
l’expérience Tesco en Angleterre et Kroger aux Etats Unis. Il permet
parmi des millions de possibilités de sélectionner la combinaison
d’offres la plus pertinente pour chaque client en regard de son
comportement d’achat. Le niveau de récompense des offres peut lui
aussi être personnalisé selon sa fidélité à l’enseigne.
Résultats
Plus de 33 millions de transactions des clients les plus Fidèles à
Monoprix sur tous les formats (y compris le site marchand) ont été
analysées, représentant environ 350 millions articles achetés.
Cet outil d’allocation d’offres et de contenus au niveau client permet une
véritable personnalisation de la communication. Il est capable de traiter
cette énorme quantité de données : en moins d’une heure les offres sont
allouées parmi les milliers de possibilités.
Plus de 80% des clients ciblés reçoit une version unique de ce mailing
Prochaines étapes
La personnalisation des offres a permis de doubler le taux de retour des
coupons par rapport à des coupons non personnalisés.
Ce premier mailing personnalisé a été envoyé à partir de février 2012.
Au fur et mesure que les mailings ont été reçus par les clients et
analysés en terme de performance, le ciblage des clients a été optimisé
pour privilégier les clients les plus appétant à ce type d’offre. Ceci a
également permis de développer des supports pour les clients sensibles
à d’autres canaux de communication tels que les emails et les coupons
caisse. Nous pouvons ainsi optimiser chaque point de contact avec le
client.
10
PROJET
ECO2DATA
Porteur du projet
François Cazor – Président
Kpler SAS
Objectifs
Répondre aux impératifs d’accès à l’information dans un marché
réglementé en croissance et décentralisé. Permettre aux acteurs du
marché de la finance environnementale d’avoir accès à un niveau de
transparence et de traçabilité du niveau d’un marché mature alors que
le marché est encore très jeune.
Présentation
Le but du projet est de construire un tableau de bord temps réel qui
centralise toutes les informations relatives aux projets de réduction de
gaz à effet de serres qui génèrent des crédits carbones. Ces projets sont
jusqu’ici la meilleure arme mis en place au niveau international contre
la menace du réchauffement climatique et constituent à ce titre un enjeu
décisif. Ces projets sont répartis à travers le monde et obtiennent
chaque jour 1 crédit pour chaque tonne de CO2 économisée. Un projet
prend de 18 à 36 mois à se concrétiser. Il est soutenu par un conglomérat
très vaste d’acteurs privés et publics et est évalué par des organismes
externes tout au long de sa vie qui peut durer plus de 20 ans.
Innovation
eCO2data est à ce jour la plus grande base de données sur le marché du
carbone. Elle innove dans la mesure ou les données sont récupérées
systématiquement et ce en temps réel là ou nos concurrent reposent
essentiellement sur un traitement manuel des données. Cet aspect de
la plateforme nous permet de proposer des services inédits comme
celui des « eCO2data alerts » qui permettent à nos clients de recevoir
des alertes emails dés qu’un de leur portefeuille environnemental
connait un changement.
Résultats
L’une des principales valorisation de la donnée est le fait de travailler
sur les données non structurées pour recontruire à la volée le
portefeuille de n’importe quel acteur du marché. Ainsi « BNP », « BNP
Aribitrage », « Banque Nationale de Paris » ou encore « BNP, SA » sont
automatiquement aggrégé en un seul participant et permet à nos clients
d’accéder à un niveau de transparence inégalé jusqu’ici.
Prochaines étapes
Nous travaillons actuellement sur 2 axes :
• Extension de la plateforme au domaine de la foret. La foret est le
poumon de notre planète car elle stocke naturellement le CO2. Des
projets d’investissements de taille massive sont pour l’instant bloqués
car il n’existe pas à ce jour d’outil de suivi d’un investissement forestier
à grande échelle sous l’égide des normes internationales de l’ONU. Nous
sommes associés à une entreprise franco-allemande du secteur de la
défense et qui posséde un réseau satellitaire de premier plan pour
connecter les données satelitaires à notre outil et proposer « eCO2data
Forest » afin de combattre la problématique de la deforrestation et plus
généralement de la conservation de la foret.
• Nouvelle plateforme sur le marché du Gas Naturel Liquéfié (LNG).
Nous appliquons actuellement notre technologie propriétaire au marché
du LNG qui connait une croissance rapide et pour lequel il existe les
mêmes problématiques de suivi de l’activité du marché et de monitoring
des acteurs que sur nos précédentes réalisations. En détournant l’usage
initial des balises de positionnement AIS contenues dans chaque navire
on créé une carte interactive et temps réel de l’acheminement des
volumes de LNG actuellement en transit à travers le monde.
11
PROJET
Artémis : « De la logique du service public…
à la logique de rendre le service au public »
Porteur du projet
Daniel Aubaret – Directeur Marketing
EFFIA SYNERGIES
Objectifs
« campagnes multicanaux sur mesure : rendre le service au public »
Pour cela, générer des campagnes multicanaux qui ont pour objectifs :
> De cibler : le ciblage est le facteur clés de succès d’une campagne de
communication réussie : quel client ? Sur quel sujet ? Avec quel discours
? Avec quel canal de contact (Téléphone, SMS, Email) ?
> De fidéliser : En identifiant les bons clients et en les remerciant
(Opération de parrainage). En identifiant les clients en phase d’abandon
(Relance commerciale et analyse des causes).
> De prospecter : Avec une meilleure connaissance de client, il est plus
facile de créer le profil type et de rechercher les jumeaux (Bases de
données scorées : Par zone géographique, données sociologiques et
données comportementales).
> D’informer en mode sur mesure : En fonction de la nature des
perturbations (Exemple : Travaux), des zones géographiques impactées
et des statuts des clients (Exemple : Personnes à mobilité réduite).
> De créer du ROI sur les campagnes : L’Emailing permet le
déploiement d’une stratégie de « tracking » avec : taux d’ouverture, liste
des ouvreurs et taux de rebond.
Innovation
La solution proposée couvre l’ensemble du protocole décisionnel de
traitement de la donnée avec trois briques fonctionnelles :
. Brique 1 : Collecter : cette brique est au cœur de la donnée, l’objectif
est simple, une donnée active, propre et juste. Pour cela : auditer,
redresser, enrichir et fiabiliser.
. Brique 2 : Comprendre pour mieux cibler : avec un outil d’aide à la
décision sur l’analyse de la performance commerciale construit sur le
principe du géo-référencement de l’individu : 1 point = 1 client.
. Brique 3 : Agir : par des campagnes multicanaux ciblées pour fidéliser
les clients. Prospecter : « Changer vos habitudes de mobilité au moins
une fois dans l’année », avec une meilleure connaissance client, la
recherche des « jumeaux » par le scoring des données est plus efficace.
Résultats
Pour l’année 2013 les perspectives sur la big data sont nombreuses :
. Industrialisation de l’application destinée à l’aide à la décision,
. Intégration des données clients complémentaires,
. Intégration d’une couche de données relatives aux potentiels de
marchés : par communes et par Iris.
. Enrichissement des tableaux de bord : part de marché modale, taux de
pénétration mobilité, identification des zones potentielles de
développement.
12
PROJET
Roland-Garros SlamTracker
Porteur du projet
Résultats
Avec le Slamtracker, « les données prennent vie »
 les clés du match permettent d’utiliser de façon intelligente tous les
scores passés et de leur donner un sens pour mieux anticiper le match
qui va se jouer et comprendre les points forts de chaque adversaire
 la courbe de dynamique donnent une vision temps réel de l’ascendant
des joueurs, avec visualisation graphique de chaque type de point en
fonction du temps
 les statistiques mises à jour en temps réel permettent de mieux
comprendre les éléments clés du match en comparant les adversaires.
Alex Loth – DSI Roland-Garros
Fédération Française de Tennis
Partenaires
IBM France Claire Herrenschmidt
Objectifs
Le Roland-Garros SlamTracker développé par IBM permet de fournir
aux fans de tennis une information complète et précise sur le
déroulement des matchs à Roland-Garros, avec notamment l’utilisation
de l’analyse prédictive pour déterminer les clés du match : 3 critères
définis en début de match, sur la base des données complètes des
tournois du Grand Chelem.
Prochaines étapes
La démarche Big data continue à la FFT. Au delà de l’analyse prédictive
utilisée dans le SlamTracker dans le contexte des matchs, des analyses
des médias sociaux sont conduites durant la durée du turnoi pour
étudier les flux d’intérêt qui font lumière au cours du tournoi, tant au
niveau des joueurs, qu’au niveau de l’environnement et de l’organisation
du tournoi.
Présentation
Avec plus de 41 millions de points collectés lors des 8 dernières années
de Grand Chelem, la Fédération Française de Tennis et IBM disposent
d’un historique colossal sur les scores détaillés des matchs. Et les
joueurs de tennis se rencontrent fréquemment lors des tournois, ils ont
déjà joué les uns contre les autres. L’analyse poussée de leurs scores a
permis de montrer que chacun a un comportement assez prévisible et
un style de jeu, en fonction de son adversaire. Ces scores, couplés avec
la solution d’analyse prédictive IBM Smarter Analytics (SPSS Modeler)
permettent de définir les critères clés que chaque joueur doit atteindre
pour maximiser ses chances de gagner. Le système va choisir les 3
critères les plus pertinents par joueur parmi une cinquantaine de
possibilités. Chaque joueur n’aura pas forcément les mêmes critères
que son adversaire.
Informations Supplémentaires
L’analyse prédictive appliquée à Roland-Garros a permis d’utiliser de
nombreuses informations des matchs passés pour déterminer des
styles de joueurs et mieux analyser les comportements. Les critères
sont classés par type :
- offensifs
- défensifs
- endurance
- style
L’outil est sans cesse affiné pour devenir plus pertinent. On voit que si
un joueur atteint ses 3 clés et l’autre aucune clé, dans 98% des cas, le
gagnant est celui qui a atteint ses 3 clés. Des statistiques assez poussées
existent maintenant sur la fiabilité du modèle.
La finale Nadal-Djokovic de Roland-Garros 2012 est assez parlante car
Nadal a gagné, en atteignant ses clés à moins de 1% près ! Djokovic n’a
atteint qu’une seule clé mais n’était pas si loin des 2 autres.
L’équipe IBM d’Atlanta a mis à la disposition de la FFT les données
collectées depuis des années et ses compétences « Big Data Analytics
au service du Tennis » pour aboutir à cette solution des clés du match.
Ces clés sont calculées et mises à disposition des internautes sur le site
officiel, puis le taux de réalisation de la clé est mis à jour en temps réel
au fur et à mesure du déroulement du match.
Le projet a été testé lors de l’édition 2011 de Roland-Garros puis lancé
à Wimbledon, utilisé à l’US Open et pendant l’Australian Open. Lors de
l’annonce officielle pour l’édition 2012 de Roland-Garros, la FFT a donc
bénéficié d’une solution déjà bien testée et éprouvée sur les autres
tournois.
Les clés du Match sont mis à disposition des joueurs et de leurs équipes
mais également depuis 2012 sur le site web public de Roland Garros afin
de permettre à chaque spectateur d’enrichir son expérience du match
en bénéficiant des informations supplémentaires mises à sa disposition,
et en permettant de suivre leur évolution au cours du match, par une
mise à jour en temps réel des indicateurs.
Innovation
L’aspect innovant de ce projet consiste à mettre à la disposition des
joueurs mais également des spectateurs une solution habituellement
développée pour aider les entreprises à mieux prévoir leurs ventes, les
niveaux de stocks nécessaires, l’efficacité des campagnes de promotion,
Jamais les fans de tennis, les journalistes, les coachs n’ont eu autant de
données à leur disposition pour analyser le match en cours en utilisant
des informations des précédents matchs des joueurs concernés. Toutes
ces informations sont disponibles sur le site Officiel du tournoi.
L’internaute peut interagir avec le SlamTracker et choisir de visualiser
les points qui l’intéresse : aces, points gagnés, doubles fautes, fautes
directes, montées au filet ….. et tout en temps réel.
13
PROJET
Search Analytics
Porteur du projet
informations supplémentaires
Cette mission constitue un excellent exemple de ce que l’Analytics peut
apporter aux organisations, à condition d’y construire la bonne
architecture de données, ce qui permet de développer ensuite des
applications adaptées pour améliorer la performance.
Lan Anh VU HONG
Responsable Marketing
55 SAS
Partenaires
PagesJaunes
Objectifs
Améliorer la pertinence du moteur de recherche de PagesJaunes.
Présentation du projet :
La catégorisation des requêtes est cruciale pour la pertinence des
résultats affichés par PagesJaunes. Si un visiteur tape « acacias,
Toulouse », on peut penser qu’il veut acheter des acacias. Cela signifie
qu’on catégorise « acacias » en objet (« Quoi ? »). Et si l’utilisateur
cherchait en fait l’adresse d’un restaurant appelé « Les Acacias » à
Toulouse ? Il faut comprendre « Les Acacias » comme le nom d’une
entreprise (« Qui ? »). Dans un cas, la réponse attendue est une liste de
pépinières, dans l’autre, l’adresse d’un restaurant bien identifié.
La correction des requêtes mal catégorisées est un enjeu majeur pour
l’annuaire, et pour les professionnels répertoriés, puisque 74 % des
recherches effectuées sur PagesJaunes.fr aboutissent à un contact
professionnel physique.
La mission de fifty-five était d’exploiter les données de webanalyse de
PagesJaunes pour établir un modèle de prédiction permettant
d’automatiser la détection de requêtes mal catégorisées.
S’appuyant sur l’analyse de 3 terabytes de logs de webanalyse et des
dernières technologies de big data et de machine learning, l’équipe de
fifty-five, composée d’ingénieurs, de data scientists et de spécialistes
de datavisualisation, a amélioré d’un facteur 10 le ciblage des catégories
mal catégorisées.
La mission s’est déroulée en 3 étapes : collecte, traitement, puis
visualisation de la donnée.
Après la mise en place d’un Data Management Platform (DMP) pour
structurer la donnée, fifty-five a élaboré un modèle de machine learning
calculant un score de prédiction. L’équipe a ensuite créé une interface
interactive dédiée pour rendre lisible l’intelligence extraite de l’analyse
des données.
Aspect Novateur du projet dans les métiers et/ou dans les usages:
L’exploitation des données de webanalyse permet à PagesJaunes
d’améliorer en continu, de façon automatique et collaborative (donc à
moindre coût) la pertinence de son moteur.
Valorisation observée de la donnée:
La précision du ciblage des requêtes mal catégorisées a augmenté d’un
facteur 10.
PROCHAINES Etapes
Le modèle de prédiction et la méthodologie élaborés pour cette mission
sont en cours d’internalisation et d’intégration dans les process métiers.
Les applications potentiellement dérivées de cette mission sont
multiples. L’architecture mise en place permet par exemple d’envisager
une personnalisation des résultats, une évolution du système de
monétisation de PagesJaunes (fondée sur le taux de clic, etc) ou encore
la prise en compte de nouveaux critères pour le classement des blocsréponses.
14
PROJET
DEUS
Porteur du projet
Observatoire de Paris – Jean-Michel Alimi
GENCI – Stéphane Requena
Objectifs
Réaliser sur un des plus grands supercalculateurs au monde, le premier
calcul de la formation des structures cosmiques dans TOUT l’Univers
observable du Big-bang à aujourd’hui pour trois modèles d’énergie
noire, mystérieuse composante représentant plus de 70% du contenu
énergétique de l’Univers et moteur de son expansion accélérée.
Présentation
Chacune des simulations a permis de suivre l’évolution gravitationnelle
de 550 milliards de particules sur plus de 2500 milliards de points de
calcul avec une résolution spatiale de la taille de la Voie Lactée à celle
de l’Univers observable. Les 150 Poctets de données générées durant
les calculs ont été finalement réduites à 1.5 Poctets grâce à une
procédure innovante et performante de traitement de données
indispensables pour un tel projet.
Pour la première fois nous disposons de la distribution de matière dans
TOUT l’Univers observable semblable à celle qui pourrait être observée
par les télescopes et nous y reconnaissons les structures cosmiques en
formation tout au long de l’histoire de notre Univers.
Innovation
Le projet DEUS a pour la première fois disposé de l’infrastructure,
capable de charger en mémoire TOUT l’Univers observable et permettre
des simulations dans des temps de calcul satisfaisants et, surtout,
capable de stocker et de post traiter à la volée à un débit soutenu de
50Go/s plus de 150 péta octets de données réduits à un volume final utile
et acceptable de 1.5 péta octets. Tous les aspects du calcul haute
performance ont été sollicités durant ce défi numérique et les
performances atteintes par notre application sont une première pour
un code en production en astrophysique et plus généralement pour le
calcul haute performance.
Résultats
Les données résultant du projet DEUS sont à la disposition de la
communauté scientifique internationale. Elles constituent un support
exceptionnel aux grands projets observationnels des agences spatiales
ESA et NASA comme le satellite européen Planck dont les résultats
seront prochainement publiques et le futur télescope spatial Euclid
lancé en 2019.
PROCHAINES Etapes
Les mécanismes de délégation des entrées/sorties réalisés par le projet
DEUS seront ré-utilisées pour des applications comme l’évolution du
climat, la fusion par confinement magnétique (ITER) ou la combustion.
Une autre option consistera à évaluer des approches type Map/Reduce
sur des données scientifiques complexes, en utilisant des systèmes de
fichiers parallèle Lustre ou GPFS avec des réseaux Infiniband.
15
PROJET
Wikidump
Porteur du projet
L’application nous a permis de déterminer quelque uns des facteurs
influençant les consultations de la page d’un de nos partenaires. Même
si ces données ne concernent que Wikipedia, elles sont un outil
supplémentaire dans une analyse plus approfondie, en corrélation avec
les données internes d’une entreprise.
Labs Ingensi
Objectifs
Développé dans les Labs Ingensi, le projet Wikidump a pour objectif de
démontrer comment intégrer et exploiter de nouvelles sources de
données pour sensibiliser les professionnels et les étudiants aux enjeux
des Big Data. L’application est structurée autour des trois concepts qui,
à nos yeux, expriment le mieux le potentiel des Big Data :
¬ La « datavisualization » qui est l’art de représenter les données.
¬ Le « NoSQL » pour l’exploitation de sources de données en « temps-réel ».
¬ Le « machine-learning » pour la compréhension des relations entre
les données.
Finalement, cette application met en avant l’apport de la technologie
Hadoop dans les organisations. Il est aujourd’hui possible de découvrir
de nouveaux « signaux faibles ». Les trouver, et les comprendre, permet
de mieux appréhender notre environnement, et ainsi comprendre les
facteurs de réussite ou d’échec d’un projet.
Wikidump exploite les données issues de l’encyclopédie Wikipedia. Cela
représente plus de 18 To de données, 6 millions d’articles HTML, 5
années d’historique et plus de 20 langues. Au travers d’une application
web et tactile, Wikidump permet de consulter le top 50 des articles les
plus populaires par jour, par heure et par langue. Il est également
possible, pour chacune de ces pages, de connaître l’évolution du nombre
de ces visites sur une période de temps (2 semaines, 1 journée, de date
à date, etc.). Pour finir, une fonction vient enrichir chacun des articles
en proposant une liste d’articles liés soit par le sens (en fonction de son
contenu) soit par leur évolution (articles Wikipedia possédant des
courbes de visites semblables).
16
PROJET
Distributed e-commerce : bringing online
shops to high-traffic content websites
Porteur du projet
Innovation
Amener des magasins en ligne directement dans des sites de contenu
Cette application ouvre les portes d’un nouveau marché : l’échange de
données qualifiées et sémantisées entre le monde du contenu et de
l’achat, qui jusqu’ici ne se parlaient que par bannières agressives
interposées. A l’inverse, nous tâchons de reproduire un maximum de
l’expérience utilisateur d’un magasin, directement dans la page
d’origine.
Là où la plupart des usages BigData se contentent de chercher de
vagues corrélations dans des volumes de données importantes,
l’originalité de notre approche est de privilégier une compréhension
profonde et sémantique de données complexes et intriquées.
Présentation
Résultats
Jerome SAS
Partenaires
Groupe SEB – François-Xavier Meyer
Groupe CASINO – Patrick Garrel
Objectifs
Nous créons un lien entre le monde du contenu et de l’achat, en
développant une gamme d’interfaces qui permettent d’apporter des
magasins en ligne directement dans des sites de contenu, dans des
formats reprenant les codes de la publicité en ligne classique.
Grâce à une analyse sémantique, nous affichons au sein de cette
interface des produits parfaitement qualifiés, afin de permettre à un
utilisateur de commencer ou de compléter un panier sans même quitter
la page.
Nous avons lancé en Décembre 2012 dans le domaine de l’alimentaire,
en apportant des supermarchés en ligne (CasinoExpress, CasinoDrive,
MesCoursesCasino, Mon-Marché) dans des sites culinaires
(l’AtelierDesChefs, C’vous, blogs, forums)…
Nos interfaces sont non-intrusives, parfaitement qualifiées et apportent
un service supplémentaire à la page qui les héberge, ce qui nous permet
d’atteindre des taux de clics absolument stupéfiants, signe d’un nouveau
vecteur d’acquisition de clients et de monétisation du contenu.
Prochaines étapes
Notre réseau de partenaires s’étend tous les mois, aussi bien en termes
de magasins en ligne que d’éditeurs.
http://corporate.chefjerome.com
17
PROJET
OREST TAE
Porteur du projet
LA POSTE COURRIER
Partenaires
DASSAULT SYSTEM
SOPRA GROUP
Objectifs
Outil de suivi de production industriel du traitement des enveloppes
(collecte, tri et distribution des objets postaux), basé sur un moteur
d’indexation CloudView
Innovation
L’aspect le plus novateur est la possibilité de visualiser au niveau le plus
fin les traitements en anomalies, jusqu’à l’image du pli.
Cette fonction est rendue possible grâce au stockage unitaire des
documents, aux performances exceptionnelles de comptages de l’outil,
mais aussi à l’utilisation de standard au sein du SI Industriel (WebService
REST) permettant les interconnexions transparentes et temps réels
entre les sources de données.
Résultats
• Contribution majeure à l’amélioration de la performance des sites et
du service client.
• Complément et bientôt remplacement des approches statistiques
historiques.
Le processus de recette du système s’est appuyé sur plusieurs
corrélations entre les mesures statistiques et l’approche unitaire mise
en œuvre et a montré la cohérence des agrégats (les seuls accessibles
aux méthodes historiques). Le système a montré toute sa force dans un
passage instantané des indicateurs aux événements unitaires. Par la
simplicité d’accès à l’information et donc l’usage du système par les
acteurs opérationnels, le même passage instantané se fait du constat
macro au plan d’action détaillé : les problèmes identifiés sont en effet
illustrés par des exemples concrets disponibles immédiatement.
18
PROJET
Application à la gestion des capacités
d’un système d’information industriel
Porteur du projet
croissant vers l’analyse de données). - Conception et déploiement de
méthodes analytiques, pour les activités supports d’un site de production
de semi-conducteur, pratique encore peu répandue. - Définition d’un
processus complet d’intégration des méthodes analytiques dans le cadre
des activités de l’organisation (identification des besoins décisionnels et
participation des acteurs). Les objectifs de ce processus, nommé « processus
socio-statistique d’aide à la décision », sont illustrés par la figure 3.
Michel Lutz
Doctorant CIFRE
Objectifs
Les managers de STMicroelectronics manquent d’outils analytiques
pour mieux piloter leur Système d’Information (SI). Pourtant, de
nombreuses données générées par le SI, automatiquement collectées
(activité hardware, software, etc.), sont disponibles. Ces données sont
sous-exploitées. Nous cherchons à en faire meilleur usage, pour faciliter
la prise de décision chez STMicroelectronics. Principalement, nous
visons à améliorer la gestion des capacités de l’infrastructure
technologique du SI.
Résultats
Les données auparavant largement sous-exploitées, sont désormais
pleinement intégrées dans les processus de prise de décision des
managers de STMicroelectronics.
Prochaines étapes
- Amélioration des méthodes quantitatives employées : applicabilité à
des plus larges volumes de données, utilisation en temps réel,
automatisation de la constitution des modèles de prévision, etc.
- La base de performance est une base Oracle, alimentée par un
mécanisme de parsing des fichiers de log du SI. A terme, ces fichiers
pourraient directement être exploités (process mining).
- Les développements proposés pourraient être directement intégrés
dans un système de support à la décision, qui favoriserait les synergies
entre analyses statistiques et gestion des connaissances
organisationnelles.
Présentation
Le projet s’est déroulé en trois grandes étapes.
1. Identification des besoins des besoins décisionnels. Face à la quantité
de données et aux nombreux problèmes décisionnels que peuvent poser
la gestion des capacités, il faut être capable de préciser très clairement
ce que l’on attend des méthodes analytiques. Pour cela, une enquête
méthodique et structurée est réalisée. Deux besoins sont mis en
exergue : - Les managers ont besoin de modèles de prévision,
permettant de prédire l’utilisation des ressources informatiques en
fonction de variables stratégiques caractéristiques de l’activité de
l’usine. - Les managers ont besoin de méthodes robustes de maîtrise
statistique des procédés, pour contrôler automatiquement l’activité du
SI (détection de comportements anormaux).
Un enseignement important de ce projet a été de comprendre que, si les
aspects techniques et quantitatifs du déploiement de méthodes
analytiques sont importants, ils ne peuvent aboutir à des résultats
opérationnels et pérennes qu’à condition d’avoir préalablement analysé
leur contexte organisationnel et humain d’application.
Il sera par ailleurs présenté dans le cadre d’une thèse de doctorat pour
obtenir le grade de docteur de l’Ecole Nationale Supérieure des Mines
de Saint-Etienne. Cette thèse, intitulée « METHODES SOCIOSTATISTIQUES POUR L’AIDE A LA DECISION EN MILIEU INDUSTRIEL Application à la gestion des capacités d’un système d’information en
industrie micro-électronique » sera soutenue le 14 mai 2013 à SaintEtienne.
2. Constitution de solutions analytiques ad hoc, intégrées dans les
processus organisationnels. Pour répondre à ces besoins, on s’appuie
sur les données générées par le SI, automatiquement collectées (activité
hardware, software, etc.) dans une base de données appelée « base de
performance » de plusieurs dizaines de To, ainsi que sur les nombreuses
bases de données métier disponibles (même ordre de grandeur).
Une démarche structurée est définie. D’une part, elle vise à intégrer les
acteurs de l’organisation, pour assurer l’ancrage des méthodes
analytiques dans leur activité quotidienne (interprétation des variables,
des modèles, compréhension des méthodes mises en œuvre). D’autre
part, elle vise à identifier les méthodes statistiques destinée à exploiter
les données : - Concernant les modèles de prévision (exemple : figure
1) : un processus de modélisation complet est défini. Il permet 1)
d’explorer les bases de données (statistiques descriptives et
exploratoires) ; 2) de réaliser des modèles prédictifs (statistiques
inférentielles et confirmatoires) ; 3) de mettre sous contrôle la stabilité
structurelle des modèles (statistiques confirmatoires). - Concernant les
méthodes robustes de maîtrise statistique des procédés, une méthode
à base de lissage Holt-Winters robuste, tenant compte des changements
structurels et du cadre multivarié d’application a été définie.
3. Déploiement. Pour l’instant, les solutions industrielles suivantes sont
opérationnelles chez STMicroelectronics : - Scripts R d’analyse manuelle
de la base de données pour la constitution de modèles de prévision. Logiciel de contrôle automatique de la stabilité structurelle des modèles
de prévision (interfaçage R/VBScript, cf. figure 2). Logiciel de de maîtrise
statistique des procédés (interfaçage R/VBScript, cf. figure 2).
L’ensemble de ce projet s’est déroulé sur une période de trois années.
Innovation
- Conception et déploiement de méthodes analytiques pour la gestion
des capacités d’un système informatique, conformément à l’évolution
des pratiques dans ce domaine (l’approche traditionnelle est la
modélisation des réseaux de files d’attente, mais on constate un recours
19
PROJET
LA DATAVISUALISATION INTERACTIVE EFFET
DE SERRE DE LYONNAISE DES EAUX
Porteur du projet
SARL 10h11 / Lyonnaise des eaux
Objectifs
Améliorer la compréhension du rapport Gaz à Effet de Serre de la
Lyonnaise des Eaux auprès du grand public
Présentation
http://ges-lyonnaisedeseauxbordeaux.fr/
137 tableurs Excel - un rapport de Gaz à Effet de Serre que touche
l’ensemble des corps de métiers de la Lyonnaise des Eaux et un site
internet associé ne répondant pas aux objectifs de l’entreprise. Une
start’up, 10h11, propose une visualisation interactive de la donnée pour
répondre aux besoins de la Lyonnaise des Eaux.
Innovation
Une visualisation de données innovantes par son interactivité et ses
différents niveaux de lecture
Un back-office administrable pour permettre une autonomie jusqu’en
2016
Technologie native et moderne : HTML5 - CSS3 - JQuery - JS - php –
MySQL
Résultats
L’internaute obtient un tableau de bord interactif sur lequel il est
commanditaire de l’information qu’il souhaite observer. Le design de
l’information se veut épuré, ludique et scénarisé : la donnée devient
attractive et interactive pour l’internaute.
Prochaines étapes
Le déploiement d’un rapport Gaz à Effet de Serre sur le plan national
n’est pas exclu pour améliorer l’impact des actions environnementales
de la Lyonnaise des Eaux au regard du citoyen.
L’équipe de 10h11 développe actuellement un CMS libre de visualisation
de la donnée sur son volet recherche & développement.
20
PROJET
SeeMore
Porteur du projet
compétences des collaborateurs (par profil, niveau d’études et niveau
d’expérience) et les sélectionner pour un projet stratégique particulier,
plutôt que de faire appel à un consultant externe, et ainsi réduire les
coûts. L’une des forces de SeeMore™ est la possibilité, offerte à
n’importe quel utilisateur final, d’accéder immédiatement à des
données, sans avoir à embaucher un programmeur ou un analyste.
Karl Rigal
Senior Public Relation Manager
Monster Worldwide
Objectifs
Prochaines étapes
SeeMore™ est la première solution sémantique appliquée aux viviers
de candidats des entreprises articulée autour de deux axes majeurs :
- l’analyse décisionnelle
- la recherche
La résolution du problème de recherche du « meilleur » CV dans un
vivier de candidats, a longtemps constitué un défi majeur dans l’industrie
des Ressources Humaines. Avec l’essor d’Internet, le volume des bases
de données de CV est passé de quelques milliers, à plusieurs dizaines
de millions. Aujourd’hui la stratégie de différentiation des fournisseurs
repose davantage sur la taille de la base de données que sur la qualité
des outils utilisés pour exploiter ces données.
La recherche du meilleur CV est un problème particulièrement difficile
car les approches traditionnelles ont montré leurs limites. Pour une
même recherche, des milliers de CV comportent les mêmes mots-clés
qui ne se rapportent pas aux concepts de ces mots. La plupart des
informations essentielles sur un CV n’est tout simplement pas exprimé
par des mots. Ainsi, le nombre d’années d’expérience sur une
compétence spécifique est un facteur clé dans la sélection des candidats,
mais pas consultable avec les outils traditionnels de gestion RH.
Un moteur de recherche doit être en mesure d’évaluer le niveau
d’expérience et de distinguer les compétences courantes des
compétences rares. Les outils de recherche traditionnels classent les
candidats à l’aide de mesures artificielles, comme le nombre
d’occurrence d’un mot-clé ou la date de la dernière mise à jour du CV.
Ces méthodes ne permettent pas d’identifier le meilleur candidat en
haut de la liste du résultat de recherche.
Les approches booléennes traditionnelles échouent parce qu’elles ne
traitent pas les candidatures de la même manière qu’un être humain.
Un candidat compétent peut passer à travers les mailles du filet, tandis
que les recruteurs sont obligés de parcourir des CV et modifier la
recherche pour arriver à une liste restreinte. Pour être efficace, une
recherche doit identifier les candidats en comprenant le sens et le
contexte des mots sur un CV, puis classer les candidats selon les
critères du recruteur, en quelques instants. C’est désormais possible,
grâce à SeeMore™ de Monster qui offre la première solution Cloud qui
répond à tous ces besoins.
SeeMore™ permet d’exploiter dans le Cloud le vivier de candidats
constitué par les entreprises à partir des multiples sources de CV :
- CVthèques
-Réseaux sociaux
-Annonces
- Cabinets de recrutements
- Cooptation
- Ecoles et Universités
- Presse
- Solutions RH internes
Présentation
- nature des données traitées, volume approximatif
- Nature :
CV candidats ou CV des collaborateurs d’une entreprise sous divers
formats (Word (DOC, DOCX), PDF, RTF, TXT) & données structurées
- Volume : Centaines de milliers à plusieurs millions de profils
- ressources mises à disposition : compétences humaines, outils
techniques. SeeMore™ repose sur une plateforme virtuelle sécurisée,
largement évolutive et optimisée pour héberger les données.
Cette solution Cloud dispose d’une technologie d’indexation in-memory.
- calendrier de déploiement : En production
Innovation
Les applications de la technologie 6Sense sont faciles d’utilisation.
SeeMore™ de Monster permet aux utilisateurs d’effectuer des
recherches en les soulageant du processus, complexe et chronophage,
de recherche selon la logique booléenne. SeeMore™ comprend à la fois
le sens des mots et le contexte des critères saisis, ce qui permet à
l’utilisateur de se concentrer sur les exigences du poste plutôt que sur
les mots-clés et lui permet de bénéficier d’un gain de temps
considérable.SeeMore™ intègre un puissant outil d’analyse qui vous
permet de mieux voir et connaître tous vos viviers de talents, y compris
vos employés. SeeMore™ vous donne accès à plus d’informations sur
vos CV, depuis les compétences spécifiques des candidats jusqu’à la
provenance des CV les plus pertinents. Cela vous permet de déterminer
l’efficacité générale de vos efforts de recrutement - et vous aide à
aligner vos talents sur vos objectifs stratégiques.
Résultats
SeeMore™ se différencie de ses concurrents par sa base de
connaissances, qui identifie des concepts très complexes dans les
différents formats d’origine des documents. Ainsi, le processus de
recherches très complexes est véritablement simplifié.
L’index de recherche SeeMore™ identifie les concepts dans les données
non structurées, et les héberge dans des structures de données
efficaces, développées pour optimiser la recherche et les rapports.
Le moteur de rapport et d’analyses SeeMore™ est étroitement liée aux
index de recherche. Il est capable de générer des rapports et des
analyses en temps réel sur un ensemble de données en constante
évolution. Pour la première fois, un responsable RH peut instantanément
découvrir des talents au sein de son entreprise, voir la répartition des
21
PROJET
Data for Development Challenge (D4D)
Porteur du projet
Innovation
Première mondiale, de mise à disposition en mode Open BigData de
données de son réseau par un opérateur de téléphonie mobile. qui a
motivé une grande diversité d’équipes participantes, réparties sur
l’ensemble de la planète et une richesse des pistes de recherche
proposées (250 équipes souvent multidisciplinaires : spécialiste de
santé, sociologues, ingénieurs, mathématiciens,…)
Nicolas de Cordes
VP Marketing Vision, Orange Groupe
Partenaires
Pr Vincent Blondel, Université catholique de Louvain (UCL), Louvain-LaNeuve, Belgique - Président du comité du concours (membres ci-dessous)
Pr Francis Akindes, Université de Bouaké, Bouaké, Côte d’Ivoire
William Hoffman, chef de l’industrie des télécommunications, World
Economic Forum, NY, USA
Mari-Noëlle Jego-Laveissiere, directrice de Orange Labs, Paris, France
Robert Kirkpatrick, directeur de Global Pulse, Nations Unies, New York, USA
Chris Locke, directeur général du «GSMA Development Fund»,GSMA,
Londres, UK
Alex (Sandy) Pentland, Medialab, MIT, Cambridge, USA
80+ papier scientifiques reçus explorant toutes les pistes d’utilisation
de données BigData anonymes à des fins de développement de la
société: identification d’épidémie, modélisation urbaines, détections de
crises, cartographie des richesses et de la pauvreté, etc…
Méthodes innovantes de croisement de données très variées avec celles
d’un Telco, et identification des différences de traitement à apporter
dans les méthodes d’analyses entre les pays occidentaux et les pays
émergents dûs aux comportements sociaux différents (mobilité,
différences semaine/WE,…)
Objectifs
Résultats
Orange et sa filiale Orange Côte d’Ivoire ont mis à disposition de la
communauté scientifique une base de données inédite de données de
trafic de communications dans le cadre du Concours « Data for
Development » (D4D).
Les chercheurs avaient pour objectif de contribuer au développement
de la Côte d’Ivoire (réduction de la pauvreté, amélioration de la santé,
etc) en analysant ces données, le cas échéant en les croisant avec
d’autres jeux de données.
Les meilleurs résultats seront présentés lors de la conférence NetMob
2013 suivi d’un évènement en Côte d’Ivoire.
Les résultats contribueront au développement et au bien-être des
populations, et à l’amélioration des politiques publiques de
développement.
Déjà plusieurs demandes reçues de la part d’organisations pour initier
des travaux sur base de données anonymes plus fines conservées chez
Orange.
Prochaines étapes
Orange développe une approche basée avant tout sur le respect de la
vie privée, et l’accroissement du contrôle de ses données par le client.
C’est dans ce cadre uniquement, que les projets de valorisation de
données BigData anonymes sont abordés.
Présentation
• La nature des données traitées
Les données proviennent des communications passées par les abonnés
mobile d’Orange en Côte d’Ivoire entre Décembre 2011 et Avril 2012,
fortement anonymisées et organisées en 3 thèmes:
- communications entre antennes relais,
- trajectoires de déplacement,
- sous-graphes de communication.
Les résultats du concours seront annoncés le 1er Mai au MIT (Boston).
Nous ne citerons pas de résultats spécifiques, étant sous contrainte de
confidentialité de ces publications scientifiques.
• Volume de données
5 millions d’utilisateurs, 2.5G lignes, 35Gb de données sources,
nécessitant des algorithmes de traitement lourds en science des
réseaux
• Les ressources
- L’équipe projet D4D Orange: composée d’ingénieurs, marketers,
sociologue et juriste.
- le site web : ouvert à la communauté des chercheurs ainsi qu’aux
institutions publiques ou ONGs désireuses de soumettre un projet
- les centres informatiques d’une centaine d’institutions (universités,
institutions privées) en compétition de par le monde
• Le calendrier
Juin 2012 : lancement de l’appel à candidatures pour le Concours.
15 Février 2013 : limite de soumission des travaux.
1 mai 2013 : présentation des projets au MIT Medialab, avec la
conférence NetMob (2-3 mai).
S2 2013 : présentation des projets récompensés par Orange en Côte
d’Ivoire.
22
PROJET
Ouestmarches.com
Porteur du projet
Résultats
-Mise en forme et qualification des annonces de marchés collectés
- Génération d’indicateurs économiques (collecte et datavisualisation)
- Traitement statistiques des données collectées : observatoire des
marchés publics (traitement et datavisualisation)
Stéphan Minard
Head of Digital - Medialex
Partenaires
Data Publica – personne référente : Benjamin Gans
Prochaines étapes
- Elargissement du nombre de marchés collectés
-Amélioration de la qualification des données
-Application de règles métiers permettant de fournir des services de
veille « intelligent » : cf détection des renouvellements des marchés
publics en fonction du cycle de vie d’un produit ou d’un service (matériel
informatique renouvelé tous les 3 ans), identification des attributaires
des marchés, …
- Génération d’un annuaire des acheteurs à partir des données
collectées.
- Veille économique permettant d’identifier les opportunités d’affaires
en amont.
Objectifs
Service de veille de marchés publics et privés à destination des
entreprises
Présentation
Données traitées
• 500K annonces / an • 40 gigas de données • 40 sources • 20 attributs
/ annonce • Volume : un grand nombre d’annonces traitées, plus de 500
000 par an • Diversité : un grand nombre de sources différentes avec des
formats et des structures différentes (il y a plus de 8 000 sources de
données potentielles) • Vélocité : un grand nombre d’utilisateurs
potentiels (5 millons d’entreprises en France).
- Un des premiers services dégageant un business modèle autour de la
donnée publique autour d’un système gagnant / gagnant / gagnant
- Gagnant pour les acteurs publics qui répondent à leurs obligations
de publicité et qui informent les citoyens sur la commande publique.
- Gagnant pour les entreprises qui accèdent à de nouvelles opportunités
d’affaires
Gagnant pour ouestmarches qui développe une gamme de services
payants à partir de données ouvertes.
- L’utilisation de technologies issues du bigdata permet à ouestmarches
de se positionner en rupture avec le marché existant (pur player
technologique versus acteurs traditionnels)
- rupture technologique : automatisation
- rupture de commercialisation : vente à distance et maketing direct
- rupture en terme de prix
- rupture en terme de services (nouveaux services issus du traitement
des data)
- rupture en terme de cible : des grands groupes nationaux ou
régionaux aux pmi/pme
Stockage :
Tableau de bord des territoires et Tableau de bord des marchés : les
données qui alimentent les tableaux de bord sont stockées et
maintenues dans un entrepôt de données de l’ordre du téra-octet, qui
s’alimente à la source de plusieurs puits de données open data de
plusieurs tera octets de données
Innovation
• L’usage de technologies web / « big data » au service de la veille de
marchés publics en rupture avec les usages et méthodes de collecte des
autres acteurs du marché.
- crawling
- sémantique
- metadata
• Le croisement des données collectées avec des indicateurs issus de
l’open data afin de générer un service à forte valeur ajoutée aux
entreprises abonnées.
• L’extraction de données utiles au sein des annonces collectées afin de
produire de nouveaux services (annuaires des acheteurs, …)
Les domaines
- Collecte « exhaustive » et automatisée des marchés publics à partir
de sources numériques (versus collecte manuelle)
- Déduplication, qualification et enrichissement des data
- localisation
- secteur d’activité
- contacts
- type de marché
- date de clôture
Outils de recherches multi-critères fins pour une recherche ciblée
Mise à disposition des entreprises de données enrichies pour une
lecture structurée
Matching des marchés collectés avec des indicateurs économiques
générés à partir de l’open data
- indicateurs économiques par commune ( prix de la catégorie Territoire
& Mobilité au concours Dataconnexions organisé par Etalab)
- Indicateurs économiques par secteurs d’activités.
Mise à disposition d’un observatoire des marchés publics permettant de
« monitorer » la commande publique sur l’ensemble du territoire
national.
23
PROJET
Voix du Client
Porteur du projet
Proxem
Partenaires
Carrefour
Objectifs
- centraliser l’ensemble des remontées clients dans un référentiel
unique ;
- analyser ces verbatims clients en temps réel pour les classifier
automatiquement en fonction des thématiques métiers, rayons et
problématiques remontées par les clients ;
- mettre à disposition et transmettre l’information pertinente à
l’ensemble des utilisateurs Carrefour.
Présentation
Le projet consiste dans la mise en place d’Ubiq, une plateforme globale
d’analyse sémantique des verbatims clients développée par Proxem.
C’est une solution d’aide à la décision en mode SaaS. Ubiq traite
automatiquement les verbatims écrits par les consommateurs pour en
extraire l’information pertinente (marques, produits, concurrents,
concepts…). Ubiq analyse les opinions, les perceptions et les classe
automatiquement par thématique. Ubiq s’applique aux emails envoyés
spontanément, aux sondages en questions ouvertes ou aux opinions
d’internautes.
Chez Carrefour, Ubiq, analyse chaque jour à la volée des milliers de
retours clients issus :
- des acteurs classiques de la relation client (CRM…)
- des acteurs complémentaires (études, baromètres…)
- des acteurs innovants : (avis consommateurs, applications mobiles,
bornes en magasins…)
Il s’agit donc d’une plateforme cross-canal qui met à disposition plus
d’un million de retours clients. En quelques secondes de chargement,
l’utilisateur a accès à l’ensemble des retours catégorisés, triés,
visualisés, et peut consulter les résultats de requêtes complexes,
découvrir automatiquement des documents similaires et des signaux
faibles.
Les interfaces permettent un pilotage par un petit nombre d’utilisateurs
qui peuvent facilement communiquer l’information.
Innovation
- mettre en place un projet technique qui permette concrètement de
placer le Client au cœur des orientations stratégiques de l’entreprise
- créer un référentiel de centralisation inédite de l’information
- permettre des prises de décision stratégiques basée sur des données
factuelles et objectives, validées par 10 années-hommes de R&D en TAL
(traitement automatique du langage).
Résultats
Le projet a permis de transformer une donnée déstructurée, abondante
et dispersée en une information utile, synthétique et à forte valeur
ajoutée.
Prochaines étapes
Les équipes Carrefour recherchent sans cesse de nouvelles sources de
données pour la plateforme et envisagent notamment l’adoption de
solutions speech-to-text pour permettre le traitement sémantique de
l’intégralité des conversations téléphoniques chez Carrefour.
24
PROJET
Le géomarketing dynamique par SFR : valorisation
interne et monétisation externe des données réseau SFR
Porteur du projet
SFR
Partenaires
Web Géo Services et Intersec
Objectifs
- Faire passer le réseau mobile d’un « centre de coûts » à un « centre
de profits »
- Collecter les données agrégées et anonymisées de géolocalisation des
utilisateurs du réseau SFR
- Analyser/structurer et enrichir ces données pour commercialiser des
études et des solutions clé en main à des grands comptes à partir des
flux des utilisateurs : sociétés de transport, collectivités locales, grande
distribution, etc.
Présentation
Le projet géomarketing de SFR consiste à traiter de manière
anonymisée, les données de géolocalisation des utilisateurs du réseau
SFR collectées sur tout le territoire français par les antennes relais pour
analyser les flux de population.
L’équipe géomarketing Big Data de SFR mixe 2 sources principales de
données :
- Les événements des utilisateurs du réseau SFR (exemple
d’événement : allumer / éteindre son mobile, passer un appel, etc.) dont
le volume s’élève à un milliard par jour
-Agrégation de sources de données externes : bases clients des
partenaires, open data, données sociodémographiques sur base d’opt-in
des utilisateurs.
Les enchainements des événements (exemple d’événement : allumer /
éteindre son mobile, passer un appel, etc.) émis par des mobiles vers
des cellules du réseau SFR permettent de suivre les densités / flux de
population à un niveau macro (national, urbain) et micro selon la
topologie du réseau.
Innovation
La plupart des données et analyses réalisées sont uniques sur le marché
(versus des Enquêtes type « Ménages et Déplacements » basées sur
des questionnaire et du déclaratif).
Les données sont accessibles en temps réel via des accès Push / Alertes
et Pulls.
Les données SFR après redressement (par rapport à la part de marché
SFR) sont fiables et représentatives de l’ensemble de la population dans
la mesure où elles ont été validées par des comptages manuels sur le
terrain.
SFR a mis en place une plateforme multi-solutions techniques (NoSQL,
Hadoop, Custom) et multi-solutions de visualisation/ reporting.
Résultats
- Valorisation externe : vente directe d’études et solutions par SFR ou
vente indirecte via son partenaire Web Géo Services (WGS)
- Valorisation interne : Espaces SFR et MVNO SFR, gestion de la fraude, etc.
25
PROJET
POC BIGDATA SNA
Porteur du projet
Temps de traitement et de restitution
Les temps de chargement moyen pour la phase d’initialisation de un an
de donnée a durée 8 heures.
La phase quotidienne de chargement dure en moyenne 30 minutes.
Pour la restitution et le rafraichissement de rapport nous avons observé
les temps suivants :
-Requêtes complexes : moins de 15 minutes
-Requêtes simples : inférieur à une minute
Damien Albagnac - Consultant senior décisionnel
Sopra Group
Partenaires
Julien DULOUT Manager décisionnel
Sébastien DANGUILLAUME Chef de projet
Objectifs
Innovation
Le service SNA de la Poste veut pouvoir mesurer plusieurs indicateurs
sur des logs Apache de type Log4J de leurs serveurs web. Ils veulent
pouvoir analyser :
- Vérification du trafic entre les serveurs (Répartition du LoadBalancing)
- Vérification des erreurs Apache
- Tracer les différentes étapes d’un contrat client
- Quantification du nombre de contrat souscrit par Mois
La poste inscrit un million de nouveau contrat de changement d’adresse
par années.
Cela représente plus de deux millions de lignes de log Apache par jour
avec l’impossibilité de visualiser le parcours client sur un temps de
traitement très court.
Les données de log sont en constante évolution. Connaitre le trafic et la
répartition des charges serveurs sur de longue période est compliqué
et très couteux avec une telle volumétrie.
Les types de logs générés sont des logs Log4J. Ils ont trois
environnements distincts contenant chacun deux serveurs web Apache
pour faire du LoadBalancing. Chaque serveur web génère un fichier de
log par jour.
L’utilisation d’outil comme Talend For BigData ou VectorWise qui sont
des outils récents mais très novateur dans le domaine du BigData, a
permis un gain de temps de ressources plus que considérable.
De plus, la technologie Hadoop a permis de réaliser le projet avec des
temps de chargement et de restitution plus que convenable pour la
volumétrie traitée avec coûts très faible.
Cela aurait été très compliqué et surtout très couteux pour faire ce
projet avec des technologies standard pour avoir les mêmes temps de
traitements.
Résultats
Grâce à la distribution de Cloudera, l’interface administrateur nous
permet de configurer les serveurs de manières simple et rapide.
De plus, des outils comme HUE permettent d’accéder à la donnée de
manière graphique sans avoir de compétence particulière sur la
connaissance des technologies Hadoop.
Les temps de traitement observé sur la volumétrie, et le nombre de
nœud restreint sont vraiment très spectaculaires.
Présentation
Nature et volume des données traitées :
Le POC a été fait sur une volumétrie de un an et doit contenir à terme
plus de cinq années de données de logs.
Pour un an, cela représente :
- 477 Millions de ligne
- 1500 fichiers
- 80 Go de données
26
PROJET
SPDM – Scientific Process Data Management
Porteur du projet
Jean-Etienne Fortier – KM SPECIALIST
UCB Pharma
Objectifs
Implémentation d’un système capable de mettre en corrélation des
données du procédé de fabrication et d’observation cliniques.
Présentation
Le projet SPDM (Scientific Process Data Management) a pour objectif de
permettre l’agrégation rapide et le traitement graphique et statistique
de nombreuses données issues des procédés de fabrication
pharmaceutique (laboratoire, pilote ou usine), des mesures analytiques
(développement ou contrôle) et des observations cliniques sur les
patients (études cliniques notamment).
Un premier projet a été réalisé en 2012 sur un procédé de fabrication
d’un anticorps monoclonal (environ 20 étapes de synthèse) en collectant
plusieurs centaines d’essais et environ 500 paramètres (dont une grande
partie sous forme de variable du temps). Pour le premier projet, 5
sources de données ont été connectées. Dans ce projet, une équipe
interne regroupant des spécialistes en procédés, en études cliniques,
en informatique (architecte en base de données, data scientist) et en
gestion des connaissances et statistiques, a été mise en place en
parallèle d’un consultance externe liée à la solution informatique.
Ce premier projet s’est déroulé entre avril et décembre 2012 et a abouti
au déploiement d’une solution d’agrégation de données brutes,
d’analyse, d’automatisation de diffusion de rapports à l’échelle de
l’entreprise. Par ailleurs, la solution actuellement en environnement de
développement sera basculée en production permettant une
augmentation de paramètres disponibles, du volume de données et du
nombre de procédé / produits concernés.
Innovation
Ce projet permet une intégration des informations issus du clinique et
du technique dans l’industrie pharmaceutique, depuis l’entrée des
matières premières dans l’entreprise à l’utilisation du produit fini, afin
d’en permettre l’analyse. Cette démarche, liée à la mise en place d’un
système « qualité par la conception » remet le patient au centre de la
compréhension du médicament et de sa fabrication.
Résultats
Nous avons pu :
- mettre en relation les données techniques de procédés et cliniques
(patients)
- modéliser l’évolution du profil qualité entre la fabrication et
l’utilisation des produits pharmaceutiques
- vérifier l’impact de variation du procédé ou du profil qualité du produit
sur les patients
Prochaines étapes
La démarche a montré une grande puissance liée à la vitesse
d’accessibilité aux données et de la facilité de leur analyse malgré le
nombre et la disparité de ses sources. Cette application directe de
GESTION des CONNAISSANCES sera généralisée.
De plus, le partage de données au sein de l’entreprise a permis un
accroissement important de la connaissance acquise et de sa
conservation. Ce type de collaboration entre départements va être
multiplié.
27
PROJET
Viadeo
Porteur du projet
Lila Razzaqui – Public Relations – NEO Technology
Partenaires
Viadeo
NeoTechnology
Objectifs
As the company’s network continued to expand, the Viadeo team soon
found that their traditional MySQL database couldn’t keep up. The
project objective therefore was to find a new framework that could
accommodate Viadeo’s Big Data performance and storage needs at the
rate that the company was growing.
Présentation
As the company’s Big Data challenge continued to grow, it was at this
time that Christophe Thibault, CTO, decided to implement a graph
database to store Viadeo’s data. Recognizing that Viadeo’s core business
revolved around user relationships, he found a graph model as the most
appropriate way to model and support such data.
Thibault in turn chose graph database Neo4j for its performance, ease
of use, and its ability to quickly integrate with other applications, as a
means to model and query Viadeo’s growing amounts of connected data.
The project entailed transitioning approximately 300 GB of graph storage
from MySQL to graph database Neo4j – a process that took about five
minutes time to get started, and which concluded with overwhelming
results.
By leveraging graph database Neo4j, Viadeo has highly accelerated their
system in two ways: the project has increased Viadeo’s performance by
requiring less storage space, and, it required less time to restructure its
existing graph.
The rollout consisted of two months where Viadeo successfully
transitioned all of its user data from a MySQL database to the Neo4j
graph database. Viadeo went with Neo4j for its simplicity and high
performance, and as a result they have far less storage restrictions and
faster querying times.
Innovation
What makes the project so innovative as regards lines of business and/
or usages:
VIadeo’s move to a graph database is innovative as it better enables the
company to leverage its ever-changing, connected data for optimized
high performance queries and relationship analysis. This means better
insight into Viadeo’s social graph for both users and the team.
A graph database is additionally perfectly suited to Viadeo’s business
model, which is a business-oriented online social networking platform.
Viadeo lets members maintain a list of business partners, allowing them
to stay in touch, use or help each other to find a job, or create business
opportunities – capabilities that are fully supported by graph database
technology.
Viadeo’s project shows how a business can remain innovative through
leveraging modern Big Data technology - this case, a graph database.
Résultats
Upon integration, Viadeo accelerated its system performance by over
200 percent. Specifically, the project resulted in the following data
exploitation:
28
PROJET
Voyage Privé, Le BIG DATA
au service du client
Porteur du projet
Laurent Hupé – Directeur du CRM
Voyage Privé
Partenaires
CAPITALDATA représenté par Didier PARISOT
Directeur Associé
Objectifs
Lancé en France en 2006, Voyage Privé est le premier site de ventes
privées de voyage. Depuis notre lancement, la relation avec nos
membres est au cœur de notre business model. L’essentiel de nos
efforts de R&D visent donc à établir une relation unique avec chaque
individu, s’attacher à comprendre ses attentes et lui proposer les offres
adaptées. Les informations dont nous disposons sur toutes les
personnes étant entré en contact avec notre marque sont donc devenues
le socle de notre développement commercial.
INNOVATIONS
En nous lançant dans ce projet en partenariat avec CAPITALDTA,
l’objectif était clair : construire un dialogue avec nos clients et prospects
en personnalisant entièrement notre discours marketing. On ne peut
aujourd’hui atteindre cet objectif de personnalisation qu’en agrégeant
et en exploitant des volumes de données gigantesques.
RéSULTATS
Notre travail vise à répondre au mieux aux questions cruciales du
marketing :
- A QUI et QUAND envoyer un message marketing : le travail de scoring
est décisif si l’on souhaite intensifier le mouvement naturel d’achat sans
tenter de contraindre un prospect. L’activité court-terme ne doit pas se
faire au détriment de l’avenir. Nous avons donc aussi cherché par ce
biais à diminuer drastiquement les taux de désabonnement sur les
emails ou sur les bannières de reciblage.
- QUOI envoyer : nous avons développé un moteur de dérive qui
détermine sur la base des comportements constatés les offres les plus
susceptibles de plaire à aux internautes sollicités.
- COMMENT envoyer : tous les leviers marketing deviennent
progressivement des supports de marketing relationnel. Il est
désormais possible d’identifier chaque individu et de lui parler de
manière nominative par email mais aussi maintenant par bannière, par
voie de notification à destination des utilisateurs de notre application
mobile. Dès lors, la question du choix du média devient centrale.
PROCHAINES éTAPES
Toute cette réflexion s’est également accompagnée d’une volonté de
maîtriser la donnée pour rendre la main aux internautes et leur
permettre de mieux gérer leurs informations personnelles.
L’engouement actuel autour de la thématique « Big data » fait réaliser
aux consommateurs comme aux eCommercants la valeur des données
d’un individu.
En l’absence d’une législation claire, trop de tiers se sont arrogés selon
nous le droit de collecter et de croiser des données sans réellement
rendre de compte à qui que ce soit. Il est pour nous fondamental que
l’échange d’informations s’appuie sur la relation de confiance qui existe
entre une marque et son client.
29
PROJET
Yahoo! Consumer Connect
Porteur du projet
Jean-Christophe Gombeaud , Directeur Planning & Stratégie
Yahoo
Partenaires
Carrefour Medias – Michel Bellanger - Responsable Marketing
Objectifs
Proposer une solution de ciblage et d’efficacité publicitaire à destination
des annonceurs de la grande consommation.
Présentation du projet :
Fin 2012, Yahoo! s’est associé avec Carrefour Médias pour lancer en
exclusivité en France Yahoo! Consumer Connect.
Yahoo! Consumer Connect offre pour la première fois la possibilité aux
annonceurs de la grande consommation :
- de cibler les individus sur la base de leurs achats réels en magasins.
Que ce soient les acheteurs de la marque, des marques concurrentes
ou de la catégorie.
- de mesurer l’efficacité de la campagne sur les ventes de la marque
en sortie de caisse (pendant et après)
- de calculer le ROI de la campagne, optimisé grâce à une
communication online ultra-ciblée qui évite la déperdition.
Le panel Yahoo ! Consumer Connect:
Yahoo! avec Carrefour Médias a constitué un panel commun et exclusif
de plus de 16 500 panélistes opt-in qui sont à la fois acheteurs chez
Carrefour et utilisateurs Yahoo !. Le panel fusionne les données de
consommation réelles des inscrits au programme de fidélité Carrefour
(achat offline) avec les données Yahoo! (comportements de navigation
online). La mesure de l’exposition média et des achats en magasins se
faisant sur un seul et même individu, le panel est donc single source.
Chiffres clefs du projet :
- 16,1 millions de visiteurs uniques chaque mois sur Yahoo ! France
(Source : MNR - Janvier 2013)
- 15,7 millions de porteurs actifs de la carte de fidélité Carrefour (Source
Carrefour - 12 derniers mois).
- Un total de 48To de données utiles.
Aspect Novateur du projet dans les métiers et/ou dans les usages:
Cette offre de ciblage combinée à une mesure de l’efficacité publicitaire
directement sur les ventes, à partir de données réelles de ventes en
magasin, n’a pas d’équivalent en France.
résultats
Yahoo ! Consumer Connect a déjà fait ses preuves à l’international :
- Disponible aux États-Unis depuis 2003, plus de 600 campagnes
diffusées avec un ROI moyen entre 2 et 5 dollars.
- Disponible au Royaume-Uni depuis 2010, une vingtaine de campagnes
et un ROI moyen à 3,2 livres.
PROCHAINES éTAPES
Le projet a débuté en septembre 2012 avec la signature du partenariat
avec Carrefour Media.
Après avoir recruté le panel et effectué des tests de modélisation, la
première campagne débute en avril avec un annonceur de la catégorie
Boisson.
30
PROJET
Zalando, une réussite
« Made in Germany »
Porteur du projet
PROCHAINES éTAPES
Florent Daversin, Managing Director, VO2 GROUP
Zalando est entrain de rapprocher ses données non-structurées (qu’ils
stockent dans une installation Hadoop) des données structurées de la
base de données EXASolution, en utilisant un dernier outil
complémentaire: Le framework EXAPowerlytics (Le lien realisé en
language SQL).
Partenaires
EXASOL AG : BERNHARD DOERFLER / ( Partner & Alliances) Bernhard
Carsten Weidmann - Presales Manager
ZALANDO : Eric von Czapiewski, Manager Business Intelligence
Zalando
L’exploration de données, des analyses avancées et des statistiques
seront pratiquées à l’aide des algorithmes MapReduce, implementés
dans les langues R, Lua et Python. L’architecture d’EXASolution
constituera la base de la parallélisation massive qui accélère
énormément les calculs.
Objectifs
Zalando (www.zalando.fr) est la plus grande boutique en ligne de
vêtements et de chaussures en Europe. En seulement 4 ans d’existence,
le leader a largement atteint le milliard de CA. Avec la croissance
phénoménale de son activité, le volume total de données collectées
spécifiques (références proposées, infos fournisseurs, clients,
prospects…) a littéralement explosé. D’où l’apparition de problèmes de
performance notamment et la nécessité d’optimiser radicalement sa
base de donnée et ses fonctions BI.
Le projet devait permettre permettre aux équipes marketing et vente de
se concentrer sur les aspects plus stratégiques de leur mission afin de
gagner la course de vitesse entamée sur le marché.
Autres utilisations en cours : optimisation des processus de stockage,
exploration des données pour les prévisions de vente (ex en cas de
promotion), détection des fraudes…
informations supplémentaires
En 2012, Zalando a reçu le European E-commerce Awards du meilleur
site transfrontalier pour sa capacité d’adaptation aux marchés
concernés, que ce soit au niveau de l’offre, du paiement, de la
distribution ou du marketing (vision client 360°).
Il fallait considérer les aspects financiers liés à la gestion de données
massives et les coûts élevés de licence et de maintenance des solutions
du marché, et prendre en compte un timing très serré.
Présentation
En plus des aspects purement commerciaux (gestion fluide des
transactions clients, fournisseurs, gestion des retours marchandises
…), Zalando devait trouver le moyen d’accroitre la pertinence d’une offre
de plus en plus dense et spécifique au web :
- Gestion des pics de charge
- Offres / affichages personnalisés …
En bref, gérer une politique de vente sur-mesure avec des références
de plus en plus importantes, et pour une population de plus en plus
large, de plus en plus exigeante.
Après plusieurs simulations et versions d’essai avec les équipes
expertes du marché, Zalando a retenu la solution base de données
haute performance et la réponse EXASOL.
innovations
La croissance de Zalando est en partie dûe à sa capacité à produire les
bonnes analyses et tirer les bonnes conclusions concernant son marché.
Pourtant le recul sur le marché du BIG DATA était quasiment nul au
moment du démarrage de leur projet d’où une prise de risque
importante, notamment sur la sélection d’une solution de stockage
innovante.
Intégrée en 2 semaines, la nouvelle base de données a notamment
permis que les analyses réalisées en 10minutes auparavant ne prennent
plus que 10 secondes.
résultats
Depuis la mi-2010, la base de données a été multipliée par plus de 5.
Nous avons directement commencé avec un cluster de production qui a
été ensuite multiplié par 5. Zalando a rajouté un cluster utilisé pour
developper, tester et integrer de nouveaux développements dans
l’environnement de production.
31
Solutions
SOLUTIONS
Alephd, we help publishers
Porteur du projet
Résultats
Les données recueillies permettent de comprendre comment
s’effectuent les enchères, au degré de granularité le plus fin. Elles
permettent ainsi de découvrir et donc de modéliser les comportements
des acheteurs de publicité.
Sur les données disponibles, la technologie d’AlephD permet d’obtenir
une amélioration des revenus de l’ordre de 30%.
Vincent Lepage - Directeur Général
AlephD SAS
Nicolas Grislain – Président
AlephD SAS
Partenaires
Pubsquared
Audience Square
Prochaines étapes
AlephD cherche aujourd’hui des investisseurs pour accélérer son
développement et attaquer le marché international : européen dans un
premier temps, puis américain. Les principaux investissements prévus
concernent le recrutement d’ingénieurs, de statisticiens et de business
developers. Par ailleurs, AlephD continue son travail avec ses clients
existants, développant de nouveaux algorithmes, avec comme objectif
de convaincre d’importants nouveaux clients d’ici au deuxième
semestre.
Objectifs
AlephdD permet aux éditeurs de médias web et aux gestionnaires
d’inventaires d’espaces publicitaires de tirer profit des technologies
d’enchères en temps réel (RTB). Grâce à une technologie big data temps
réel, AlephD rend possible une optimisation utilisateur par utilisateur
de la vente d’espaces sur les plateformes d’enchères (AppNexus,
Rubicon, Google...).
Fig1 : schema d’architecture fonctionelle – Comment AlephD s’intègre
dans la chaîne existante
Présentation
Problème à résoudre
L’arrivée du RTB donne aux acheteurs et aux vendeurs d’espaces
publicitaires la possibilité de personnaliser leurs ordres en temps réel,
utilisateur par utilisateur. Cela nécessite le déploiement d’une
infrastructure serveur complexe (big data, temps réel) et la mise en
place d’algorithmes de décision.
Données utilisées pour résoudre le problème
Les données traitées sont des logs d’enchères de publicités en ligne.
Concrètement, AlephD obtient, pour chaque affichage de publicité sur
le site d’un de ses clients, les informations sur le prix et les paramètres
de l’enchère correspondante. Ces informations sont recueillies en temps
réel par nos serveurs, qui les mettent ensuite sur un cluster Hadoop.
Aujourd’hui, AlephD ne traite que les données issues de la plateforme
d’enchère AppNexus, qui est la solution la plus transparente et qui
connait le plus de croissance actuellement.
Technologie et équipe d’AlephD
AlephD a développé une technologie propriétaire unique pour traiter ces
données et optimiser les paramètres d’enchère en temps réel. Cette
technologie repose sur deux piliers :
- une infrastructure big data, utilisant les technologies Hadoop et Hive.
AlephD développe des algorithmes en Map/Reduce pour exploiter au
mieux ces Tera-octets de données ;
- une infrastructure temps réel de prise de décision, c’est-à-dire capable
de répondre en moins de 10ms à une requête de paramètres d’enchère,
avec plusieurs milliers de requêtes par secondes.
Une des principales difficultés réside dans l’interfaçage de ces deux
modules, big data et temps réel : les calculs et analyses issues du
datamining sur le big data doivent être pris en compte dans la règle de
décision temps-réel.
Innovation
AlephD est la première solution d’optimisation des revenus des éditeurs
de site pour le RTB, en tempsréel
et indépendante d’une plateforme.
En effet, il existe aujourd’hui deux types de solutions :
- des solutions « statiques », qui optimisent les paramètres une fois par
jour par ex. Ces solutions ne prennent pas en compte les particularités
de chaque utilisateur, et manquent donc une bonne partie des
opportunités d’optimisation
- des solutions « in-house » de plateformes, qui sont des boîtes noires.
Ces options ont mauvaise réputation chez les annonceurs, qui détectent
et fuient les éditeurs y recourant car peu transparentes et remettant en
cause l’équité des enchères.
33
SOLUTIONS
BELOGIK: rendre les logs intelligentes
Porteur du projet
Christophe Ballihaut - Président
Belogik
Partenaires
Le partenaire du projet est Outscale, Le Cloud Français, opérateur
de services cloud computing. Le fournisseur d’un des plus grands
éditeurs de logiciels mondiaux s’appuie sur les services d’Outscale
pour opérer l’ensemble de ses activités SaaS.
Laurent Seror – Président
Objectifs
Le projet vise à améliorer la connaissance de Outscale sur le
comportement de ses clients dans l’utilisation de ses services d’IaaS.
L’infrastructure de production de Outscale est décentralisée sur
plusieurs sites physiques dans le monde et fonctionne sur plusieurs
fuseaux horaires.
Présentation
L’infrastructure de Outscale produit des millions de lignes de données
machines par jour sur le fonctionnement de l’infrastructure : ouverture
d’instance, fermeture d’instance, consommation des ressources,
augmentation des ressources, trace d’erreurs, communication réseau, ….
Croissant de 50% par an, le nombre d’opérations d’une infrastructure
cloud dépasse les 500 opérations à la seconde et les traces laissées par
l’infrastructure sont de plus en plus nombreuses.
Les solutions actuelles de traitement de données ne permettent ni
d’agréger les données au regard de la diversité des formats produits par
les équipements techniques, ni de traiter les volumes engendrés.
Le projet est basé sur la solution BELOGIK d’analyse de log as a service.
L’objet du projet consiste à :
- collecter à l’échelle du big data les données machines,
- permettre la fouille en temps réel dans les données machines,
- générer l’intégralité des indicateurs métiers.
Le projet est en phase de prototypage des indicateurs métiers avant de
passer à la phase de montée en charge de la solution et de qualification
des performances.
Innovation
L’innovation pour Outscale est de produire une connaissance intime du
comportement de son infrastructure. La mise à disposition d’une
énergie informatique élastique et sans «limite » génère des usages et
des comportements de la part des clients en complète rupture avec
l’hébergement traditionnel à capacité finie. L’innovation réside à donner
corps au concept de Customer Insight dans un contexte technologique,
c’est une rupture majeure avec les pratiques marketing en vigueur dans
cette industrie. Les bénéfices pour Outscale sont immenses avec un
capacité de provisionner plus finement ses ressources physiques et
surtout d’adapter à terme son offre de services à ces nouveaux
comportements. Un effet de bord induit est d’accélérer le traitement de
l’analyse des données machines en situation d’anomalie. C’est un projet
stratégique pour le développement de l’entreprise.
Résultats
L’objet du projet consiste à collecter toutes les données, permettant
éventuellement une fouille en temps réel et surtout de construire les
indicateurs métiers permettant au Product Manager de Outscale de
proposer des nouvelles offres de service.
34
SOLUTIONS
“Moving Data & BIME: Harnessing
the power of Google BigQuery”
Porteur du projet
BIME’s BigData project manager worked in parallel with the client on
the dashboard setup and design. At Moving Data, CEO and founder Craig
Morton worked on the project along with an in-house IT engineer.
Rachel Delacour - CEO – Bime
Innovation
Objectifs
Scaling a database is hard and scaling analytical databases is even
harder. BIME powered by Google BigQuery offers an analytical database
as a service that scales to petabytes of data. It means that Moving Data
doesn’t require sophisticated infrastructure and an operational team to
analyze data. BIME + Google BigQuery provide Moving Data with a
reliable, quick and infinitely scalable pay-as-you-go service to tap data
generated by the Internet of Things.
Moving Data improves mobile performance by ensuring the quality and
serviceability of telephone and broadband networks in the Australian
Outback. The company has developed advanced methods to collect and
disseminate alerts and statistics from mobile devices and supporting
mobile networks. When dealing with millions of network-generated
events, trend analysis rather than specific alerts becomes critical to
make the right decisions fast.
With Moving Data based in Australia and BIME in France, this Big Data
project has been undertaken across disparate time-zones. However,
with everything in the cloud, execution has been fast at all stages:
testing, implementation and client validation, even in a Big Data context.
The scalability of the BIME-BigQuery combo can facilitate the regular
incrementation in the volume of data.
Moving Data had two needs that only BIME could satisfy. It needed tools
to enable interactive, visual analysis of emerging network issues. They
also wanted to communicate insights to their current clients via
collaborative and online dashboards, as well as promote insights to
other telecommunications clients with similar data, which is
standardized across the industry, for a fee. They needed Big Data
analytics in real-time.
Résultats
Moving Data’s prime benefit consists of harnessing events and audit data
and communicating insights to clients (major Australian telco
companies) as quickly and as concisely as possible. Dashboards with
KPIs reduce the customer decision-cycle for further analytical actions.
Présentation
type of data processed, approximate volume:
For the initial project, the type and volume of data processed by BIME
and Big Query was 500 million radius records, 10,000 network probes,
120.6 million sessions, 960 device models.
With each future project the amount of data processed is projected to
increase exponentially.
Prochaines étapes
Roll-out of the product to a larger number of customers dealing with
ever increasing volumes of data.
Resources used: human skills, technical tools:
BIME cloud BI runs in any browser, queries datasets stored in BigQuery
at the speed of thought and, thanks to its’ powerful calculation engine,
displays results in interactive analysis dashboards, in seconds.
35
SOLUTIONS
Cedexis
Porteur du projet
innovations
Cedexis Radar ne réalise pas ses mesures depuis quelques points
déterminés (et un unique réseau) dans le monde. Le système de mesure
repose sur la collecte de données (techniques) issues des vrais
utilisateurs qui exécutent la sonde Cedexis Radar lorsqu’ils consultent
les sites d’éditeurs intégrant celle-ci. Chaque jour, Cedexis collecte,
traite et utilise en temps-réel près d’un milliard de mesures issues des
utilisateurs finaux répartis dans 230 pays et 34 000 réseaux d’accès (FAI,
entreprises…).
Cedexis Radar
Objectifs
L’objectif de Cedexis Radar est de comparer de façon neutre et objective
la qualité de service des fournisseurs de services d’hébergement et de
diffusion de contenus (CDN, Clouds…) pour aiguiller les utlisateurs
finaux vers le meilleur prestataire et améliorer la performance d’un
service en ligne.
résultats
Autrefois, les données de monitoring d’infrastructures n’étaient utilisées
que de façon passive, c’est-à-dire après analyse longue. Cedexis a voulu
rendre « actives » ces données : Les mesures de Cedexis Radar servent
ainsi à prendre une décision automatisée (en temps réel) d’usage d’un
prestataire pour améliorer la performance et la disponibilité des
services en ligne pour chaque utilisateur à travers le monde, quelque
soit son terminal et son réseau d’accès.
Présentation
Aucun prestataire (hébergeur, CDN, Cloud) n’est performant partout,
tout le temps et pour tous les utilisateurs finaux. Ces variations sont
liées à de multiples facteurs provenant - par exemple - de la distance
entre l’utilisateur final et le serveur d’origine, de la latence, du chemin
d’accès aux serveurs du prestataire ou à la saturation/dégradation
momentanée de segments du réseau public.
prochaines étapes
Les données collectées par Cedexis « Radar » permettent de lever le
voile sur la véritable qualité de services des prestataires. Elles sont
utilisées par l’aiguilleur de trafic DNS Cedexis « OpenMix » pour diriger
le trafic vers le meilleur prestataire et ceci, en prenant en compte les
données de Radar et/ou les critères définis par l’éditeur de contenus
(performance, géographie, coûts, capacité technique / bande passante,
engagements contractuels...).
Cedexis envisage de collecter et d’utiliser toujours plus de données pour
optimiser l’aiguillage de trafic vers le meilleur diffuseur/hébergeur de
contenus. C’est le cas avec Cedexis Fusion qui permet d’aiguiller le trafic
en fonction de nombreuses variables personnalisées telles que l’énergie
utilisée par l’infrastructure, la charge des serveurs (et/ou des métriques
liées à ces serveurs comme l’usage de mémoire RAM, l’état des disques
durs, etc), le coût des prestataires et bien plus encore... toujours dans
l’objectif d’anticiper ou contourner une éventuelle défaillance de leur
infrastructure pour améliorer la performance des applicatifs hébergés
et diffusion de contenus Internet.
Les éditeurs ont ainsi l’assurance que chaque utilisateur de ses services
pourra visualiser ses contenus ou utiliser ses services de façon
optimale.
36
SOLUTIONS
CLIRIS, plate-forme de pilotage des points
de vente par l’analyse des flux shoppers
Porteur du projet
Ressources mises à disposition
- 6 ingénieurs/docteurs en Traitement d’image et Intelligence Artificielle
- 3 ingénieurs/docteurs en Business Intelligence
CLIRIS : 6 rue de Bitche 92400 Courbevoie
Anne STEINBERG - Directeur Marketing
www.clirisgroup.com
innovations
Accès à de nouveaux leviers de pilotage de leur réseau, auparavant
inexploités :
- attractivité des vitrines, des points de vente
- adéquation des équipes de vente au flux client,
- optimisation du plan merchandising et circulation des clients au sein des boutiques,
- optimisation du calendrier des opérations commerciales
- impact des opérations commerciales
Objectifs
Délivrer aux Retailers des indicateurs-clés de performance inédits et
développer ainsi de nouveaux leviers d’optimisation des ventes grâce à
l’analyse du comportement des « shoppers ».
Présentation
Conception et mis en œuvre d’une plateforme d’analyse de données Big Data.
Cliris reçoit chaque jour un volume de données exceptionnel depuis les
box en points de vente et les SI clients. Ce flux de données asynchrone
est intégré de façon périodique, avec une actualisation chaque minute
possible. Les informations sont consolidées, croisées et structurées
avant d’être restituées sur notre portail de reporting permettant une
supervision de la performance des points de vente et l’édition de
tableaux de bord.
résultats
- Fiabilité des données
- Prise en compte et exploitation en temps réel
-Restitution d’indicateurs de pilotage inédits et personnalisés
prochaines étapes
Nouveaux modules :
- cartographie des mesures de performance
- gestion de la planification des ressources RH d’une boutique
- module prédictif
- module de simulation de l’activité d’un réseau et d’une boutique
Nature des données traitées
- Des flux shoppers :
- Flux entrants dans un point de vente
- Flux passants devant un point de vente
- Nombre de regardants d’une vitrine ou PLV
-Répartition des visiteurs sur la surface de vente (zones chaudes/froides)
- Taux d’occupation de cette surface de vente
-Affluence en caisse
- Des données issues du système d’informations du point de vente :
- Tickets de caisse
- Chiffre d’affaires
- Planning des équipes de vente
- Plan merchandising
- Planning de déploiement des thèmes vitrine
- Des externalités :
- Phénomènes météorologiques
- Opérations commerciales
- Opérations concurrentes
- Evénements calendaires
- Vie du point de vente
37
SOLUTIONS
cOMMENT VALORISER LA DONNEE ISSUE DES RESEAUX
SOCIAUX POUR NOURRIR LA STRATEGIE DE MARQUE
Porteur du projet
Résultats
Au-delà de simples tableaux de reporting, nous valorisons la donnée
par le déploiement de modèles statistiques ad-hoc et complexes (ce qui
constitue véritablement le coeur de métier de notre entreprise).
Notamment, utilisation de techniques telles que:
• Réseaux de neurones & modèles bayésiens : outil de recommandation.
• Analyse de données: segmentation / scoring orientée connaissance
client
• Séries temporelles : impact & ROI des actions de communication
• Analyses sémantiques
Quentin Michard - Directeur Général
Ekimetrics SAS
Objectifs
Comprendre et valoriser la donnée issue des plateformes des réseaux
sociaux pour :
1- Monitorer et mesurer en temps réel le ROI/ROE de ses actions de
communication
2- Comprendre les mécanismes de viralité et identifier les leaders
d’opinion
3- Saisir les tendances, et identifier des territoires de marque
4- Détecter les ambassadeurs des marques de demain
5- Comprendre les proximités de produits et de marques dans une
perspective de cross-sell / faciliter les logiques de partenariat entre
marques (via du maching learning).
6- Enrichissement des bases de données clients des annonceurs à partir
de données publiques issues des réseaux sociaux (logique de scoring,
segmentation, connaissance client)
Prochaines étapes
Déploiement d’une offre complète à destination des annonceurs.
Partenariat avec agences de communication sur la couverture
évènementielle.
Couverture d’évènement mondiaux dans une logique de PR (worldcup
2014 / fashion weeks / olympic games).
Présentation
• La démarche consiste en la récupération en temps réel de l’ensemble
des données issues des plateformes de réseaux sociaux (Twitter /
Facebook / Instagram / Pinterest, Youtube, Tumblr) relié à un évènement
ou à sujet d’intérêt. Puis à analyser cette donnée pour la valoriser, et
multiplier ses usages, pour nourrir la stratégie marketing, et plus
spécifiquement la stratégie de marque.
• La volumétrie reste assez limitée, mais nécessite néanmoins l’usage
de technologies big data notamment en ce qui concerne la collecte et le
traitement de flux de données en temps réel (Node.j, Base de données
NoSQL, Map Reduce).
• Les ressources mises à disposition : 2 hommes à temps plein pendant
4 mois
• Le déploiement s’est fait sur 1 an et demi, dans une démarche test &
learn après une première implémentation réussie lors des jeux
olympiques de Londres, puis lors de la couverture systématique
d’évènement mondiaux, en déployant à chaque fois de nouveaux usages
et de nouvelles démarches analytiques.
Innovation
Approche en rupture avec les approches classiques de valorisation de
la donnée (type CRM), pour lesquelles les coûts d’entrée sont forts
(notamment en outil & système) pour valorisation à terme souvent
limitée et en silo de la donnée (CRM & stratégie relationnelle / marketing
/ communication).
Ici l’approche est « smart », donc cost-effective, et permet de façon
simple et immédiate de tracker, mesurer, piloter des données
individuelles publiques pour des usages marketing multiples et
immédiats (cf. objectifs du projet).
Alors que le tracking de données issues des réseaux sociaux s’est
beaucoup développé ces dernières années, notre valeur-ajoutée réside
non pas dans la barrière technologique nécessaire à leur récupération,
mais surtout dans leur valorisation orientée « usages ».
38
SOLUTIONS
Focusmatic : Accurate Digital Reach
Porteur du projet
Innovation
Notre projet est novateur car il aide des opérationnels en extrayant de
la valeur métier des données sociales. Cela est possible car il y a trois
innovations technologiques :
1.business intelligence sur des Big Data
2.calculs orientés métier : calcul d’audience par exemple (nombre de
personnes ayant vus) au lieu d’un reporting du nombre de messages.
Tous n’ayant pas le même impact…
3.le tout en temps réel pour apporter des réponses au moment où les
questions sont posées
Malekzadeh Amirhossein – Président
Focusmatic
Objectifs
Focusmatic propose plusieurs applications du Big Data au marketing
digital pour le rendre « opérationnel », c’est-à-dire utilisable par le
métier. Un de nos exemples est la mesure de l’impact d’investissements
médias de type co-branding ou la priorisation d’une liste longue de
partenaires potentiels. Le sous-jacent technologique est le même.
Ainsi nous pouvons aider
• des fédérations sportives pour se promouvoir et comprendre l’impact
de chacun de leurs partenaires,
• ou encore une marque de luxe pour analyser les retombées avec
chacune de leurs égéries (voir la vidéo - https://vimeo.com/62291803)
• ou encore des fournisseurs de secteurs vers des secteur comme les
cafés –hôtels – restaurants pour focaliser les efforts de leur force
commerciale vis-à-vis des 10,000 établissements de leur cible.
Résultats
Nous aidons nos clients à isoler les données qui sont utiles à leur
question business et de les traiter instantanément. Les données servent
à prendre des décisions, typiquement d’investissement de co-marketing
ou de focalisation des efforts commerciaux.
Prochaines étapes
L’entreprise toute entière est tournée vers le BigData. A date nous avons
des fonctionnalités analytiques sur notre outil, capable de gérer la big
data. Nous travaillons à continuer à améliorer les capacités d’analyses
sémantiques, notamment en travaillant sur la clusterisation et le
maintient temps réel des clusters de messages. Cela permet de
répondre à la question : « De quels sujets parle-t-on ? ».
Présentation
Notre projet consiste à collecter les données pertinentes sur le web et
les réseaux sociaux pour nos clients. Nous organisons cela par «
univers logique d’écoute » comme par exemple une marque et ses
concurrents ou encore des usages.
Nous collectons chiffres, textes, images et vidéos sur les principales
plateformes de réseaux sociaux, les blogs, etc.
Selon les projets nous récoltons typiquement de 50,000 à 1,000,000 de
messages par jour et conservons toute l’historique pour le client. Cela
monte rapidement à des volumes très élevés. On est typiquement en big
data car les volumes à traiter comprennent aussi l’historique, les flux
sont très variables et les données hétérogènes. Dans le cas d’une de
nos plateforme, celle qui absorbe parfois jusqu’à 1,000,000 de messages
par jour, il y a un pic à 20h le soir couvrant en général la moitié du
volume de la journée.
Ce genre de projet passe par une phase de compréhension de besoin du
client et un travail pour paramétrer notre plateforme générique au
client. Ce travail qui est plus business que technique prend une à deux
semaines.
Le projet commence ensuite mais la performance du système est
améliorée en continue car l’analyse sémantique s’appuie notamment
sur des algorithmes de machine learning qui prennent compte des
résultats passés validés ou infirmés pour mieux prédire le futur. Cela
s’applique notamment à ce qui est analyse sémantique (sentiment,
émotions, etc.)
Il y a pendant les premiers mois opérationnels un processus
d’amélioration continue pour voir les résultats et optimiser / affiner le
paramétrage.
Le seul outil technique utilisé est notre plateforme.
39
SOLUTIONS
Gamned – Le Big Data au service de l’Advertising
Intelligence
Porteur du projet
Innovation
Denis GARCIA
Gamned - Directeur R&D
20 rue Saint Lazare 75009 Marseille
Gamned innove dans le domaine du RTB par l’utilisation du Big Data dont
les technologies ont été éprouvées et validées dans d’autres domaines
tels que les secteurs pharmaceutiques, industriels et aéronautiques.
Partenaires
Ces technologies font maintenant partie du cœur technologique de
Gamned.
• métiers avec les AdExchanges, DSP et autre fournisseurs de données,
• techniques avec Hurence (acteur majeur du Big Data en France),
• logiciels avec des acteurs de BI,
• en Data Intelligence avec des laboratoires de recherche en
mathématiques et statistiques à Paris et Chambéry
Résultats
En résumé :
• nous stockons plusieurs milliards d’impressions nouvelles par mois,
• nous en extrayons, en temps-réel ou en différé, des partitionnements
et des indicateurs pour :
o personnaliser l’affichage par Internaute,
o créer un reporting solide pour nos clients,
• Nous utilisons notre infrastructure Big Data pour optimiser en temps
réel les achats d’espaces publicitaires.
Objectifs
Ajouter de la Data Intelligence pour le RTB (Real Time Bidding) pour
mieux cibler et acheter des espaces publicitaires en temps réel et mieux
personnaliser l’affichage publicitaire pour les Internautes
Ajouter de la valeur sur le reporting, pour le Media Traders en interne,
et pour nos clients qui doivent avoir accès à des informations disponibles
en temps réel pour optimiser les campagnes publicitaires, avec une
bonne profondeur et un bon historique.
Dans le cadre du rachat de Gamned par LeadMedia, l’infrastructure Big
Data de Gamned va être généralisée pour tous les domaines nécessitant
stockage et/ou calcul en masse. Les compétences métier de fouille de
données déjà présente chez Gamned et LeadMedia vont aussi être
fusionnées pour répondre plus largement aux besoins des clients.
Présentation
Pour stocker, gérer et analyser une très grosse quantité de données,
nous avons mis en place une infrastructure Big Data basée sur Hadoop,
Hive, HBase. Cette infrastructure est flexible pour le stockage,
extensible et nous donne une très grande puissance de calculs
distribués.
Nous intégrons aussi d’autres technologies directement branchées sur
notre Big Data comme Néo4J pour optimiser nos algorithmes de
parcours de graphs ou MemCached pour servir efficacement certaines
données à nos applications
40
SOLUTIONS
GET PLUS
Porteur du projet
Hervé Gonay – Fondateur
GET PLUS
Partenaires
RUNMYPROCESS : Alexandre LACHMANN
Objectifs
GETPLUS www.getplus.fr , projet CLOUD basée sur l’agrégation annuelle
de plus de 100 MILLIONS de données MARKETING comportementales
en provenance de plus de 1000 DATAMARTS de WEB TRACKING.
GETPLUS révèle l’identité des entreprises qui visitent un site Internet,
même celles qui n’ont pas remplies de formulaire de contact, ce qui
permet de réengager le bon prospect, avec le bon besoin au bon
moment.
41
SOLUTIONS
BigFoot
Porteur du projet
Résultats
Les données sont valorisées de deux manières :
- Valorisation à travers des applications clients, analyse de dépenses
énergétiques, analyse des usages par type de consommation avec la
désagrégation, calculs de gisements de l’efficacité énergétique,
attribution de points EcoTroks. Les expérimentations menées par
GridPocket démontrent une haute efficacité de l’approche
comportementale menant à 10-20% d’économie de l’énergie.
- Valorisation à travers de l’interaction avec un Data Scientiste d’un
fournisseur d’électricité : analyse dynamique de l’état du réseau,
statistique des usages, segmentation et clustering des consommateurs,
planification de campagnes de communication ciblées.
GRIDPOCKET SAS
Partenaires
EURECOM (coordinateur projet EU FP7), SYMANTEC, T-LABS, EPFL
Objectifs
Face à une demande commerciale importante pour les applications
Smart Grid et Machine-to-Machine en France et dans le monde, et
compte tenu de la nécessité d’assurer une mise en échelle rapide
(dizaines de millions d’utilisateur finaux), GridPocket a décidé d’intégrer
la technologie BigData dans sa plateforme de services énergétiques.
GridPocket et ses partenaires ont pour but de développer une platforme
BigData pour le traitement de séries temporelles avec de nombreuses
optimisations.
Prochaines étapes
L’évolution future va porter avant tout sur l’implantation de nouveaux
algorithmes, sur le lancement de nouvelles applications consommateur
et B.I. (business intelligence)
Les nouveaux composants de la plateforme seront disponibles en opensource et soumis comme contributions aux projets Apache Hadoop et
Apache OpenStack. Les applications métiers seront commercialisées
par GridPocket.
Présentation
Les données exploitées par GridPocket sont issues de plusieurs sources,
dont des compteurs communicants (électricité, eau ou gaz) et des
capteurs M2M.
Pour un fournisseur d’énergie de taille moyenne, avec 10 millions de
client finaux, le système produit 40-80 Terra Bytes de données chaque
année. Les données de référence (non-énergétiques) peuvent
représenter 10-50 Terra Bytes supplémentaires.
Les industriels intéressés par le projet (résultat scientifiques, code open
source) ont la possibilité de participer à « l’Industrial Advisory Board »
du projet BigFoot.
Site web du projet BigFoot : http://www.bigfootproject.eu/
Innovation
Le système BigFoot propose de nombreuses optimisations :
- couche de virtualisation de machines qui prend en compte les
caractéristiques des calculs et le type d’informations stockées sur
chaque machine
- optimisation des algorithmes de stockage sur les disques durs pour
l’usage MapReduce
- langage de programmation de haut niveau avec possibilité de requêtes
interactives et une libraire de fonctions statistiques.
42
SOLUTIONS
Intersec
Porteur du projet
D’autres références d’Intersec pour le LBA incluent Portugal Télécom
et SFR. En effet, depuis 2009 le « Tier-1 » français possède plus de 30
marques et plus de 40 campagnes LBA à son actif. SFR monétise
également ces informations au travers d’études Géomarketing
Dynamiques par l’analyse de Big Data géolocalisée, destinées à des
acteurs de secteurs d’activités multiples, plaçant l’opérateur au cœur
d’un nouvel écosystème.
Charlotte Loubet – Marketing Director
Intersec
Objectifs
Collecte et analyse du Big Data réseau pour des fins de création de
services avancés, amélioration de la satisfaction client et génération de
chiffres d’affaires
Résultats
Indéniablement, le Big Data permet aux opérateurs d’avoir une vision
globale de leur activité et d’extraire la valeur de ressources déjà
disponibles et encore inexploitées : des données réseau.
Tel est le cas d’opérateurs dans des marchés émergents très
compétitifs, avec une écrasante majorité prépayée caractérisée par une
forte sensibilité de prix. Grâce au Big Data, des opérateurs qui jusqu’à
maintenant ne savait que très peu de l’abonné derrière un numéro
prépayé, peuvent collecter des dizaines de milliers de données par
seconde pour analyser le comportement client individuel. Cela leur
permet d’une part d’enrichir leur connaissance client, jusqu’à présent
quasi inexistante et bâtir des offres basées sur l’usage réel de leurs
abonnés. Encore mieux, grâce à des capacités de micro-segmentation,
les opérateurs peuvent envoyer des offres promotionnelles
contextuelles, enrichies par des critères géographiques précis. La
valorisation de la donnée est telle qu’un opérateur en Afrique obtient en
10 mois d’opération plus de 7% d’augmentation en ARPU, +9% en
rétention et une baisse de 14% de churn ! Aujourd’hui la technologie
d’Intersec est plébiscitée par plusieurs opérateurs dans le monde, tel
qu’Orange Groupe qui a confié à Intersec la collecte et l’analyse du Big
Data à des fins de fidélisation et rétention pour l’ensemble de ses filiales
AMEA, ainsi que le groupe Maroc Télécom.
• Principaux cas d’usages :
o Pilotage de la valeur client
o Publicité géolocalisée
o Etudes Géomarketing…
Présentation
Intersec est le fournisseur leader de plateformes de services avancés
permettant aux opérateurs télécom de générer de la valeur à partir du
Big Data de leur réseau et de faciliter l’innovation des services. Intersec
développe depuis sa création des solutions Big Data à des opérateurs
mobiles.
La technologie avant-gardiste d’Intersec permet aux opérateurs mobiles
de monétiser leur Big Data réseau grâce à la création de nouveaux cas
d’usages. En outre, nos solutions permettent à plus de 60 opérateurs
mobiles dans le monde de traiter des milliards d’évènements réseau
par jour à des coûts d’exploitation 10 fois inférieurs à la moyenne du
marché.
Innovation
La technologie Big Data d’Intersec permet à l’opérateur de collecter et
d’analyser une mine d’informations disponibles dans le réseau et non
exploitée jusqu’à présent due à son volume. Ces données ont une valeur
unique du fait qu’elles représentent les différents usages réels de la
base abonnée et permettent donc à l’opérateur d’enrichir
considérablement sa connaissance client. Ajoutées aux données de
localisation en temps réel, il est finalement possible de proposer des
services contextuels au bon abonné au bon moment et au bon endroit.
Cela permet de créer une expérience totalement personnalisée,
augmentant ainsi la qualité de service et satisfaction client, ainsi que le
chiffre d’affaires de l’opérateur. Les cas d’usages à destination des
abonnés sont multiples : du marketing mobile géolocalisé au contrôle
parental en passant par la surveillance des portables volés ou perdus.
Prochaines étapes
Les solutions Big Data d’Intersec sont en constante évolution et
permettent aux opérateurs de mettre en place leurs stratégies de
pilotage de la valeur, d’optimisation des coûts et de rétention et
fidélisation. Intersec développait déjà des solutions de Big Data bien
avant que ce concept ne devienne un tel buzz.
Une consolidation des capacités de collection et d’analyse des données
d’usage et de localisation encore plus poussée est en cours. Les deux
produits phares de Big Data chez Intersec peuvent déjà aujourd’hui
interagir afin de créer des offres personnalisées, tout en intégrant des
données d’usage et de localisation à grande échelle.
Le potentiel de la valorisation des données réseau pour le
développement de nouveaux « business models » est tel, que des
opérateurs en concurrence directe forment à présent des alliances
stratégiques: du jamais vu ! Tel est le cas de l’ambitieuse joint-venture
en Angleterre entre T-Mobile, Orange, Telefonica et Vodafone: WEVE. Il
s’agit d’une initiative unique au monde. Les 4 plus grands opérateurs
européens s’unissent et investissent ensemble dans la technologie Big
Data d’Intersec afin de collecter et d’analyser des données d’usages et
de localisation de l’ensemble de leurs bases abonnées à l’échelle
nationale, pour la création de nouveaux services avancés en une offre
unique proposée aux annonceurs. Le premier cas d’usage actuellement
mis en place est la publicité géolocalisée, due à sa rentabilité certaine.
Nota bene : la publicité géolocalisée permet en moyenne de doubler le
revenu publicitaire d’un opérateur.
43
SOLUTIONS
Ultimate Retargeting
Porteur du projet
Innovation
Le système Big-Data est couplé avec une plateforme statistique chargée
d’exploiter les informations préparées par la Big-Data.
Les modèles statistiques qui en résultent sont utilisés pour prendre des
décisions temps-réel (Quelques milli-secondes maximum) en
bénéficiant de l’expérience de milliard d’évènements historiques.
Nous utilisons un principe d’algorithme adaptatif unique qui permet
avec très peu de données, de démarrer une nouvelle campagne
publicitaire avec un modèle simple et d’enrichir de manière
incrémentale le modèle au fur et à mesure de l’arrivée d’informations
complémentaires ou d’analyses Big-Data.
Sébastien Bock Directeur R&D
Next Performance
Partenaires
Anissa Sersoub (NextPerformance – Responsable Marketing)
Guillaume Barbet (NextPerformance)
Sébastien Berrier (NextPerformance)
Objectifs
NextPerformance a pour vocation de capter l’audience qui quitte un site
de commerce en ligne sans avoir finalisé la transaction (97% des
visiteurs). Ces utilisateurs sont re-ciblés sur les sites éditeurs de
contenu à l’aide de bannières publicitaires personnalisées et invités à
terminer leur transaction sur le site e-commerçant.
La plateforme « Ultimate Retargeting » a pour but d’analyser les
données historique afin d’élaborer des modèles statistiques capables
de faire des prévisions en temps réel de revenu par utilisateur. Il est
ainsi possible d’adapter la stratégie d’achat et de vente des espaces
publicitaire sur internet pour afficher la meilleure bannière publicitaire
au meilleur internaute sur le meilleur emplacement.
Résultats
Augmentation de 30% du taux de clic moyen (clic par publicité affichée).
Amélioration de 80% de la fiabilité des prévisions et des modèles de
données.
Respect des contraintes de nos clients (coût d’acquisition)
Prochaines étapes
Amélioration des modèles de données pour encore plus de fiabilité.
Augmentation de
Consolidation de toutes les données exogènes en complément des
analyses historiques (soldes, météo, …)
Présentation
Nous disposons chaque mois de plusieurs milliards d’évènements ayant
eu lieu sur notre solution de publicités personnalisées sur internet :
Affichages de publicité, Navigation sur les sites de nos clients
(e-Commerçants), clics, transactions, paniers…
Ces informations sont analysées par le système Big-Data, organisées,
consolidées et envoyées à un logiciel d’analyse statistique qui va
fabriquer un modèle « prédictif ». Le modèle prédictif est ensuite chargé
dynamiquement dans les serveurs et utilisé en temps réel dans les
décision d’arbitrage (choix entre plusieurs publicités) et les décisions
d’achat (prix qu’il faut payer un affichage sur les places de marché). Les
décisions temps réel sont prises en quelques millisecondes par les
modèles qui profitent de l’expérience des milliards de données
historiques analysées par le système Big-Data.
La technologie Hadoop/Map Reduce a été employée dans un cluster
d’une cinquantaine de serveurs chargés d’analyser cent milliards
d’évènements historiques (environ 1 péta-octet).
Une infrastructure de Business Intelligence est utilisée pour restituer
une vue synthétique des analyses Big-Data à nos clients.
La mise au point de la solution a demandé 2 années de Recherche et
Développement à NextPerformance et 2 M€ d’investissements
La complémentarité entre les modèles d’analyse Big-Data historiques
et les modèles adaptatifs temps réel fait de la plateforme « ultimate
retargeting » un leader de la livraison de performance sur les dispositifs
publicitaires internet.
44
SOLUTIONS
Big data hub for smart services
Porteur du projet
Infrastructure et exploitation
Pour garantir l’agilité de la plateforme permise par l’intégration
pertinente de plusieurs briques technologiques (storage NoQSL, moteur
d’indexation, composants Hadoop) quelle que soit la sollicitation en
volumes de chargements, stockages et accès, la solution est opérée sur
une infrastructure cloud (hybrique avec différentes stratégies selon les
parties de la plateforme : par ex. autoscalling AWS sur le frontaux pour
l’accès API).
Cette approche permet une mise à disposition instantanée du hub et une
très grande progressivité dans le coût d’exploitation.
Jean-Marc Lazard – CEO
Open Data Soft
Partenaires
Expérience menée chez VEOLIA ENVIRONNEMENT
(ce projet a notamment permis à OpenDataSoft, start-up créée en
2011, d’être sélectionnée par le Veolia Innovation Accelerator http://
www.via.veolia.com/fr/)
Objectifs
Calendrier :
Disposer de son propre hub big data qui rende possible le développement
rapide et économique d’applications innovantes pour ses marchés
(applications back-office de monitoring d’activité, portails open data,
solutions mobiles end-user …), selon un modèle économique favorable
au ROI business.
Le projet a démarré début 2012, est en production chez le client depuis
mi-2012 et en cours de montée en puissance (industrialisation de
l’architecture, enrichissement des catalogues de traitements et
présentations de données par ex., ouverture à de nouveaux utilisateurs).
Innovation
Présentation
Interfaces d’exploration interactive du champ illimité de données avec
filtrage multi-critères (cartes, analytics), sans modélisation a priori.
Révolution du data management à l’ère de l’open innovation :
développement rapide de nouvelles applications grâce à la mise à
disposition de données issues de sources hétérogènes sans contrainte
de volume et temps de réponse (e.g. domaine des Smart Cities
mobilisant des données issues de domaines très variés).
Collecte - Préparation – Stockage des données
Les données sont collectées au plus près de sa production i.e.
connecteurs développés par OpenDataSoft sur les SGBDR qui
concentrent les données de type réseau de capteurs ou sur les points
d’API web + possibilité de chargement manuel par les utilisateurs de
fichiers (référentiels internes, fichiers open data) via des connecteurs
génériques disponibles sur la plateforme (csv, xml, shapefile …)
Back-office utilisateur full-web de preview sur les données collectées
et de paramétrage des traitements de préparation à effectuer avant
chargement (modules disponibles dans la plateforme e.g. alignement
des formats, changements de systèmes de projection géographique /
possibilité pour l’utilisateur d’écrire des formules).
Stockage primaire des données dans un entrepôt NoSQL MongoDB et
indexation avec Exalead Cloudview, et utilisation du framework Hadoop
pour certains traitements.
Résultats
Architecture technique et modèle économique qui engendrent une
réduction considérable le coût de l’infrastructure nécessaire à la
valorisation des données et autorise donc un ROI rapide sur les apps
innovantes (mobilité, internet des objets).
Entrer de plain pieds dans le web des API.
Prochaines étapes
API / Datavisualisation
R&D continue sur l’intégration de technologies big data et la combinaison
avec les architecture cloud pour rendre toujours plus simple et
économique la transformation des données disponibles en applications.
R&D spécifique sur le traitement de données personnelles au sein du
hub (cryptage, anonymisation)
Les données préparées, stockées et indexées sont automatiquement
API-fiées par la plateforme OpenDataSoft de telle sorte qu’elles puissent
immédiatement être consommées par des applications métiers
(monitoring industriel, BI, modélisation statistique, portails web,
applications mobiles …). Les API Restfull produites permettent une
interrogation très avancée des data (par valeur, catégorie, attribut de
sécurité, zone géographique …).
Les données sont également accessibles à travers des interfaces web
d’exploration (moteur de recherche, carte interactive, graphiques) qui
sont automatiquement proposées grâce à l’analyse des données
disponibles (si des coordonnées géographiques sont impliquées, une
vue cartographique est automatiquement produite). Ces widgets de
visualisation interactive permettent d’alimenter des portails ou
dashboards, et de partager facilement une interprétation sur un jeu de
données.
Ces fonctionnalités ne nécessitent pas de développement spécifique et
sont opérées indépendamment des volumétries grâce à une répartition
des rôles entre stockage NoSQL et moteur d’indexation. Leur
combinaison permet de filtrer très efficacement de très grands volumes
de données et de réaliser des opérations métiers (calculs statistiques,
affichages cartographiques par ex à query time)
45
SOLUTIONS
AdScalability
Porteur du projet
Innovation
Aucun framework dédié au monde de l’adserving n’existe actuellement
pour permettre de construire un outil sur mesure. Nous avons vu
ci-dessous qu’AdScalability permet de mettre en place des projets
concrets exploitant de grands volumes de données.
AdScalability travaille sur un système de température de donnés
(données chaudes et données froides) définit en fonction de l’usage
mesuré. Cela permet au système de gérer le stockage des données sur
la plateforme et de répliquer les données dans le système autant de fois
que nécessaire pour répondre au besoin de requettage. L’objectif étant
d’optimiser les ressources « matériel » à disposition de la plateforme.
Ludovic Mugnier - Gérant
PrestaConcept
Objectifs
Suite à 2 années de R&D et à un soutien du FEDER et de l’Oséo,
AdScalability a vu le jour. AdScalability est un socle technique, type
Framework*, permettant de réduire drastiquement les coûts sur la mise
en place de solutions telles que :
• Un AdServing
• Un SiteCentric
• Un AdCentric
• Un AdExchange
• Un AdVerification
• Une solution de retargeting
• Du DataExchange
• Ou la mise en place de mécanismes de collecte de données
Prochaines étapes
Nous continuons à investir sur la solution AdScalability, l’équipe dédiée
à ce projet est amenée à doubler d’ici la fin 2014.
Présentation
PrestaConcept possède 2 pôles :
- Un centre de compétences en développement Symfony
- Une division Adserving
Ce pôle Adserving est à l’origine de la société. En 1998, Ludovic Mugnier
crée ComTrack. Suite à différents rachats, HiMédia acquiert cette
technologie. Plus de 15 ans après, ComTrack est toujours l’adserver de
la régie au clic d’HiMédia.
Dès 2008, PrestaConcept a identifié, dans les métiers de la publicité en
ligne, un besoin de stockage massif des données ainsi qu’une nécessité
d’exploitation de celles-ci rapidement. A cette période la publicité en
ligne gérait déjà de grands volumes de transactions (événements
publicitaires) mais s’était organisée pour ne pas avoir à stocker de
données granulaires. Seules des données agrégées étaient fortement
utilisées (statistiques). Certaines études comportementales étaient
mises en place en utilisant de forts échantillonnages, ce qui ne
permettait pas d’obtenir des informations sur les comportements fins
et individuels mais uniquement sur les grandes masses. AdScalability,
basé sur Berkeley Database, permet de structurer, collecter et exploiter
de très grands nombres de données tout en permettant des analyses
très fines. AdScalability a spécialement été conçu pour le monde de la
publicité en ligne et du marketing en ouvrant la voie des analyses
comportementales.
46
SOLUTIONS
Record SiSense: 10 * 10 * 10
Porteur du projet
Tout n’est pas fait pour Hadoop
Comme le prouve ce rapport, la majorité des entreprises aujourd’hui
travaillent avec des téraoctets de données, pas pétaoctets. Cependant,
l’industrie suggère que chaque entreprise doit s’orchestrer pour
Hadoop. Hadoop présente une très grande opportunité pour beaucoup
mais son coût de déploiement est en fait cher et lent. Ils existent très
peu de talent qui savent bien orchestrer un déploiement Hadoop, et
quand ils y parviennent, le temps de requête est très lent – car Hadoop
n’est pas optimisé pour l’analyse.
Bruno Aziza - Vice-Président Marketing
SiSense Ltd
Objectifs
10 téraoctets de données analysées sur une machine de $10,000 en 10
secondes
Présentation
Avec cette démonstration, SiSense prouve une nouvelle approche qui
permet de faire plus sans avoir a déployer Hadoop pour tout problème
de données – 10 téraoctets sur 1 Node avec SiSense – c’est à peu près
l’équivalent de 20 nodes d’Hadoop. De surcroit, SiSense produit sa
requête en moins de 10 secondes, ce qui serait quasiment impossible à
faire avec un déploiement Hadoop de cette magnitude.
Résultats
Avec cette démonstration, nous prouvons que le Big Data n’est pas un
sport d’élite mais quelque chose que toutes entreprise peut se
permettre de faire.
Nous utilisons une machine standard que les entreprises peuvent
acheter en ligne et déployer on-premise ou dans le cloud.
• nature des données traitées, volume approximatif :
Nature : Données structurées et non-structurées dans la base de
données de SiSense. Dashboard représentants l’historique de levées
de fonds des startups au niveau monde sur les 10 dernières années.
Volume : 10 téraoctets
• ressources mises à disposition : compétences humaines, outils
techniques
Machine : Serveur Base for PowerEdge R720 Rack (160Go de RAM,
Disque dur de 8To)
• calendrier de déploiement :
La démonstration est faite en moins de 10 minutes. Le logiciel SiSense
contient une base de données, des utilitaires de transformation et une
suite de Dashboard.
Le logiciel peut être déployé ‘on-premise’ ou « in the Cloud »
Etapes Suivantes
Nos clients sont dispersés sur 48 pays à travers le monde et notre
logiciel est acheté en ligne. Nous pensons être les pionniers d’une
nouvelle aire du Big Data. Rapide (agile), efficace, sans complexité.
Notre liste de clients comprend les plus grands (Target, Merck, ESPN,
NASA) et des startups innovantes comme Wefi, Wix, Uber et d’autres.
Innovation
Les outils de BI sont inadaptés pour le Big Data
Le cout de stockage d’un téraoctet coute aujourd’hui moins de $30.
Cependant, le cout d’analyse du même volume peut couter des millions.
D’après le blog de SAP ici, le cout d’analyse d’un demi-téraoctet peut
friser le demi-million de dollars.
Avec cette démonstration, SiSense prouve une nouvelle approche qui
permet de faire plus avec moins – 10 téraoctets pour moins de $10,000
– c’est à peu près 50 fois moins cher et plus efficace que la solution
proposée par SAP.
Nous avons présenté ce projet à Strata – la plus grande conférence du
Big Data aux Etats Unis et nous avons été élu « Best In Show ».
47
Un évènement organisé par

trophee de l`innovation big data 2013

Transcription

Documents pareils

Affiche Big`S - Collège Saint

Document

Untitled

Granit Beige Roux

En haute définition - Big Band Intersection

Declaration CE support big bag

Flexible Data Platform

Bumper avant "GOLDSPEED" alu big LTZ 250 Alu de qualité

JOB OFFER Contrat CIFRE – Data Scientist

jazz r`n`b rap reggae musique internationale indie pop folk musique