trophee de l`innovation big data 2013
Transcription
trophee de l`innovation big data 2013
BIG DATA PARIS CONGRÈS EXPO, 3 & 4 avril 2013 CNIT Paris La Défense 2e édition TROPHEE DE L’INNOVATION BIG DATA 2013 43 projets Big Data mis à l’honneur Des applications dans de multiples secteurs : retail, banque, administrations, sports, recherche, industrie, telecom, Internet… Remise des trophées en salle d’exposition le Jeudi 4 avril 2013 de 14h00 à 14h30 En partenariat avec Sopra Group et avec le soutien du Journal du Net Flashez moi ! édito Organisé par Corp Events, en partenariat avec Sopra Group et avec le soutien du Journal du Net, le Trophée de l’Innovation Big Data 2013 est la première initiative de ce type organisée en France sur le Big Data : pour la première fois depuis l’émergence de ce phénomène, des projets d’application matures du Big Data ont été collectés et analysés par un jury de 8 professionnels, qui ont ensuite sélectionné les plus innovants et les plus performants. Au total nous avons recueilli pas moins de 43 candidatures issues de petites comme de grandes entreprises, preuve de la vitalité du Big Data en France ! Le jury a statué le 25 mars dernier et les résultats seront connus le jeudi 4 avril à 14H au cœur du salon Big Data. Pour sélectionner les 3 meilleurs dossiers, 4 critères avaient été déterminés : - la nature Big Data du projet - le caractère innovant de l’application - la valorisation des données - la démarche Big Data adoptée au cœur de l’entreprise Nous avons également été particulièrement attentifs à la nature « projet » des dossiers : toute description pure de solution technologique n’a pu être retenue dans le vote. Nous avons d’ailleurs choisi de faire figurer ces candidatures dans la brochure, mais dans une rubrique séparée intitulée « Solutions ». Vous retrouverez donc dans cette brochure les synthèses des dossiers reçus ; elles vous donneront un aperçu de la qualité du travail mené en France sur le sujet et vous renseigneront sur les initiatives en cours dans les différents secteurs identifiés (banque, télécom, retail, recherche scientifique, industrie, sports…). Par-dessus tout, elles vous convaincront de l’intérêt d’adopter des démarches Big Data en entreprise, au regard de la valorisation observée des données dans les candidatures. Nous vous souhaitons donc une bonne lecture à la découverte de l’innovation Big Data en France ! Blandine LAFFARGUE Conference Manager +33 (0)1 45 63 43 58 / [email protected] Le jury du Trophée de l’Innovation Big Data 2013 • Thierry BARDY, VP Innovation marketing, ORANGE • Bernard BENHAMOU, Délégué aux usages de l’Internet, MINISTERE CHARGE DE L’ECONOMIE NUMERIQUE • Yann COHEN-ADDAD, Greenplum Regional Director Europe South, EMC GREENPLUM • Antoine CROCHET-DAMAIS, journaliste, JOURNAL DU NET • Bruno JACQUIN, Ingénieur Chercheur, EDF R&D • Christian RUETSCH, Secrétaire Général, LE CERCLE LAB • Vincent TALLEPIED, Directeur Conseil, SOPRA GROUP • Denis WEISS, DSI Industrie, LA POSTE Les réunions et les sessions de vote ont été présidées par • Jean-Marie MESSAGER, Directeur Practice BI, SOPRA GROUP • Blandine LAFFARGUE, Responsable Conférences, CORP EVENTS 2 Projets PROJET Trophée de l’innovation Big Data 2013 Gaia Satellite Data Processing Challenges Porteur du projet Prochaines étapes The data sent by the external Data Processing centres will be gathered and integrated in a central repository, analysing and verifying its integrity in order to find possible flaws in the processing will be far from trivial and need significant IO demands due to the large number of records. Jose Luis Hernández Muñoz, Gaia Operational Data and Calibration Engineer European Space Agency Partenaires Intersystems, Jose Ruperez, Jose Costa, Robert Bira Sometime in 2020 the final catalogue should be made available to the scientific community, the archive and data access mechanism is starting to shape now and will also be highly demanding in terms of data access. Often disentangling instrument or processing artifacts from real issues will require the execution of user provided algorithms which can discover hidden correlations within the data. Objectifs Gaia is a cornerstone mission of the European Space Agency to be launched towards the end of 2013. It will scan the sky for 5 years measuring with unprecedented accuracy the positions and motions of more than 1000 million stars from the Galaxy. This data will allow us to create a 3D model of the Milky Way. Gaia which will revolutionize may fields of Astronomy. Information additionnelles The trend in astronomy and other scientific fields in the last decades has been to build more sensitive and powerful instruments, larger antenas and better satellites/observatories, this has led to a huge increase in the amount of data to be processed. Simultaneously this has been compensated by the developments in in the IT Industry at the software and hardware levels. The processing of Gaia’s data presents unmatched challenges in this respect and will open the road too future missions. Présentation The satellite will send to ground every day its observations amounting to 50 GB, this data will be processed continuously in order to asses the satellite performance. The daily processing is critical in terms of robustness and reliability as it is needed in order to adjust the instrument settings on board Gaia to meet the scientific requirements. At the end of the mission we will have of the order 100 TB of raw compressed data. The long term processing of this data involves 6 European Data Processing Centres and will be done multiple times with increasing amounts of data. The estimated size of the data processed after the 5 year mission will be in the order of 1 Pbyte and the final catalogue should be published by 2021. In order to achieve the necessary precision every factor affecting the observations needs to be modelled, this means adapting the model as we process the data in an iterative manner. The core processing implemented in Java will use over 200 million stars and their 160,000 million measurements. A direct solution is not computationally affordable due to the huge number of unknowns, instead an iterative process adjusting the stars positions, motions, satellite orientation, and calibrations has been designed and implemented. Innovation The data processing is very intense in terms of IO and many tests with different alternatives and increasing amounts of data have been performed. We will outline some of the problems found along the way. Since 2008 we have had a fruitful collaboration with Intersystems Cache which has been non-traditional in many aspects as we have had costumer-provider contacts at multiple levels (management, experts, developers), this has proven very beneficial for both parties and has lead to fast turn-around time in getting new versions, problems fixed, new features. It has also allowed us to optimize the system for our needs and obtain adequate performance without going for expensive top hardware solutions. Résultats We have now in place the core systems which will be needed to start receiving and processing the data sent by Gaia by the end of the year, so far one of the main worries in the project which was the performance and scalability of the data access rate needed for the processing has been solved. www.bigdataparis.com 4 PROJET Trophée de l’innovation Big Data 2013 Artimon, service de collecte et d'analyse de métriques à large échelle Porteur du projet La facilité d’instrumentation des applicatifs permet de rapidement disposer de métriques éclairant les métiers sur l’activité de leur périmètre. Les spécialistes des différents domaines ont le sentiment de ne plus être aveugles et cantonnés à des chiffres à J+1. Matthias Herberts - Engineer Credit Mutuel Arkea Résultats Objectifs La disponibilité des métriques en temps réel mais également sur un historique d’un an permet d’envisager différentes applications. Offrir un service de centralisation de métriques à caractère technique et fonctionnel permettant un suivi temps-réel et historique du fonctionnement de l’entreprise. L’analyse de la distribution statistique des indicateurs permet de faire de la détection d’anomalie, par exemple lorsqu’une machine est sur le point de tomber en panne suite à un défaut de refroidissement, ou que le volume d’opérations d’un certain type est atypique par rapport au volume habituellement observé le même jour sur la même plage horaire. Présentation Le projet Artimon définit un format universel de métriques, les différents périmètres fonctionnels et techniques de l’entreprise produisent des indicateurs (de type compteurs ou jauges) sous ce format. Ces indicateurs sont collectés toutes les minutes sur l’ensemble des machines du groupe Crédit Mutuel Arkéa et remontés sur la plate-forme Big Data basée sur Hadoop. En cas d’incident, la priorité est donnée au rétablissement du service, la disponibilité des métriques sur la période précédant la survenue de l’incident permet lorsque la situation est rétablie de procéder à une analyse post-mortem de l’indicent et à la mise en place de mécanismes d’alertes adaptés. La collecte concerne entre 1 et 2 millions de métriques par minute, avec un total quotidien de collecte supérieur à 2 milliards de métriques. Ces métriques sont conservées une année minimum afin de permettre des analyses de tendances sur un cycle de 12 mois glissants. L’existence de métriques dont la signification est maîtrisée permet de mettre en place des contrats de services (SLA) basés sur des éléments objectifs. L’historisation de ces métriques permet de tester différents modes de calculs des indicateurs de SLA afin de déterminer par exemple si un abaissement de seuil est ou non compatible avec la réalité de la production. Les données d’une année représentent environ 50 To pour 800 milliards de mesures. Ce projet a été initié dans les équipes techniques du groupe Crédit Mutuel Arkéa qui ont mis au point l’infrastructure de collecte et de stockage. Les premières métriques collectées furent techniques (températures de machines, espaces disques disponibles, charge machine, ...) et ont été utilisées pour la mise au point de fonctions d’analyse de ce type de données. Ces fonctions d’analyse sont capables de déclencher des alertes, permettant une réaction rapide à des situations anormales. Prochaines étapes Les étapes à venir pour ce projet sont l’instrumentation de nouvelles applications et l’exploitation des métriques produites. La disponibilité de métriques vise à centrer les processus de décisions de l’entreprise autour de données objectives. Information additionnelles Ce projet s’inscrit dans une démarche Big Data plus large initiées dès 2009 au sein du groupe Crédit Mutuel Arkéa. Une fois la chaîne complète mise au point sur le périmètre des données initiales, les équipes en charge des périmètres fonctionnels (spécialistes métier et développeurs) ont été accompagnées dans l’instrumentation de leurs applications et la mise au point de fonctions d’analyse propres à leurs métiers. Ce projet a été réalisé par des équipes internes du Crédit Mutuel Arkéa. Les métriques mises en place et les outils les exploitant permettent d’avoir une vision temps réel du comportement du parc applicatif, et ce tant du point de vue métier que technique. Il est par exemple possible de connaître chaque minute la température moyenne des machines de chaque rangée de nos datacenters, mais également le nombre et le montant des virements effectués sur les sites de banque en ligne, ventilés par devise, canal ou tout autre critère jugé utile. Les travaux sur ce projet ont débuté en 2009, le périmètre de collecte s’est agrandi graduellement pour couvrir depuis fin 2012 l’ensemble des serveurs du groupe Crédit Mutuel Arkéa. Innovation L’utilisation d’un format universel de métriques permet de ne pas avoir autant d’outils de monitoring (technique ou business) que de périmètres, il en découle des possibilités d’analyses croisées riches d’enseignements (quel est l’impact d’une augmentation de température sur le comportement des bases de données et in fine sur les temps de traitements des requêtes issues des sites Web). 5 PROJET Trophée de l’innovation Big Data 2013 ICANIC : Intellectual Capital Analytics Porteur du projet Innovation Les brevets sont jusqu’à présent considérés comme ne pouvant relever que d’appréciation d’expert et le projet de traiter les brevets comme des données qu’il est possible de traiter statistiquement pour en tirer du sens constitue une révolution dans cet univers. L’augmentation du nombre de brevets et le poids croissant de leur valeur économique rend indispensable la création d’un outil technologique qui permette de donner à tout moment et pour tous les brevets une expression synthétique de leur valeur. Patrick Terroir - Directeur Général Délégué CDC Propriété intellectuelle Partenaires Bluestone est notre partenaire pour les travaux de modélisation statistique. Arnaud Laroche est notre directeur de mission depuis 2010. Fourniture des données et hébergement : Questel Expertise sur la vie des brevets : Marks&Clerk France Résultats Objectifs Icanic est un instrument destiné aux entreprises, notamment aux PME, aux investisseurs financiers, aux analystes économiques, et il constitue plus généralement un outil de base pour la valorisation des actifs de l’économie de la connaissance. La valorisation commerciale d’Icanic s’effectuera de trois manières : - par son utilisation par les entreprises et leurs interlocuteurs financiers, auxquels il donnera le moyen d’évaluer objectivement la valeur d’un portefeuille de brevets ; la distribution en direction de ces clients sera assurée par les principaux éditeurs de base de données brevets (Questel, Thomson Reuters...) ; - en direction des investisseurs financiers par la création d’indices boursiers de type « CAC 40 » qui permettront d’identifier la performance des entreprises inventives et de diriger l’épargne vers elles. La mise en œuvre sera effectuée par des gestionnaires de marché comme Euronext ou FTSE. - L’intégration des notes dans les analyses vendues par des agences de notation sociale. L’analyse de la capacité d’innovation des entreprises est un complément naturel aux analyses existantes de ces agences, telles que Vigeo. L’objectif est de créer un instrument de mesure de la valeur intrinsèque des brevets, fondé sur des critères objectifs et statistiques, qui s’applique à l’ensemble des brevets du monde. Dans un contexte où le nombre des brevets augmente de façon croissante et où les besoins d’acquisition et de diffusion des inventions se multiplient, la difficulté et le coût d’analyser qualitativement la valeur des brevets empêche le développement d’une économie ouverte, transparente et sécurisée dans le domaine de l’innovation. Cette situation pénalise notamment les PME et les organismes publics de recherche qui sont pourtant les sources majeures de l’innovation. Présentation Nature et volume des données traitées : Les volumes sont considérables puisqu’il s’agit de traiter l’ensemble des données sur les brevets contenues dans les bases des offices de propriété intellectuelle de tous les pays du monde, ce qui doit représenter selon nos estimations plus de 500 milliards d’octets. Les types de données traitées sont en outre très hétérogènes tant dans leur contenu (texte, chiffres, dates, dessins, étapes de procédure), que dans leur forme (notamment plusieurs langues, dont à l’avenir les écritures asiatiques), et dans leur support (flux XML, document pdf…). Ces informations doivent être renouvelées en permanence, compte tenu du flux d’entrée des nouveaux brevets. Le schéma suivant résume la valorisation escomptée de l’outil : Description des traitements opérés sur les données : •Mise en place de web-crawlers et de flux XML permettant d’industrialiser la récupération en temps réel des informations brevets (évènements de procédures, textes, citations) •Mise en place d’une architecture de stockage et d’une architecture de calcul / ré-estimation de scores temps réel en environnement Big Data (choix d’architecture en cours) •Analyse de type text-mining sur les textes de brevets permettant de créer des données qualifiantes structurées à partir de données non structurées (domaine technologique d’application, obsolescence de la technologie…) • Croisement des données qualifiantes du brevet avec les données administratives et de citations, pour créer un environnement d’informations extrêmement riche sur les brevets •Mise en place de modèles statistiques de durée de vie, permettant d’estimer la durée de vie résiduelle d’un brevet en fonction de ses caractéristiques intrinsèques (proxy de la valeur) • Développement de web services de restitution des données (en cours) Prochaines étapes Finalisation et lancement commercial de la V1 pour fin 2013. La prochaine étape sera d’étendre la capacité de notation aux brevets américains et asiatiques. Ressources et calendrier : Depuis le lancement des développements en 2010 à la finalisation de la V1, fin 2013, CDC PI aura investi près de 2M€. Le prototype a été testé avec succès auprès de 5 grands industriels en 2011. Schéma d’architecture : www.bigdataparis.com 6 PROJET Trophée de l’innovation Big Data 2013 ELLICIBLE Porteur du projet Innovation Ellicible s’appuie sur une technologie européenne novatrice et apporte la commodité du « search » grand public au poste de travail du professionnel en marketing direct. Dans les sélections, elle rend la donnée accessible immédiatement et élimine les temps de latence dans l’affichage des résultats. Exprimé d’une autre manière, l’application utilisant le moteur de ParStream réalise à grande échelle un « facetted search » sur plus d’une centaine de dimensions en temps réel. L’outil associe à cette technique novatrice une politique d’intégration de nouvelles sources partenaires visant des données riches et volumineuses tant nationales ou internationales que métiers. La combinaison « technique » et « données » permet de répondre aux nouveaux usages et demandes de nos clients à la recherche de performances permettant de cibler le plus juste et le plus rapidement possible leurs clients potentiels. Bernard Simon - Responsable Marketing Data Solutions COFACE SERVICES Partenaires Partream GMBH Peter Livaudais, Sr. Director Solutions Objectifs Agrégeant des milliards de données issues des meilleures sources publiques, privées et collaboratives, Coface Services propose la base de données la plus riche en information sur les entreprises françaises. Pour répondre aux évolutions technologiques et à la demande du « realtime marketing » où l’information produite n’est plus segmentée en silos fonctionnels mais selon les usages de la cible, Coface Services a entrepris la refonte de son offre « Solutions Data ». Lancée le 20 mars 2013, www.ellicible.fr est une plateforme marketing direct « big data» en temps réel et à haut débit. Sa vocation est de cibler, trier, ventiler, explorer, segmenter, surveiller et extraire des populations d’entreprises dans un espace multidimensionnel de plusieurs dizaines de milliards de données. En quelques clics sur des critères descriptifs, les clients gèrent de manière autonome leurs opérations de marketing direct et de surveillance autour de groupes homogènes en fonction de segments identifiés. Résultats Ellicible permet de traiter des milliers de requêtes à très forte volumétrie d’informations (milliards de données) en temps réel (millisecondes). L’utilisateur, à travers la combinaison de multiples critères, compte de manière instantanée des potentiels au fur et mesure de l’élaboration de ces stratégies et identifie des entreprises. Le rôle d’Ellicible est de construire des groupes homogènes pour mettre en place des opérations de marketing direct différenciées en fonction de segments identifiés. Présentation Prochaines étapes Issue d’une analyse marché intégrant des phases intensives de R&D autour de retours d’expérience (anciens projets, prototypes et maquettages), Ellicible est une offre internet disponible en temps réel et accessible pour l’utilisateur en toute autonomie. Sa vocation est de cibler, trier, ventiler, surveiller et extraire des populations d’entreprises de plusieurs dizaines de milliards de données. Ellicible intègre le moteur « big data analytics » de ParStream GmbH. Elle transforme le concept de ciblage et comptage haut débit temps réel en réalité opérationnelle sur des données volumineuses. Ce moteur repose sur une approche innovante d’index compressés à très hautes performances couplée à un traitement parallèle de requêtes. Cette mécanique permet l’accès aux données à haut débit et à très faible latence. C’est ainsi que sous une faible empreinte énergétique et matérielle des milliers de requêtes sont traitées sur de très fortes volumétries d’informations (milliards de données) en temps réel (millisecondes). Avec cette technologie novatrice associée à ses solutions métiers, Coface Services a su surmonter les problématiques techniques traditionnelles des bases de données. Ellicible s’affranchit de l’UX « essai-erreur » et de la gestion des tâches complexes et asynchrones tout en maintenant une très forte réactivité data avec de faibles ressources. Ces performances comparées aux technologies traditionnelles, ou même avec NoSql, bouleversent les usages de la profession du marketing direct habituée à des temps de calcul et d’affichage importants avant d’avoir le résultat d’un ciblage. Avec www.ellicible.fr, par une interface d’utilisation simple et multicritères, le marketing direct rentre dans l’ère du temps réel et de la simplification d’accès aux données B2B. Réel projet d’entreprise associant tant la direction générale que les experts métier et les marketeurs, l’objectif de www.ellicible.fr est de créer avec cette technologie innovante unique sur son marché de nouvelles opportunités de développement en « Solutions Data ». Dans les étapes à venir pour accompagner les besoins utilisateurs, sera associée à cet outil une politique d’intégration de données complémentaires avec la possibilité de recherche textuelle. 7 PROJET Trophée de l’innovation Big Data 2013 Tableau de bord des Territoires Porteur du projet François Bancilhon - PDG DATA PUBLICA Partenaires F. Lainée, PDG CetaData Objectifs Proposer aux utilisateurs une base de données toujours à jour de l’ensemble des données de description (démographiques, économiques, immobilier, activité, mobilité, …) des territoires (bassin d’emplois, communes, …) Présentation Les données sont issues de toutes les sources publiques accessibles en ligne et susceptibles de contribuer au portrait des territoires. Le volume est d’abord dimensionné par le nombre de territoires, de l’ordre de 37.000, et quelques dizaines/ centaines de données par territoire. Ces données sont chacune rafraîchies une ou plusieurs fois par an, ce qui fait de la mise à jour automatique une difficulté significative du projet. Ce projet est déployé, les données étant d’ores et déjà accessibles pour les clients de Data Publica. Innovation L’innovation du projet tient à (i) la mise à disposition de l’ensemble des données structurée selon la dimension géographique, (ii) la mise à jour automatique et permanente et (iii) la disponibilité en ligne customisée au besoin du client, en terme de géographie et de dimensions de contenu. Prochaines étapes Data Publica est « développeur de jeux de données », c’est-à-dire qu’il produit des jeux de données pour ses clients. Pour cette production, Data Publica identifie les sources, extrait les données brutes des sources, transforme les données brutes en données structurées et livre ses données, sous forme de flux ou de visualisation. Ces jeux de données sont produits sur mesure (le client spécifie ses besoins et Data Publica produit le jeu de données suivant ses spécifications) ou sur étagère (Data Publica définit et produit le jeu de données après une analyse des besoins du marché). Les jeux de données sont livrés en DaaS (Data as a Service) et facturés sous forme d’abonnement (un jeu de données est un objet vivant mis à jour en permanence). www.bigdataparis.com 8 PROJET Trophée de l’innovation Big Data 2013 Domirama, un outil d'exploration des historiques de comptes au service de nos clients Porteur du projet Innovation L’aspect le plus novateur est de redonner la maîtrise de leurs opérations à nos sociétaires et clients, et ce sur une profondeur d’historique sans équivalent puisque nos concurrents se limitent généralement dans le meilleur des cas à 12 mois d’historique. Matthias Herberts – Engineer CREDIT MUTUEL ARKEA Objectifs Résultats L’objectif de ce projet est la création d’un outil permettant à nos sociétaires et clients d’effectuer des recherches sur l’historique des opérations réalisées sur leurs comptes bancaires et d’enrichir ces historiques par des métadonnées personnalisées. La possibilité d’effectuer des recherches en temps réel sur l’historique de leurs opérations permet à nos clients d’appréhender la gestion de leurs finances dans d’excellentes conditions. Prochaines étapes Présentation Les évolutions visant à enrichir les opérations de métadonnées seront sources de création de valeur supplémentaire. Les données manipulées dans le cadre de ce projet sont constituées de l’ensemble des mouvements bancaires de nos clients depuis mai 2001. La date retenue correspond au moment où les opérations en francs ne représentaient plus qu’une part infime du flux, et ce afin d’éviter d’avoir à gérer une approche multi-devises. Informations supplémentaires Ce projet s’inscrit dans une démarche Big Data plus large visant à valoriser le patrimoine ‘données’ du groupe Crédit Mutuel Arkéa. Ces données représentent environ 5 milliards d’enregistrements pour un volume légèrement inférieur à 3To. Le rythme de croissance est de l’ordre de 500M d’enregistrements annuels sur le périmètre actuel. Ce projet a été réalisé par des équipes internes du Crédit Mutuel Arkéa, garantissant au groupe l’exclusivité de la maîtrise des technologies mises en œuvre, gage d’avantage concurrentiel durable. Ce projet est l’un des premiers s’appuyant sur la plate-forme Big Data basée sur Hadoop mise en place dès 2009 au Crédit Mutuel Arkéa. Il est issu d’un travail conjoint entre les équipes en charge du périmètre banque à distance pour les aspects restitution, les équipes des différents métiers (comptes à vue, livrets, cartes, SEPA) pour la fourniture des données, et l’équipe Big Data/Hadoop pour la mise au point du moteur de recherche. Les données sont stockées dans HBase, permettant un accès en tempsréel à celles-ci. Le moteur de recherche est optimisé pour n’indexer les opérations qu’à la demande, offrant ainsi des performances élevées. Une recherche complexe sur près de 12 années d’historique s’effectue dans 90% des cas en moins de 500ms. Les recherches peuvent se faire sur des critères de dates, de montants, de choix de comptes mais également sur les libellés des opérations. Les débits et crédits cumulés des résultats de recherche sont restitués conjointement avec les opérations qui répondent aux critères de sélection. Il est ainsi possible par exemple d’obtenir immédiatement le montant des salaires ou prestations d’assurance maladie perçus sur une période, les montants dépensés en assurance, impôts, téléphonie mobile, chez des e-commerçants ou dans la grande distribution. Ces recherches peuvent être effectuées sur différentes périodes pour les comparer. Les opérations peuvent être annotées afin de simuler le pointage des comptes. Il est envisagé à l’avenir de permettre l’ajout d’URLs, d’une localisation géographique, d’un commentaire, voire d’une note se rapportant à chaque opération. Ce service est en production depuis fin 2011 pour nos sociétaires et clients des fédérations du Crédit Mutuel de Bretagne, du Sud-Ouest et du Massif-Central, de Fortunéo ainsi que de la Banque Privée Européenne. 9 PROJET Trophée de l’innovation Big Data 2013 BIG DATA GETS PERSONAL Porteur du projet Informations supplémentaires L’équipe dédiée chez dunnhumby est composée de : - 1 Project Manager pour adapter l’outil Media Centre pour la base de données Monoprix - 1 Data Manager - 1 Analyste pour sélectionner les clients éligibles pour les offres proposés - 1 Campaign Manager pour organiser et coordonner la mise en place du ciblage Hannah Whittall – Directrice Coms & Media DUNNHUMBY France Partenaires Monoprix Stéphanie Guillonneau Directrice Fidélité Objectifs -Récompenser les clients les plus fidèles de l’enseigne avec des offres personnalisées - Créer une occasion supplémentaire de venir en magasin - Exploiter et valoriser l’intégralité des données de transactions -Améliorer le retour sur investissement du programme de Fidélité Chez Monoprix le projet était mené par l’équipe Fidélité avec deux personnes dédiées à la mise en place opérationnelle. La conception et création du mailing était mené par l’agence Rosa Parks. Présentation Nous avons créé avec Monoprix un rendez-vous mensuel dédié aux clients les plus Fidèles pour les récompenser avec des offres personnalisées sur leurs marques et rayons préférés. L’exploitation des big data nous permet de personnaliser un mailing intégrant 8 coupons envoyé à environ 600 000 clients par mois. Innovation En relation avec les marques nous constituons au fil de l’année une banque de coupons. Pendant la phase de préparation du mailing, nous entrons les offres disponibles dans un outil propre à dunnhumby. L’algorithme d’allocation intégré à cet outil a été développé grâce à l’expérience Tesco en Angleterre et Kroger aux Etats Unis. Il permet parmi des millions de possibilités de sélectionner la combinaison d’offres la plus pertinente pour chaque client en regard de son comportement d’achat. Le niveau de récompense des offres peut lui aussi être personnalisé selon sa fidélité à l’enseigne. Résultats Plus de 33 millions de transactions des clients les plus Fidèles à Monoprix sur tous les formats (y compris le site marchand) ont été analysées, représentant environ 350 millions articles achetés. Cet outil d’allocation d’offres et de contenus au niveau client permet une véritable personnalisation de la communication. Il est capable de traiter cette énorme quantité de données : en moins d’une heure les offres sont allouées parmi les milliers de possibilités. Plus de 80% des clients ciblés reçoit une version unique de ce mailing Prochaines étapes La personnalisation des offres a permis de doubler le taux de retour des coupons par rapport à des coupons non personnalisés. Ce premier mailing personnalisé a été envoyé à partir de février 2012. Au fur et mesure que les mailings ont été reçus par les clients et analysés en terme de performance, le ciblage des clients a été optimisé pour privilégier les clients les plus appétant à ce type d’offre. Ceci a également permis de développer des supports pour les clients sensibles à d’autres canaux de communication tels que les emails et les coupons caisse. Nous pouvons ainsi optimiser chaque point de contact avec le client. www.bigdataparis.com 10 PROJET Trophée de l’innovation Big Data 2013 ECO2DATA Porteur du projet François Cazor – Président Kpler SAS Objectifs Répondre aux impératifs d’accès à l’information dans un marché réglementé en croissance et décentralisé. Permettre aux acteurs du marché de la finance environnementale d’avoir accès à un niveau de transparence et de traçabilité du niveau d’un marché mature alors que le marché est encore très jeune. Présentation Le but du projet est de construire un tableau de bord temps réel qui centralise toutes les informations relatives aux projets de réduction de gaz à effet de serres qui génèrent des crédits carbones. Ces projets sont jusqu’ici la meilleure arme mis en place au niveau international contre la menace du réchauffement climatique et constituent à ce titre un enjeu décisif. Ces projets sont répartis à travers le monde et obtiennent chaque jour 1 crédit pour chaque tonne de CO2 économisée. Un projet prend de 18 à 36 mois à se concrétiser. Il est soutenu par un conglomérat très vaste d’acteurs privés et publics et est évalué par des organismes externes tout au long de sa vie qui peut durer plus de 20 ans. Innovation eCO2data est à ce jour la plus grande base de données sur le marché du carbone. Elle innove dans la mesure ou les données sont récupérées systématiquement et ce en temps réel là ou nos concurrent reposent essentiellement sur un traitement manuel des données. Cet aspect de la plateforme nous permet de proposer des services inédits comme celui des « eCO2data alerts » qui permettent à nos clients de recevoir des alertes emails dés qu’un de leur portefeuille environnemental connait un changement. Résultats L’une des principales valorisation de la donnée est le fait de travailler sur les données non structurées pour recontruire à la volée le portefeuille de n’importe quel acteur du marché. Ainsi « BNP », « BNP Aribitrage », « Banque Nationale de Paris » ou encore « BNP, SA » sont automatiquement aggrégé en un seul participant et permet à nos clients d’accéder à un niveau de transparence inégalé jusqu’ici. Prochaines étapes Nous travaillons actuellement sur 2 axes : • Extension de la plateforme au domaine de la foret. La foret est le poumon de notre planète car elle stocke naturellement le CO2. Des projets d’investissements de taille massive sont pour l’instant bloqués car il n’existe pas à ce jour d’outil de suivi d’un investissement forestier à grande échelle sous l’égide des normes internationales de l’ONU. Nous sommes associés à une entreprise franco-allemande du secteur de la défense et qui posséde un réseau satellitaire de premier plan pour connecter les données satelitaires à notre outil et proposer « eCO2data Forest » afin de combattre la problématique de la deforrestation et plus généralement de la conservation de la foret. • Nouvelle plateforme sur le marché du Gas Naturel Liquéfié (LNG). Nous appliquons actuellement notre technologie propriétaire au marché du LNG qui connait une croissance rapide et pour lequel il existe les mêmes problématiques de suivi de l’activité du marché et de monitoring des acteurs que sur nos précédentes réalisations. En détournant l’usage initial des balises de positionnement AIS contenues dans chaque navire on créé une carte interactive et temps réel de l’acheminement des volumes de LNG actuellement en transit à travers le monde. 11 PROJET Trophée de l’innovation Big Data 2013 Artémis : « De la logique du service public… à la logique de rendre le service au public » Porteur du projet Daniel Aubaret – Directeur Marketing EFFIA SYNERGIES Objectifs « campagnes multicanaux sur mesure : rendre le service au public » Pour cela, générer des campagnes multicanaux qui ont pour objectifs : > De cibler : le ciblage est le facteur clés de succès d’une campagne de communication réussie : quel client ? Sur quel sujet ? Avec quel discours ? Avec quel canal de contact (Téléphone, SMS, Email) ? > De fidéliser : En identifiant les bons clients et en les remerciant (Opération de parrainage). En identifiant les clients en phase d’abandon (Relance commerciale et analyse des causes). > De prospecter : Avec une meilleure connaissance de client, il est plus facile de créer le profil type et de rechercher les jumeaux (Bases de données scorées : Par zone géographique, données sociologiques et données comportementales). > D’informer en mode sur mesure : En fonction de la nature des perturbations (Exemple : Travaux), des zones géographiques impactées et des statuts des clients (Exemple : Personnes à mobilité réduite). > De créer du ROI sur les campagnes : L’Emailing permet le déploiement d’une stratégie de « tracking » avec : taux d’ouverture, liste des ouvreurs et taux de rebond. Innovation La solution proposée couvre l’ensemble du protocole décisionnel de traitement de la donnée avec trois briques fonctionnelles : . Brique 1 : Collecter : cette brique est au cœur de la donnée, l’objectif est simple, une donnée active, propre et juste. Pour cela : auditer, redresser, enrichir et fiabiliser. . Brique 2 : Comprendre pour mieux cibler : avec un outil d’aide à la décision sur l’analyse de la performance commerciale construit sur le principe du géo-référencement de l’individu : 1 point = 1 client. . Brique 3 : Agir : par des campagnes multicanaux ciblées pour fidéliser les clients. Prospecter : « Changer vos habitudes de mobilité au moins une fois dans l’année », avec une meilleure connaissance client, la recherche des « jumeaux » par le scoring des données est plus efficace. Résultats Pour l’année 2013 les perspectives sur la big data sont nombreuses : . Industrialisation de l’application destinée à l’aide à la décision, . Intégration des données clients complémentaires, . Intégration d’une couche de données relatives aux potentiels de marchés : par communes et par Iris. . Enrichissement des tableaux de bord : part de marché modale, taux de pénétration mobilité, identification des zones potentielles de développement. www.bigdataparis.com 12 PROJET Trophée de l’innovation Big Data 2013 Roland-Garros SlamTracker Porteur du projet Résultats Avec le Slamtracker, « les données prennent vie » les clés du match permettent d’utiliser de façon intelligente tous les scores passés et de leur donner un sens pour mieux anticiper le match qui va se jouer et comprendre les points forts de chaque adversaire la courbe de dynamique donnent une vision temps réel de l’ascendant des joueurs, avec visualisation graphique de chaque type de point en fonction du temps les statistiques mises à jour en temps réel permettent de mieux comprendre les éléments clés du match en comparant les adversaires. Alex Loth – DSI Roland-Garros Fédération Française de Tennis Partenaires IBM France Claire Herrenschmidt Objectifs Le Roland-Garros SlamTracker développé par IBM permet de fournir aux fans de tennis une information complète et précise sur le déroulement des matchs à Roland-Garros, avec notamment l’utilisation de l’analyse prédictive pour déterminer les clés du match : 3 critères définis en début de match, sur la base des données complètes des tournois du Grand Chelem. Prochaines étapes La démarche Big data continue à la FFT. Au delà de l’analyse prédictive utilisée dans le SlamTracker dans le contexte des matchs, des analyses des médias sociaux sont conduites durant la durée du turnoi pour étudier les flux d’intérêt qui font lumière au cours du tournoi, tant au niveau des joueurs, qu’au niveau de l’environnement et de l’organisation du tournoi. Présentation Avec plus de 41 millions de points collectés lors des 8 dernières années de Grand Chelem, la Fédération Française de Tennis et IBM disposent d’un historique colossal sur les scores détaillés des matchs. Et les joueurs de tennis se rencontrent fréquemment lors des tournois, ils ont déjà joué les uns contre les autres. L’analyse poussée de leurs scores a permis de montrer que chacun a un comportement assez prévisible et un style de jeu, en fonction de son adversaire. Ces scores, couplés avec la solution d’analyse prédictive IBM Smarter Analytics (SPSS Modeler) permettent de définir les critères clés que chaque joueur doit atteindre pour maximiser ses chances de gagner. Le système va choisir les 3 critères les plus pertinents par joueur parmi une cinquantaine de possibilités. Chaque joueur n’aura pas forcément les mêmes critères que son adversaire. Informations Supplémentaires L’analyse prédictive appliquée à Roland-Garros a permis d’utiliser de nombreuses informations des matchs passés pour déterminer des styles de joueurs et mieux analyser les comportements. Les critères sont classés par type : - offensifs - défensifs - endurance - style L’outil est sans cesse affiné pour devenir plus pertinent. On voit que si un joueur atteint ses 3 clés et l’autre aucune clé, dans 98% des cas, le gagnant est celui qui a atteint ses 3 clés. Des statistiques assez poussées existent maintenant sur la fiabilité du modèle. La finale Nadal-Djokovic de Roland-Garros 2012 est assez parlante car Nadal a gagné, en atteignant ses clés à moins de 1% près ! Djokovic n’a atteint qu’une seule clé mais n’était pas si loin des 2 autres. L’équipe IBM d’Atlanta a mis à la disposition de la FFT les données collectées depuis des années et ses compétences « Big Data Analytics au service du Tennis » pour aboutir à cette solution des clés du match. Ces clés sont calculées et mises à disposition des internautes sur le site officiel, puis le taux de réalisation de la clé est mis à jour en temps réel au fur et à mesure du déroulement du match. Le projet a été testé lors de l’édition 2011 de Roland-Garros puis lancé à Wimbledon, utilisé à l’US Open et pendant l’Australian Open. Lors de l’annonce officielle pour l’édition 2012 de Roland-Garros, la FFT a donc bénéficié d’une solution déjà bien testée et éprouvée sur les autres tournois. Les clés du Match sont mis à disposition des joueurs et de leurs équipes mais également depuis 2012 sur le site web public de Roland Garros afin de permettre à chaque spectateur d’enrichir son expérience du match en bénéficiant des informations supplémentaires mises à sa disposition, et en permettant de suivre leur évolution au cours du match, par une mise à jour en temps réel des indicateurs. Innovation L’aspect innovant de ce projet consiste à mettre à la disposition des joueurs mais également des spectateurs une solution habituellement développée pour aider les entreprises à mieux prévoir leurs ventes, les niveaux de stocks nécessaires, l’efficacité des campagnes de promotion, Jamais les fans de tennis, les journalistes, les coachs n’ont eu autant de données à leur disposition pour analyser le match en cours en utilisant des informations des précédents matchs des joueurs concernés. Toutes ces informations sont disponibles sur le site Officiel du tournoi. L’internaute peut interagir avec le SlamTracker et choisir de visualiser les points qui l’intéresse : aces, points gagnés, doubles fautes, fautes directes, montées au filet ….. et tout en temps réel. 13 PROJET Trophée de l’innovation Big Data 2013 Search Analytics Porteur du projet informations supplémentaires Cette mission constitue un excellent exemple de ce que l’Analytics peut apporter aux organisations, à condition d’y construire la bonne architecture de données, ce qui permet de développer ensuite des applications adaptées pour améliorer la performance. Lan Anh VU HONG Responsable Marketing 55 SAS Partenaires PagesJaunes Objectifs Améliorer la pertinence du moteur de recherche de PagesJaunes. Présentation du projet : La catégorisation des requêtes est cruciale pour la pertinence des résultats affichés par PagesJaunes. Si un visiteur tape « acacias, Toulouse », on peut penser qu’il veut acheter des acacias. Cela signifie qu’on catégorise « acacias » en objet (« Quoi ? »). Et si l’utilisateur cherchait en fait l’adresse d’un restaurant appelé « Les Acacias » à Toulouse ? Il faut comprendre « Les Acacias » comme le nom d’une entreprise (« Qui ? »). Dans un cas, la réponse attendue est une liste de pépinières, dans l’autre, l’adresse d’un restaurant bien identifié. La correction des requêtes mal catégorisées est un enjeu majeur pour l’annuaire, et pour les professionnels répertoriés, puisque 74 % des recherches effectuées sur PagesJaunes.fr aboutissent à un contact professionnel physique. La mission de fifty-five était d’exploiter les données de webanalyse de PagesJaunes pour établir un modèle de prédiction permettant d’automatiser la détection de requêtes mal catégorisées. S’appuyant sur l’analyse de 3 terabytes de logs de webanalyse et des dernières technologies de big data et de machine learning, l’équipe de fifty-five, composée d’ingénieurs, de data scientists et de spécialistes de datavisualisation, a amélioré d’un facteur 10 le ciblage des catégories mal catégorisées. La mission s’est déroulée en 3 étapes : collecte, traitement, puis visualisation de la donnée. Après la mise en place d’un Data Management Platform (DMP) pour structurer la donnée, fifty-five a élaboré un modèle de machine learning calculant un score de prédiction. L’équipe a ensuite créé une interface interactive dédiée pour rendre lisible l’intelligence extraite de l’analyse des données. Aspect Novateur du projet dans les métiers et/ou dans les usages: L’exploitation des données de webanalyse permet à PagesJaunes d’améliorer en continu, de façon automatique et collaborative (donc à moindre coût) la pertinence de son moteur. Valorisation observée de la donnée: La précision du ciblage des requêtes mal catégorisées a augmenté d’un facteur 10. PROCHAINES Etapes Le modèle de prédiction et la méthodologie élaborés pour cette mission sont en cours d’internalisation et d’intégration dans les process métiers. Les applications potentiellement dérivées de cette mission sont multiples. L’architecture mise en place permet par exemple d’envisager une personnalisation des résultats, une évolution du système de monétisation de PagesJaunes (fondée sur le taux de clic, etc) ou encore la prise en compte de nouveaux critères pour le classement des blocsréponses. www.bigdataparis.com 14 PROJET Trophée de l’innovation Big Data 2013 DEUS Porteur du projet Observatoire de Paris – Jean-Michel Alimi GENCI – Stéphane Requena Objectifs Réaliser sur un des plus grands supercalculateurs au monde, le premier calcul de la formation des structures cosmiques dans TOUT l’Univers observable du Big-bang à aujourd’hui pour trois modèles d’énergie noire, mystérieuse composante représentant plus de 70% du contenu énergétique de l’Univers et moteur de son expansion accélérée. Présentation Chacune des simulations a permis de suivre l’évolution gravitationnelle de 550 milliards de particules sur plus de 2500 milliards de points de calcul avec une résolution spatiale de la taille de la Voie Lactée à celle de l’Univers observable. Les 150 Poctets de données générées durant les calculs ont été finalement réduites à 1.5 Poctets grâce à une procédure innovante et performante de traitement de données indispensables pour un tel projet. Pour la première fois nous disposons de la distribution de matière dans TOUT l’Univers observable semblable à celle qui pourrait être observée par les télescopes et nous y reconnaissons les structures cosmiques en formation tout au long de l’histoire de notre Univers. Innovation Le projet DEUS a pour la première fois disposé de l’infrastructure, capable de charger en mémoire TOUT l’Univers observable et permettre des simulations dans des temps de calcul satisfaisants et, surtout, capable de stocker et de post traiter à la volée à un débit soutenu de 50Go/s plus de 150 péta octets de données réduits à un volume final utile et acceptable de 1.5 péta octets. Tous les aspects du calcul haute performance ont été sollicités durant ce défi numérique et les performances atteintes par notre application sont une première pour un code en production en astrophysique et plus généralement pour le calcul haute performance. Résultats Les données résultant du projet DEUS sont à la disposition de la communauté scientifique internationale. Elles constituent un support exceptionnel aux grands projets observationnels des agences spatiales ESA et NASA comme le satellite européen Planck dont les résultats seront prochainement publiques et le futur télescope spatial Euclid lancé en 2019. PROCHAINES Etapes Les mécanismes de délégation des entrées/sorties réalisés par le projet DEUS seront ré-utilisées pour des applications comme l’évolution du climat, la fusion par confinement magnétique (ITER) ou la combustion. Une autre option consistera à évaluer des approches type Map/Reduce sur des données scientifiques complexes, en utilisant des systèmes de fichiers parallèle Lustre ou GPFS avec des réseaux Infiniband. 15 PROJET Trophée de l’innovation Big Data 2013 Wikidump Porteur du projet L’application nous a permis de déterminer quelque uns des facteurs influençant les consultations de la page d’un de nos partenaires. Même si ces données ne concernent que Wikipedia, elles sont un outil supplémentaire dans une analyse plus approfondie, en corrélation avec les données internes d’une entreprise. Labs Ingensi Objectifs Développé dans les Labs Ingensi, le projet Wikidump a pour objectif de démontrer comment intégrer et exploiter de nouvelles sources de données pour sensibiliser les professionnels et les étudiants aux enjeux des Big Data. L’application est structurée autour des trois concepts qui, à nos yeux, expriment le mieux le potentiel des Big Data : ¬ La « datavisualization » qui est l’art de représenter les données. ¬ Le « NoSQL » pour l’exploitation de sources de données en « temps-réel ». ¬ Le « machine-learning » pour la compréhension des relations entre les données. Finalement, cette application met en avant l’apport de la technologie Hadoop dans les organisations. Il est aujourd’hui possible de découvrir de nouveaux « signaux faibles ». Les trouver, et les comprendre, permet de mieux appréhender notre environnement, et ainsi comprendre les facteurs de réussite ou d’échec d’un projet. Wikidump exploite les données issues de l’encyclopédie Wikipedia. Cela représente plus de 18 To de données, 6 millions d’articles HTML, 5 années d’historique et plus de 20 langues. Au travers d’une application web et tactile, Wikidump permet de consulter le top 50 des articles les plus populaires par jour, par heure et par langue. Il est également possible, pour chacune de ces pages, de connaître l’évolution du nombre de ces visites sur une période de temps (2 semaines, 1 journée, de date à date, etc.). Pour finir, une fonction vient enrichir chacun des articles en proposant une liste d’articles liés soit par le sens (en fonction de son contenu) soit par leur évolution (articles Wikipedia possédant des courbes de visites semblables). www.bigdataparis.com 16 PROJET Trophée de l’innovation Big Data 2013 Distributed e-commerce : bringing online shops to high-traffic content websites Porteur du projet Innovation Amener des magasins en ligne directement dans des sites de contenu Cette application ouvre les portes d’un nouveau marché : l’échange de données qualifiées et sémantisées entre le monde du contenu et de l’achat, qui jusqu’ici ne se parlaient que par bannières agressives interposées. A l’inverse, nous tâchons de reproduire un maximum de l’expérience utilisateur d’un magasin, directement dans la page d’origine. Là où la plupart des usages BigData se contentent de chercher de vagues corrélations dans des volumes de données importantes, l’originalité de notre approche est de privilégier une compréhension profonde et sémantique de données complexes et intriquées. Présentation Résultats Jerome SAS Partenaires Groupe SEB – François-Xavier Meyer Groupe CASINO – Patrick Garrel Objectifs Nous créons un lien entre le monde du contenu et de l’achat, en développant une gamme d’interfaces qui permettent d’apporter des magasins en ligne directement dans des sites de contenu, dans des formats reprenant les codes de la publicité en ligne classique. Grâce à une analyse sémantique, nous affichons au sein de cette interface des produits parfaitement qualifiés, afin de permettre à un utilisateur de commencer ou de compléter un panier sans même quitter la page. Nous avons lancé en Décembre 2012 dans le domaine de l’alimentaire, en apportant des supermarchés en ligne (CasinoExpress, CasinoDrive, MesCoursesCasino, Mon-Marché) dans des sites culinaires (l’AtelierDesChefs, C’vous, blogs, forums)… Nos interfaces sont non-intrusives, parfaitement qualifiées et apportent un service supplémentaire à la page qui les héberge, ce qui nous permet d’atteindre des taux de clics absolument stupéfiants, signe d’un nouveau vecteur d’acquisition de clients et de monétisation du contenu. Prochaines étapes Notre réseau de partenaires s’étend tous les mois, aussi bien en termes de magasins en ligne que d’éditeurs. Informations supplémentaires http://corporate.chefjerome.com 17 PROJET Trophée de l’innovation Big Data 2013 OREST TAE Porteur du projet LA POSTE COURRIER Partenaires DASSAULT SYSTEM SOPRA GROUP Objectifs Outil de suivi de production industriel du traitement des enveloppes (collecte, tri et distribution des objets postaux), basé sur un moteur d’indexation CloudView Innovation L’aspect le plus novateur est la possibilité de visualiser au niveau le plus fin les traitements en anomalies, jusqu’à l’image du pli. Cette fonction est rendue possible grâce au stockage unitaire des documents, aux performances exceptionnelles de comptages de l’outil, mais aussi à l’utilisation de standard au sein du SI Industriel (WebService REST) permettant les interconnexions transparentes et temps réels entre les sources de données. Résultats • Contribution majeure à l’amélioration de la performance des sites et du service client. • Complément et bientôt remplacement des approches statistiques historiques. Le processus de recette du système s’est appuyé sur plusieurs corrélations entre les mesures statistiques et l’approche unitaire mise en œuvre et a montré la cohérence des agrégats (les seuls accessibles aux méthodes historiques). Le système a montré toute sa force dans un passage instantané des indicateurs aux événements unitaires. Par la simplicité d’accès à l’information et donc l’usage du système par les acteurs opérationnels, le même passage instantané se fait du constat macro au plan d’action détaillé : les problèmes identifiés sont en effet illustrés par des exemples concrets disponibles immédiatement. www.bigdataparis.com 18 PROJET Trophée de l’innovation Big Data 2013 Application à la gestion des capacités d’un système d’information industriel Porteur du projet croissant vers l’analyse de données). - Conception et déploiement de méthodes analytiques, pour les activités supports d’un site de production de semi-conducteur, pratique encore peu répandue. - Définition d’un processus complet d’intégration des méthodes analytiques dans le cadre des activités de l’organisation (identification des besoins décisionnels et participation des acteurs). Les objectifs de ce processus, nommé « processus socio-statistique d’aide à la décision », sont illustrés par la figure 3. Michel Lutz Doctorant CIFRE Objectifs Les managers de STMicroelectronics manquent d’outils analytiques pour mieux piloter leur Système d’Information (SI). Pourtant, de nombreuses données générées par le SI, automatiquement collectées (activité hardware, software, etc.), sont disponibles. Ces données sont sous-exploitées. Nous cherchons à en faire meilleur usage, pour faciliter la prise de décision chez STMicroelectronics. Principalement, nous visons à améliorer la gestion des capacités de l’infrastructure technologique du SI. Résultats Les données auparavant largement sous-exploitées, sont désormais pleinement intégrées dans les processus de prise de décision des managers de STMicroelectronics. Prochaines étapes - Amélioration des méthodes quantitatives employées : applicabilité à des plus larges volumes de données, utilisation en temps réel, automatisation de la constitution des modèles de prévision, etc. - La base de performance est une base Oracle, alimentée par un mécanisme de parsing des fichiers de log du SI. A terme, ces fichiers pourraient directement être exploités (process mining). - Les développements proposés pourraient être directement intégrés dans un système de support à la décision, qui favoriserait les synergies entre analyses statistiques et gestion des connaissances organisationnelles. Présentation Le projet s’est déroulé en trois grandes étapes. 1. Identification des besoins des besoins décisionnels. Face à la quantité de données et aux nombreux problèmes décisionnels que peuvent poser la gestion des capacités, il faut être capable de préciser très clairement ce que l’on attend des méthodes analytiques. Pour cela, une enquête méthodique et structurée est réalisée. Deux besoins sont mis en exergue : - Les managers ont besoin de modèles de prévision, permettant de prédire l’utilisation des ressources informatiques en fonction de variables stratégiques caractéristiques de l’activité de l’usine. - Les managers ont besoin de méthodes robustes de maîtrise statistique des procédés, pour contrôler automatiquement l’activité du SI (détection de comportements anormaux). Informations supplémentaires Un enseignement important de ce projet a été de comprendre que, si les aspects techniques et quantitatifs du déploiement de méthodes analytiques sont importants, ils ne peuvent aboutir à des résultats opérationnels et pérennes qu’à condition d’avoir préalablement analysé leur contexte organisationnel et humain d’application. Il sera par ailleurs présenté dans le cadre d’une thèse de doctorat pour obtenir le grade de docteur de l’Ecole Nationale Supérieure des Mines de Saint-Etienne. Cette thèse, intitulée « METHODES SOCIOSTATISTIQUES POUR L’AIDE A LA DECISION EN MILIEU INDUSTRIEL Application à la gestion des capacités d’un système d’information en industrie micro-électronique » sera soutenue le 14 mai 2013 à SaintEtienne. 2. Constitution de solutions analytiques ad hoc, intégrées dans les processus organisationnels. Pour répondre à ces besoins, on s’appuie sur les données générées par le SI, automatiquement collectées (activité hardware, software, etc.) dans une base de données appelée « base de performance » de plusieurs dizaines de To, ainsi que sur les nombreuses bases de données métier disponibles (même ordre de grandeur). Une démarche structurée est définie. D’une part, elle vise à intégrer les acteurs de l’organisation, pour assurer l’ancrage des méthodes analytiques dans leur activité quotidienne (interprétation des variables, des modèles, compréhension des méthodes mises en œuvre). D’autre part, elle vise à identifier les méthodes statistiques destinée à exploiter les données : - Concernant les modèles de prévision (exemple : figure 1) : un processus de modélisation complet est défini. Il permet 1) d’explorer les bases de données (statistiques descriptives et exploratoires) ; 2) de réaliser des modèles prédictifs (statistiques inférentielles et confirmatoires) ; 3) de mettre sous contrôle la stabilité structurelle des modèles (statistiques confirmatoires). - Concernant les méthodes robustes de maîtrise statistique des procédés, une méthode à base de lissage Holt-Winters robuste, tenant compte des changements structurels et du cadre multivarié d’application a été définie. 3. Déploiement. Pour l’instant, les solutions industrielles suivantes sont opérationnelles chez STMicroelectronics : - Scripts R d’analyse manuelle de la base de données pour la constitution de modèles de prévision. Logiciel de contrôle automatique de la stabilité structurelle des modèles de prévision (interfaçage R/VBScript, cf. figure 2). Logiciel de de maîtrise statistique des procédés (interfaçage R/VBScript, cf. figure 2). L’ensemble de ce projet s’est déroulé sur une période de trois années. Innovation - Conception et déploiement de méthodes analytiques pour la gestion des capacités d’un système informatique, conformément à l’évolution des pratiques dans ce domaine (l’approche traditionnelle est la modélisation des réseaux de files d’attente, mais on constate un recours 19 PROJET Trophée de l’innovation Big Data 2013 LA DATAVISUALISATION INTERACTIVE EFFET DE SERRE DE LYONNAISE DES EAUX Porteur du projet SARL 10h11 / Lyonnaise des eaux Objectifs Améliorer la compréhension du rapport Gaz à Effet de Serre de la Lyonnaise des Eaux auprès du grand public Présentation http://ges-lyonnaisedeseauxbordeaux.fr/ 137 tableurs Excel - un rapport de Gaz à Effet de Serre que touche l’ensemble des corps de métiers de la Lyonnaise des Eaux et un site internet associé ne répondant pas aux objectifs de l’entreprise. Une start’up, 10h11, propose une visualisation interactive de la donnée pour répondre aux besoins de la Lyonnaise des Eaux. Innovation Une visualisation de données innovantes par son interactivité et ses différents niveaux de lecture Un back-office administrable pour permettre une autonomie jusqu’en 2016 Technologie native et moderne : HTML5 - CSS3 - JQuery - JS - php – MySQL Résultats L’internaute obtient un tableau de bord interactif sur lequel il est commanditaire de l’information qu’il souhaite observer. Le design de l’information se veut épuré, ludique et scénarisé : la donnée devient attractive et interactive pour l’internaute. Prochaines étapes Le déploiement d’un rapport Gaz à Effet de Serre sur le plan national n’est pas exclu pour améliorer l’impact des actions environnementales de la Lyonnaise des Eaux au regard du citoyen. L’équipe de 10h11 développe actuellement un CMS libre de visualisation de la donnée sur son volet recherche & développement. www.bigdataparis.com 20 PROJET Trophée de l’innovation Big Data 2013 SeeMore Porteur du projet compétences des collaborateurs (par profil, niveau d’études et niveau d’expérience) et les sélectionner pour un projet stratégique particulier, plutôt que de faire appel à un consultant externe, et ainsi réduire les coûts. L’une des forces de SeeMore™ est la possibilité, offerte à n’importe quel utilisateur final, d’accéder immédiatement à des données, sans avoir à embaucher un programmeur ou un analyste. Karl Rigal Senior Public Relation Manager Monster Worldwide Objectifs Prochaines étapes SeeMore™ est la première solution sémantique appliquée aux viviers de candidats des entreprises articulée autour de deux axes majeurs : - l’analyse décisionnelle - la recherche La résolution du problème de recherche du « meilleur » CV dans un vivier de candidats, a longtemps constitué un défi majeur dans l’industrie des Ressources Humaines. Avec l’essor d’Internet, le volume des bases de données de CV est passé de quelques milliers, à plusieurs dizaines de millions. Aujourd’hui la stratégie de différentiation des fournisseurs repose davantage sur la taille de la base de données que sur la qualité des outils utilisés pour exploiter ces données. La recherche du meilleur CV est un problème particulièrement difficile car les approches traditionnelles ont montré leurs limites. Pour une même recherche, des milliers de CV comportent les mêmes mots-clés qui ne se rapportent pas aux concepts de ces mots. La plupart des informations essentielles sur un CV n’est tout simplement pas exprimé par des mots. Ainsi, le nombre d’années d’expérience sur une compétence spécifique est un facteur clé dans la sélection des candidats, mais pas consultable avec les outils traditionnels de gestion RH. Un moteur de recherche doit être en mesure d’évaluer le niveau d’expérience et de distinguer les compétences courantes des compétences rares. Les outils de recherche traditionnels classent les candidats à l’aide de mesures artificielles, comme le nombre d’occurrence d’un mot-clé ou la date de la dernière mise à jour du CV. Ces méthodes ne permettent pas d’identifier le meilleur candidat en haut de la liste du résultat de recherche. Les approches booléennes traditionnelles échouent parce qu’elles ne traitent pas les candidatures de la même manière qu’un être humain. Un candidat compétent peut passer à travers les mailles du filet, tandis que les recruteurs sont obligés de parcourir des CV et modifier la recherche pour arriver à une liste restreinte. Pour être efficace, une recherche doit identifier les candidats en comprenant le sens et le contexte des mots sur un CV, puis classer les candidats selon les critères du recruteur, en quelques instants. C’est désormais possible, grâce à SeeMore™ de Monster qui offre la première solution Cloud qui répond à tous ces besoins. SeeMore™ permet d’exploiter dans le Cloud le vivier de candidats constitué par les entreprises à partir des multiples sources de CV : - CVthèques -Réseaux sociaux -Annonces - Cabinets de recrutements - Cooptation - Ecoles et Universités - Presse - Solutions RH internes Présentation - nature des données traitées, volume approximatif - Nature : CV candidats ou CV des collaborateurs d’une entreprise sous divers formats (Word (DOC, DOCX), PDF, RTF, TXT) & données structurées - Volume : Centaines de milliers à plusieurs millions de profils - ressources mises à disposition : compétences humaines, outils techniques. SeeMore™ repose sur une plateforme virtuelle sécurisée, largement évolutive et optimisée pour héberger les données. Cette solution Cloud dispose d’une technologie d’indexation in-memory. - calendrier de déploiement : En production Innovation Les applications de la technologie 6Sense sont faciles d’utilisation. SeeMore™ de Monster permet aux utilisateurs d’effectuer des recherches en les soulageant du processus, complexe et chronophage, de recherche selon la logique booléenne. SeeMore™ comprend à la fois le sens des mots et le contexte des critères saisis, ce qui permet à l’utilisateur de se concentrer sur les exigences du poste plutôt que sur les mots-clés et lui permet de bénéficier d’un gain de temps considérable.SeeMore™ intègre un puissant outil d’analyse qui vous permet de mieux voir et connaître tous vos viviers de talents, y compris vos employés. SeeMore™ vous donne accès à plus d’informations sur vos CV, depuis les compétences spécifiques des candidats jusqu’à la provenance des CV les plus pertinents. Cela vous permet de déterminer l’efficacité générale de vos efforts de recrutement - et vous aide à aligner vos talents sur vos objectifs stratégiques. Résultats SeeMore™ se différencie de ses concurrents par sa base de connaissances, qui identifie des concepts très complexes dans les différents formats d’origine des documents. Ainsi, le processus de recherches très complexes est véritablement simplifié. L’index de recherche SeeMore™ identifie les concepts dans les données non structurées, et les héberge dans des structures de données efficaces, développées pour optimiser la recherche et les rapports. Le moteur de rapport et d’analyses SeeMore™ est étroitement liée aux index de recherche. Il est capable de générer des rapports et des analyses en temps réel sur un ensemble de données en constante évolution. Pour la première fois, un responsable RH peut instantanément découvrir des talents au sein de son entreprise, voir la répartition des 21 PROJET Trophée de l’innovation Big Data 2013 Data for Development Challenge (D4D) Porteur du projet Innovation Première mondiale, de mise à disposition en mode Open BigData de données de son réseau par un opérateur de téléphonie mobile. qui a motivé une grande diversité d’équipes participantes, réparties sur l’ensemble de la planète et une richesse des pistes de recherche proposées (250 équipes souvent multidisciplinaires : spécialiste de santé, sociologues, ingénieurs, mathématiciens,…) Nicolas de Cordes VP Marketing Vision, Orange Groupe Partenaires Pr Vincent Blondel, Université catholique de Louvain (UCL), Louvain-LaNeuve, Belgique - Président du comité du concours (membres ci-dessous) Pr Francis Akindes, Université de Bouaké, Bouaké, Côte d’Ivoire William Hoffman, chef de l’industrie des télécommunications, World Economic Forum, NY, USA Mari-Noëlle Jego-Laveissiere, directrice de Orange Labs, Paris, France Robert Kirkpatrick, directeur de Global Pulse, Nations Unies, New York, USA Chris Locke, directeur général du «GSMA Development Fund»,GSMA, Londres, UK Alex (Sandy) Pentland, Medialab, MIT, Cambridge, USA 80+ papier scientifiques reçus explorant toutes les pistes d’utilisation de données BigData anonymes à des fins de développement de la société: identification d’épidémie, modélisation urbaines, détections de crises, cartographie des richesses et de la pauvreté, etc… Méthodes innovantes de croisement de données très variées avec celles d’un Telco, et identification des différences de traitement à apporter dans les méthodes d’analyses entre les pays occidentaux et les pays émergents dûs aux comportements sociaux différents (mobilité, différences semaine/WE,…) Objectifs Résultats Orange et sa filiale Orange Côte d’Ivoire ont mis à disposition de la communauté scientifique une base de données inédite de données de trafic de communications dans le cadre du Concours « Data for Development » (D4D). Les chercheurs avaient pour objectif de contribuer au développement de la Côte d’Ivoire (réduction de la pauvreté, amélioration de la santé, etc) en analysant ces données, le cas échéant en les croisant avec d’autres jeux de données. Les meilleurs résultats seront présentés lors de la conférence NetMob 2013 suivi d’un évènement en Côte d’Ivoire. Les résultats contribueront au développement et au bien-être des populations, et à l’amélioration des politiques publiques de développement. Déjà plusieurs demandes reçues de la part d’organisations pour initier des travaux sur base de données anonymes plus fines conservées chez Orange. Prochaines étapes Orange développe une approche basée avant tout sur le respect de la vie privée, et l’accroissement du contrôle de ses données par le client. C’est dans ce cadre uniquement, que les projets de valorisation de données BigData anonymes sont abordés. Présentation • La nature des données traitées Les données proviennent des communications passées par les abonnés mobile d’Orange en Côte d’Ivoire entre Décembre 2011 et Avril 2012, fortement anonymisées et organisées en 3 thèmes: - communications entre antennes relais, - trajectoires de déplacement, - sous-graphes de communication. Informations supplémentaires Les résultats du concours seront annoncés le 1er Mai au MIT (Boston). Nous ne citerons pas de résultats spécifiques, étant sous contrainte de confidentialité de ces publications scientifiques. • Volume de données 5 millions d’utilisateurs, 2.5G lignes, 35Gb de données sources, nécessitant des algorithmes de traitement lourds en science des réseaux • Les ressources - L’équipe projet D4D Orange: composée d’ingénieurs, marketers, sociologue et juriste. - le site web : ouvert à la communauté des chercheurs ainsi qu’aux institutions publiques ou ONGs désireuses de soumettre un projet - les centres informatiques d’une centaine d’institutions (universités, institutions privées) en compétition de par le monde • Le calendrier Juin 2012 : lancement de l’appel à candidatures pour le Concours. 15 Février 2013 : limite de soumission des travaux. 1 mai 2013 : présentation des projets au MIT Medialab, avec la conférence NetMob (2-3 mai). S2 2013 : présentation des projets récompensés par Orange en Côte d’Ivoire. www.bigdataparis.com 22 PROJET Trophée de l’innovation Big Data 2013 Ouestmarches.com Porteur du projet Résultats -Mise en forme et qualification des annonces de marchés collectés - Génération d’indicateurs économiques (collecte et datavisualisation) - Traitement statistiques des données collectées : observatoire des marchés publics (traitement et datavisualisation) Stéphan Minard Head of Digital - Medialex Partenaires Data Publica – personne référente : Benjamin Gans Prochaines étapes - Elargissement du nombre de marchés collectés -Amélioration de la qualification des données -Application de règles métiers permettant de fournir des services de veille « intelligent » : cf détection des renouvellements des marchés publics en fonction du cycle de vie d’un produit ou d’un service (matériel informatique renouvelé tous les 3 ans), identification des attributaires des marchés, … - Génération d’un annuaire des acheteurs à partir des données collectées. - Veille économique permettant d’identifier les opportunités d’affaires en amont. Objectifs Service de veille de marchés publics et privés à destination des entreprises Présentation Données traitées • 500K annonces / an • 40 gigas de données • 40 sources • 20 attributs / annonce • Volume : un grand nombre d’annonces traitées, plus de 500 000 par an • Diversité : un grand nombre de sources différentes avec des formats et des structures différentes (il y a plus de 8 000 sources de données potentielles) • Vélocité : un grand nombre d’utilisateurs potentiels (5 millons d’entreprises en France). Informations supplémentaires - Un des premiers services dégageant un business modèle autour de la donnée publique autour d’un système gagnant / gagnant / gagnant - Gagnant pour les acteurs publics qui répondent à leurs obligations de publicité et qui informent les citoyens sur la commande publique. - Gagnant pour les entreprises qui accèdent à de nouvelles opportunités d’affaires Gagnant pour ouestmarches qui développe une gamme de services payants à partir de données ouvertes. - L’utilisation de technologies issues du bigdata permet à ouestmarches de se positionner en rupture avec le marché existant (pur player technologique versus acteurs traditionnels) - rupture technologique : automatisation - rupture de commercialisation : vente à distance et maketing direct - rupture en terme de prix - rupture en terme de services (nouveaux services issus du traitement des data) - rupture en terme de cible : des grands groupes nationaux ou régionaux aux pmi/pme Stockage : Tableau de bord des territoires et Tableau de bord des marchés : les données qui alimentent les tableaux de bord sont stockées et maintenues dans un entrepôt de données de l’ordre du téra-octet, qui s’alimente à la source de plusieurs puits de données open data de plusieurs tera octets de données Innovation • L’usage de technologies web / « big data » au service de la veille de marchés publics en rupture avec les usages et méthodes de collecte des autres acteurs du marché. - crawling - sémantique - metadata • Le croisement des données collectées avec des indicateurs issus de l’open data afin de générer un service à forte valeur ajoutée aux entreprises abonnées. • L’extraction de données utiles au sein des annonces collectées afin de produire de nouveaux services (annuaires des acheteurs, …) Les domaines - Collecte « exhaustive » et automatisée des marchés publics à partir de sources numériques (versus collecte manuelle) - Déduplication, qualification et enrichissement des data - localisation - secteur d’activité - contacts - type de marché - date de clôture Outils de recherches multi-critères fins pour une recherche ciblée Mise à disposition des entreprises de données enrichies pour une lecture structurée Matching des marchés collectés avec des indicateurs économiques générés à partir de l’open data - indicateurs économiques par commune ( prix de la catégorie Territoire & Mobilité au concours Dataconnexions organisé par Etalab) - Indicateurs économiques par secteurs d’activités. Mise à disposition d’un observatoire des marchés publics permettant de « monitorer » la commande publique sur l’ensemble du territoire national. 23 PROJET Trophée de l’innovation Big Data 2013 Voix du Client Porteur du projet Proxem Partenaires Carrefour Objectifs - centraliser l’ensemble des remontées clients dans un référentiel unique ; - analyser ces verbatims clients en temps réel pour les classifier automatiquement en fonction des thématiques métiers, rayons et problématiques remontées par les clients ; - mettre à disposition et transmettre l’information pertinente à l’ensemble des utilisateurs Carrefour. Présentation Le projet consiste dans la mise en place d’Ubiq, une plateforme globale d’analyse sémantique des verbatims clients développée par Proxem. C’est une solution d’aide à la décision en mode SaaS. Ubiq traite automatiquement les verbatims écrits par les consommateurs pour en extraire l’information pertinente (marques, produits, concurrents, concepts…). Ubiq analyse les opinions, les perceptions et les classe automatiquement par thématique. Ubiq s’applique aux emails envoyés spontanément, aux sondages en questions ouvertes ou aux opinions d’internautes. Chez Carrefour, Ubiq, analyse chaque jour à la volée des milliers de retours clients issus : - des acteurs classiques de la relation client (CRM…) - des acteurs complémentaires (études, baromètres…) - des acteurs innovants : (avis consommateurs, applications mobiles, bornes en magasins…) Il s’agit donc d’une plateforme cross-canal qui met à disposition plus d’un million de retours clients. En quelques secondes de chargement, l’utilisateur a accès à l’ensemble des retours catégorisés, triés, visualisés, et peut consulter les résultats de requêtes complexes, découvrir automatiquement des documents similaires et des signaux faibles. Les interfaces permettent un pilotage par un petit nombre d’utilisateurs qui peuvent facilement communiquer l’information. Innovation - mettre en place un projet technique qui permette concrètement de placer le Client au cœur des orientations stratégiques de l’entreprise - créer un référentiel de centralisation inédite de l’information - permettre des prises de décision stratégiques basée sur des données factuelles et objectives, validées par 10 années-hommes de R&D en TAL (traitement automatique du langage). Résultats Le projet a permis de transformer une donnée déstructurée, abondante et dispersée en une information utile, synthétique et à forte valeur ajoutée. Prochaines étapes Les équipes Carrefour recherchent sans cesse de nouvelles sources de données pour la plateforme et envisagent notamment l’adoption de solutions speech-to-text pour permettre le traitement sémantique de l’intégralité des conversations téléphoniques chez Carrefour. www.bigdataparis.com 24 PROJET Trophée de l’innovation Big Data 2013 Le géomarketing dynamique par SFR : valorisation interne et monétisation externe des données réseau SFR Porteur du projet SFR Partenaires Web Géo Services et Intersec Objectifs - Faire passer le réseau mobile d’un « centre de coûts » à un « centre de profits » - Collecter les données agrégées et anonymisées de géolocalisation des utilisateurs du réseau SFR - Analyser/structurer et enrichir ces données pour commercialiser des études et des solutions clé en main à des grands comptes à partir des flux des utilisateurs : sociétés de transport, collectivités locales, grande distribution, etc. Présentation Le projet géomarketing de SFR consiste à traiter de manière anonymisée, les données de géolocalisation des utilisateurs du réseau SFR collectées sur tout le territoire français par les antennes relais pour analyser les flux de population. L’équipe géomarketing Big Data de SFR mixe 2 sources principales de données : - Les événements des utilisateurs du réseau SFR (exemple d’événement : allumer / éteindre son mobile, passer un appel, etc.) dont le volume s’élève à un milliard par jour -Agrégation de sources de données externes : bases clients des partenaires, open data, données sociodémographiques sur base d’opt-in des utilisateurs. Les enchainements des événements (exemple d’événement : allumer / éteindre son mobile, passer un appel, etc.) émis par des mobiles vers des cellules du réseau SFR permettent de suivre les densités / flux de population à un niveau macro (national, urbain) et micro selon la topologie du réseau. Innovation La plupart des données et analyses réalisées sont uniques sur le marché (versus des Enquêtes type « Ménages et Déplacements » basées sur des questionnaire et du déclaratif). Les données sont accessibles en temps réel via des accès Push / Alertes et Pulls. Les données SFR après redressement (par rapport à la part de marché SFR) sont fiables et représentatives de l’ensemble de la population dans la mesure où elles ont été validées par des comptages manuels sur le terrain. SFR a mis en place une plateforme multi-solutions techniques (NoSQL, Hadoop, Custom) et multi-solutions de visualisation/ reporting. Résultats - Valorisation externe : vente directe d’études et solutions par SFR ou vente indirecte via son partenaire Web Géo Services (WGS) - Valorisation interne : Espaces SFR et MVNO SFR, gestion de la fraude, etc. 25 PROJET Trophée de l’innovation Big Data 2013 POC BIGDATA SNA Porteur du projet Temps de traitement et de restitution Les temps de chargement moyen pour la phase d’initialisation de un an de donnée a durée 8 heures. La phase quotidienne de chargement dure en moyenne 30 minutes. Pour la restitution et le rafraichissement de rapport nous avons observé les temps suivants : -Requêtes complexes : moins de 15 minutes -Requêtes simples : inférieur à une minute Damien Albagnac - Consultant senior décisionnel Sopra Group Partenaires Julien DULOUT Manager décisionnel Sébastien DANGUILLAUME Chef de projet Objectifs Innovation Le service SNA de la Poste veut pouvoir mesurer plusieurs indicateurs sur des logs Apache de type Log4J de leurs serveurs web. Ils veulent pouvoir analyser : - Vérification du trafic entre les serveurs (Répartition du LoadBalancing) - Vérification des erreurs Apache - Tracer les différentes étapes d’un contrat client - Quantification du nombre de contrat souscrit par Mois La poste inscrit un million de nouveau contrat de changement d’adresse par années. Cela représente plus de deux millions de lignes de log Apache par jour avec l’impossibilité de visualiser le parcours client sur un temps de traitement très court. Les données de log sont en constante évolution. Connaitre le trafic et la répartition des charges serveurs sur de longue période est compliqué et très couteux avec une telle volumétrie. Les types de logs générés sont des logs Log4J. Ils ont trois environnements distincts contenant chacun deux serveurs web Apache pour faire du LoadBalancing. Chaque serveur web génère un fichier de log par jour. L’utilisation d’outil comme Talend For BigData ou VectorWise qui sont des outils récents mais très novateur dans le domaine du BigData, a permis un gain de temps de ressources plus que considérable. De plus, la technologie Hadoop a permis de réaliser le projet avec des temps de chargement et de restitution plus que convenable pour la volumétrie traitée avec coûts très faible. Cela aurait été très compliqué et surtout très couteux pour faire ce projet avec des technologies standard pour avoir les mêmes temps de traitements. Résultats Grâce à la distribution de Cloudera, l’interface administrateur nous permet de configurer les serveurs de manières simple et rapide. De plus, des outils comme HUE permettent d’accéder à la donnée de manière graphique sans avoir de compétence particulière sur la connaissance des technologies Hadoop. Les temps de traitement observé sur la volumétrie, et le nombre de nœud restreint sont vraiment très spectaculaires. Présentation Nature et volume des données traitées : Le POC a été fait sur une volumétrie de un an et doit contenir à terme plus de cinq années de données de logs. Pour un an, cela représente : - 477 Millions de ligne - 1500 fichiers - 80 Go de données www.bigdataparis.com 26 PROJET Trophée de l’innovation Big Data 2013 SPDM – Scientific Process Data Management Porteur du projet Jean-Etienne Fortier – KM SPECIALIST UCB Pharma Objectifs Implémentation d’un système capable de mettre en corrélation des données du procédé de fabrication et d’observation cliniques. Présentation Le projet SPDM (Scientific Process Data Management) a pour objectif de permettre l’agrégation rapide et le traitement graphique et statistique de nombreuses données issues des procédés de fabrication pharmaceutique (laboratoire, pilote ou usine), des mesures analytiques (développement ou contrôle) et des observations cliniques sur les patients (études cliniques notamment). Un premier projet a été réalisé en 2012 sur un procédé de fabrication d’un anticorps monoclonal (environ 20 étapes de synthèse) en collectant plusieurs centaines d’essais et environ 500 paramètres (dont une grande partie sous forme de variable du temps). Pour le premier projet, 5 sources de données ont été connectées. Dans ce projet, une équipe interne regroupant des spécialistes en procédés, en études cliniques, en informatique (architecte en base de données, data scientist) et en gestion des connaissances et statistiques, a été mise en place en parallèle d’un consultance externe liée à la solution informatique. Ce premier projet s’est déroulé entre avril et décembre 2012 et a abouti au déploiement d’une solution d’agrégation de données brutes, d’analyse, d’automatisation de diffusion de rapports à l’échelle de l’entreprise. Par ailleurs, la solution actuellement en environnement de développement sera basculée en production permettant une augmentation de paramètres disponibles, du volume de données et du nombre de procédé / produits concernés. Innovation Ce projet permet une intégration des informations issus du clinique et du technique dans l’industrie pharmaceutique, depuis l’entrée des matières premières dans l’entreprise à l’utilisation du produit fini, afin d’en permettre l’analyse. Cette démarche, liée à la mise en place d’un système « qualité par la conception » remet le patient au centre de la compréhension du médicament et de sa fabrication. Résultats Nous avons pu : - mettre en relation les données techniques de procédés et cliniques (patients) - modéliser l’évolution du profil qualité entre la fabrication et l’utilisation des produits pharmaceutiques - vérifier l’impact de variation du procédé ou du profil qualité du produit sur les patients Prochaines étapes La démarche a montré une grande puissance liée à la vitesse d’accessibilité aux données et de la facilité de leur analyse malgré le nombre et la disparité de ses sources. Cette application directe de GESTION des CONNAISSANCES sera généralisée. De plus, le partage de données au sein de l’entreprise a permis un accroissement important de la connaissance acquise et de sa conservation. Ce type de collaboration entre départements va être multiplié. 27 PROJET Trophée de l’innovation Big Data 2013 Viadeo Porteur du projet Lila Razzaqui – Public Relations – NEO Technology Partenaires Viadeo NeoTechnology Objectifs As the company’s network continued to expand, the Viadeo team soon found that their traditional MySQL database couldn’t keep up. The project objective therefore was to find a new framework that could accommodate Viadeo’s Big Data performance and storage needs at the rate that the company was growing. Présentation As the company’s Big Data challenge continued to grow, it was at this time that Christophe Thibault, CTO, decided to implement a graph database to store Viadeo’s data. Recognizing that Viadeo’s core business revolved around user relationships, he found a graph model as the most appropriate way to model and support such data. Thibault in turn chose graph database Neo4j for its performance, ease of use, and its ability to quickly integrate with other applications, as a means to model and query Viadeo’s growing amounts of connected data. The project entailed transitioning approximately 300 GB of graph storage from MySQL to graph database Neo4j – a process that took about five minutes time to get started, and which concluded with overwhelming results. By leveraging graph database Neo4j, Viadeo has highly accelerated their system in two ways: the project has increased Viadeo’s performance by requiring less storage space, and, it required less time to restructure its existing graph. The rollout consisted of two months where Viadeo successfully transitioned all of its user data from a MySQL database to the Neo4j graph database. Viadeo went with Neo4j for its simplicity and high performance, and as a result they have far less storage restrictions and faster querying times. Innovation What makes the project so innovative as regards lines of business and/ or usages: VIadeo’s move to a graph database is innovative as it better enables the company to leverage its ever-changing, connected data for optimized high performance queries and relationship analysis. This means better insight into Viadeo’s social graph for both users and the team. A graph database is additionally perfectly suited to Viadeo’s business model, which is a business-oriented online social networking platform. Viadeo lets members maintain a list of business partners, allowing them to stay in touch, use or help each other to find a job, or create business opportunities – capabilities that are fully supported by graph database technology. Viadeo’s project shows how a business can remain innovative through leveraging modern Big Data technology - this case, a graph database. Résultats Upon integration, Viadeo accelerated its system performance by over 200 percent. Specifically, the project resulted in the following data exploitation: www.bigdataparis.com 28 PROJET Trophée de l’innovation Big Data 2013 Voyage Privé, Le BIG DATA au service du client Porteur du projet Laurent Hupé – Directeur du CRM Voyage Privé Partenaires CAPITALDATA représenté par Didier PARISOT Directeur Associé Objectifs Lancé en France en 2006, Voyage Privé est le premier site de ventes privées de voyage. Depuis notre lancement, la relation avec nos membres est au cœur de notre business model. L’essentiel de nos efforts de R&D visent donc à établir une relation unique avec chaque individu, s’attacher à comprendre ses attentes et lui proposer les offres adaptées. Les informations dont nous disposons sur toutes les personnes étant entré en contact avec notre marque sont donc devenues le socle de notre développement commercial. INNOVATIONS En nous lançant dans ce projet en partenariat avec CAPITALDTA, l’objectif était clair : construire un dialogue avec nos clients et prospects en personnalisant entièrement notre discours marketing. On ne peut aujourd’hui atteindre cet objectif de personnalisation qu’en agrégeant et en exploitant des volumes de données gigantesques. RéSULTATS Notre travail vise à répondre au mieux aux questions cruciales du marketing : - A QUI et QUAND envoyer un message marketing : le travail de scoring est décisif si l’on souhaite intensifier le mouvement naturel d’achat sans tenter de contraindre un prospect. L’activité court-terme ne doit pas se faire au détriment de l’avenir. Nous avons donc aussi cherché par ce biais à diminuer drastiquement les taux de désabonnement sur les emails ou sur les bannières de reciblage. - QUOI envoyer : nous avons développé un moteur de dérive qui détermine sur la base des comportements constatés les offres les plus susceptibles de plaire à aux internautes sollicités. - COMMENT envoyer : tous les leviers marketing deviennent progressivement des supports de marketing relationnel. Il est désormais possible d’identifier chaque individu et de lui parler de manière nominative par email mais aussi maintenant par bannière, par voie de notification à destination des utilisateurs de notre application mobile. Dès lors, la question du choix du média devient centrale. PROCHAINES éTAPES Toute cette réflexion s’est également accompagnée d’une volonté de maîtriser la donnée pour rendre la main aux internautes et leur permettre de mieux gérer leurs informations personnelles. L’engouement actuel autour de la thématique « Big data » fait réaliser aux consommateurs comme aux eCommercants la valeur des données d’un individu. En l’absence d’une législation claire, trop de tiers se sont arrogés selon nous le droit de collecter et de croiser des données sans réellement rendre de compte à qui que ce soit. Il est pour nous fondamental que l’échange d’informations s’appuie sur la relation de confiance qui existe entre une marque et son client. 29 PROJET Trophée de l’innovation Big Data 2013 Yahoo! Consumer Connect Porteur du projet Jean-Christophe Gombeaud , Directeur Planning & Stratégie Yahoo Partenaires Carrefour Medias – Michel Bellanger - Responsable Marketing Objectifs Proposer une solution de ciblage et d’efficacité publicitaire à destination des annonceurs de la grande consommation. Présentation du projet : Fin 2012, Yahoo! s’est associé avec Carrefour Médias pour lancer en exclusivité en France Yahoo! Consumer Connect. Yahoo! Consumer Connect offre pour la première fois la possibilité aux annonceurs de la grande consommation : - de cibler les individus sur la base de leurs achats réels en magasins. Que ce soient les acheteurs de la marque, des marques concurrentes ou de la catégorie. - de mesurer l’efficacité de la campagne sur les ventes de la marque en sortie de caisse (pendant et après) - de calculer le ROI de la campagne, optimisé grâce à une communication online ultra-ciblée qui évite la déperdition. Le panel Yahoo ! Consumer Connect: Yahoo! avec Carrefour Médias a constitué un panel commun et exclusif de plus de 16 500 panélistes opt-in qui sont à la fois acheteurs chez Carrefour et utilisateurs Yahoo !. Le panel fusionne les données de consommation réelles des inscrits au programme de fidélité Carrefour (achat offline) avec les données Yahoo! (comportements de navigation online). La mesure de l’exposition média et des achats en magasins se faisant sur un seul et même individu, le panel est donc single source. Chiffres clefs du projet : - 16,1 millions de visiteurs uniques chaque mois sur Yahoo ! France (Source : MNR - Janvier 2013) - 15,7 millions de porteurs actifs de la carte de fidélité Carrefour (Source Carrefour - 12 derniers mois). - Un total de 48To de données utiles. Aspect Novateur du projet dans les métiers et/ou dans les usages: Cette offre de ciblage combinée à une mesure de l’efficacité publicitaire directement sur les ventes, à partir de données réelles de ventes en magasin, n’a pas d’équivalent en France. résultats Yahoo ! Consumer Connect a déjà fait ses preuves à l’international : - Disponible aux États-Unis depuis 2003, plus de 600 campagnes diffusées avec un ROI moyen entre 2 et 5 dollars. - Disponible au Royaume-Uni depuis 2010, une vingtaine de campagnes et un ROI moyen à 3,2 livres. PROCHAINES éTAPES Le projet a débuté en septembre 2012 avec la signature du partenariat avec Carrefour Media. Après avoir recruté le panel et effectué des tests de modélisation, la première campagne débute en avril avec un annonceur de la catégorie Boisson. www.bigdataparis.com 30 PROJET Trophée de l’innovation Big Data 2013 Zalando, une réussite « Made in Germany » Porteur du projet PROCHAINES éTAPES Florent Daversin, Managing Director, VO2 GROUP Zalando est entrain de rapprocher ses données non-structurées (qu’ils stockent dans une installation Hadoop) des données structurées de la base de données EXASolution, en utilisant un dernier outil complémentaire: Le framework EXAPowerlytics (Le lien realisé en language SQL). Partenaires EXASOL AG : BERNHARD DOERFLER / ( Partner & Alliances) Bernhard Carsten Weidmann - Presales Manager ZALANDO : Eric von Czapiewski, Manager Business Intelligence Zalando L’exploration de données, des analyses avancées et des statistiques seront pratiquées à l’aide des algorithmes MapReduce, implementés dans les langues R, Lua et Python. L’architecture d’EXASolution constituera la base de la parallélisation massive qui accélère énormément les calculs. Objectifs Zalando (www.zalando.fr) est la plus grande boutique en ligne de vêtements et de chaussures en Europe. En seulement 4 ans d’existence, le leader a largement atteint le milliard de CA. Avec la croissance phénoménale de son activité, le volume total de données collectées spécifiques (références proposées, infos fournisseurs, clients, prospects…) a littéralement explosé. D’où l’apparition de problèmes de performance notamment et la nécessité d’optimiser radicalement sa base de donnée et ses fonctions BI. Le projet devait permettre permettre aux équipes marketing et vente de se concentrer sur les aspects plus stratégiques de leur mission afin de gagner la course de vitesse entamée sur le marché. Autres utilisations en cours : optimisation des processus de stockage, exploration des données pour les prévisions de vente (ex en cas de promotion), détection des fraudes… informations supplémentaires En 2012, Zalando a reçu le European E-commerce Awards du meilleur site transfrontalier pour sa capacité d’adaptation aux marchés concernés, que ce soit au niveau de l’offre, du paiement, de la distribution ou du marketing (vision client 360°). Il fallait considérer les aspects financiers liés à la gestion de données massives et les coûts élevés de licence et de maintenance des solutions du marché, et prendre en compte un timing très serré. Présentation En plus des aspects purement commerciaux (gestion fluide des transactions clients, fournisseurs, gestion des retours marchandises …), Zalando devait trouver le moyen d’accroitre la pertinence d’une offre de plus en plus dense et spécifique au web : - Gestion des pics de charge - Offres / affichages personnalisés … En bref, gérer une politique de vente sur-mesure avec des références de plus en plus importantes, et pour une population de plus en plus large, de plus en plus exigeante. Après plusieurs simulations et versions d’essai avec les équipes expertes du marché, Zalando a retenu la solution base de données haute performance et la réponse EXASOL. innovations La croissance de Zalando est en partie dûe à sa capacité à produire les bonnes analyses et tirer les bonnes conclusions concernant son marché. Pourtant le recul sur le marché du BIG DATA était quasiment nul au moment du démarrage de leur projet d’où une prise de risque importante, notamment sur la sélection d’une solution de stockage innovante. Intégrée en 2 semaines, la nouvelle base de données a notamment permis que les analyses réalisées en 10minutes auparavant ne prennent plus que 10 secondes. résultats Depuis la mi-2010, la base de données a été multipliée par plus de 5. Nous avons directement commencé avec un cluster de production qui a été ensuite multiplié par 5. Zalando a rajouté un cluster utilisé pour developper, tester et integrer de nouveaux développements dans l’environnement de production. 31 Solutions SOLUTIONS Trophée de l’innovation Big Data 2013 Alephd, we help publishers Porteur du projet Résultats Les données recueillies permettent de comprendre comment s’effectuent les enchères, au degré de granularité le plus fin. Elles permettent ainsi de découvrir et donc de modéliser les comportements des acheteurs de publicité. Sur les données disponibles, la technologie d’AlephD permet d’obtenir une amélioration des revenus de l’ordre de 30%. Vincent Lepage - Directeur Général AlephD SAS Nicolas Grislain – Président AlephD SAS Partenaires Pubsquared Audience Square Prochaines étapes AlephD cherche aujourd’hui des investisseurs pour accélérer son développement et attaquer le marché international : européen dans un premier temps, puis américain. Les principaux investissements prévus concernent le recrutement d’ingénieurs, de statisticiens et de business developers. Par ailleurs, AlephD continue son travail avec ses clients existants, développant de nouveaux algorithmes, avec comme objectif de convaincre d’importants nouveaux clients d’ici au deuxième semestre. Objectifs AlephdD permet aux éditeurs de médias web et aux gestionnaires d’inventaires d’espaces publicitaires de tirer profit des technologies d’enchères en temps réel (RTB). Grâce à une technologie big data temps réel, AlephD rend possible une optimisation utilisateur par utilisateur de la vente d’espaces sur les plateformes d’enchères (AppNexus, Rubicon, Google...). Fig1 : schema d’architecture fonctionelle – Comment AlephD s’intègre dans la chaîne existante Présentation Problème à résoudre L’arrivée du RTB donne aux acheteurs et aux vendeurs d’espaces publicitaires la possibilité de personnaliser leurs ordres en temps réel, utilisateur par utilisateur. Cela nécessite le déploiement d’une infrastructure serveur complexe (big data, temps réel) et la mise en place d’algorithmes de décision. Données utilisées pour résoudre le problème Les données traitées sont des logs d’enchères de publicités en ligne. Concrètement, AlephD obtient, pour chaque affichage de publicité sur le site d’un de ses clients, les informations sur le prix et les paramètres de l’enchère correspondante. Ces informations sont recueillies en temps réel par nos serveurs, qui les mettent ensuite sur un cluster Hadoop. Aujourd’hui, AlephD ne traite que les données issues de la plateforme d’enchère AppNexus, qui est la solution la plus transparente et qui connait le plus de croissance actuellement. Technologie et équipe d’AlephD AlephD a développé une technologie propriétaire unique pour traiter ces données et optimiser les paramètres d’enchère en temps réel. Cette technologie repose sur deux piliers : - une infrastructure big data, utilisant les technologies Hadoop et Hive. AlephD développe des algorithmes en Map/Reduce pour exploiter au mieux ces Tera-octets de données ; - une infrastructure temps réel de prise de décision, c’est-à-dire capable de répondre en moins de 10ms à une requête de paramètres d’enchère, avec plusieurs milliers de requêtes par secondes. Une des principales difficultés réside dans l’interfaçage de ces deux modules, big data et temps réel : les calculs et analyses issues du datamining sur le big data doivent être pris en compte dans la règle de décision temps-réel. Innovation AlephD est la première solution d’optimisation des revenus des éditeurs de site pour le RTB, en tempsréel et indépendante d’une plateforme. En effet, il existe aujourd’hui deux types de solutions : - des solutions « statiques », qui optimisent les paramètres une fois par jour par ex. Ces solutions ne prennent pas en compte les particularités de chaque utilisateur, et manquent donc une bonne partie des opportunités d’optimisation - des solutions « in-house » de plateformes, qui sont des boîtes noires. Ces options ont mauvaise réputation chez les annonceurs, qui détectent et fuient les éditeurs y recourant car peu transparentes et remettant en cause l’équité des enchères. 33 SOLUTIONS Trophée de l’innovation Big Data 2013 BELOGIK: rendre les logs intelligentes Porteur du projet Christophe Ballihaut - Président Belogik Partenaires Le partenaire du projet est Outscale, Le Cloud Français, opérateur de services cloud computing. Le fournisseur d’un des plus grands éditeurs de logiciels mondiaux s’appuie sur les services d’Outscale pour opérer l’ensemble de ses activités SaaS. Laurent Seror – Président Objectifs Le projet vise à améliorer la connaissance de Outscale sur le comportement de ses clients dans l’utilisation de ses services d’IaaS. L’infrastructure de production de Outscale est décentralisée sur plusieurs sites physiques dans le monde et fonctionne sur plusieurs fuseaux horaires. Présentation L’infrastructure de Outscale produit des millions de lignes de données machines par jour sur le fonctionnement de l’infrastructure : ouverture d’instance, fermeture d’instance, consommation des ressources, augmentation des ressources, trace d’erreurs, communication réseau, …. Croissant de 50% par an, le nombre d’opérations d’une infrastructure cloud dépasse les 500 opérations à la seconde et les traces laissées par l’infrastructure sont de plus en plus nombreuses. Les solutions actuelles de traitement de données ne permettent ni d’agréger les données au regard de la diversité des formats produits par les équipements techniques, ni de traiter les volumes engendrés. Le projet est basé sur la solution BELOGIK d’analyse de log as a service. L’objet du projet consiste à : - collecter à l’échelle du big data les données machines, - permettre la fouille en temps réel dans les données machines, - générer l’intégralité des indicateurs métiers. Le projet est en phase de prototypage des indicateurs métiers avant de passer à la phase de montée en charge de la solution et de qualification des performances. Innovation L’innovation pour Outscale est de produire une connaissance intime du comportement de son infrastructure. La mise à disposition d’une énergie informatique élastique et sans «limite » génère des usages et des comportements de la part des clients en complète rupture avec l’hébergement traditionnel à capacité finie. L’innovation réside à donner corps au concept de Customer Insight dans un contexte technologique, c’est une rupture majeure avec les pratiques marketing en vigueur dans cette industrie. Les bénéfices pour Outscale sont immenses avec un capacité de provisionner plus finement ses ressources physiques et surtout d’adapter à terme son offre de services à ces nouveaux comportements. Un effet de bord induit est d’accélérer le traitement de l’analyse des données machines en situation d’anomalie. C’est un projet stratégique pour le développement de l’entreprise. Résultats L’objet du projet consiste à collecter toutes les données, permettant éventuellement une fouille en temps réel et surtout de construire les indicateurs métiers permettant au Product Manager de Outscale de proposer des nouvelles offres de service. www.bigdataparis.com 34 SOLUTIONS Trophée de l’innovation Big Data 2013 “Moving Data & BIME: Harnessing the power of Google BigQuery” Porteur du projet BIME’s BigData project manager worked in parallel with the client on the dashboard setup and design. At Moving Data, CEO and founder Craig Morton worked on the project along with an in-house IT engineer. Rachel Delacour - CEO – Bime Innovation Objectifs Scaling a database is hard and scaling analytical databases is even harder. BIME powered by Google BigQuery offers an analytical database as a service that scales to petabytes of data. It means that Moving Data doesn’t require sophisticated infrastructure and an operational team to analyze data. BIME + Google BigQuery provide Moving Data with a reliable, quick and infinitely scalable pay-as-you-go service to tap data generated by the Internet of Things. Moving Data improves mobile performance by ensuring the quality and serviceability of telephone and broadband networks in the Australian Outback. The company has developed advanced methods to collect and disseminate alerts and statistics from mobile devices and supporting mobile networks. When dealing with millions of network-generated events, trend analysis rather than specific alerts becomes critical to make the right decisions fast. With Moving Data based in Australia and BIME in France, this Big Data project has been undertaken across disparate time-zones. However, with everything in the cloud, execution has been fast at all stages: testing, implementation and client validation, even in a Big Data context. The scalability of the BIME-BigQuery combo can facilitate the regular incrementation in the volume of data. Moving Data had two needs that only BIME could satisfy. It needed tools to enable interactive, visual analysis of emerging network issues. They also wanted to communicate insights to their current clients via collaborative and online dashboards, as well as promote insights to other telecommunications clients with similar data, which is standardized across the industry, for a fee. They needed Big Data analytics in real-time. Résultats Moving Data’s prime benefit consists of harnessing events and audit data and communicating insights to clients (major Australian telco companies) as quickly and as concisely as possible. Dashboards with KPIs reduce the customer decision-cycle for further analytical actions. Présentation type of data processed, approximate volume: For the initial project, the type and volume of data processed by BIME and Big Query was 500 million radius records, 10,000 network probes, 120.6 million sessions, 960 device models. With each future project the amount of data processed is projected to increase exponentially. Prochaines étapes Roll-out of the product to a larger number of customers dealing with ever increasing volumes of data. Resources used: human skills, technical tools: BIME cloud BI runs in any browser, queries datasets stored in BigQuery at the speed of thought and, thanks to its’ powerful calculation engine, displays results in interactive analysis dashboards, in seconds. 35 SOLUTIONS Trophée de l’innovation Big Data 2013 Cedexis Porteur du projet innovations Cedexis Radar ne réalise pas ses mesures depuis quelques points déterminés (et un unique réseau) dans le monde. Le système de mesure repose sur la collecte de données (techniques) issues des vrais utilisateurs qui exécutent la sonde Cedexis Radar lorsqu’ils consultent les sites d’éditeurs intégrant celle-ci. Chaque jour, Cedexis collecte, traite et utilise en temps-réel près d’un milliard de mesures issues des utilisateurs finaux répartis dans 230 pays et 34 000 réseaux d’accès (FAI, entreprises…). Cedexis Radar Objectifs L’objectif de Cedexis Radar est de comparer de façon neutre et objective la qualité de service des fournisseurs de services d’hébergement et de diffusion de contenus (CDN, Clouds…) pour aiguiller les utlisateurs finaux vers le meilleur prestataire et améliorer la performance d’un service en ligne. résultats Autrefois, les données de monitoring d’infrastructures n’étaient utilisées que de façon passive, c’est-à-dire après analyse longue. Cedexis a voulu rendre « actives » ces données : Les mesures de Cedexis Radar servent ainsi à prendre une décision automatisée (en temps réel) d’usage d’un prestataire pour améliorer la performance et la disponibilité des services en ligne pour chaque utilisateur à travers le monde, quelque soit son terminal et son réseau d’accès. Présentation Aucun prestataire (hébergeur, CDN, Cloud) n’est performant partout, tout le temps et pour tous les utilisateurs finaux. Ces variations sont liées à de multiples facteurs provenant - par exemple - de la distance entre l’utilisateur final et le serveur d’origine, de la latence, du chemin d’accès aux serveurs du prestataire ou à la saturation/dégradation momentanée de segments du réseau public. prochaines étapes Les données collectées par Cedexis « Radar » permettent de lever le voile sur la véritable qualité de services des prestataires. Elles sont utilisées par l’aiguilleur de trafic DNS Cedexis « OpenMix » pour diriger le trafic vers le meilleur prestataire et ceci, en prenant en compte les données de Radar et/ou les critères définis par l’éditeur de contenus (performance, géographie, coûts, capacité technique / bande passante, engagements contractuels...). Cedexis envisage de collecter et d’utiliser toujours plus de données pour optimiser l’aiguillage de trafic vers le meilleur diffuseur/hébergeur de contenus. C’est le cas avec Cedexis Fusion qui permet d’aiguiller le trafic en fonction de nombreuses variables personnalisées telles que l’énergie utilisée par l’infrastructure, la charge des serveurs (et/ou des métriques liées à ces serveurs comme l’usage de mémoire RAM, l’état des disques durs, etc), le coût des prestataires et bien plus encore... toujours dans l’objectif d’anticiper ou contourner une éventuelle défaillance de leur infrastructure pour améliorer la performance des applicatifs hébergés et diffusion de contenus Internet. Les éditeurs ont ainsi l’assurance que chaque utilisateur de ses services pourra visualiser ses contenus ou utiliser ses services de façon optimale. www.bigdataparis.com 36 SOLUTIONS Trophée de l’innovation Big Data 2013 CLIRIS, plate-forme de pilotage des points de vente par l’analyse des flux shoppers Porteur du projet Ressources mises à disposition - 6 ingénieurs/docteurs en Traitement d’image et Intelligence Artificielle - 3 ingénieurs/docteurs en Business Intelligence CLIRIS : 6 rue de Bitche 92400 Courbevoie Anne STEINBERG - Directeur Marketing www.clirisgroup.com innovations Accès à de nouveaux leviers de pilotage de leur réseau, auparavant inexploités : - attractivité des vitrines, des points de vente - adéquation des équipes de vente au flux client, - optimisation du plan merchandising et circulation des clients au sein des boutiques, - optimisation du calendrier des opérations commerciales - impact des opérations commerciales Objectifs Délivrer aux Retailers des indicateurs-clés de performance inédits et développer ainsi de nouveaux leviers d’optimisation des ventes grâce à l’analyse du comportement des « shoppers ». Présentation Conception et mis en œuvre d’une plateforme d’analyse de données Big Data. Cliris reçoit chaque jour un volume de données exceptionnel depuis les box en points de vente et les SI clients. Ce flux de données asynchrone est intégré de façon périodique, avec une actualisation chaque minute possible. Les informations sont consolidées, croisées et structurées avant d’être restituées sur notre portail de reporting permettant une supervision de la performance des points de vente et l’édition de tableaux de bord. résultats - Fiabilité des données - Prise en compte et exploitation en temps réel -Restitution d’indicateurs de pilotage inédits et personnalisés prochaines étapes Nouveaux modules : - cartographie des mesures de performance - gestion de la planification des ressources RH d’une boutique - module prédictif - module de simulation de l’activité d’un réseau et d’une boutique Nature des données traitées - Des flux shoppers : - Flux entrants dans un point de vente - Flux passants devant un point de vente - Nombre de regardants d’une vitrine ou PLV -Répartition des visiteurs sur la surface de vente (zones chaudes/froides) - Taux d’occupation de cette surface de vente -Affluence en caisse - Des données issues du système d’informations du point de vente : - Tickets de caisse - Chiffre d’affaires - Planning des équipes de vente - Plan merchandising - Planning de déploiement des thèmes vitrine - Des externalités : - Phénomènes météorologiques - Opérations commerciales - Opérations concurrentes - Evénements calendaires - Vie du point de vente 37 SOLUTIONS Trophée de l’innovation Big Data 2013 cOMMENT VALORISER LA DONNEE ISSUE DES RESEAUX SOCIAUX POUR NOURRIR LA STRATEGIE DE MARQUE Porteur du projet Résultats Au-delà de simples tableaux de reporting, nous valorisons la donnée par le déploiement de modèles statistiques ad-hoc et complexes (ce qui constitue véritablement le coeur de métier de notre entreprise). Notamment, utilisation de techniques telles que: • Réseaux de neurones & modèles bayésiens : outil de recommandation. • Analyse de données: segmentation / scoring orientée connaissance client • Séries temporelles : impact & ROI des actions de communication • Analyses sémantiques Quentin Michard - Directeur Général Ekimetrics SAS Objectifs Comprendre et valoriser la donnée issue des plateformes des réseaux sociaux pour : 1- Monitorer et mesurer en temps réel le ROI/ROE de ses actions de communication 2- Comprendre les mécanismes de viralité et identifier les leaders d’opinion 3- Saisir les tendances, et identifier des territoires de marque 4- Détecter les ambassadeurs des marques de demain 5- Comprendre les proximités de produits et de marques dans une perspective de cross-sell / faciliter les logiques de partenariat entre marques (via du maching learning). 6- Enrichissement des bases de données clients des annonceurs à partir de données publiques issues des réseaux sociaux (logique de scoring, segmentation, connaissance client) Prochaines étapes Déploiement d’une offre complète à destination des annonceurs. Partenariat avec agences de communication sur la couverture évènementielle. Couverture d’évènement mondiaux dans une logique de PR (worldcup 2014 / fashion weeks / olympic games). Présentation • La démarche consiste en la récupération en temps réel de l’ensemble des données issues des plateformes de réseaux sociaux (Twitter / Facebook / Instagram / Pinterest, Youtube, Tumblr) relié à un évènement ou à sujet d’intérêt. Puis à analyser cette donnée pour la valoriser, et multiplier ses usages, pour nourrir la stratégie marketing, et plus spécifiquement la stratégie de marque. • La volumétrie reste assez limitée, mais nécessite néanmoins l’usage de technologies big data notamment en ce qui concerne la collecte et le traitement de flux de données en temps réel (Node.j, Base de données NoSQL, Map Reduce). • Les ressources mises à disposition : 2 hommes à temps plein pendant 4 mois • Le déploiement s’est fait sur 1 an et demi, dans une démarche test & learn après une première implémentation réussie lors des jeux olympiques de Londres, puis lors de la couverture systématique d’évènement mondiaux, en déployant à chaque fois de nouveaux usages et de nouvelles démarches analytiques. Innovation Approche en rupture avec les approches classiques de valorisation de la donnée (type CRM), pour lesquelles les coûts d’entrée sont forts (notamment en outil & système) pour valorisation à terme souvent limitée et en silo de la donnée (CRM & stratégie relationnelle / marketing / communication). Ici l’approche est « smart », donc cost-effective, et permet de façon simple et immédiate de tracker, mesurer, piloter des données individuelles publiques pour des usages marketing multiples et immédiats (cf. objectifs du projet). Alors que le tracking de données issues des réseaux sociaux s’est beaucoup développé ces dernières années, notre valeur-ajoutée réside non pas dans la barrière technologique nécessaire à leur récupération, mais surtout dans leur valorisation orientée « usages ». www.bigdataparis.com 38 SOLUTIONS Trophée de l’innovation Big Data 2013 Focusmatic : Accurate Digital Reach Porteur du projet Innovation Notre projet est novateur car il aide des opérationnels en extrayant de la valeur métier des données sociales. Cela est possible car il y a trois innovations technologiques : 1.business intelligence sur des Big Data 2.calculs orientés métier : calcul d’audience par exemple (nombre de personnes ayant vus) au lieu d’un reporting du nombre de messages. Tous n’ayant pas le même impact… 3.le tout en temps réel pour apporter des réponses au moment où les questions sont posées Malekzadeh Amirhossein – Président Focusmatic Objectifs Focusmatic propose plusieurs applications du Big Data au marketing digital pour le rendre « opérationnel », c’est-à-dire utilisable par le métier. Un de nos exemples est la mesure de l’impact d’investissements médias de type co-branding ou la priorisation d’une liste longue de partenaires potentiels. Le sous-jacent technologique est le même. Ainsi nous pouvons aider • des fédérations sportives pour se promouvoir et comprendre l’impact de chacun de leurs partenaires, • ou encore une marque de luxe pour analyser les retombées avec chacune de leurs égéries (voir la vidéo - https://vimeo.com/62291803) • ou encore des fournisseurs de secteurs vers des secteur comme les cafés –hôtels – restaurants pour focaliser les efforts de leur force commerciale vis-à-vis des 10,000 établissements de leur cible. Résultats Nous aidons nos clients à isoler les données qui sont utiles à leur question business et de les traiter instantanément. Les données servent à prendre des décisions, typiquement d’investissement de co-marketing ou de focalisation des efforts commerciaux. Prochaines étapes L’entreprise toute entière est tournée vers le BigData. A date nous avons des fonctionnalités analytiques sur notre outil, capable de gérer la big data. Nous travaillons à continuer à améliorer les capacités d’analyses sémantiques, notamment en travaillant sur la clusterisation et le maintient temps réel des clusters de messages. Cela permet de répondre à la question : « De quels sujets parle-t-on ? ». Présentation Notre projet consiste à collecter les données pertinentes sur le web et les réseaux sociaux pour nos clients. Nous organisons cela par « univers logique d’écoute » comme par exemple une marque et ses concurrents ou encore des usages. Nous collectons chiffres, textes, images et vidéos sur les principales plateformes de réseaux sociaux, les blogs, etc. Selon les projets nous récoltons typiquement de 50,000 à 1,000,000 de messages par jour et conservons toute l’historique pour le client. Cela monte rapidement à des volumes très élevés. On est typiquement en big data car les volumes à traiter comprennent aussi l’historique, les flux sont très variables et les données hétérogènes. Dans le cas d’une de nos plateforme, celle qui absorbe parfois jusqu’à 1,000,000 de messages par jour, il y a un pic à 20h le soir couvrant en général la moitié du volume de la journée. Ce genre de projet passe par une phase de compréhension de besoin du client et un travail pour paramétrer notre plateforme générique au client. Ce travail qui est plus business que technique prend une à deux semaines. Le projet commence ensuite mais la performance du système est améliorée en continue car l’analyse sémantique s’appuie notamment sur des algorithmes de machine learning qui prennent compte des résultats passés validés ou infirmés pour mieux prédire le futur. Cela s’applique notamment à ce qui est analyse sémantique (sentiment, émotions, etc.) Il y a pendant les premiers mois opérationnels un processus d’amélioration continue pour voir les résultats et optimiser / affiner le paramétrage. Le seul outil technique utilisé est notre plateforme. 39 SOLUTIONS Trophée de l’innovation Big Data 2013 Gamned – Le Big Data au service de l’Advertising Intelligence Porteur du projet Innovation Denis GARCIA Gamned - Directeur R&D 20 rue Saint Lazare 75009 Marseille Gamned innove dans le domaine du RTB par l’utilisation du Big Data dont les technologies ont été éprouvées et validées dans d’autres domaines tels que les secteurs pharmaceutiques, industriels et aéronautiques. Partenaires Ces technologies font maintenant partie du cœur technologique de Gamned. • métiers avec les AdExchanges, DSP et autre fournisseurs de données, • techniques avec Hurence (acteur majeur du Big Data en France), • logiciels avec des acteurs de BI, • en Data Intelligence avec des laboratoires de recherche en mathématiques et statistiques à Paris et Chambéry Résultats En résumé : • nous stockons plusieurs milliards d’impressions nouvelles par mois, • nous en extrayons, en temps-réel ou en différé, des partitionnements et des indicateurs pour : o personnaliser l’affichage par Internaute, o créer un reporting solide pour nos clients, • Nous utilisons notre infrastructure Big Data pour optimiser en temps réel les achats d’espaces publicitaires. Objectifs Ajouter de la Data Intelligence pour le RTB (Real Time Bidding) pour mieux cibler et acheter des espaces publicitaires en temps réel et mieux personnaliser l’affichage publicitaire pour les Internautes Ajouter de la valeur sur le reporting, pour le Media Traders en interne, et pour nos clients qui doivent avoir accès à des informations disponibles en temps réel pour optimiser les campagnes publicitaires, avec une bonne profondeur et un bon historique. Informations supplémentaires Dans le cadre du rachat de Gamned par LeadMedia, l’infrastructure Big Data de Gamned va être généralisée pour tous les domaines nécessitant stockage et/ou calcul en masse. Les compétences métier de fouille de données déjà présente chez Gamned et LeadMedia vont aussi être fusionnées pour répondre plus largement aux besoins des clients. Présentation Pour stocker, gérer et analyser une très grosse quantité de données, nous avons mis en place une infrastructure Big Data basée sur Hadoop, Hive, HBase. Cette infrastructure est flexible pour le stockage, extensible et nous donne une très grande puissance de calculs distribués. Nous intégrons aussi d’autres technologies directement branchées sur notre Big Data comme Néo4J pour optimiser nos algorithmes de parcours de graphs ou MemCached pour servir efficacement certaines données à nos applications www.bigdataparis.com 40 SOLUTIONS Trophée de l’innovation Big Data 2013 GET PLUS Porteur du projet Hervé Gonay – Fondateur GET PLUS Partenaires RUNMYPROCESS : Alexandre LACHMANN Objectifs GETPLUS www.getplus.fr , projet CLOUD basée sur l’agrégation annuelle de plus de 100 MILLIONS de données MARKETING comportementales en provenance de plus de 1000 DATAMARTS de WEB TRACKING. GETPLUS révèle l’identité des entreprises qui visitent un site Internet, même celles qui n’ont pas remplies de formulaire de contact, ce qui permet de réengager le bon prospect, avec le bon besoin au bon moment. 41 SOLUTIONS Trophée de l’innovation Big Data 2013 BigFoot Porteur du projet Résultats Les données sont valorisées de deux manières : - Valorisation à travers des applications clients, analyse de dépenses énergétiques, analyse des usages par type de consommation avec la désagrégation, calculs de gisements de l’efficacité énergétique, attribution de points EcoTroks. Les expérimentations menées par GridPocket démontrent une haute efficacité de l’approche comportementale menant à 10-20% d’économie de l’énergie. - Valorisation à travers de l’interaction avec un Data Scientiste d’un fournisseur d’électricité : analyse dynamique de l’état du réseau, statistique des usages, segmentation et clustering des consommateurs, planification de campagnes de communication ciblées. GRIDPOCKET SAS Partenaires EURECOM (coordinateur projet EU FP7), SYMANTEC, T-LABS, EPFL Objectifs Face à une demande commerciale importante pour les applications Smart Grid et Machine-to-Machine en France et dans le monde, et compte tenu de la nécessité d’assurer une mise en échelle rapide (dizaines de millions d’utilisateur finaux), GridPocket a décidé d’intégrer la technologie BigData dans sa plateforme de services énergétiques. GridPocket et ses partenaires ont pour but de développer une platforme BigData pour le traitement de séries temporelles avec de nombreuses optimisations. Prochaines étapes L’évolution future va porter avant tout sur l’implantation de nouveaux algorithmes, sur le lancement de nouvelles applications consommateur et B.I. (business intelligence) Les nouveaux composants de la plateforme seront disponibles en opensource et soumis comme contributions aux projets Apache Hadoop et Apache OpenStack. Les applications métiers seront commercialisées par GridPocket. Présentation Les données exploitées par GridPocket sont issues de plusieurs sources, dont des compteurs communicants (électricité, eau ou gaz) et des capteurs M2M. Pour un fournisseur d’énergie de taille moyenne, avec 10 millions de client finaux, le système produit 40-80 Terra Bytes de données chaque année. Les données de référence (non-énergétiques) peuvent représenter 10-50 Terra Bytes supplémentaires. Informations supplémentaires Les industriels intéressés par le projet (résultat scientifiques, code open source) ont la possibilité de participer à « l’Industrial Advisory Board » du projet BigFoot. Site web du projet BigFoot : http://www.bigfootproject.eu/ Innovation Le système BigFoot propose de nombreuses optimisations : - couche de virtualisation de machines qui prend en compte les caractéristiques des calculs et le type d’informations stockées sur chaque machine - optimisation des algorithmes de stockage sur les disques durs pour l’usage MapReduce - langage de programmation de haut niveau avec possibilité de requêtes interactives et une libraire de fonctions statistiques. www.bigdataparis.com 42 SOLUTIONS Trophée de l’innovation Big Data 2013 Intersec Porteur du projet D’autres références d’Intersec pour le LBA incluent Portugal Télécom et SFR. En effet, depuis 2009 le « Tier-1 » français possède plus de 30 marques et plus de 40 campagnes LBA à son actif. SFR monétise également ces informations au travers d’études Géomarketing Dynamiques par l’analyse de Big Data géolocalisée, destinées à des acteurs de secteurs d’activités multiples, plaçant l’opérateur au cœur d’un nouvel écosystème. Charlotte Loubet – Marketing Director Intersec Objectifs Collecte et analyse du Big Data réseau pour des fins de création de services avancés, amélioration de la satisfaction client et génération de chiffres d’affaires Résultats Indéniablement, le Big Data permet aux opérateurs d’avoir une vision globale de leur activité et d’extraire la valeur de ressources déjà disponibles et encore inexploitées : des données réseau. Tel est le cas d’opérateurs dans des marchés émergents très compétitifs, avec une écrasante majorité prépayée caractérisée par une forte sensibilité de prix. Grâce au Big Data, des opérateurs qui jusqu’à maintenant ne savait que très peu de l’abonné derrière un numéro prépayé, peuvent collecter des dizaines de milliers de données par seconde pour analyser le comportement client individuel. Cela leur permet d’une part d’enrichir leur connaissance client, jusqu’à présent quasi inexistante et bâtir des offres basées sur l’usage réel de leurs abonnés. Encore mieux, grâce à des capacités de micro-segmentation, les opérateurs peuvent envoyer des offres promotionnelles contextuelles, enrichies par des critères géographiques précis. La valorisation de la donnée est telle qu’un opérateur en Afrique obtient en 10 mois d’opération plus de 7% d’augmentation en ARPU, +9% en rétention et une baisse de 14% de churn ! Aujourd’hui la technologie d’Intersec est plébiscitée par plusieurs opérateurs dans le monde, tel qu’Orange Groupe qui a confié à Intersec la collecte et l’analyse du Big Data à des fins de fidélisation et rétention pour l’ensemble de ses filiales AMEA, ainsi que le groupe Maroc Télécom. • Principaux cas d’usages : o Pilotage de la valeur client o Publicité géolocalisée o Etudes Géomarketing… Présentation Intersec est le fournisseur leader de plateformes de services avancés permettant aux opérateurs télécom de générer de la valeur à partir du Big Data de leur réseau et de faciliter l’innovation des services. Intersec développe depuis sa création des solutions Big Data à des opérateurs mobiles. La technologie avant-gardiste d’Intersec permet aux opérateurs mobiles de monétiser leur Big Data réseau grâce à la création de nouveaux cas d’usages. En outre, nos solutions permettent à plus de 60 opérateurs mobiles dans le monde de traiter des milliards d’évènements réseau par jour à des coûts d’exploitation 10 fois inférieurs à la moyenne du marché. Innovation La technologie Big Data d’Intersec permet à l’opérateur de collecter et d’analyser une mine d’informations disponibles dans le réseau et non exploitée jusqu’à présent due à son volume. Ces données ont une valeur unique du fait qu’elles représentent les différents usages réels de la base abonnée et permettent donc à l’opérateur d’enrichir considérablement sa connaissance client. Ajoutées aux données de localisation en temps réel, il est finalement possible de proposer des services contextuels au bon abonné au bon moment et au bon endroit. Cela permet de créer une expérience totalement personnalisée, augmentant ainsi la qualité de service et satisfaction client, ainsi que le chiffre d’affaires de l’opérateur. Les cas d’usages à destination des abonnés sont multiples : du marketing mobile géolocalisé au contrôle parental en passant par la surveillance des portables volés ou perdus. Prochaines étapes Les solutions Big Data d’Intersec sont en constante évolution et permettent aux opérateurs de mettre en place leurs stratégies de pilotage de la valeur, d’optimisation des coûts et de rétention et fidélisation. Intersec développait déjà des solutions de Big Data bien avant que ce concept ne devienne un tel buzz. Une consolidation des capacités de collection et d’analyse des données d’usage et de localisation encore plus poussée est en cours. Les deux produits phares de Big Data chez Intersec peuvent déjà aujourd’hui interagir afin de créer des offres personnalisées, tout en intégrant des données d’usage et de localisation à grande échelle. Le potentiel de la valorisation des données réseau pour le développement de nouveaux « business models » est tel, que des opérateurs en concurrence directe forment à présent des alliances stratégiques: du jamais vu ! Tel est le cas de l’ambitieuse joint-venture en Angleterre entre T-Mobile, Orange, Telefonica et Vodafone: WEVE. Il s’agit d’une initiative unique au monde. Les 4 plus grands opérateurs européens s’unissent et investissent ensemble dans la technologie Big Data d’Intersec afin de collecter et d’analyser des données d’usages et de localisation de l’ensemble de leurs bases abonnées à l’échelle nationale, pour la création de nouveaux services avancés en une offre unique proposée aux annonceurs. Le premier cas d’usage actuellement mis en place est la publicité géolocalisée, due à sa rentabilité certaine. Nota bene : la publicité géolocalisée permet en moyenne de doubler le revenu publicitaire d’un opérateur. 43 SOLUTIONS Trophée de l’innovation Big Data 2013 Ultimate Retargeting Porteur du projet Innovation Le système Big-Data est couplé avec une plateforme statistique chargée d’exploiter les informations préparées par la Big-Data. Les modèles statistiques qui en résultent sont utilisés pour prendre des décisions temps-réel (Quelques milli-secondes maximum) en bénéficiant de l’expérience de milliard d’évènements historiques. Nous utilisons un principe d’algorithme adaptatif unique qui permet avec très peu de données, de démarrer une nouvelle campagne publicitaire avec un modèle simple et d’enrichir de manière incrémentale le modèle au fur et à mesure de l’arrivée d’informations complémentaires ou d’analyses Big-Data. Sébastien Bock Directeur R&D Next Performance Partenaires Anissa Sersoub (NextPerformance – Responsable Marketing) Guillaume Barbet (NextPerformance) Sébastien Berrier (NextPerformance) Objectifs NextPerformance a pour vocation de capter l’audience qui quitte un site de commerce en ligne sans avoir finalisé la transaction (97% des visiteurs). Ces utilisateurs sont re-ciblés sur les sites éditeurs de contenu à l’aide de bannières publicitaires personnalisées et invités à terminer leur transaction sur le site e-commerçant. La plateforme « Ultimate Retargeting » a pour but d’analyser les données historique afin d’élaborer des modèles statistiques capables de faire des prévisions en temps réel de revenu par utilisateur. Il est ainsi possible d’adapter la stratégie d’achat et de vente des espaces publicitaire sur internet pour afficher la meilleure bannière publicitaire au meilleur internaute sur le meilleur emplacement. Résultats Augmentation de 30% du taux de clic moyen (clic par publicité affichée). Amélioration de 80% de la fiabilité des prévisions et des modèles de données. Respect des contraintes de nos clients (coût d’acquisition) Prochaines étapes Amélioration des modèles de données pour encore plus de fiabilité. Augmentation de Consolidation de toutes les données exogènes en complément des analyses historiques (soldes, météo, …) Présentation Nous disposons chaque mois de plusieurs milliards d’évènements ayant eu lieu sur notre solution de publicités personnalisées sur internet : Affichages de publicité, Navigation sur les sites de nos clients (e-Commerçants), clics, transactions, paniers… Ces informations sont analysées par le système Big-Data, organisées, consolidées et envoyées à un logiciel d’analyse statistique qui va fabriquer un modèle « prédictif ». Le modèle prédictif est ensuite chargé dynamiquement dans les serveurs et utilisé en temps réel dans les décision d’arbitrage (choix entre plusieurs publicités) et les décisions d’achat (prix qu’il faut payer un affichage sur les places de marché). Les décisions temps réel sont prises en quelques millisecondes par les modèles qui profitent de l’expérience des milliards de données historiques analysées par le système Big-Data. La technologie Hadoop/Map Reduce a été employée dans un cluster d’une cinquantaine de serveurs chargés d’analyser cent milliards d’évènements historiques (environ 1 péta-octet). Une infrastructure de Business Intelligence est utilisée pour restituer une vue synthétique des analyses Big-Data à nos clients. La mise au point de la solution a demandé 2 années de Recherche et Développement à NextPerformance et 2 M€ d’investissements www.bigdataparis.com Informations supplémentaires La complémentarité entre les modèles d’analyse Big-Data historiques et les modèles adaptatifs temps réel fait de la plateforme « ultimate retargeting » un leader de la livraison de performance sur les dispositifs publicitaires internet. 44 SOLUTIONS Trophée de l’innovation Big Data 2013 Big data hub for smart services Porteur du projet Infrastructure et exploitation Pour garantir l’agilité de la plateforme permise par l’intégration pertinente de plusieurs briques technologiques (storage NoQSL, moteur d’indexation, composants Hadoop) quelle que soit la sollicitation en volumes de chargements, stockages et accès, la solution est opérée sur une infrastructure cloud (hybrique avec différentes stratégies selon les parties de la plateforme : par ex. autoscalling AWS sur le frontaux pour l’accès API). Cette approche permet une mise à disposition instantanée du hub et une très grande progressivité dans le coût d’exploitation. Jean-Marc Lazard – CEO Open Data Soft Partenaires Expérience menée chez VEOLIA ENVIRONNEMENT (ce projet a notamment permis à OpenDataSoft, start-up créée en 2011, d’être sélectionnée par le Veolia Innovation Accelerator http:// www.via.veolia.com/fr/) Objectifs Calendrier : Disposer de son propre hub big data qui rende possible le développement rapide et économique d’applications innovantes pour ses marchés (applications back-office de monitoring d’activité, portails open data, solutions mobiles end-user …), selon un modèle économique favorable au ROI business. Le projet a démarré début 2012, est en production chez le client depuis mi-2012 et en cours de montée en puissance (industrialisation de l’architecture, enrichissement des catalogues de traitements et présentations de données par ex., ouverture à de nouveaux utilisateurs). Innovation Présentation Interfaces d’exploration interactive du champ illimité de données avec filtrage multi-critères (cartes, analytics), sans modélisation a priori. Révolution du data management à l’ère de l’open innovation : développement rapide de nouvelles applications grâce à la mise à disposition de données issues de sources hétérogènes sans contrainte de volume et temps de réponse (e.g. domaine des Smart Cities mobilisant des données issues de domaines très variés). Collecte - Préparation – Stockage des données Les données sont collectées au plus près de sa production i.e. connecteurs développés par OpenDataSoft sur les SGBDR qui concentrent les données de type réseau de capteurs ou sur les points d’API web + possibilité de chargement manuel par les utilisateurs de fichiers (référentiels internes, fichiers open data) via des connecteurs génériques disponibles sur la plateforme (csv, xml, shapefile …) Back-office utilisateur full-web de preview sur les données collectées et de paramétrage des traitements de préparation à effectuer avant chargement (modules disponibles dans la plateforme e.g. alignement des formats, changements de systèmes de projection géographique / possibilité pour l’utilisateur d’écrire des formules). Stockage primaire des données dans un entrepôt NoSQL MongoDB et indexation avec Exalead Cloudview, et utilisation du framework Hadoop pour certains traitements. Résultats Architecture technique et modèle économique qui engendrent une réduction considérable le coût de l’infrastructure nécessaire à la valorisation des données et autorise donc un ROI rapide sur les apps innovantes (mobilité, internet des objets). Entrer de plain pieds dans le web des API. Prochaines étapes API / Datavisualisation R&D continue sur l’intégration de technologies big data et la combinaison avec les architecture cloud pour rendre toujours plus simple et économique la transformation des données disponibles en applications. R&D spécifique sur le traitement de données personnelles au sein du hub (cryptage, anonymisation) Les données préparées, stockées et indexées sont automatiquement API-fiées par la plateforme OpenDataSoft de telle sorte qu’elles puissent immédiatement être consommées par des applications métiers (monitoring industriel, BI, modélisation statistique, portails web, applications mobiles …). Les API Restfull produites permettent une interrogation très avancée des data (par valeur, catégorie, attribut de sécurité, zone géographique …). Les données sont également accessibles à travers des interfaces web d’exploration (moteur de recherche, carte interactive, graphiques) qui sont automatiquement proposées grâce à l’analyse des données disponibles (si des coordonnées géographiques sont impliquées, une vue cartographique est automatiquement produite). Ces widgets de visualisation interactive permettent d’alimenter des portails ou dashboards, et de partager facilement une interprétation sur un jeu de données. Ces fonctionnalités ne nécessitent pas de développement spécifique et sont opérées indépendamment des volumétries grâce à une répartition des rôles entre stockage NoSQL et moteur d’indexation. Leur combinaison permet de filtrer très efficacement de très grands volumes de données et de réaliser des opérations métiers (calculs statistiques, affichages cartographiques par ex à query time) 45 SOLUTIONS Trophée de l’innovation Big Data 2013 AdScalability Porteur du projet Innovation Aucun framework dédié au monde de l’adserving n’existe actuellement pour permettre de construire un outil sur mesure. Nous avons vu ci-dessous qu’AdScalability permet de mettre en place des projets concrets exploitant de grands volumes de données. AdScalability travaille sur un système de température de donnés (données chaudes et données froides) définit en fonction de l’usage mesuré. Cela permet au système de gérer le stockage des données sur la plateforme et de répliquer les données dans le système autant de fois que nécessaire pour répondre au besoin de requettage. L’objectif étant d’optimiser les ressources « matériel » à disposition de la plateforme. Ludovic Mugnier - Gérant PrestaConcept Objectifs Suite à 2 années de R&D et à un soutien du FEDER et de l’Oséo, AdScalability a vu le jour. AdScalability est un socle technique, type Framework*, permettant de réduire drastiquement les coûts sur la mise en place de solutions telles que : • Un AdServing • Un SiteCentric • Un AdCentric • Un AdExchange • Un AdVerification • Une solution de retargeting • Du DataExchange • Ou la mise en place de mécanismes de collecte de données Prochaines étapes Nous continuons à investir sur la solution AdScalability, l’équipe dédiée à ce projet est amenée à doubler d’ici la fin 2014. Présentation PrestaConcept possède 2 pôles : - Un centre de compétences en développement Symfony - Une division Adserving Ce pôle Adserving est à l’origine de la société. En 1998, Ludovic Mugnier crée ComTrack. Suite à différents rachats, HiMédia acquiert cette technologie. Plus de 15 ans après, ComTrack est toujours l’adserver de la régie au clic d’HiMédia. Dès 2008, PrestaConcept a identifié, dans les métiers de la publicité en ligne, un besoin de stockage massif des données ainsi qu’une nécessité d’exploitation de celles-ci rapidement. A cette période la publicité en ligne gérait déjà de grands volumes de transactions (événements publicitaires) mais s’était organisée pour ne pas avoir à stocker de données granulaires. Seules des données agrégées étaient fortement utilisées (statistiques). Certaines études comportementales étaient mises en place en utilisant de forts échantillonnages, ce qui ne permettait pas d’obtenir des informations sur les comportements fins et individuels mais uniquement sur les grandes masses. AdScalability, basé sur Berkeley Database, permet de structurer, collecter et exploiter de très grands nombres de données tout en permettant des analyses très fines. AdScalability a spécialement été conçu pour le monde de la publicité en ligne et du marketing en ouvrant la voie des analyses comportementales. www.bigdataparis.com 46 SOLUTIONS Trophée de l’innovation Big Data 2013 Record SiSense: 10 * 10 * 10 Porteur du projet Tout n’est pas fait pour Hadoop Comme le prouve ce rapport, la majorité des entreprises aujourd’hui travaillent avec des téraoctets de données, pas pétaoctets. Cependant, l’industrie suggère que chaque entreprise doit s’orchestrer pour Hadoop. Hadoop présente une très grande opportunité pour beaucoup mais son coût de déploiement est en fait cher et lent. Ils existent très peu de talent qui savent bien orchestrer un déploiement Hadoop, et quand ils y parviennent, le temps de requête est très lent – car Hadoop n’est pas optimisé pour l’analyse. Bruno Aziza - Vice-Président Marketing SiSense Ltd Objectifs 10 téraoctets de données analysées sur une machine de $10,000 en 10 secondes Présentation Avec cette démonstration, SiSense prouve une nouvelle approche qui permet de faire plus sans avoir a déployer Hadoop pour tout problème de données – 10 téraoctets sur 1 Node avec SiSense – c’est à peu près l’équivalent de 20 nodes d’Hadoop. De surcroit, SiSense produit sa requête en moins de 10 secondes, ce qui serait quasiment impossible à faire avec un déploiement Hadoop de cette magnitude. Résultats Avec cette démonstration, nous prouvons que le Big Data n’est pas un sport d’élite mais quelque chose que toutes entreprise peut se permettre de faire. Nous utilisons une machine standard que les entreprises peuvent acheter en ligne et déployer on-premise ou dans le cloud. • nature des données traitées, volume approximatif : Nature : Données structurées et non-structurées dans la base de données de SiSense. Dashboard représentants l’historique de levées de fonds des startups au niveau monde sur les 10 dernières années. Volume : 10 téraoctets • ressources mises à disposition : compétences humaines, outils techniques Machine : Serveur Base for PowerEdge R720 Rack (160Go de RAM, Disque dur de 8To) • calendrier de déploiement : La démonstration est faite en moins de 10 minutes. Le logiciel SiSense contient une base de données, des utilitaires de transformation et une suite de Dashboard. Le logiciel peut être déployé ‘on-premise’ ou « in the Cloud » Etapes Suivantes Nos clients sont dispersés sur 48 pays à travers le monde et notre logiciel est acheté en ligne. Nous pensons être les pionniers d’une nouvelle aire du Big Data. Rapide (agile), efficace, sans complexité. Notre liste de clients comprend les plus grands (Target, Merck, ESPN, NASA) et des startups innovantes comme Wefi, Wix, Uber et d’autres. Innovation Les outils de BI sont inadaptés pour le Big Data Le cout de stockage d’un téraoctet coute aujourd’hui moins de $30. Cependant, le cout d’analyse du même volume peut couter des millions. D’après le blog de SAP ici, le cout d’analyse d’un demi-téraoctet peut friser le demi-million de dollars. Avec cette démonstration, SiSense prouve une nouvelle approche qui permet de faire plus avec moins – 10 téraoctets pour moins de $10,000 – c’est à peu près 50 fois moins cher et plus efficace que la solution proposée par SAP. Informations supplémentaires Nous avons présenté ce projet à Strata – la plus grande conférence du Big Data aux Etats Unis et nous avons été élu « Best In Show ». 47 Un évènement organisé par www.bigdataparis.com