Big Data - Institut des Actuaires
Transcription
Big Data - Institut des Actuaires
www.thalesgroup.com CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013 Sommaire 2 / CENTAI : Présentation du laboratoire Plate-forme OSINT LAB Détection de la fraude à la carte bancaire Détection de comportements anormaux Cartographie du SI Projet REQUEST Conclusions 3 / Big Data : « Big soucis ou opportunités » pour l’assureur ? Enjeux de l’assurance connectée et des Big Data : Une révolution dans la gestion des données : qualité, sources (internes/externes), formats (structurées, non structurées), traitement, traçabilité, sécurisation, déontologie, modélisation… ? Une révolution dans l’approche produits & clients ? Une révolution dans les organisations et les outils pour les acteurs de l’assurance ? Une révolution dans le métier d’actuaire et dans l’apparition de nouveaux métiers ? 4 / CENTAI CENTAI : Laboratoire Etudes Amont 5 / Thales Research &Technology (France, Hollande, Singapour, Canada) Canada Transfert d’algorithmes Evaluation / Méthodologies & Technologies Proof of Concept, Proof of Technos Dévt et Transfert de briques logicielles et de chaînes de traitements Thales Business Lines CENTAI (Centre de Traitement et d’Analyse de l’Information) Laboratoire joint UPMC – LIP6 Big Data, Big Analytics & Visual Analytics Partenariat LABRI (PF TULIP) TRL 1-3 Thales Communications & Security PMEs (OSS) TRL 3-5 TRL 3-6 TRL > 6 6 / Pourquoi le Big Data & le Big Analytics au CENTAI ? Thales fournit des systèmes qui produisent de très grands volumes de données encore très partiellement exploitées Les approches Big Data et Big Analytics fondées sur des BD NoSql et des frameworks de traitement distribué, associés si besoin à des BD SQL, permettent de définir de nouveaux produits et de nouveaux services pour optimiser les processus de détection et d’investigation de l’information critique 2013- 2014 E-Border, sécurité Maritime, Contrôle du spectre, …. 2012- 2013 Cyber-Sécurité 2011 Smart Transport Smart City 2009 Détection & Investigation de la fraude à la carte bancaire sur Internet 2010 L’information sous forme de grands graphes (SNA) 500 000 noeuds 2 milliards de transactions / an Exhaustivité, Temps réel, Requêtes complexes Modélisation SQL non adaptée aux données et aux parcours de graphes, Pbs de performances, Partitionnement des données coûteux, Requêtes complexes 5 milliards de transactions / an (STIF/Billettique ) + Autres données Données très hétérogènes issues des systèmes Thales (billettique, maintenance et supervision) / Données externes : Open data, Données sociales Exhaustivité, Temps réel, Requêtes complexes 130 milliards de logs / an Echantillonnage impossible Anomalies inscrites dans la durée Limitation à la recherche de patterns connus Temps réel, Requêtes complexes 7 / CENTAI : Métier & Domaines d’Activités Traitement de données massives, hétérogènes, dynamiques et relationnelles (données métier, données open source, open data) à des fins de détection et d’investigation des informations (Collecte – Analyse – Visualisation) Projet REQUEST : Appel à projets Cloud computing – Big Data 8 / Objectifs du projet Couplage entre les domaines du Big Data, Big Analytics, Visual Analytics et du Cloud Computing Développement d’une architecture ouverte, dédiée à la gestion des données, aux algorithmes d’analyse et de visualisation Techniques de gestion des données, fondées sur les nouvelles bases de données NoSQL Techniques innovantes de requêtage, utilisant un compromis entre l’approche de recherche gouvernée par les hypothèses (Hypothesis driven) et l’approche par exploration exhaustive des données (Data driven) Algorithmes adaptés au traitement de données massives, hétérogènes et dynamiques (données numériques, données non structurées et grands graphes) Techniques de visualisation analytique et interactive, permettant aux utilisateurs d’investiguer les données Structuration et animation de la communauté française du Big Data, en associant des partenaires issus du monde industriel - grandes entreprises, petites et moyennes entreprises - du monde académique et du monde des opérateurs et prescripteurs publics Consortium 9 / Un consortium pluri-disciplinaires de 15 partenaires Académiques, Industriels et PMEs Compétences reconnues dans les domaines des architectures, de la gestion de données, de l’analyse des données et de la visualisation Apport d’expertise SHS pour les enjeux juridiques/éthiques/réglementaires Partenaires Collège Thales Services Thales Communications & Sécurité Orange Labs SNCF Lab. ERIC / Université ERIC LIP6 UPMC ( MALIRE & Complex Networks) LIMSI/CNRS/ILES INRIA Bordeaux / LABRI L2TI Paris 13 UTT KXEN ALTIC ALDECIS ISTHMA SYLLABS INTHEMIS GE GE GE GE Académique Académique Académique Académique Académique Académique PME PME PME PME PME PME Cas d’usage applicatifs 10 / Cas d’usage CyberCrime avec la Gendarmerie Nationale et la Police Nationale – Protection du citoyen Implémentation d’une chaîne de traitement, dédiée à la détection et à l’investigation des infractions dans les réseaux sociaux et, plus particulièrement, dans les plateformes de microblogging, en vue de répondre aux besoins spécifiques du métier d’enquêteur Cas d’usage CyberSécurité Protection des infrastructures) Protection du citoyen, Implémentation d’une chaîne de traitement dédiée à la fouille de logs de sécurité et à la gestion dynamique des risques, permettant d’optimiser les capacités de prévention et de détection des attaques contre les systèmes d’information, pour répondre aux attentes des grands clients institutionnels et industriels Cas d’usage « Transport Intelligent » - Mobilité et Sécurité Construction de typologies pour identifier des habitudes de voyages, Analyse des flux pour mieux comprendre la mobilité Couplage des données métier et OPEN DATA Exploitation de la nature relationnelle et interactionnelle des données (graphe « social » reliant des porteurs de cartes avec un réseau de transport) Détection et investigation d’anomalies dans les flux de données 11 / « SOCIAL NETWORK ANALYSIS » PLATE-FORME OSINT LAB Plate-forme OSINT LAB 12 / Chaîne de traitement pour l’analyse et le suivi des données issues du Web Social (Twitter, Facebook, Blogs & Forums), fondée sur des méthodes de Détection & d’Investigation (Analytics et Visual Analytics) Grandes visées fonctionnelles Détecter & Investiguer dans le temps et dans l’espace, en les corrélant les faits saillants (fréquents & rares) les rôles, comportements et pratiques des socionautes (individus & communautés) Innovation : Text & Link Mining Couplage dynamique des informations issues de l’analyse du contenu des textes et de l’analyse des relations ( liens acteurs, sources, textes) Langues supportées : Français, Anglais, Arabe Approche Intégration de composants Thales, de COTS et OSS, dans une plate-forme technique Développement agile, en s’appuyant sur les résultats des évaluations opérationnelles Expérimentations continues menées en collaboration avec les utilisateurs finaux (Aujourd’hui : GN, ANSSI, Thales (France, Canada, Inde ) R&D collaborative (ANR, Grand Emprunt, CALL SECURITY) Différentiateurs / Marché 13 / 3 grandes approches Moteur de recherche généraliste (Exalead, Bertin) Veille sociale orientée analyse des contenus textuels (AmiSoftware, Temis) Veille sociale orientée analyse des contenus relationnels (Linkfluence, I2) Approche OSINT LAB Répondre aux besoins spécifiques du métier d’enquêteur (en s’appuyant si besoin sur un couplage avec les outils du marché) Fonctions de collecte d’informations textuelles et relationnelles en temps réel Couplage « Text et Link Mining » Fonctions de détection de signaux faibles Fonctions de détection des communautés Fonctions d’investigation dynamique (pour la collecte de la preuve) 14 / Plate-forme OSINT LAB : Exemples d’Usages Prévention, détection et investigation des infractions commises sur les réseaux sociaux, dans le contexte du Cybercrime Recherche et Etude des infractions (escroqueries, diffusion de contenus illicites, atteintes aux mineures, etc.) Analyse de la structure, des comportements et pratiques des communautés de cybercriminels (mise en évidence du rôle des différents suspects d’un groupe criminel) Maintien de l’ordre public / Gestion de crise Détection de menaces susceptibles de porter atteinte à l'ordre public et à la sécurité des citoyens (rassemblements dangereux, manifestations, émeutes, menaces contre les intérêts français, …) Plan de veille : Levée d’alertes, pour anticiper les risques et menaces Recherche et filtrage d’information multi-modale (géographie/textes/acteurs) Suivi et Investigation des événements à risque Identification des acteurs (qui parle?, qui agit?, qui interagit?) Mesure de la mobilisation sociale Cellule de veille et d’anticipation de la menace dans le contexte de la cybersécurité Etude des menaces et attaques discutées sur les réseaux sociaux Etude des comportements et pratiques des communautés de hackers Anticipation des attaques potentielles, pour aider les opérateurs à prendre des décisions pour la protection et la défense des infrastructures critiques E-reputation et communication d’influence , Veille technologique (Thales SA) 15 / Architecture fonctionnelle 16 / Couplage dynamique informations textuelles, relationelles et temporelles Débat : Quelles usages pour l’assurance? 17 / Veille financière ? Analyse et Suivi des risques de marché Mesure de l’impact des rumeurs Exemple de la Société Générale en 2011 Baisse de l’action de 15% en une journée, suite à des tweets repris par un journal anglais, annonçant la faillite de la banque puis, Chute de la bourse de 20% Social Customer Relationship Intelligence ? Optimisation de la connaissance des clients Connaissance des nouveaux besoins marché E-Reputation ? E-Reputation de l’assureur et de son réseau Communication d’influence Veille concurrentielle ? Autres pistes ? 18 / DÉTECTION DES ANOMALIES & CARTOGRAPHIE DU SYSTEME D’INFORMATION Cyber-sécurité 19 / Analyse de logs réseau Objectifs Détection d’évènements réseau anormaux (a posteriori) Caractérisation de la topologie d’un système d’information supervisé (a posteriori) Données 70 To de fichiers de logs Données massives et hétérogènes Architecture choisie Stockage Besoin : Stockage de gros volumes de logs hétérogènes Solution : Apache Hadoop HDFS Processing Besoin : Requêtage (sélection, jointure, …) Solution : Apache Hive / UC Berkeley Shark (requêtage SQL) Besoin : Traitements complexes sur les données (algorithmes d’apprentissage) Solution : Apache Hadoop MapReduce (algorithmes de détection CENTAI) 20 / Le Big Data & le Big Analytics, dans le contexte de la Cybersécurité ENJEUX BIG DATA Parallélisation des algorithmes • CYBELS SENSOR : Moteur de corrélation IDS/NetFlow/DPI Données massives et dynamiques 10GB/s • Cartographie dynamique et passive du SI • Détection et investigation des attaques contre le SI Données massives et hétérogènes 80 To logs / an • Cellule de veille et d’évaluation de la menace sur le Web Social Données hétérogènes et dynamiques données textuelles et données relationnelles BIG ANALYTICS VISUAL ANALYTICS Portail de reporting Linéarisation des algorithmes Stockage distribué (HDFS) Base de données colonne (Cassandra) Base de données graphe (Titan) Moteur de recherche (Elastic Search) Parallélisation & Distribution (MapReduce) Moteur de visualisation de graphes Moteur de visualisation de graphes Parallélisation & Distribution (MapReduce) Portail de reporting Cartographie dynamique du SI 21 / Cartographie dynamique Remonter la topologie réseau d’un SI de manière passive, non intrusive et automatique Analyse des logs réseau (routeurs, firewalls, …) Représentation des liaisons entre machines sous forme de graphe relationnel Typologie des flux (protocole, nombre de paquets, …) Typologie des machines (serveurs, VMs, …) Communautés de machines (sous-réseaux) Navigation temporelle entre différents « snapshots » Débat : Quelles usages pour l’assurance? 22 / Customer Relationship Intelligence ? Cartographie et suivi des réseaux d’agents et courtiers Cartographie et suivi des segments de clientèle et de leurs scores d’appétence Gestion de risques ? Proposition de stratégies de portefeuille : Modélisation des interdépendances de risque entre produits « Baskets » financiers entre produits / mauvais risques et mauvais comportements pour un ensemble de produits Autres ? Débat : Autres pistes pour les assureurs 23 / Qualité des données Gestion de risques Méthodes d’amélioration de la qualité des données Big Data Analyse de risques pays à partir des OPEN DATA , pour les réassureurs et les assisteurs …. Autre 24 / CYBERCRIME : FRAUDE A LA CARTE BANCAIRE SUR INTERNET La problématique de la fraude à la carte bancaire sur Internet 25 / L’ascension du e-commerce (FEVAD 2011) En 2011: + 22 % et CA du e-commerce de 38 milliards € Un succès qui attire les fraudeurs (OSCP-2011) 73% des paiements frauduleux en 2011 et 52% en 2007 La fraude sur Internet très différente de la fraude de proximité Fraude en proximité Fraude localisée dans l’espace et le temps : carte perdue ou volée avec code confidentiel, Mécanismes bien compris : par ex. piratage des distributeurs et duplication de la piste sur un faux support et utilisation à l’étranger… Fraude sur Internet Les comportements de fraude sont diffus, vagues, mouvants et changent fréquemment Les origines des compromissions de données sensibles sont très diverses, beaucoup plus largement distribuées géographiquement Montant M€ E-Fraud Box - Objectifs 26 / Développer une boîte à outils de techniques Fouille de données, Analyse des réseaux sociaux & Informatique décisionnelle Pour la détection de la fraude à la carte bancaire sur Internet Identifier plus rapidement les cartes utilisées frauduleusement sur Internet et ainsi prévenir les porteurs de carte plus tôt & pour l’investigation de la fraude Identifier plus automatiquement des points de compromission Détecter plus rapidement les nouveaux modes opératoires Identifier plus rapidement les affaires pour les transmettre aux forces de l’ordre Principaux résultats 27 / Un ensemble d’algorithmes pour la détection et l’investigation de la fraude Techniques d’échantillonnage tenant compte du déséquilibre des classes Typologie dynamique de la fraude Evolution des comportements de fraude Algorithmes de détection de la fraude Algorithmes d’investigation de la fraude Une intégration dans un démonstrateur au sein du GIE Cartes Bancaires CB Une phase de test par le GIE après la fin du projet (6 mois-2 ans) Débat : Quelles usages pour l’assurance? 28 / Détection de la fraude Sécurisation des systèmes d’information Sécurisation des opérations d’assurance en ligne avec un mode de distribution sur Internet en croissance continue Assurance Santé : diminution des incidents de paiement chez les professionnels de santé, aide à la lutte contre la fraude, réduction de coûts, dématérialisation des cartes de Tiers Payant Autres ? 29 / Conclusions