Big Data - Institut des Actuaires

Transcription

Big Data - Institut des Actuaires
www.thalesgroup.com
CENTAI : Big Data & Big
Analytics
Réunion DGPN / Thales
Octobre 2013
Sommaire
2 /
CENTAI : Présentation du laboratoire
Plate-forme OSINT LAB
Détection de la fraude à la carte bancaire
Détection de comportements anormaux
Cartographie du SI
Projet REQUEST
Conclusions
3 /
Big Data : « Big soucis ou opportunités » pour l’assureur ?
Enjeux de l’assurance connectée et des Big Data :
Une révolution dans la gestion des données :
qualité,
sources
(internes/externes),
formats
(structurées, non structurées), traitement, traçabilité,
sécurisation, déontologie, modélisation… ?
Une révolution dans l’approche produits & clients ?
Une révolution dans les organisations et les outils
pour les acteurs de l’assurance ?
Une révolution dans le métier d’actuaire et dans
l’apparition de nouveaux métiers ?
4 /
CENTAI
CENTAI : Laboratoire Etudes Amont
5 /
Thales Research &Technology
(France, Hollande, Singapour, Canada)
Canada
Transfert d’algorithmes
Evaluation / Méthodologies
& Technologies
Proof of Concept, Proof of Technos
Dévt et Transfert de briques logicielles et
de chaînes de traitements
Thales
Business
Lines
CENTAI
(Centre de Traitement
et d’Analyse de l’Information)
Laboratoire
joint
UPMC – LIP6
Big Data, Big Analytics &
Visual Analytics
Partenariat
LABRI
(PF TULIP)
TRL 1-3
Thales Communications & Security
PMEs
(OSS)
TRL 3-5
TRL 3-6
TRL > 6
6 /
Pourquoi le Big Data & le Big Analytics au CENTAI ?
Thales fournit des systèmes qui produisent de
très grands volumes
de données encore très partiellement exploitées
Les approches Big Data et Big Analytics
fondées sur des BD NoSql et des frameworks de
traitement distribué, associés si besoin à des BD
SQL, permettent de définir de nouveaux
produits et de nouveaux services pour optimiser
les processus de détection et d’investigation de
l’information critique
2013- 2014
E-Border, sécurité
Maritime, Contrôle
du spectre, ….
2012- 2013
Cyber-Sécurité
2011
Smart Transport
Smart City
2009
Détection & Investigation
de la fraude à la carte
bancaire sur Internet
2010
L’information sous forme
de grands graphes (SNA)
500 000 noeuds
2 milliards de
transactions / an
Exhaustivité, Temps réel,
Requêtes complexes
Modélisation SQL non adaptée
aux données et aux parcours de
graphes, Pbs de performances,
Partitionnement des données
coûteux, Requêtes complexes
5 milliards de
transactions / an
(STIF/Billettique )
+ Autres données
Données très hétérogènes issues
des systèmes Thales (billettique,
maintenance et supervision) /
Données externes : Open data,
Données sociales
Exhaustivité, Temps réel, Requêtes
complexes
130 milliards de logs / an
Echantillonnage impossible
Anomalies inscrites dans la
durée
Limitation à la recherche de
patterns connus
Temps réel, Requêtes
complexes
7 /
CENTAI : Métier & Domaines d’Activités
Traitement de données
massives, hétérogènes, dynamiques et relationnelles
(données métier, données open source, open data)
à des fins de détection et d’investigation des informations
(Collecte – Analyse – Visualisation)
Projet REQUEST : Appel à projets Cloud computing – Big Data
8 /
Objectifs du projet
Couplage entre les domaines du Big Data, Big Analytics, Visual
Analytics et du Cloud Computing
Développement d’une architecture ouverte, dédiée à la gestion des
données, aux algorithmes d’analyse et de visualisation
Techniques de gestion des données, fondées sur les nouvelles bases de données
NoSQL
Techniques innovantes de requêtage, utilisant un compromis entre l’approche de
recherche gouvernée par les hypothèses (Hypothesis driven) et l’approche par
exploration exhaustive des données (Data driven)
Algorithmes adaptés au traitement de données massives, hétérogènes et
dynamiques (données numériques, données non structurées et grands graphes)
Techniques de visualisation analytique et interactive, permettant aux utilisateurs
d’investiguer les données
Structuration et animation de la communauté française du Big Data,
en associant des partenaires issus du monde industriel - grandes
entreprises, petites et moyennes entreprises - du monde académique
et du monde des opérateurs et prescripteurs publics
Consortium
9 /
Un consortium pluri-disciplinaires de 15 partenaires
Académiques, Industriels et PMEs
Compétences reconnues dans les domaines des architectures, de la gestion de
données, de l’analyse des données et de la visualisation
Apport d’expertise SHS pour les enjeux juridiques/éthiques/réglementaires
Partenaires
Collège
Thales Services
Thales Communications & Sécurité
Orange Labs
SNCF
Lab. ERIC / Université ERIC
LIP6 UPMC
( MALIRE & Complex Networks)
LIMSI/CNRS/ILES
INRIA Bordeaux / LABRI
L2TI Paris 13
UTT
KXEN
ALTIC
ALDECIS
ISTHMA
SYLLABS
INTHEMIS
GE
GE
GE
GE
Académique
Académique
Académique
Académique
Académique
Académique
PME
PME
PME
PME
PME
PME
Cas d’usage applicatifs
10 /
Cas d’usage CyberCrime avec la Gendarmerie Nationale et
la Police Nationale – Protection du citoyen
Implémentation d’une chaîne de traitement, dédiée à la détection et à l’investigation des
infractions dans les réseaux sociaux et, plus particulièrement, dans les plateformes de
microblogging, en vue de répondre aux besoins spécifiques du métier d’enquêteur
Cas d’usage CyberSécurité Protection des infrastructures)
Protection
du
citoyen,
Implémentation d’une chaîne de traitement dédiée à la fouille de logs de sécurité et à la gestion
dynamique des risques, permettant d’optimiser les capacités de prévention et de détection des
attaques contre les systèmes d’information, pour répondre aux attentes des grands clients
institutionnels et industriels
Cas d’usage « Transport Intelligent » - Mobilité et
Sécurité
Construction de typologies pour identifier des habitudes de voyages, Analyse des flux pour
mieux comprendre la mobilité
Couplage des données métier et OPEN DATA
Exploitation de la nature relationnelle et interactionnelle des données (graphe « social » reliant des porteurs de cartes avec
un réseau de transport)
Détection et investigation d’anomalies dans les flux de données
11 /
« SOCIAL NETWORK ANALYSIS »
PLATE-FORME OSINT LAB
Plate-forme OSINT LAB
12 /
Chaîne de traitement pour l’analyse et le suivi des données issues du Web
Social (Twitter, Facebook, Blogs & Forums), fondée sur des méthodes de
Détection & d’Investigation (Analytics et Visual Analytics)
Grandes visées fonctionnelles
Détecter & Investiguer dans le temps et dans l’espace, en les corrélant
les faits saillants (fréquents & rares)
les rôles, comportements et pratiques des socionautes (individus & communautés)
Innovation : Text & Link Mining
Couplage dynamique des informations issues de l’analyse du contenu des textes et de
l’analyse des relations (
liens acteurs, sources, textes)
Langues supportées : Français, Anglais, Arabe
Approche
Intégration de composants Thales, de COTS et OSS, dans une plate-forme technique
Développement agile, en s’appuyant sur les résultats des évaluations opérationnelles
Expérimentations continues menées en collaboration avec les utilisateurs finaux (Aujourd’hui : GN, ANSSI,
Thales (France, Canada, Inde )
R&D collaborative (ANR, Grand Emprunt, CALL SECURITY)
Différentiateurs / Marché
13 /
3 grandes approches
Moteur de recherche généraliste (Exalead, Bertin)
Veille sociale orientée analyse des contenus textuels (AmiSoftware, Temis)
Veille sociale orientée analyse des contenus relationnels (Linkfluence, I2)
Approche OSINT LAB Répondre aux besoins spécifiques du
métier d’enquêteur (en s’appuyant si besoin sur un couplage
avec les outils du marché)
Fonctions de collecte d’informations textuelles et relationnelles en temps réel
Couplage « Text et Link Mining »
Fonctions de détection de signaux faibles
Fonctions de détection des communautés
Fonctions d’investigation dynamique (pour la collecte de la preuve)
14 /
Plate-forme OSINT LAB : Exemples d’Usages
Prévention, détection et investigation des infractions commises sur les réseaux
sociaux, dans le contexte du Cybercrime
Recherche et Etude des infractions (escroqueries, diffusion de contenus illicites, atteintes aux
mineures, etc.)
Analyse de la structure, des comportements et pratiques des communautés de cybercriminels (mise
en évidence du rôle des différents suspects d’un groupe criminel)
Maintien de l’ordre public / Gestion de crise
Détection de menaces susceptibles de porter atteinte à l'ordre public et à la sécurité des citoyens
(rassemblements dangereux, manifestations, émeutes, menaces contre les intérêts français, …)
Plan de veille : Levée d’alertes, pour anticiper les risques et menaces
Recherche et filtrage d’information multi-modale (géographie/textes/acteurs)
Suivi et Investigation des événements à risque
Identification des acteurs (qui parle?, qui agit?, qui interagit?)
Mesure de la mobilisation sociale
Cellule de veille et d’anticipation de la menace dans le contexte de la cybersécurité
Etude des menaces et attaques discutées sur les réseaux sociaux
Etude des comportements et pratiques des communautés de hackers
Anticipation des attaques potentielles, pour aider les opérateurs à prendre des décisions pour la
protection et la défense des infrastructures critiques
E-reputation et communication d’influence , Veille technologique (Thales SA)
15 /
Architecture fonctionnelle
16 /
Couplage dynamique informations textuelles, relationelles et
temporelles
Débat : Quelles usages pour l’assurance?
17 /
Veille financière ?
Analyse et Suivi des risques de marché
Mesure de l’impact des rumeurs
Exemple de la Société Générale en 2011
Baisse de l’action de 15% en une journée, suite à des tweets repris par un journal
anglais, annonçant la faillite de la banque puis, Chute de la bourse de 20%
Social Customer Relationship Intelligence ?
Optimisation de la connaissance des clients
Connaissance des nouveaux besoins marché
E-Reputation ?
E-Reputation de l’assureur et de son réseau
Communication d’influence
Veille concurrentielle ?
Autres pistes ?
18 /
DÉTECTION DES ANOMALIES &
CARTOGRAPHIE DU SYSTEME
D’INFORMATION
Cyber-sécurité
19 /
Analyse de logs réseau
Objectifs
Détection d’évènements réseau anormaux (a posteriori)
Caractérisation de la topologie d’un système d’information supervisé (a posteriori)
Données
70 To de fichiers de logs
Données massives et hétérogènes
Architecture choisie
Stockage
Besoin : Stockage de gros volumes de logs hétérogènes
Solution : Apache Hadoop HDFS
Processing
Besoin : Requêtage (sélection, jointure, …)
Solution : Apache Hive / UC Berkeley Shark (requêtage SQL)
Besoin : Traitements complexes sur les données (algorithmes d’apprentissage)
Solution : Apache Hadoop MapReduce (algorithmes de détection CENTAI)
20 /
Le Big Data & le Big Analytics, dans le contexte de la
Cybersécurité
ENJEUX
BIG DATA
Parallélisation
des algorithmes
• CYBELS SENSOR : Moteur de
corrélation IDS/NetFlow/DPI
Données massives et dynamiques
10GB/s
• Cartographie dynamique
et passive du SI
• Détection et investigation
des attaques contre le SI
Données massives et hétérogènes
80 To logs / an
• Cellule de veille
et d’évaluation de
la menace sur le Web Social
Données hétérogènes et dynamiques
données textuelles et données
relationnelles
BIG ANALYTICS
VISUAL ANALYTICS
Portail de reporting
Linéarisation des
algorithmes
Stockage distribué
(HDFS)
Base de données
colonne
(Cassandra)
Base de données
graphe (Titan)
Moteur de
recherche (Elastic
Search)
Parallélisation &
Distribution
(MapReduce)
Moteur de
visualisation de
graphes
Moteur de
visualisation de
graphes
Parallélisation &
Distribution
(MapReduce)
Portail de reporting
Cartographie dynamique du SI
21 /
Cartographie dynamique
Remonter la topologie réseau d’un SI de manière passive, non intrusive et
automatique
Analyse des logs réseau (routeurs, firewalls, …)
Représentation des liaisons entre machines sous forme de graphe relationnel
Typologie des flux (protocole, nombre de paquets, …)
Typologie des machines (serveurs, VMs, …)
Communautés de machines (sous-réseaux)
Navigation temporelle entre différents « snapshots »
Débat : Quelles usages pour l’assurance?
22 /
Customer Relationship Intelligence ?
Cartographie et suivi des réseaux d’agents et courtiers
Cartographie et suivi des segments de clientèle et de leurs scores
d’appétence
Gestion de risques ?
Proposition de stratégies de portefeuille : Modélisation des
interdépendances de risque entre produits
« Baskets » financiers entre produits / mauvais risques et mauvais comportements pour
un ensemble de produits
Autres ?
Débat : Autres pistes pour les assureurs
23 /
Qualité des données
Gestion de risques
Méthodes d’amélioration de la qualité des données Big Data
Analyse de risques pays à partir des OPEN DATA , pour les réassureurs et les
assisteurs
….
Autre
24 /
CYBERCRIME : FRAUDE A LA
CARTE BANCAIRE SUR INTERNET
La problématique de la fraude à la carte bancaire sur Internet
25 /
L’ascension du e-commerce (FEVAD 2011)
En 2011: + 22 % et CA du e-commerce de 38
milliards €
Un succès qui attire les fraudeurs (OSCP-2011)
73% des paiements frauduleux en 2011 et 52% en
2007
La fraude sur Internet très différente de la
fraude de proximité
Fraude en proximité
Fraude localisée dans l’espace et le temps : carte
perdue ou volée avec code confidentiel,
Mécanismes bien compris : par ex. piratage des
distributeurs et duplication de la piste sur un faux
support et utilisation à l’étranger…
Fraude sur Internet
Les comportements de fraude sont diffus, vagues,
mouvants et changent fréquemment
Les origines des compromissions de données sensibles
sont très diverses, beaucoup plus largement distribuées
géographiquement
Montant
M€
E-Fraud Box - Objectifs
26 /
Développer une boîte à outils de techniques
Fouille de données, Analyse des réseaux sociaux & Informatique
décisionnelle
Pour la détection de la fraude à la carte bancaire sur Internet
Identifier plus rapidement les cartes utilisées frauduleusement sur
Internet et ainsi prévenir les porteurs de carte plus tôt
& pour l’investigation de la fraude
Identifier plus automatiquement des points de compromission
Détecter plus rapidement les nouveaux modes opératoires
Identifier plus rapidement les affaires pour les transmettre aux forces
de l’ordre
Principaux résultats
27 /
Un ensemble d’algorithmes pour la détection et l’investigation de la fraude
Techniques d’échantillonnage tenant compte du déséquilibre des classes
Typologie dynamique de la fraude
Evolution des comportements de fraude
Algorithmes de détection de la fraude
Algorithmes d’investigation de la fraude
Une intégration dans un démonstrateur au sein du GIE Cartes Bancaires CB
Une phase de test par le GIE après la fin du projet (6 mois-2 ans)
Débat : Quelles usages pour l’assurance?
28 /
Détection de la fraude
Sécurisation des systèmes d’information
Sécurisation des opérations d’assurance en ligne avec un mode de
distribution sur Internet en croissance continue
Assurance Santé : diminution des incidents de paiement chez les
professionnels de santé, aide à la lutte contre la fraude, réduction de
coûts, dématérialisation des cartes de Tiers Payant
Autres ?
29 /
Conclusions