Analyses croisées de sites Web pour détecter les sites de contrefaçon

Transcription

Analyses croisées de sites Web pour détecter les sites de contrefaçon
Analyses croisées de sites Web pour détecter
les sites de contrefaçon
t
Prof. Dr. Olivier Biberstein
Division of Computer Science
14 Novembre 2013
Plan
1. Présentation générale
2. Projet
3. Travaux futurs
4. Discussion
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
2
t
Olivier Biberstein, Professeur d’informatique
t
Bern University of Applied Sciences (www.bfh.ch)
t
Présentation générale
Research Institute for the Security in the Information Society
(RISIS)
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
3
Projet
t
Protéger la propriété intellectuelle et comprendre le
phénomène de la contrefaçon
t
Objectifs:
Développer des outils pour lutter contre la contrefaçon
t
Conséquences lourdes pour la société et l’économie
t
Pertes estimées à plusieurs milliards de $
t
Mise en danger la santé et la vie des consommateurs
t
Pertes de revenus pour les gouvernements
t
Motivations:
Menace l’emploi, I.P., et les investissements pour l’innovation
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
4
Buts
t
Identifier sur Internet des documents liés à la contrefaçon
t
Produire des résultats pour perturber les contrefacteurs
t
Automatiser le processus d’investigation
t
Développer une plate-forme pour
Améliorer la connaissance de l’organisation des contrefacteurs
et leur modus operandi
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
5
t
Acquisition du contenu de ces documents
t
Classification (semi)-automatique
t
Extraction de nombreuses traces numériques
t
Analyse pour inférer de nouvelles informations à partir de
celles extraites; liens entre web-documents (raisonnement)
t
Rapports d’activités
t
Fonctionnalités
Visualisation
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
6
Aperçu global
Image non disponible
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
7
t
GlassFish application server
t
MySql or Postgres databases
t
JAVA
t
EJB 3.1 (JEE 6)
t
Vaadin web application framework
t
Quelques technologies
Weka (data mining tool)
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
8
Trace numériques en bref
t
URL (normalisation), IP adresse, ports, ...
t
WhoIs (domain, IP)
t
DNS records
t
Techniques
Geolocalisation
t
header: metatags, charset, ...
t
body: keywords, hyperlinks, number of images
t
adresses email, numéros de téléphone, nickname
t
De contenu
images, prix, monnaies
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
9
Rappors d’activités 1
Image non disponible
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
10
Travaux futurs
A quels niveaux agir ?
Image non disponible
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
11
t
Requêtes à de moteurs de recherches
t
Utilisation du spam
t
Acquisition automatique de
web-documents
Et les réseaux sociaux faisant de la publicité?
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
12
t
Détection de logo
t
Extraction de texte inclus dans des images
t
Identification de produits par comparaison d’images
t
Extraction de traces par traitement
d’images
Desobfuscation en évaluant le javascript
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
13
t
t
Classification automatique
Quels algorithmes de data-mining, machine learning sont
adéquats ?
Quelle information exploiter ?
Ý structure du graphe DOM
Ý contenue dans les CSS
Ý hyper-liens
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
14
t
Définir les critères pour les mesures
Quelle information exploiter ?
t
Établissement de mesures de similarité
t
Similarités entre web-documents
Ý ...
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
15
t
Relations basées sur la transitivité
t
Ajouter temporairement de l’information manquante
t
OWL est-il un candidat intéressant ?
t
Raisonnement plus complexes au moyen de raisonneurs ?
t
Inférence de relations entre
web-documents
Sql ou noSql ?
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
16
Visualisation des relations
t
De quelle manière visualiser toutes ces informations ?
t
Et finalement
Quels outils sont adéquats ?
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
17
Merci pour votre attention
LGI2P: Analyses de sites Web et contrefaçon
BFH-TI
O. Biberstein
18

Documents pareils