Email Aquisition System for Criminal Intelligence Analysis

Transcription

Email Aquisition System for Criminal Intelligence Analysis
http://www.heig-vd.ch
HEIG-VD
Route de Cheseaux 1
CH - 1401 Yverdon-les-Bains
Email Aquisition System for Criminal Intelligence
Analysis : information extraction
La criminalité et les nouvelles
technologies de l’information
Le problème des pourriels (ou SPAM) ne
cesse de croître et les coûts engendrés par
cette « pollution » ne sont pas négligeables.
Alors que la plupart des efforts sont réalisés
pour filtrer ces messages, il est question ici de
récupérer de tels courriels. Plus précisément, il
s’agit de traiter les emails rédigés à des fins
d’escroquerie et de fraude. Le but est de
constituer une base de données de messages
que des spécialistes de la lutte contre la
criminalité pourront analyser.
d’un navigateur WEB et a été développé
conjointement au projet EASCIA.
Le projet EASCIA
EASCIA a déjà été amorcé dans des travaux
précédents et une grande partie du travail a
consisté à analyser, modifier et corriger
l’application existante. Parallèlement, la
modélisation de la base de données ISCIA a
dû été élaborée ainsi que les algorithmes
d’extraction. Le fonctionnement global de
l’application est le suivant :
Le projet ISCIA
Fonctions générales de l’application
Les courriels sont récupérés sur des serveurs
MAIL (POP et IMAP4) configurés au moyen de
WISCIA et selon leur provenance, ils sont
nettoyés. En effet, il est possible de
transmettre un message suspect au système.
Dans ce cas, il faut pouvoir récupérer la partie
du courriel du présumé malfaiteur et non celle
de la personne qui l’a envoyé.
Schéma simplifié du projet ISCIA
ISCIA, Internet Surveillance for Criminal
Intelligence Analysis, est un grand projet qui a
pour but d’offrir un outil d’analyse des
messages véhiculés par le réseau Internet. Le
point central du projet est la base de données
qui est construite à l’aide de divers modules
d’acquisition tel que EASCIA.
Pour interagir avec le système, un autre projet
a été développé, il s’agit de WISCIA. Ce
dernier permet d’utiliser le système au travers
Auteur:
Répondant externe:
Prof. responsable:
Sujet proposé par:
La partie d’extraction consiste à identifier des
parties de texte qui correspondent à des
informations utiles comme les adresses de
courriel, les noms et prénoms, les dates, les
adresses IP, les sommes d’argent, etc. Le but
est d’automatiser au maximum la tâche pour
diminuer le traitement manuel.
Résultat
Au terme des projets EASCIA et WISCIA, le
système est opérationnel avec toutefois
certaines
limitations
dans
la
phase
d’extraction. Le travail a été réalisé dans
l’optique d’évoluer et pourra ainsi être
poursuivi de manière optimale.
Jonathan Melly
Olivier Ribaux
Christian Buchs
Prof. Ribaux, Institut de Police scientifique,
Ecole des sciences Criminelles, UNIL
HEIG-VD © 2007 - 2008, filière Informatique