Email Aquisition System for Criminal Intelligence Analysis
Transcription
Email Aquisition System for Criminal Intelligence Analysis
http://www.heig-vd.ch HEIG-VD Route de Cheseaux 1 CH - 1401 Yverdon-les-Bains Email Aquisition System for Criminal Intelligence Analysis : information extraction La criminalité et les nouvelles technologies de l’information Le problème des pourriels (ou SPAM) ne cesse de croître et les coûts engendrés par cette « pollution » ne sont pas négligeables. Alors que la plupart des efforts sont réalisés pour filtrer ces messages, il est question ici de récupérer de tels courriels. Plus précisément, il s’agit de traiter les emails rédigés à des fins d’escroquerie et de fraude. Le but est de constituer une base de données de messages que des spécialistes de la lutte contre la criminalité pourront analyser. d’un navigateur WEB et a été développé conjointement au projet EASCIA. Le projet EASCIA EASCIA a déjà été amorcé dans des travaux précédents et une grande partie du travail a consisté à analyser, modifier et corriger l’application existante. Parallèlement, la modélisation de la base de données ISCIA a dû été élaborée ainsi que les algorithmes d’extraction. Le fonctionnement global de l’application est le suivant : Le projet ISCIA Fonctions générales de l’application Les courriels sont récupérés sur des serveurs MAIL (POP et IMAP4) configurés au moyen de WISCIA et selon leur provenance, ils sont nettoyés. En effet, il est possible de transmettre un message suspect au système. Dans ce cas, il faut pouvoir récupérer la partie du courriel du présumé malfaiteur et non celle de la personne qui l’a envoyé. Schéma simplifié du projet ISCIA ISCIA, Internet Surveillance for Criminal Intelligence Analysis, est un grand projet qui a pour but d’offrir un outil d’analyse des messages véhiculés par le réseau Internet. Le point central du projet est la base de données qui est construite à l’aide de divers modules d’acquisition tel que EASCIA. Pour interagir avec le système, un autre projet a été développé, il s’agit de WISCIA. Ce dernier permet d’utiliser le système au travers Auteur: Répondant externe: Prof. responsable: Sujet proposé par: La partie d’extraction consiste à identifier des parties de texte qui correspondent à des informations utiles comme les adresses de courriel, les noms et prénoms, les dates, les adresses IP, les sommes d’argent, etc. Le but est d’automatiser au maximum la tâche pour diminuer le traitement manuel. Résultat Au terme des projets EASCIA et WISCIA, le système est opérationnel avec toutefois certaines limitations dans la phase d’extraction. Le travail a été réalisé dans l’optique d’évoluer et pourra ainsi être poursuivi de manière optimale. Jonathan Melly Olivier Ribaux Christian Buchs Prof. Ribaux, Institut de Police scientifique, Ecole des sciences Criminelles, UNIL HEIG-VD © 2007 - 2008, filière Informatique