Email Filtering and Data Mining

Transcription

Email Filtering and Data Mining
BSc en Informatique
BI BE BU VA
Email Filtering and Data Mining
IT Sécurité / Prof. Dr Olivier Biberstein
Expert: Dr Federico Flueckiger
Lorsque nous entendons le mot «filtre» à e-mails, nous l’associons aux logiciels anti-spam disponibles
sur le marché. Il existe pourtant d’autres applications de filtre à e-mails – bien que plus discrètes. De tels
domaines peuvent être la détection d’e-mails liés à la vente de produits de luxe contrefaits ou de médi­
caments sans ordonnance médicale. La difficulté de la problématique réside alors à savoir distinguer et
reconnaître les courriels appartenant à un domaine précis, quand bien même certaines techniques déve­
loppées contre le spam sont inapplicables et d’autres doivent être recalibrées.
Nous nous focalisons sur l’étude
du contenu des courriels avec
une approche de data mining.
Nous avions pour cela dévelop­
pé une application prototype en
Java pour pouvoir visualiser des
collections de courriels et pouvoir
les manipuler. Cette application
nous permet d’avoir un lien entre
les courriels et l’outil de data mining Weka. Nous pouvions dès
lors commencer l’analyse des
données.
Analyse des données
Savoir penser comme un spam­
meur est crucial. C’est pourquoi
nous avons parcouru des milliers
de courriels. Tâche fastidieuse,
elle nous a beaucoup appris sur la
structure et la manière de rédiger
un spam. Nous avons pu déter­
miner une partie du vocabulaire
propre à certains sujets. Nous
avons découvert comment les
spammeurs tentent d’accroître
leurs parts de marchés. Enfin,
Application prototype pour visualiser et manipuler des courriels
nous avons pu documenter toute
une série d’idées pour esquiver
un filtre à e-mails.
Ce qu’il y a de passionnant avec
l’analyse des données, c’est que
nous pouvons investir des di­
zaines d’heures sans pouvoir
trouver une information utile, alors
que parfois en dix minutes nous
trouvons une idée qui accroît for­
tement la précision d’un filtre à
e-mails. Il y a toute une approche
tâtonnement, déduction et intui­
tion dans un tel travail.
José Beuret
Création de filtres à e-mails
Nous avons fait l’étude avec des
algorithmes simples de data mining et nous obtenons déjà pour
certains sujets de bons résul­
tats, c’est-à-dire que nous dé­
passons les 96% de classement
correcte. Nous utilisons, pour la
création des filtres, exclusivement
l’algorithme naïf de Bayes et l’al­
gorithme C4.5 (J48) sous Weka.
Pour dépasser ce taux de clas­
sement de 96%, nous avions dû
combiner plusieurs idées prove­
nant de filtres précédents.
ti.bfh.ch
117