Email Filtering and Data Mining
Transcription
Email Filtering and Data Mining
BSc en Informatique BI BE BU VA Email Filtering and Data Mining IT Sécurité / Prof. Dr Olivier Biberstein Expert: Dr Federico Flueckiger Lorsque nous entendons le mot «filtre» à e-mails, nous l’associons aux logiciels anti-spam disponibles sur le marché. Il existe pourtant d’autres applications de filtre à e-mails – bien que plus discrètes. De tels domaines peuvent être la détection d’e-mails liés à la vente de produits de luxe contrefaits ou de médi caments sans ordonnance médicale. La difficulté de la problématique réside alors à savoir distinguer et reconnaître les courriels appartenant à un domaine précis, quand bien même certaines techniques déve loppées contre le spam sont inapplicables et d’autres doivent être recalibrées. Nous nous focalisons sur l’étude du contenu des courriels avec une approche de data mining. Nous avions pour cela dévelop pé une application prototype en Java pour pouvoir visualiser des collections de courriels et pouvoir les manipuler. Cette application nous permet d’avoir un lien entre les courriels et l’outil de data mining Weka. Nous pouvions dès lors commencer l’analyse des données. Analyse des données Savoir penser comme un spam meur est crucial. C’est pourquoi nous avons parcouru des milliers de courriels. Tâche fastidieuse, elle nous a beaucoup appris sur la structure et la manière de rédiger un spam. Nous avons pu déter miner une partie du vocabulaire propre à certains sujets. Nous avons découvert comment les spammeurs tentent d’accroître leurs parts de marchés. Enfin, Application prototype pour visualiser et manipuler des courriels nous avons pu documenter toute une série d’idées pour esquiver un filtre à e-mails. Ce qu’il y a de passionnant avec l’analyse des données, c’est que nous pouvons investir des di zaines d’heures sans pouvoir trouver une information utile, alors que parfois en dix minutes nous trouvons une idée qui accroît for tement la précision d’un filtre à e-mails. Il y a toute une approche tâtonnement, déduction et intui tion dans un tel travail. José Beuret Création de filtres à e-mails Nous avons fait l’étude avec des algorithmes simples de data mining et nous obtenons déjà pour certains sujets de bons résul tats, c’est-à-dire que nous dé passons les 96% de classement correcte. Nous utilisons, pour la création des filtres, exclusivement l’algorithme naïf de Bayes et l’al gorithme C4.5 (J48) sous Weka. Pour dépasser ce taux de clas sement de 96%, nous avions dû combiner plusieurs idées prove nant de filtres précédents. ti.bfh.ch 117