Régréssion Logistique pour classer des Spam/Email

Transcription

Régréssion Logistique pour classer des Spam/Email
Régréssion Logistique pour classer des Spam/Email
Charles DADI
February 11, 2013
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
1/9
Sommaire
1
Analyse des données
Base de données
Objectifs
2
Régréssion Logistique
Avantage du modèle
Modèle obtenu par sélection de variables AIC
Comparaison aux autres méthodes
3
Conclusion
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
2/9
Analyse des données
Base de données
Échantillon d’apprentissage
On dispose de 57 variables explicatives et une variable cible:
Dn = {(xi , yi )i≤n , xi ∈ X , yi ∈ {0, 1}}.
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
3/9
Analyse des données
address
all
3d
our
over
remove
internet
order
mail
receive
Base de données
Mots contenus dans les e-mails
will
font
857
meeting
people
0
data
original
report
money 415
project
addresses hp
85
re
free
hpl
technology edu
∈ (Spam, NonSpam)
business
george 1999
table
email
650
parts
conference
you
lab
pm
credit
labs
direct
your
telnet
cs
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
4/9
Analyse des données
Base de données
Prédiction e-mail vs spam
e-mail valide
From : Charles <[email protected]>
To : Daniela <[email protected]>
Subject : Hello !
Dear Robert, I hope you are fine. what is news from paris .....
Michel ==================================
SPAM
From : Pugh F Trina <[email protected]>
To : [email protected], [email protected], [email protected],[email protected]
Subject: How become rich in a few minutes?,
NEW! NEW! INTRODUCTORY OFFER!
JUST RELEASED!
HEY!!You pay just 2$ and you receive 1000$, it’s the secret of
technology.THANKS to Bob Marley,...
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
4/9
Analyse des données
Objectifs
Objectifs
A partir de l’échantillon Dn , obtenir un modèle statistique de dimension la
plus faible possible.
Un modèle avec un ’très’ bon pouvoir prédictif.
un Modèle stable, robuste et de faible compléxité (si possible..)
(a) Fonction linéaire
Charles DADI
(b) Fonction Logit
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
5/9
Régréssion Logistique
Avantage du modèle
Modéle adapté à la classification binaire
Y =α+
K
X
βk Xk + k=1
E[Y |X1 ...XK ] =
K
X
βk Xk
k=1
K
Transofrmation Logit Log [
X
P(Y = 1|X1 ..XK )
] = b0 +
bk Xk
1 − P(Y = 1|X1 ..XK )
k=1
1
P(Y = 1|X1 ..XK ) =
−b0 −
K
X
bk Xk
1+e
K
Y
= argmax
P[Yi = 1|Xi ]1Y × [1 − P[Yi = 1|Xi ]]1−1Y
k=1
(b̂k )k≤K
i=1
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
6/9
Régréssion Logistique
Modèle obtenu par sélection de variables AIC
Modèle obtenu par section forward
Nous effectuons sous R, les trois type de AIC à savoir forward, backward et both.
Dans les trois cas nous obtenons le même modèle explicatif à savoir :
title of the bloc
Spam A.53 + A.25 + A.7 + A.27 + A.56 + A.16 + A.46 + A.42 + A.17
+ A.23 + A.5 + A.21 + A.45 + A.52 + A.48 + A.44 + A.8 + A.41 +
A.20 + A.24 + A.57 + A.6 + A.33 + A.54 + A.49 + A.29 + A.39 + A.4
+ A.35 + A.2 + A.26 + A.28 + A.36 + A.19 + A.1 + A.9 + A.43 +
A.15 + A.47 + A.38 + A.12 + A.10 + A.22
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
7/9
Régréssion Logistique
Modèle obtenu par sélection de variables AIC
Pouvoir prédictif et performance
Evaluation du pouvoir prédictif:
Calcul Faux positif :P[f (X ) = spam|Y = email]
Calcul Faux négatif P[f (X ) = email|Y = spam]
Courbe ROC
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
8/9
Régréssion Logistique
Comparaison aux autres méthodes
Figure : Courbe Roc sur Régression Logistique
AUC=98.14%
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
9/9
Régréssion Logistique
Comparaison aux autres méthodes
Autres méthodes de classification supervisée:
1
Analyse discriminante
2
Arbre classification
Figure : Erreur classification pour différentes méthodes
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
9/9
Conclusion
Adéquation classfication binaire et Reg Logistique
Facilité d’implémentation et faible coût
Résultat compétitif
Questions?
Charles DADI
Régréssion Logistique pour classer des Spam/Email
February 11, 2013
9/9

Documents pareils