Régréssion Logistique pour classer des Spam/Email
Transcription
Régréssion Logistique pour classer des Spam/Email
Régréssion Logistique pour classer des Spam/Email Charles DADI February 11, 2013 Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 1/9 Sommaire 1 Analyse des données Base de données Objectifs 2 Régréssion Logistique Avantage du modèle Modèle obtenu par sélection de variables AIC Comparaison aux autres méthodes 3 Conclusion Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 2/9 Analyse des données Base de données Échantillon d’apprentissage On dispose de 57 variables explicatives et une variable cible: Dn = {(xi , yi )i≤n , xi ∈ X , yi ∈ {0, 1}}. Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 3/9 Analyse des données address all 3d our over remove internet order mail receive Base de données Mots contenus dans les e-mails will font 857 meeting people 0 data original report money 415 project addresses hp 85 re free hpl technology edu ∈ (Spam, NonSpam) business george 1999 table email 650 parts conference you lab pm credit labs direct your telnet cs Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 4/9 Analyse des données Base de données Prédiction e-mail vs spam e-mail valide From : Charles <[email protected]> To : Daniela <[email protected]> Subject : Hello ! Dear Robert, I hope you are fine. what is news from paris ..... Michel ================================== SPAM From : Pugh F Trina <[email protected]> To : [email protected], [email protected], [email protected],[email protected] Subject: How become rich in a few minutes?, NEW! NEW! INTRODUCTORY OFFER! JUST RELEASED! HEY!!You pay just 2$ and you receive 1000$, it’s the secret of technology.THANKS to Bob Marley,... Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 4/9 Analyse des données Objectifs Objectifs A partir de l’échantillon Dn , obtenir un modèle statistique de dimension la plus faible possible. Un modèle avec un ’très’ bon pouvoir prédictif. un Modèle stable, robuste et de faible compléxité (si possible..) (a) Fonction linéaire Charles DADI (b) Fonction Logit Régréssion Logistique pour classer des Spam/Email February 11, 2013 5/9 Régréssion Logistique Avantage du modèle Modéle adapté à la classification binaire Y =α+ K X βk Xk + k=1 E[Y |X1 ...XK ] = K X βk Xk k=1 K Transofrmation Logit Log [ X P(Y = 1|X1 ..XK ) ] = b0 + bk Xk 1 − P(Y = 1|X1 ..XK ) k=1 1 P(Y = 1|X1 ..XK ) = −b0 − K X bk Xk 1+e K Y = argmax P[Yi = 1|Xi ]1Y × [1 − P[Yi = 1|Xi ]]1−1Y k=1 (b̂k )k≤K i=1 Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 6/9 Régréssion Logistique Modèle obtenu par sélection de variables AIC Modèle obtenu par section forward Nous effectuons sous R, les trois type de AIC à savoir forward, backward et both. Dans les trois cas nous obtenons le même modèle explicatif à savoir : title of the bloc Spam A.53 + A.25 + A.7 + A.27 + A.56 + A.16 + A.46 + A.42 + A.17 + A.23 + A.5 + A.21 + A.45 + A.52 + A.48 + A.44 + A.8 + A.41 + A.20 + A.24 + A.57 + A.6 + A.33 + A.54 + A.49 + A.29 + A.39 + A.4 + A.35 + A.2 + A.26 + A.28 + A.36 + A.19 + A.1 + A.9 + A.43 + A.15 + A.47 + A.38 + A.12 + A.10 + A.22 Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 7/9 Régréssion Logistique Modèle obtenu par sélection de variables AIC Pouvoir prédictif et performance Evaluation du pouvoir prédictif: Calcul Faux positif :P[f (X ) = spam|Y = email] Calcul Faux négatif P[f (X ) = email|Y = spam] Courbe ROC Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 8/9 Régréssion Logistique Comparaison aux autres méthodes Figure : Courbe Roc sur Régression Logistique AUC=98.14% Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 9/9 Régréssion Logistique Comparaison aux autres méthodes Autres méthodes de classification supervisée: 1 Analyse discriminante 2 Arbre classification Figure : Erreur classification pour différentes méthodes Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 9/9 Conclusion Adéquation classfication binaire et Reg Logistique Facilité d’implémentation et faible coût Résultat compétitif Questions? Charles DADI Régréssion Logistique pour classer des Spam/Email February 11, 2013 9/9