slides - Université Lyon 2
Transcription
slides - Université Lyon 2
OpWeb'14 Analyse d'opinions par apprentissage supervisé et connaissances a priori Mohamed Dermouche1,2, Leila Khouas1, Julien Velcin2 et Sabine Loudcher2 1 AMI Software R&D France 2 Université de Lyon (ERIC LYON 2) France Plan ● Entreprise AMI Software & labo. ERIC ● Contexte & problématique ● Notre approche ● Résultats Editeur de logiciels de veille stratégique et d'intelligence d'entreprise ● Solutions logicielles pour collecter, capitaliser, analyser l'information sur le Web ● Outils d'analyse avancée (text mining, cartographie, analyse d'opinions …). Entrepots, Représentation et Ingénierie de Connaissances ● Laboratoire spécialisé dans la fouille de données et l'aide à la décision, avec des applications dans l'analyse des nouveaux médias sociaux. Contexte & problématique ● ● Classification d'opinions par la méthode Naive Bayes (NB) ➔ Apprentissage : p(terme|classe) ➔ Inférence : p(classe|texte) ~ p(classe) x Π p(terme|classe) Corpus de tweets SemEval'2013 Données d'apprentissage Données de test Ecart (pts. de %) Fscore (POS) 92% 73% 19 Fscore (NEG) 58% 49% 9 Fscore (NEU) 69% 58% 11 Moyenne 73% 60% 13 Test sur POS NEG ● NEU Limites de la méthode NB ➔ Surapprentissage ➔ Faible rappel sur les classes sous-représentées ➔ Tendance à prédire la classe majoritaire Notre approche ● Injecter de la connaissance a priori représentée sous forme de lexique d'opinions Terme ● Bonne classe Mauvaise classe good POS NEG bad NEG POS make fun NEG POS have fun POS NEG Comment ? ➔ ➔ Modifier le nombre des occurrences de chaque terme dans les deux classes POS et NEG de telle sorte à prendre en compte la connaissance a priori Deux stratégies : ADD&REMOVE et TRANSFER Notre approche, ADD&REMOVE ● Rajouter des pseudo-occurrences dans la “bonne” classe du terme et en supprimer de la “mauvaise” classe (ADD&REMOVE) p(good|POS) = 0,20 p(good|NEG) = 0,17 good help good look went bad wednesday school Classe : POS time life old Classe : NEG Notre approche, ADD&REMOVE ● Rajouter des pseudo-occurrences dans la “bonne” classe du terme et en supprimer de la “mauvaise” classe (ADD&REMOVE) p(good|POS) = 0,20 p(good|NEG) = 0,17 good help good look good bad wednesday school Classe : POS Lexique went time life old Classe : NEG Notre approche, ADD&REMOVE ● Rajouter des pseudo-occurrences dans la “bonne” classe du terme et en supprimer de la “mauvaise” classe (ADD&REMOVE) p(good|POS) = 0,20 0,56 help good good look wednesday good good good school good Classe : POS Lexique p(good|NEG) = 0,17 0,00 good went bad time life old Classe : NEG Notre approche, TRANSFER ● Transférer des occurrences de la “mauvaise” classe à la “bonne” classe (TRANSFER) p(good|POS) = 0,20 p(good|NEG) = 0,17 good help good look good bad wednesday school Classe : POS Lexique went time life old Classe : NEG Notre approche, TRANSFER ● Transférer des occurrences de la “mauvaise” classe à la “bonne” classe (TRANSFER) p(good|POS) = 0,20 0,33 help good look good good good wednesday school Classe : POS Lexique p(good|NEG) = 0,17 0,00 went bad time life old Classe : NEG Résultats, corpus SemEval-2013 (POS vs. NEG vs. NEU) Données d'apprentissage Données de test Ecart (pts. de %) Fscore (POS) 92% 73% 19 Fscore (NEG) 58% 49% 9 Fscore (NEU) 69% 58% 11 Moyenne 73% 60% 13 Données d'apprentissage Données de test Ecart (pts. de %) Fscore (POS) 75% 67% 8 Fscore (NEG) 63% 59% 4 Fscore (NEU) 67% 57% 10 Moyenne 68% 63% 5 Test sur NB Test sur Notre approche Résultats, autres corpus (POS vs. NEG) Test sur Movie Reviews (EN) Critiques filmshotels-rest. (FR) NB 73% 76% SVM 85% 87% Notre approche 81% 87% Conclusion ● Contributions ➔ ● Nouvelle méthode hybride pour l'analyse d'opinions : NB + connaissance a priori ➔ Meilleurs résultats par rapport à NB ➔ Résultats compétitifs avec SVM avec une moindre complexité. Perspectives ➔ Comment fixer les paramètres (nombre d'occurrences à rajouter / supprimer / transférer) ? ➔ Traitement du “neutre”. Merci.