slides - Université Lyon 2

Transcription

slides - Université Lyon 2
OpWeb'14
Analyse d'opinions par apprentissage
supervisé et connaissances a priori
Mohamed Dermouche1,2, Leila Khouas1, Julien Velcin2 et Sabine Loudcher2
1
AMI Software R&D
France
2
Université de Lyon (ERIC LYON 2)
France
Plan
●
Entreprise AMI Software & labo. ERIC
●
Contexte & problématique
●
Notre approche
●
Résultats
Editeur de logiciels de veille stratégique et
d'intelligence d'entreprise
●
Solutions
logicielles
pour
collecter,
capitaliser,
analyser
l'information sur le Web
●
Outils d'analyse avancée (text mining, cartographie, analyse
d'opinions …).
Entrepots, Représentation et Ingénierie de
Connaissances
●
Laboratoire spécialisé dans la fouille de données et l'aide à la
décision, avec des applications dans l'analyse des nouveaux
médias sociaux.
Contexte & problématique
●
●
Classification d'opinions par la méthode Naive Bayes (NB)
➔
Apprentissage : p(terme|classe)
➔
Inférence : p(classe|texte) ~ p(classe) x Π p(terme|classe)
Corpus de tweets SemEval'2013
Données
d'apprentissage
Données de test
Ecart
(pts. de %)
Fscore (POS)
92%
73%
19
Fscore (NEG)
58%
49%
9
Fscore (NEU)
69%
58%
11
Moyenne
73%
60%
13
Test sur
POS
NEG
●
NEU
Limites de la méthode NB
➔
Surapprentissage
➔
Faible rappel sur les classes sous-représentées
➔
Tendance à prédire la classe majoritaire
Notre approche
●
Injecter de la connaissance a priori représentée sous forme
de lexique d'opinions
Terme
●
Bonne classe
Mauvaise classe
good
POS
NEG
bad
NEG
POS
make fun
NEG
POS
have fun
POS
NEG
Comment ?
➔
➔
Modifier le nombre des occurrences de chaque terme dans les
deux classes POS et NEG de telle sorte à prendre en compte la
connaissance a priori
Deux stratégies : ADD&REMOVE et TRANSFER
Notre approche, ADD&REMOVE
●
Rajouter des pseudo-occurrences dans la “bonne”
classe du terme et en supprimer de la “mauvaise”
classe (ADD&REMOVE)
p(good|POS) = 0,20
p(good|NEG) = 0,17
good
help
good
look
went
bad
wednesday
school
Classe : POS
time
life
old
Classe : NEG
Notre approche, ADD&REMOVE
●
Rajouter des pseudo-occurrences dans la “bonne”
classe du terme et en supprimer de la “mauvaise”
classe (ADD&REMOVE)
p(good|POS) = 0,20
p(good|NEG) = 0,17
good
help
good
look
good
bad
wednesday
school
Classe : POS
Lexique
went
time
life
old
Classe : NEG
Notre approche, ADD&REMOVE
●
Rajouter des pseudo-occurrences dans la “bonne”
classe du terme et en supprimer de la “mauvaise”
classe (ADD&REMOVE)
p(good|POS) = 0,20 0,56
help
good good
look
wednesday
good
good good
school
good
Classe : POS
Lexique
p(good|NEG) = 0,17 0,00
good
went
bad
time
life
old
Classe : NEG
Notre approche, TRANSFER
●
Transférer des occurrences de la “mauvaise” classe à
la “bonne” classe (TRANSFER)
p(good|POS) = 0,20
p(good|NEG) = 0,17
good
help
good
look
good
bad
wednesday
school
Classe : POS
Lexique
went
time
life
old
Classe : NEG
Notre approche, TRANSFER
●
Transférer des occurrences de la “mauvaise” classe à
la “bonne” classe (TRANSFER)
p(good|POS) = 0,20 0,33
help
good
look
good
good
good
wednesday
school
Classe : POS
Lexique
p(good|NEG) = 0,17 0,00
went
bad
time
life
old
Classe : NEG
Résultats, corpus SemEval-2013
(POS vs. NEG vs. NEU)
Données
d'apprentissage
Données de
test
Ecart
(pts. de %)
Fscore (POS)
92%
73%
19
Fscore (NEG)
58%
49%
9
Fscore (NEU)
69%
58%
11
Moyenne
73%
60%
13
Données
d'apprentissage
Données de
test
Ecart
(pts. de %)
Fscore (POS)
75%
67%
8
Fscore (NEG)
63%
59%
4
Fscore (NEU)
67%
57%
10
Moyenne
68%
63%
5
Test sur
NB
Test sur
Notre
approche
Résultats, autres corpus
(POS vs. NEG)
Test sur
Movie Reviews
(EN)
Critiques filmshotels-rest. (FR)
NB
73%
76%
SVM
85%
87%
Notre approche
81%
87%
Conclusion
●
Contributions
➔
●
Nouvelle méthode hybride pour l'analyse d'opinions : NB +
connaissance a priori
➔
Meilleurs résultats par rapport à NB
➔
Résultats compétitifs avec SVM avec une moindre complexité.
Perspectives
➔
Comment fixer les paramètres (nombre d'occurrences à
rajouter / supprimer / transférer) ?
➔
Traitement du “neutre”.
Merci.