Analyse d`opinion dans Twitter

Transcription

Analyse d`opinion dans Twitter
Analyse des opinions
Houssem eddine DRIDI
28 Novembre 2011
1
Plan
Introduction
Classification des opinions
Méthodes d’apprentissage supervisé
Méthodes par orientation sémantique
Micro-Analyse
Conclusion
Références
2
Définition
Opinion : est un avis, jugement personnel, manière de penser
sur un sujet, qui peut prendre différents formats
[linternaut.com].
Sujet : Produit, événement social, événement politique, . . . .
Format : Commentaire verbal, journaux, commentaire sur le
web,. . . .
3
Problème
Si une personne voulait acheter un produit, utiliser un service, ou
décider pour qui voter, ...
Avant le web : demander les avis des autres pouvant l’aider dans
son choix
Après le web : plusieurs plates-formes qui permettent aux
internautes d’échanger leurs idées et d’exprimer leurs opinions sur
un sujet particulier
Une accumulation d’une énorme quantié d’informations.
Difficile de lire tous les commentaires qui portent sur un sujet
L’analyse de ces informations est une tâche indispensable.
4
Axes de recherche
Phrases comparatives
I
I
Identification des phrases comparatives dans un texte entre
différents produits.
Utiliser des termes comme : greater than, as good as, fatest,...
Détection des opinions spams
I
I
détecter des opinions qui visent à promouvoir et favoriser (
d’une façon étrange) un sujet par rapport aux autres.
Ce type d’opinions cherche à tromper les systèmes d’analyse
d’opinions et à retourner une information fausse.
Classification des opinions
I
I
première question : est ce qu’il est bon ?
classifier l’opinion exprimée : favorable, défavorable ou neutre.
Résumé automatique des opinions
I
Il est important de connaı̂tre la polarité d’une opinion, mais il
est souvent plus intéressant d’obtenir plus de détails sur les
évaluations ou les avis.
Produit : ordinateur portable
Caractéristique : autonomie de la batterie.
30 phrases positives, 23 phrases négatives.
5
Méthodes d’apprentissage supervisé
Utiliser les méthodes de catégorisation de texte (SVM,
Entropie Maximale, etc.).
Nécessite des données d’apprentissage.
Bo Pang et al. ont utilisé un corpus de commentaires sur les
films (http://reviews.imdb.com/Reviews/)
N’est pas générique : dépend toujours d’un sujet particulier.
Préparation d’un corpus d’apprentissage : tâche très couteuse.
6
Méthodes par orientation sémantique
Pas d’ensemble d’apprentissage.
Considèrent que les adjectifs et les adverbes sont des bons
indicateurs pour déterminer la polarité (positive,négative)
d’une opinion.
Extraire des syntagmes de taille 2 (selon des règles) [Turney,
2002].
premier terme
Adjectif
Adverbe,
Adverbe comparatif
ou
Adverbe
superlatif
Nom
deuxième
terme
Nom
Adjectif
troisième terme (qui
ne doit pas être)
Rien
ne doit pas être Nom
Adjectif
ne doit pas être Nom
7
Méthodes par orientation sémantique
On calcule l’orientation sémantique de chaque syntagmes s
sélectionné.
hits(s NEAR ”excellent”)hits(”poor ”)
OS(s) = log(
)
hits(s NEAR ”poor ”)hits(”excellent”)
La polarité d’une opinion est définie par la moyenne des orientations sémantiques des syntagme, positive si la moyenne est
+ négative sinon.
Le moteur de recherche Alta Vista a été utilisé.
8
Microblogging
Le moyen de communication le plus populaire.
Publier des messages courts.
Avantages :
Facile à utiliser.
Avoir une information en temps réels.
Echanger des idées avec les autres.
9
Twitter
Plate-forme de microblogage la plus populaire.
Plusieurs moyens de communication offertes : web, e-mail,
sms.
Text (Tweet) ne doit pas dépasser 140 caractères.
Mars 2011 :
200 Millions d’utilisateurs inscrits.
140 millions de Tweets envoyés chaque jour.
10
Alec Go et al. 2009
Classification des tweets (positive, négative).
Application disponible sur le web
(http://twittersentiment.appspot.com/).
Préparation des données d’apprentissage :
I
I
I
I
I
Utiliser Twitter API pour extraire des tweets.
Requêtes sur plusieurs domaines (produits, services,
personnes).
Prendre en considération seulement les tweets qui contiennent
des émoticones.
Un tweet qui contient un émoticone positif ( :) , :D, ...) à une
polarité positive, et vice versa.
1,600,000 tweets : 800,000 positives, 800,000 négatives.
11
Alec Go et al. 2009
post-traitement des données d’apprentissage :
I
I
Supprimer les tweets qui contiennent à la fois un émoticone
postif et un émoticone négatif.
Target orientation :( But it is my birthday today :).
Supprimer les Retweets : les tweets copiés à partir d’une autre
personne.
RT @rupertgrintnet Harry Potter Marks Place in Film History
http://bit.ly/Eusxi :).
12
Alec Go et al. 2009
Feature Reduction :
I
I
I
Remplacer les noms des utilisateurs par USERNAME
(exemple @houssem → USERNAME ).
Remplacer les liens par URL ( http://bit.ly/Eusxi → URL).
Remplacer les lettres répetées 3 fois ou plus par 2
(huuuuuuuungry → huungry ).
Feature Reduction
None
Username
URLs
Repeated Letters
All
# of Features
794876
449714
730152
773691
364464
13
Percent of Original
100.00%
56.58%
91.86%
97.33%
45.85%
Alec Go et al. 2009
Résultat :
Ensemble de test : 359 (177 négatifs et 182 positifs)
Features
Unigram
Bigram
Unigram
+
Bigram
Unigram
+ POS
Keyword
65.2
N/A
N/A
NB
81.3
81.6
82.7
MaxEnt
80.5
79.1
83.0
SVM
82.2
78.8
81.6
N/A
79.9
79.9
81.9
Keyword : Liste de 174 termes positifs et 185 termes négatifs
(looking forward to, funny,:), FTL, pet peeve, etc.)
14
Tweets vs Evénements
Une grande corrélation entre les tweets et les résultats rééls.
Utiliser les tweets pour détecter des événements.
Détection précoce de certains évenements.
15
Lampos, V. and Cristianini, N. (2010)
Mesurer la prévalence de la maladie H1N1 pour la population
de Grande-Bretagne.
En moyenne 160,000 tweets collectés par jour pendant 24
semaines : de 22/06/2009 jusqu’à 06/12/2009.
Utiliser 41 mots-clés : ‘infection’, ‘sore throat’, ‘headache’,...
Forte corrélation avec les données de l’Agence de
Protection de la Santé (APS).
16
Conclusion
Un domaine qui attire beaucoup d’attention.
I
I
Volume énorme de données disponibles sur le web.
L’importance de l’information qu’on peut refléter à partir de
ces données.
Twitter : meilleur source.
Analyse de ces données peut remplacer plusieurs source
d’information comme les sondages.
l
17
Références
P. Turney. Thumbs Up or Thumbs Down? Semantic
Orientation Applied to Unsupervised Classification of Reviews.
In Proc. of the Meeting of the Association for Computational
Linguistics (ACL’02), pp. 417–424, 2002
B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up?
Sentiment Classification Using Machine Learning Techniques.
In Proc. of the EMNLP’02, 2002.
V. Hatzivassiloglou, and J. Wiebe. Effects of Adjective
Orientation and Gradability on Sentence Subjectivity. In Proc.
of the Intl. Conf. on Computational Linguistics (COLING’00),
pp. 299–305. 2000.
M. Hu and B. Liu. Mining and Summarizing Customer
Reviews. In Proc. of ACM SIGKDD Intl. Conf. on Knowledge
Discovery and Data Mining (KDD’04), pp. 168– 177, 2004.
18
Références
B. Pang and L. Lee. Opinion Mining and Sentiment Analysis ,
2008.
B. Liu. Web DataMining, 2008.
P. Chaovalit and L. Zhou. Movie Review Mining: a
Comparison between Supervised and Unsupervised
Classification Approaches. In Proceedings of the 38th Hawaii
International Conference on System Sciences, 2005.
Alec Go, Richa Bhayani, and Lei Huang. Twitter sentiment
classication using distant supervision. Technical report,
Stanford, 2009.
19
Références
V.Lampos and N.Cristianini. Tracking the flu pandemic by
monitoring the social web. In Proc. of the 2nd International
Workshop on Cognitive Information Processing (CIP) , 2010.
J.Bollen, H.Mao, and X.Zeng. Twitter mood predicts the
stock market. In Journal of Computational Science, 2011.
S.Doan, B.Ho Vo and N.Collier. An analysis of Twitter
messages in the 2011 Tohoku Earthquake. Proc. eHealth ,
2011.
B.O’Connor, R.Balasubramanyan, B.Routledge, and N.Smith.
From tweets to polls: Linking text sentiment to public opinion
time series.In In W. W. Cohen and S. Gosling, editors,
Proceedings of the 4th International AAAI Conference on
Weblogs and Social Media, 2010.
20

Documents pareils