Analyse d`opinion dans Twitter
Transcription
Analyse d`opinion dans Twitter
Analyse des opinions Houssem eddine DRIDI 28 Novembre 2011 1 Plan Introduction Classification des opinions Méthodes d’apprentissage supervisé Méthodes par orientation sémantique Micro-Analyse Conclusion Références 2 Définition Opinion : est un avis, jugement personnel, manière de penser sur un sujet, qui peut prendre différents formats [linternaut.com]. Sujet : Produit, événement social, événement politique, . . . . Format : Commentaire verbal, journaux, commentaire sur le web,. . . . 3 Problème Si une personne voulait acheter un produit, utiliser un service, ou décider pour qui voter, ... Avant le web : demander les avis des autres pouvant l’aider dans son choix Après le web : plusieurs plates-formes qui permettent aux internautes d’échanger leurs idées et d’exprimer leurs opinions sur un sujet particulier Une accumulation d’une énorme quantié d’informations. Difficile de lire tous les commentaires qui portent sur un sujet L’analyse de ces informations est une tâche indispensable. 4 Axes de recherche Phrases comparatives I I Identification des phrases comparatives dans un texte entre différents produits. Utiliser des termes comme : greater than, as good as, fatest,... Détection des opinions spams I I détecter des opinions qui visent à promouvoir et favoriser ( d’une façon étrange) un sujet par rapport aux autres. Ce type d’opinions cherche à tromper les systèmes d’analyse d’opinions et à retourner une information fausse. Classification des opinions I I première question : est ce qu’il est bon ? classifier l’opinion exprimée : favorable, défavorable ou neutre. Résumé automatique des opinions I Il est important de connaı̂tre la polarité d’une opinion, mais il est souvent plus intéressant d’obtenir plus de détails sur les évaluations ou les avis. Produit : ordinateur portable Caractéristique : autonomie de la batterie. 30 phrases positives, 23 phrases négatives. 5 Méthodes d’apprentissage supervisé Utiliser les méthodes de catégorisation de texte (SVM, Entropie Maximale, etc.). Nécessite des données d’apprentissage. Bo Pang et al. ont utilisé un corpus de commentaires sur les films (http://reviews.imdb.com/Reviews/) N’est pas générique : dépend toujours d’un sujet particulier. Préparation d’un corpus d’apprentissage : tâche très couteuse. 6 Méthodes par orientation sémantique Pas d’ensemble d’apprentissage. Considèrent que les adjectifs et les adverbes sont des bons indicateurs pour déterminer la polarité (positive,négative) d’une opinion. Extraire des syntagmes de taille 2 (selon des règles) [Turney, 2002]. premier terme Adjectif Adverbe, Adverbe comparatif ou Adverbe superlatif Nom deuxième terme Nom Adjectif troisième terme (qui ne doit pas être) Rien ne doit pas être Nom Adjectif ne doit pas être Nom 7 Méthodes par orientation sémantique On calcule l’orientation sémantique de chaque syntagmes s sélectionné. hits(s NEAR ”excellent”)hits(”poor ”) OS(s) = log( ) hits(s NEAR ”poor ”)hits(”excellent”) La polarité d’une opinion est définie par la moyenne des orientations sémantiques des syntagme, positive si la moyenne est + négative sinon. Le moteur de recherche Alta Vista a été utilisé. 8 Microblogging Le moyen de communication le plus populaire. Publier des messages courts. Avantages : Facile à utiliser. Avoir une information en temps réels. Echanger des idées avec les autres. 9 Twitter Plate-forme de microblogage la plus populaire. Plusieurs moyens de communication offertes : web, e-mail, sms. Text (Tweet) ne doit pas dépasser 140 caractères. Mars 2011 : 200 Millions d’utilisateurs inscrits. 140 millions de Tweets envoyés chaque jour. 10 Alec Go et al. 2009 Classification des tweets (positive, négative). Application disponible sur le web (http://twittersentiment.appspot.com/). Préparation des données d’apprentissage : I I I I I Utiliser Twitter API pour extraire des tweets. Requêtes sur plusieurs domaines (produits, services, personnes). Prendre en considération seulement les tweets qui contiennent des émoticones. Un tweet qui contient un émoticone positif ( :) , :D, ...) à une polarité positive, et vice versa. 1,600,000 tweets : 800,000 positives, 800,000 négatives. 11 Alec Go et al. 2009 post-traitement des données d’apprentissage : I I Supprimer les tweets qui contiennent à la fois un émoticone postif et un émoticone négatif. Target orientation :( But it is my birthday today :). Supprimer les Retweets : les tweets copiés à partir d’une autre personne. RT @rupertgrintnet Harry Potter Marks Place in Film History http://bit.ly/Eusxi :). 12 Alec Go et al. 2009 Feature Reduction : I I I Remplacer les noms des utilisateurs par USERNAME (exemple @houssem → USERNAME ). Remplacer les liens par URL ( http://bit.ly/Eusxi → URL). Remplacer les lettres répetées 3 fois ou plus par 2 (huuuuuuuungry → huungry ). Feature Reduction None Username URLs Repeated Letters All # of Features 794876 449714 730152 773691 364464 13 Percent of Original 100.00% 56.58% 91.86% 97.33% 45.85% Alec Go et al. 2009 Résultat : Ensemble de test : 359 (177 négatifs et 182 positifs) Features Unigram Bigram Unigram + Bigram Unigram + POS Keyword 65.2 N/A N/A NB 81.3 81.6 82.7 MaxEnt 80.5 79.1 83.0 SVM 82.2 78.8 81.6 N/A 79.9 79.9 81.9 Keyword : Liste de 174 termes positifs et 185 termes négatifs (looking forward to, funny,:), FTL, pet peeve, etc.) 14 Tweets vs Evénements Une grande corrélation entre les tweets et les résultats rééls. Utiliser les tweets pour détecter des événements. Détection précoce de certains évenements. 15 Lampos, V. and Cristianini, N. (2010) Mesurer la prévalence de la maladie H1N1 pour la population de Grande-Bretagne. En moyenne 160,000 tweets collectés par jour pendant 24 semaines : de 22/06/2009 jusqu’à 06/12/2009. Utiliser 41 mots-clés : ‘infection’, ‘sore throat’, ‘headache’,... Forte corrélation avec les données de l’Agence de Protection de la Santé (APS). 16 Conclusion Un domaine qui attire beaucoup d’attention. I I Volume énorme de données disponibles sur le web. L’importance de l’information qu’on peut refléter à partir de ces données. Twitter : meilleur source. Analyse de ces données peut remplacer plusieurs source d’information comme les sondages. l 17 Références P. Turney. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews. In Proc. of the Meeting of the Association for Computational Linguistics (ACL’02), pp. 417–424, 2002 B. Pang, L. Lee, and S. Vaithyanathan. Thumbs up? Sentiment Classification Using Machine Learning Techniques. In Proc. of the EMNLP’02, 2002. V. Hatzivassiloglou, and J. Wiebe. Effects of Adjective Orientation and Gradability on Sentence Subjectivity. In Proc. of the Intl. Conf. on Computational Linguistics (COLING’00), pp. 299–305. 2000. M. Hu and B. Liu. Mining and Summarizing Customer Reviews. In Proc. of ACM SIGKDD Intl. Conf. on Knowledge Discovery and Data Mining (KDD’04), pp. 168– 177, 2004. 18 Références B. Pang and L. Lee. Opinion Mining and Sentiment Analysis , 2008. B. Liu. Web DataMining, 2008. P. Chaovalit and L. Zhou. Movie Review Mining: a Comparison between Supervised and Unsupervised Classification Approaches. In Proceedings of the 38th Hawaii International Conference on System Sciences, 2005. Alec Go, Richa Bhayani, and Lei Huang. Twitter sentiment classication using distant supervision. Technical report, Stanford, 2009. 19 Références V.Lampos and N.Cristianini. Tracking the flu pandemic by monitoring the social web. In Proc. of the 2nd International Workshop on Cognitive Information Processing (CIP) , 2010. J.Bollen, H.Mao, and X.Zeng. Twitter mood predicts the stock market. In Journal of Computational Science, 2011. S.Doan, B.Ho Vo and N.Collier. An analysis of Twitter messages in the 2011 Tohoku Earthquake. Proc. eHealth , 2011. B.O’Connor, R.Balasubramanyan, B.Routledge, and N.Smith. From tweets to polls: Linking text sentiment to public opinion time series.In In W. W. Cohen and S. Gosling, editors, Proceedings of the 4th International AAAI Conference on Weblogs and Social Media, 2010. 20