Analyse d`opinions à granularité fine
Transcription
Analyse d`opinions à granularité fine
Analyse d'opinions à granularité ne Béatrice Daille Université de Nantes bé[email protected] avec Matthieu Vernier, Laura Monceaux, Estelle Dubreuil 10 avril 2014 1 / 30 Fouille d'opinion 2 / 30 Fouille d'opinion à granularité ne J'ai une véritable passion pour J.K Rowling. Non seulement j'aime bien la femme écrivain et son univers, j'ai lu tous les Harry Potter et vu les lms (nous sommes des inconditionnels at home) . . . 3 / 30 Fouille d'opinion à granularité ne Segments d'opinion dimension subjective, notion de polarité, d'intensité, d'engagement du locuteur J'ai une véritable passion pour J.K Rowling. Non seulement j'aime bien la femme écrivain et son univers, j'ai lu tous les Harry Potter et vu les lms (nous sommes des inconditionnels at home) ... 3 / 30 Fouille d'opinion à granularité ne Cible de l'opinion J'ai une véritable passion pour J.K Rowling. Non seulement j'aime bien la femme écrivain et son univers, j'ai lu tous les Harry Potter et vu les lms (nous sommes des inconditionnels at home) . . . Source de l'opinion 3 / 30 Fouille d'opinion à granularité ne Approche par apprentissage supervisé Démarche adoptée par Wiebe et Rilo, 2005 pour l'anglais corpus MPQA Subjectivity Lexicon Entrée un corpus annoté de l'opinion en adoptant les théories linguistiques de Charaudeau (1992) et Galatanu (2000) Sortie une grammaire et un lexique de l'opinion pour délimiter et catégoriser les passages d'opinions Cadre français, multithématique, blogs thématiques personnels 4 / 30 Quelle théorie linguistique ? Appraisal (Martin and White 2005) Modèle systémique de l'évaluation élaboré pour l'anglais l'attitude l'engagement la graduation Modalités énonciatives (Charaudeau 1988, 1992) Description de l'attitude de l'énonciateur pour le français. Réduction théorique aux modalités d'expression d'une évaluation l'opinion l'accord/désaccord le jugement l'appréciation 5 / 30 Théorie de l'évaluation (Charaudeau 1988, 1992) une typologie détaillée intuitive Plus de 20 sous-catégories d'évaluations Opinion Conviction je suis persuadé Supposition certitude forte je me doute Supposition certitude moyenne je crois Supposition certitude faible je doute Supposition pressentiment je sens Appréciation Explicite favorable je suis satisfait Explicite défavorable je suis triste Explicite exclamative favorable Géant ! Explicite exclamative défavorable Flûte ! Implicite favorable c'est super intéressant Implicite défavorable c'est mauvais 6 / 30 Corpus Blogoscopie : les évaluations Modalités axiologiques : appréciation et jugement conguration d'évaluation : implicite, explicite axiologie : favorable, défavorable ironie Modalités logiques : opinion et accord/désaccord pas d'activation d'axiologie mais inuence l'axiologie Je ne pense pas que fumer du cannabis soit plus dangereux que l'alcool 7 / 30 Corpus Blogoscopie : les objets Weeds Concepts concepts concernés série, sitcom, upload concepts associés acteurs, réalisateurs, date de sortie concepts non-associés ville, ics Instances instances associées Marie Louise Parker instances non-associées Brigitte Anaphores nominales numérotation des objets même objet, même numérotation 8 / 30 Corpus Blogoscopie Méthodologie plusieurs phases d'annotation Phase Phase Phase Phase 1 2 3 4 : : : : application du modèle linguistique confrontation aux données consolidation du schéma d'annotation augmentation du volume de données manuel d'annotation Objets Concept Concerné Concept Associé Instance Évaluations agr κ 0.62 0.38 0.54 - 45 % 0.94 52 % 0.97 9 / 30 Corpus Blogoscopie : les chires Billets Commentaires Taille Objets Concepts Instances Passages évaluatifs appréciation accord/désaccord jugement opinion implicite explicite positif négatif 200 612 83 500 6 876 5 666 1 210 4 909 4 129 349 143 270 3 936 1 009 2 593 1 713 10 / 30 Corpus Blogoscopie : les domaines Plus de 50 domaines 11 / 30 Lexique de l'évaluation Quelques problèmes interprétation contextuelle petites envies petite brune petite retraite terme neutre : fruité collocation : vibrant contexte : hommage vibrant ambiguïté : fou appréciation implicite favorable ou défavorable négation : syntaxique pas, lexicale enlever tout son charme, comparatif moins de plaisir 12 / 30 Lexique de l'évaluation lexique grammaire entrée lexicale ou forme catégorie pleine : adjectif, nom, verbe, adverbe évaluation type, sous-type forme : exclamation, conguration, négation contextes d'apparition terrible, adjectif appréciation défavorable : terrible (solitude // Anorexiques) appréciation favorable : Wah ça doit être terrible ! (Yaourt // recette) 13 / 30 Lexique de l'évaluation : les chires Catégorie Nombre d'entrées dont ambiguës adjectif nom adverbe verbe syntagme verbal phrase 493 166 60 192 24 14 26 3 9 15 0 0 14 / 30 Acquisition de structures évaluatives Généralisation des passages d'opinions en patrons à structure de traits par une série d'hypothèses linguistiques Catégorisation des patrons inversifs ou direct 15 / 30 Structure de traits 16 / 30 Une structure évaluative Reader touch de Sony : pas plus utile que ça également sauf si vous voulez vous déplacer avec plus de 350 livres 17 / 30 Généralisation la structure de traits Idée La négation pas peut être remplacée par un autre adverbe de négation jamais pas de modication de l'adverbe de négation une entrée du vocabulaire évaluatif utile est remplacée par une autre désagréable, mauvais 18 / 30 Généralisation Généralisation de 2 structures de traits (Karttunen 1984) Règle 1 : substitution d'un mot par un mot de le même classe sémantique et catégorie grammaticale pas de défaite plaisante / jamais de défaite encourageante Règle 2 : substitution d'un mot évaluatif axiologisé par un mot évaluatif ayant une axiologie diérente le moindre regret / le moindre plaisir Règle 3 : ajout ou suppression d'un marqueur d'intensité ou de pronoms adverbiaux et personnels je ne me plains pas / je ne m'en lasse pas Grammaire de l'évaluation 2 031 structures évaluatives 1/3 des structures ont une fréquence de 1 ou 2 19 / 30 Apopsis 20 / 30 Apopsis : une évaluation Scénario : Que pensent les internautes de Sarah Palin/la nourriture japonaise ? Corpus : 50 billets période 20/10/08 au 10/11/08 21 / 30 On ne détecte pas tout Morphologique : variations orthographiques j'adÔoooore Lexical : adjectifs spéciques aux objets évalués énergique, puritaine, discrédité Discursif : stéréotype social, collocation, expression gée, gure de style sa bre écolo, pitbull aux lèvres rouges, bon débarras 22 / 30 Améliorer la couverture du lexique de l'opinion Observation beaucoup d'adjectifs évaluatifs non détectés enrichissement automatique par apprentissage non supervisé Hypothèses sémantiques Hypothèses morphologiques 23 / 30 Sémantique : Classication objectif/subjectif (Legalois 2005 ; Suhamy 2006) Principe A : on intensie rarement un adjectif objectif C'est terriblement législatif 8 Il est particulièrement néo-zélandais 8 C'est terriblement atteur 4 Il est particulièrement dynamique 4 24 / 30 Sémantique : Classication positif/négatif (Hatzivassiloglou et McKeown 1997) Principe b : on oppose pas deux adjectifs de même polarité Elle est jolie mais belle 8 C'est atroce mais douloureux 8 C'est jolie mais inutile 4 C'est atroce mais ecace 4 25 / 30 populiste 26 / 30 Morphologique : Classication positif/négatif (Pupier 1998) Hypothèses les mots ayant un suxe en ard sont probablement négatifs asse sont probablement négatifs âtre sont probablement négatifs eux sont probablement négatifs les mots ayant un préxe en mal sont probablement négatifs im sont probablement négatifs 27 / 30 Les résultats Avant Lexique : 982 entrées précision 88,4 rappel 50,1 Après Lexique : 3 974 entrées sémantique : 2 474 25,7 % évaluations en plus morphologique : 624 3 % évaluations en plus précision 79,5 rappel 69,8 28 / 30 Apopsis : une démo sur les twitts Plateforme UIMA http://taln.lina.univ-nantes.fr/apopsis/ 29 / 30 Conclusion Objectif Analyse à granularité ne de l'opinion dans un cadre multithématique Réalisations Des ressources libres pour le français : le corpus Blogoscopie et le lexique de l'opinion Articuler le lexique, la grammaire et la sémantique pour délimiter et catégoriser les évaluations Améliorer la couverture des lexiques de mots évaluatifs par apprentissage non-supervisé Prototype Apopsis Pour en savoir plus Projet Blogoscopie http://www.lina.univ-nantes.fr/?Blogoscopie,762.html 30 / 30