Analyse d`opinions à granularité fine

Transcription

Analyse d`opinions à granularité fine
Analyse d'opinions à granularité ne
Béatrice Daille
Université de Nantes
bé[email protected]
avec Matthieu Vernier, Laura Monceaux, Estelle Dubreuil
10 avril 2014
1 / 30
Fouille d'opinion
2 / 30
Fouille d'opinion à granularité ne
J'ai une véritable passion pour J.K Rowling. Non seulement j'aime
bien la femme écrivain et son univers, j'ai lu tous les Harry Potter
et vu les lms (nous sommes des inconditionnels at home) . . .
3 / 30
Fouille d'opinion à granularité ne
Segments d'opinion
dimension subjective, notion de polarité, d'intensité, d'engagement
du locuteur
J'ai une véritable passion pour J.K Rowling. Non seulement
j'aime bien la femme écrivain et son univers, j'ai lu tous les Harry
Potter et vu les lms (nous sommes des inconditionnels at home)
...
3 / 30
Fouille d'opinion à granularité ne
Cible de l'opinion
J'ai une véritable passion pour J.K Rowling. Non seulement j'aime
bien la femme écrivain et son univers, j'ai lu tous les Harry Potter
et vu les lms (nous sommes des inconditionnels at home) . . .
Source de l'opinion
3 / 30
Fouille d'opinion à granularité ne
Approche par apprentissage supervisé
Démarche adoptée par Wiebe et Rilo, 2005 pour l'anglais
corpus MPQA Subjectivity Lexicon
Entrée
un corpus annoté de l'opinion en adoptant les théories linguistiques
de Charaudeau (1992) et Galatanu (2000)
Sortie
une grammaire et un lexique de l'opinion pour délimiter et
catégoriser les passages d'opinions
Cadre
français, multithématique, blogs thématiques personnels
4 / 30
Quelle théorie linguistique ?
Appraisal (Martin and White 2005)
Modèle systémique de l'évaluation élaboré pour l'anglais
l'attitude
l'engagement
la graduation
Modalités énonciatives (Charaudeau 1988, 1992)
Description de l'attitude de l'énonciateur pour le français.
Réduction théorique aux modalités d'expression d'une évaluation
l'opinion
l'accord/désaccord
le jugement
l'appréciation
5 / 30
Théorie de l'évaluation (Charaudeau 1988, 1992)
une typologie détaillée intuitive
Plus de 20 sous-catégories d'évaluations
Opinion
Conviction je suis persuadé
Supposition certitude forte je me doute
Supposition certitude moyenne je crois
Supposition certitude faible je doute
Supposition pressentiment je sens
Appréciation
Explicite favorable je suis satisfait
Explicite défavorable je suis triste
Explicite exclamative favorable Géant !
Explicite exclamative défavorable Flûte !
Implicite favorable c'est super intéressant
Implicite défavorable c'est mauvais
6 / 30
Corpus Blogoscopie : les évaluations
Modalités axiologiques : appréciation et jugement
conguration d'évaluation : implicite, explicite
axiologie : favorable, défavorable
ironie
Modalités logiques : opinion et accord/désaccord
pas d'activation d'axiologie
mais inuence l'axiologie
Je ne pense pas que fumer du cannabis soit plus dangereux
que l'alcool
7 / 30
Corpus Blogoscopie : les objets
Weeds
Concepts
concepts concernés série, sitcom, upload
concepts associés acteurs, réalisateurs, date de sortie
concepts non-associés ville, ics
Instances
instances associées Marie Louise Parker
instances non-associées Brigitte
Anaphores nominales
numérotation des objets
même objet, même numérotation
8 / 30
Corpus Blogoscopie
Méthodologie
plusieurs phases d'annotation
Phase
Phase
Phase
Phase
1
2
3
4
:
:
:
:
application du modèle linguistique
confrontation aux données
consolidation du schéma d'annotation
augmentation du volume de données
manuel d'annotation
Objets
Concept Concerné
Concept Associé
Instance
Évaluations
agr
κ
0.62
0.38
0.54
-
45 % 0.94
52 % 0.97
9 / 30
Corpus Blogoscopie : les chires
Billets
Commentaires
Taille
Objets
Concepts
Instances
Passages évaluatifs
appréciation
accord/désaccord
jugement
opinion
implicite
explicite
positif
négatif
200
612
83 500
6 876
5 666
1 210
4 909
4 129
349
143
270
3 936
1 009
2 593
1 713
10 / 30
Corpus Blogoscopie : les domaines
Plus de 50 domaines
11 / 30
Lexique de l'évaluation
Quelques problèmes
interprétation contextuelle
petites envies
petite brune
petite retraite
terme neutre : fruité
collocation : vibrant contexte : hommage vibrant
ambiguïté : fou appréciation implicite favorable ou
défavorable
négation : syntaxique pas, lexicale enlever tout son charme,
comparatif moins de plaisir
12 / 30
Lexique de l'évaluation
lexique grammaire
entrée lexicale ou forme
catégorie pleine : adjectif, nom, verbe, adverbe
évaluation type, sous-type
forme : exclamation, conguration, négation
contextes d'apparition
terrible, adjectif
appréciation défavorable : terrible (solitude // Anorexiques)
appréciation favorable : Wah ça doit être terrible ! (Yaourt //
recette)
13 / 30
Lexique de l'évaluation : les chires
Catégorie
Nombre d'entrées
dont ambiguës
adjectif
nom
adverbe
verbe
syntagme verbal
phrase
493
166
60
192
24
14
26
3
9
15
0
0
14 / 30
Acquisition de structures évaluatives
Généralisation des passages d'opinions en patrons à structure
de traits par une série d'hypothèses linguistiques
Catégorisation des patrons inversifs ou direct
15 / 30
Structure de traits
16 / 30
Une structure évaluative
Reader touch de Sony : pas plus utile que ça également sauf si
vous voulez vous déplacer avec plus de 350 livres
17 / 30
Généralisation la structure de traits
Idée
La négation pas peut être remplacée par un autre adverbe de
négation jamais
pas de modication de l'adverbe de négation
une entrée du vocabulaire évaluatif utile est remplacée par une
autre désagréable, mauvais
18 / 30
Généralisation
Généralisation de 2 structures de traits (Karttunen 1984)
Règle 1 : substitution d'un mot par un mot de le même classe
sémantique et catégorie grammaticale
pas de défaite plaisante / jamais de défaite encourageante
Règle 2 : substitution d'un mot évaluatif axiologisé par un mot
évaluatif ayant une axiologie diérente
le moindre regret / le moindre plaisir
Règle 3 : ajout ou suppression d'un marqueur d'intensité ou de
pronoms adverbiaux et personnels
je ne me plains pas / je ne m'en lasse pas
Grammaire de l'évaluation
2 031 structures évaluatives
1/3 des structures ont une fréquence de 1 ou 2
19 / 30
Apopsis
20 / 30
Apopsis : une évaluation
Scénario : Que pensent les internautes de Sarah Palin/la nourriture
japonaise ?
Corpus : 50 billets période 20/10/08 au 10/11/08
21 / 30
On ne détecte pas tout
Morphologique : variations orthographiques
j'adÔoooore
Lexical : adjectifs spéciques aux objets évalués
énergique, puritaine, discrédité
Discursif : stéréotype social, collocation, expression gée,
gure de style
sa bre écolo, pitbull aux lèvres rouges, bon débarras
22 / 30
Améliorer la couverture du lexique de l'opinion
Observation
beaucoup d'adjectifs évaluatifs non détectés
enrichissement automatique par apprentissage non supervisé
Hypothèses sémantiques
Hypothèses morphologiques
23 / 30
Sémantique : Classication objectif/subjectif
(Legalois 2005 ; Suhamy 2006)
Principe A : on intensie rarement un adjectif objectif
C'est terriblement législatif 8
Il est particulièrement néo-zélandais 8
C'est terriblement atteur 4
Il est particulièrement dynamique 4
24 / 30
Sémantique : Classication positif/négatif
(Hatzivassiloglou et McKeown 1997)
Principe b : on oppose pas deux adjectifs de même polarité
Elle est jolie mais belle 8
C'est atroce mais douloureux 8
C'est jolie mais inutile 4
C'est atroce mais ecace 4
25 / 30
populiste
26 / 30
Morphologique : Classication positif/négatif
(Pupier 1998)
Hypothèses
les mots ayant un suxe en
ard sont probablement négatifs
asse sont probablement négatifs
âtre sont probablement négatifs
eux sont probablement négatifs
les mots ayant un préxe en
mal sont probablement négatifs
im sont probablement négatifs
27 / 30
Les résultats
Avant
Lexique : 982 entrées
précision 88,4
rappel 50,1
Après
Lexique : 3 974 entrées
sémantique : 2 474 25,7 % évaluations en plus
morphologique : 624 3 % évaluations en plus
précision 79,5
rappel 69,8
28 / 30
Apopsis : une démo sur les twitts
Plateforme UIMA
http://taln.lina.univ-nantes.fr/apopsis/
29 / 30
Conclusion
Objectif
Analyse à granularité ne de l'opinion dans un cadre
multithématique
Réalisations
Des ressources libres pour le français : le corpus Blogoscopie et
le lexique de l'opinion
Articuler le lexique, la grammaire et la sémantique pour
délimiter et catégoriser les évaluations
Améliorer la couverture des lexiques de mots évaluatifs par
apprentissage non-supervisé
Prototype Apopsis
Pour en savoir plus
Projet Blogoscopie
http://www.lina.univ-nantes.fr/?Blogoscopie,762.html
30 / 30

Documents pareils