Annoter des corpus non

Transcription

Annoter des corpus non-standard
Benoît Sagot
en collaboration avec Djamé Seddah, Marie Candito, Virginie
Mouilleron, Vanessa Combet, Christophe Benzitoun, Karën Fort
Alpage, INRIA Paris-Rocquencourt & Université Paris 7
IR Corpus — Consortium Corpus Écrits — Groupe de travail 7
28 juin 2012
Benoît Sagot (Alpage)
28 juin 2012
1 / 40
Plan
1
Introduction
2
Sélection des données
3
Annotation morphosyntaxique
4
Annotation syntaxique
5
L’évaluation SANCL 2012
6
Le corpus de l’oral TCOF-POS
7
Conclusion et perspectives
28 juin 2012
2 / 40
Plan
1
Introduction
2
3
4
5
6
7
Données textuelles issus des nouveaux moyens de
communication
Nouveaux moyens de communication
Forums, e-mails (années 1960/1970)
Messagerie instantanée (fin des années 1970), utilisation massive
depuis la fin des années 1990
SMS (1993), utilisation en très forte croissance depuis la fin des
années 1990
Blogs (fin des années 1990), utilisation massive depuis le début des
années 2000
Médias sociaux : Facebook (2004), Twitter (2006), utilisation
généralisée depuis quelques années seulement
28 juin 2012
4 / 40
Ni nouveau, ni mal écrit : le Jabberwocky
Le Jabberwocky de Lewis Caroll (1872)
’Twas brillig, and the slithy toves
Did gyre and gimble in the wabe ;
All mimsy were the borogoves,
And the mome raths outgrabe.
Un objet d’étude unique pour la linguistique
28 juin 2012
5 / 40
À première vue, peu en commun entre Lewis Caroll et
les textes issus des nouveaux moyens de
communication (NMC)
28 juin 2012
5 / 40
À première vue, peu en commun entre Lewis Caroll et les
textes issus des nouveaux moyens de communication
Extrait du sous-corpus “réponses” du corpus Google WebBank
maybe they like u or they just r weird Im sorry to the person I called A
freaazoid ?
it is allright i guess you cooled down now, wan na be friends ? ?
28 juin 2012
5 / 40
les textes issus des NMC, mis à part :
⇒ mots inconnus (typos, capitalisation, créativité lexicale,
nouveaux domaines, nouveaux mots)
freaazoid ?
it is allright i guess you cooled down now, wanna be friends ? ?
28 juin 2012
5 / 40
⇒ mots inconnus
⇒ Tokenisation (découpage en “mots”)
freaazoid ?
it is allright i guess you cooled down now, wanna be friends ? ?
28 juin 2012
5 / 40
⇒ mots inconnus, tokenisation
⇒ Découpage en “phrases”/“énoncés”
Did gyre and gimble in the wabe ;\n?
And the mome raths outgrabe.\n
maybe they like u or they just r weird \n Im sorry to the person I called A
freaazoid ?
it is allright\n i guess you cooled down now,\n? wanna be friends ? ?\n
28 juin 2012
5 / 40
Le syndrome du Jabberwocky : annoter du texte
non-standard
Non-standard à trois niveaux, qu’il faut savoir traiter :
⇒ les unités de base : tokenisation
⇒ le niveau lexical : mots inconnus
⇒ le niveau syntaxique : segmentation en phrases, structures
syntaxiques
Tout en ayant à traiter certains phénomènes inattendus
⇒ Syntaxe distordue (cf. Best. Workshop. Ever.,
www.idontknow.com, @John seriously, dude...”)
⇒ Binettes (smileys) : méta-texte ou “mots” de plein droit ?
La linguistique c’est chouette :) vs
:) ne veut pas dire que c’est marrant
⇒ . . . et nous laissons de côté les mélanges d’encodages, le code
mixing, l’ASCII art. . .
28 juin 2012
6 / 40
non-standard
syntaxiques
Principes de base pour annoter de telles données :
Pré-traitements lourds pour améliorer la pré-annotation
Extension des guides d’annotation — points communs avec
l’annotation de l’oral (méta-texte..)
28 juin 2012
6 / 40
non-standard
syntaxiques
Principes de base pour analyser de telles données :
Pré-traitements lourds pour “nettoyer le texte” de ses scories
Etiquettage morpho-syntaxique rigoureux
Analyse syntaxique robuste
28 juin 2012
6 / 40
Une telle machinerie est-elle utile ? ?
Problème de l’analyse syntaxique probabiliste
Systèmes actuellement les plus performants MAIS
⇒ Extrêmement dépendants du corpus d’entraînement :
I
I
genre, domaine et notions de découpage en mots et en phrases
nécessairement identiques
Extrême sensibilité aux variations lexicales
Comment évaluer l’impact de ces limitations ?
Problèmes exacerbés dans le cas des NMC
Comment quantifier ces problèmes ?
les évaluer ?
y remédier ?
28 juin 2012
7 / 40
Une telle machinerie est-elle utile ? ?
Problème de l’analyse syntaxique probabiliste
Systèmes actuellement les plus performants MAIS
⇒ Extrêmement dépendants du corpus d’entraînement :
I
I
genre, domaine et notions de découpage en mots et en phrases
nécessairement identiques
Extrême sensibilité aux variations lexicales
Comment évaluer l’impact de ces limitations ?
Vers un nouveau Treebank
Une nouvelle source de données linguistiques
I
I
I
proposant un panel de phénomènes avérés
provenant de sources variés et les plus communes
permettant une évaluation fine de nos outils de contournement
le French Social Media Bank : Un treebank du français tel qu’utilisé
dans les NMC
28 juin 2012
7 / 40
Plan
1
Introduction
2
3
4
5
6
7
French Social Media Bank (1)
Spécifications
Corpus représentatif des usages de la langue
de taille significative (2000 phrases)
couvrant la plupart des usages et contraintes liés aux NMC
I
I
I
Taille limite des messages : propension aux ellipses, abréviations,
apocopes, absence de ponctuation
utilisation d’un vocabulaire spécialisé : jargon, taux élévés de mots
inconnus
orthographe pour le moins non canonique
Choix des phrases arbitraire : lié à notre volonté de représenter un
français désormais courant mais non canonique
⇒ On ne peut donc pas parler de corpus équilibré
28 juin 2012
9 / 40
Choix des sources de corpus
Asynchrone : Forums, web 2.0
I
I
Doctissimo.fr : Forum de santé généraliste, un des plus gros site
français
JeuxVidéos.com : Forums lié à tout ce qui concerne les jeux vidéos
(aide, technique, débat, système d’exploitation, etc..
Temps réel : Plateformes de micro-blogging
I
I
Twitter : plate forme de microblogging, extrêmement en vogue comme
chacun sait - limite à 140 caractères
Facebook : réseau social gargantuesque
Contraintes légales (Corpus anonymisés)
Accords officiels de diffusion pour Doctissimo et JeuxVidéos.com
Pour Twitter et Facebook, sélection des textes seulement accessibles
sans enregistrement préalable (Doctrine du Fair Use)
28 juin 2012
10 / 40
Exemples corpus : Doctissimo.fr
Présupposé très discutable : le niveau de respect de la langue est
probablement lié à l’âge de l’auteur
⇒ Nous voulions avoir un panel large (y compris du texte relativement
bien édité)
Thème 1 : Problèmes touchant les femmes enceintes primipares
⇒ Niveau de langue : moyen
Thème 2 : Problèmes liés à la contraception des adolescentes
⇒ Niveau de langue : bruité
28 juin 2012
11 / 40
Critère de sélection des corpus : Doctissimo.fr (Exemples)
(3) a. pt que les choses ont changé depuis ?
Peut-être que les choses ont changé depuis ?
Thème 1
b. lol vu que 2-3 smaine apres qd jai su que j’etai enceinte jetai de 3
semaine.....
Rires, vu que 2-3 semaines après, quand j’ai su que j’étais
enceinte, je l’étais de 3 semaines....
Thème 2
28 juin 2012
11 / 40
Critère de sélection des corpus : Doctissimo.fr (2)
Problème : Textes selectionnés ne présentent que trop peu de cas
extrêmes
Solution : choisir des textes avec le moins de contrôle possible de la
part de l’auteur
⇒ Des textes au contenu émotionnel chargé
Sélection de quelques textes relatifs à la détresse sentimentale et
affective
⇒ Contenu extrêmement bruité
28 juin 2012
11 / 40
Exemple (suite) : Doctissimo.fr
(8) a. car je ne me senté pa desiré, pa aimé, pa bel du cou, g t pa grd
chose en fet.
Car je ne me sentais pas désirée, pas aimée, pas belle du coup, je
n’étais pas grand chose en fait.
28 juin 2012
11 / 40
Critère de sélection : JeuxVidéos.com
Objectif : Corpus avec lexique très spécialisé, beaucoup d’emprunts,
beaucoup d’anglicisme et un très riche vocabulaire. Contient aussi
toute une gestuelle propre : smileys sur-representés, “+1”, éléments
métadiscursifs (reprise de texte, etc..)
Thématique : Fils de discussions les plus fréquentés (Jeux vidéos :
Call of Duty, Linux, problèmes matériels et logiciels)
28 juin 2012
12 / 40
Exemple (suite) : JeuxVidéos.com
(10) a. Ces pas possible déjà que battelfield a un passe online
Ce n’est pas possible, Battlefield a déjà un pass en ligne
b. je suis lvl 56
Je suis au niveau 56
c. Si y’a que Juliet &Zayn qui sont co’ sur le RPG,et qui font leur vie
tranquilles
Si, il n’y a que Juliet et Zayn qui sont chef des opérations sur le
RPG, et qui font leurs vies tranquillement
28 juin 2012
12 / 40
Critère de sélection : Twitter
Contexte : Média social Temps réel par excellence. Twitter ne permet
pas un accès libre et gratuit à ses archives. Le contenu évolue en
fonction de l’actualité
Thématique : Mots clefs liés à l’actualité du moment (Novembre 2011)
⇒ Difficultés à trouver des textes “naturels” qui émergent du flux : La
plupart des tweets saillants sont issus d’auteurs, de bloggeurs semi
voire professionnels, d’habitués cherchant le trait d’esprit en 140
caractères. (Contrairement aux US où le tweet est en train de
supplante les SMS)
⇒ Difficultés à identifier le contenu informationnel des tweets : retweets,
follow-up, hashtag intégrés ou non dans le tweet (J’aime bcp le
#football en ce moment vs l’EDF a perdu ! ! ! #football #equipeFR
#leparisien)
28 juin 2012
13 / 40
Critère de sélection (suite) : Twitter
Comment trouver des tweets non édités ?
pas de thématiques spécifiques : Mots clefs relativement aléatoires
résolument liés à l’actualité (objets de la vie courantes, argot, verlan,
etc..)
⇒ ici encore, présupposés presque cynique sur le niveau de bruit
attendu
28 juin 2012
13 / 40
Exemple (suite) : Twitter
(13) a. Je soupçonnes que "l’enfarineuse" était en faite une cocaineuse
vu la pêche de #Hollande ce soir à #Rouen.
Je soupçonne que l’enfarineuse était en fait une cocaïneuse vu la
pêche de #Hollande ce soir à #Rouen.
Thèmes d’actualités (relativement édités)
b. @IziiBabe C mm pa élégant wsh tpx mm pa marshé a coté dsa d
meufs ki fnt les thugs c mm pa leur rôle wsh
Ce n’est même pas élégant voyons, tu ne peux même pas marcher
à coté de sa petite amie qu’ils font les voyous, ce n’est même pas
leur rôle voyons. (traduction imparfaite)
28 juin 2012
13 / 40
Critère de sélection : Facebook
Contexte : Réseau social à diffusion semi privée. Facebook ne
permet pas d’accès généralisé au contenu privé.
Objectif : se focaliser sur les interventions sur des “murs” ouverts à
tous (homme politique, marques, semi-célibrités). Récolter des
formes extrêmes de français bruités.
⇒ Difficultés : le contenu informationnel se trouve noyé dans la masse
d’information d’une page (status, nom de login, date, nombre de likes,
commentaires, etc...)
⇒ Ce même contenu s’exprime parfois graphiquement (J’r ma 6t Votez → :)Hollande :) )
la notion de découpage en phrase a parfois peu de sens et se
rapproche de l’oral avec des tours de paroles, des interruptions, etc...
28 juin 2012
14 / 40
Exemples : Facebook
(15) a. L’ Ange Michael vraiment super conten pour toi mé tora plus grace
a moi tkt love you !
L’Ange Michael : (Je suis) Vraiment super content pour mais tu auras plus grace à moi. Ne t’inquiètes pas. Je t’aime !
b. Afida : Viens on se check dans la vibes du moove pour voir comment on peut faire la hype à Hollywood avec Jane et Bryan
Afida : (sans commentaires)
28 juin 2012
14 / 40
Phénomènes les plus saillants
Lexicaux
Les contractions non standard : Jme (je me), lapa (elle n’a pas), atu
as-tu, kil (qu’il), ct (c’était)
⇒ Recoupent des phénomènes divers : mauvaise ponctuation, erreurs
typographiques ou volonté de briéveté (apocopes, abréviation,
suppression des voyelles, etc.), voire transfert du langage SMS (dont
l’usage s’est généralisé bien avant les NMCs)
Créativité lexicale et lexique spécialisé : Peu de recoupement de mots
inconnus (hors erreurs typographiques) entre domaine bien délimités.
⇒ Domaine JeuxVidéos : le plus riche en terme d’inventivité, d’emprunts
à l’anglais (verbe dénominaux : lagger, fragger, headshoter, rebooter,
etc..). Facebook et Twitter (non edité) : les plus extrêmes dans le nom
respect de la norme.
28 juin 2012
15 / 40
Phénomènes les plus saillants
Syntaxiques
Sursegmentation (frontière morpho-syntaxe) : Phénomènes fréquents
(quoique -> koi ke) surtout après une contraction (c’était -> ct -> c t ;
il a raison -> ila ré zon ; parce qu’il -> parcekil -> parcek y) ou
absence du tiret de liaison (rendez-vous -> rendez vous)
Généralisation des phénomènes d’ellipses sur les pure média
sociaux : lié à la limite formelle (Twitter) ou visuelle (Facebook :
fenêtre d’affichage des messages)
Généralisation des disloquées dans les forums : (le doliprane, moi,
on m’a dit que.., des clivées (c’est le samedi que ça se passe),
des formes à l’impératif (redis-le doucement ?)
⇒ Autant de formes très peu présentes dans le corpus d’entraînement
et que les analyseurs statistiques ne peuvent donc pas analyser de
façon satisfaisante.
28 juin 2012
15 / 40
Caractéristiques du Treebank
Doctissimo
Facebook
JeuxVideos
Twitter
Total
nombe
de phrases
965
417
324
240
1946
nombre
de tokens
11460
2772
4252
2183
20667
longueur
moyenne
11.88
6.65
13.12
9.10
10.6
écart-type
9.36
6.18
12.53
7.08
-
28 juin 2012
16 / 40
Comment annoter de telles données ?
Corpus variés
I
I
sources, thématiques
niveau de langue, niveau de bruit
Une annotation avec des outils standard ne fonctionne
de façon utilisable que sur les données les moins bruités
→ besoin d’une annotation alternative pour les données les
plus bruitées
→ besoin d’un moyen de mesurer objectivement le niveau
de déviation d’un sous-corpus par rapport à une norme
28 juin 2012
17 / 40
Mesurer quantitativement le caractère non-standard
Objectif : évaluer quantitativement la distance entre un sous-corpus et
un texte considéré comme standard (ici, le Corpus Arboré de Paris 7)
Déviation par rapport au standard
mesure statistique qui estime la divergence entre séquences de 3
caractères dans le corpus à évaluer par rapport à celles du corpus de
référence
divergence de Kullback-Leibler
Bonne corrélation avec l’intuition
Doctissimo
sous-corpus très bruité
autres sous-corpus
JeuxVideos.com
Twitter
autres sous-corpus
Facebook
0.43
1.07
0.29
0.75
1.36
1.46
1.09
2.58
28 juin 2012
18 / 40
référence
Doctissimo
autres sous-corpus
JeuxVideos.com
Twitter
autres sous-corpus
Facebook
0.43
1.07
0.29
0.75
1.36
1.46
1.09
2.58
28 juin 2012
18 / 40
référence
Doctissimo
JeuxVideos.com
Twitter
autres sous-corpus
Facebook
0.43
1.07
0.29
0.75
1.36
1.46
1.09
2.58
28 juin 2012
18 / 40
Protocole d’annotation
Protocole séquenciel :
1
2
3
4
5
6
annotation morphosyntaxique automatique
correction/validation manuelle des étiquettes morphosyntaxiques
analyse syntaxique automatique, avec en entrée les étiquettes
corrigées/validées manuellement
correction/validation manuelle des arbres de constituants
étiquetage fonctionnel automatique sur les arbres de constituants
corrigés/validés manuellement
correction/validation manuelle des étiquettes fonctionnelles
À chaque étape, deux anotatrices, déjà formées aux guides
d’annotation (annotatrices du corpus Sequoia)
I
I
I
une annotatrice corrige le résultat de l’annotation automatique
la seconde vérifie le résultat de cette correction
d’un fichier à annoter à l’autre, les annotatrices inversent les rôles
28 juin 2012
19 / 40
Plan
1
Introduction
2
3
4
5
6
7
Deux chaînes d’annotation morphosyntaxique
segmentation en phrases
tokenisation
mesure de déviation du standard
>1
normalisation
étiquetage morphosyntaxique
<=1
étiquetage morphosyntaxique
restauration des tokens d’origine
validation manuelle
28 juin 2012
21 / 40
Annotation de base
outils de segmentation du système Bonsai (analyseurs syntaxiques
probabilistes du français)
étiqueteur morpho-syntaxique Morfette (Chrupała et al 2008)
I
I
état-de-l’art pour le français, meilleurs résultats sur les mots connus
jeu d’étiquettes du Corpus Arboré de Paris 7, version dite
« FTB-UC »(Candito et Crabbé 2009)
→ chaîne utilisée pour pré-annoter les sous-corpus de niveau de
déviation ≤ 1
28 juin 2012
22 / 40
Annotation pour textes fortement bruités
outils de segmentation du système Bonsai (analyseurs syntaxiques
probabilistes du français)
reconnaissance de certaines « entités nommées » au moyen de
modules de la chaîne SxPipe
module de normalisation de textes bruités
étiqueteur morpho-syntaxique MElt (Denis et Sagot 2009) appliqué au
texte normalisé
I
I
état-de-l’art pour le français, meilleurs résultats sur les mots inconnus
même jeu d’étiquettes
dé-normalisation et distribution des étiquettes sur les tokens
d’origine
→ chaîne utilisée pour pré-annoter les sous-corpus de niveau de
déviation > 1
28 juin 2012
23 / 40
sa fé o moin 6 mois qe les preliminaires sont "sauté" c a dire qil yen a
presk pa
Tokens
d’origine
sa
fé
o moin
6
mois
qe
les
preliminaires
sont
"
sauté
"
c a dire
qil
yen
a
presk
pa
« Tokens »
corrigés :
référence
ça
fait
au_moins
6
mois
que
les
préliminaires
sont
"
sautés
"
c’est-à-dire
qu’ il
y en
a
presque
pas
« Tokens » corrigés
et étiquetés
automatiquement
ça/PRO
fait/V
au/P+D moins/ADV
6/DET
mois/NC
que/PROREL
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c’est-à-dire/CC
qu’/CS il/CLS
y/CLO en/CLO
a/V
presque/ADV
pas/ADV
Étiquettes attribuées
automatiquement
aux tokens d’origine
sa/PRO
fé/V
o/P+D moin/ADV
6/DET
mois/NC
qe/PROREL
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c/Y a/Y dire/Y
qil/X
yen/X
a/V
presk/ADV
pa/ADV
Étiquettes
corrigées manuellement
sur les tokens d’origine
sa/PRO
fé/V
o/P+D moin/ADV
6/DET
mois/NC
qe/CS
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c/Y a/Y dire/Y
qil/X
yen/X
a/V
presk/ADV
pa/ADV
28 juin 2012
24 / 40
presk pa
Tokens
d’origine
sa
fé
o moin
6
mois
qe
les
preliminaires
sont
"
sauté
"
c a dire
qil
yen
a
presk
pa
« Tokens »
corrigés :
référence
ça
fait
au_moins
6
mois
que
les
préliminaires
sont
"
sautés
"
c’est-à-dire
qu’ il
y en
a
presque
pas
et étiquetés
automatiquement
ça/PRO
fait/V
au/P+D moins/ADV
6/DET
mois/NC
que/PROREL
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c’est-à-dire/CC
qu’/CS il/CLS
y/CLO en/CLO
a/V
presque/ADV
pas/ADV
automatiquement
sa/PRO
fé/V
o/P+D moin/ADV
6/DET
mois/NC
qe/PROREL
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c/Y a/Y dire/Y
qil/X
yen/X
a/V
presk/ADV
pa/ADV
Étiquettes
sa/PRO
fé/V
o/P+D moin/ADV
6/DET
mois/NC
qe/CS
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c/Y a/Y dire/Y
qil/X
yen/X
a/V
presk/ADV
pa/ADV
28 juin 2012
24 / 40
presk pa
Tokens
d’origine
sa
fé
o moin
6
mois
qe
les
preliminaires
sont
"
sauté
"
c a dire
qil
yen
a
presk
pa
« Tokens »
corrigés :
référence
ça
fait
au_moins
6
mois
que
les
préliminaires
sont
"
sautés
"
c’est-à-dire
qu’ il
y en
a
presque
pas
et étiquetés
automatiquement
ça/PRO
fait/V
au/P+D moins/ADV
6/DET
mois/NC
que/PROREL
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c’est-à-dire/CC
qu’/CS il/CLS
y/CLO en/CLO
a/V
presque/ADV
pas/ADV
automatiquement
sa/PRO
fé/V
o/P+D moin/ADV
6/DET
mois/NC
qe/PROREL
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c/Y a/Y dire/Y
qil/X
yen/X
a/V
presk/ADV
pa/ADV
Étiquettes
sa/PRO
fé/V
o/P+D moin/ADV
6/DET
mois/NC
qe/CS
les/DET
preliminaires/NC
sont/V
"/PONCT
sauté/VPP
"/PONCT
c/Y a/Y dire/Y
qil/X
yen/X
a/V
presk/ADV
pa/ADV
28 juin 2012
24 / 40
Plan
1
Introduction
2
3
4
5
6
7
Annotation Syntaxique
Schéma d’annotation : base schéma du Corpus Arboré de Paris 7 (FTB)
Utilisation des guides d’annotation + le FTB + discussion
(Abeillé et al., 2004 ; Abeillé 2004 ; Abeillé et Clément, 2006)
Annotation des :
I
I
I
Étiquettes morpho-syntaxiques (catégories, traits morphologiques)
Constituants
Fonctions grammaticales pour les dépendants des verbes
Spécificités par rapport au Corpus Arboré de Paris 7 (FTB)
Mots composés (seuls les composés insécables et à sélection non libre
sont annotés)
Format (Format parenthésée type Penn Treebank - moins riche)
Annotation des contractions non standard et des sursegmentations
(jeu d’annotation enrichi pour les premiers — CL+V+Neg, DET+NC,. . . —,
en cours de finition pour les seconds)
28 juin 2012
26 / 40
Annotation des :
I
I
I
Constituants
Méthodologie d’annotation
Après la phase d’étiquetage morphosyntaxique, un analyseur
syntaxique état-de-l’art (PCFG-LA, (Petrov et al., 2006) génère les
annotations )
Celles-ci sont ensuite corrigées manuellement à l’aide de l’outil
Wordfreak
Une phase d’annotation fonctionnelle est ensuite effectuée (Candito et
al., 2009) puis corrigée à nouveau
28 juin 2012
26 / 40
Annotation des :
I
I
I
Constituants
Extensions prévues
Version « gold » : Corrections de tous les tokens non standard.
L’idée est de proposer le corpus en 2 versions : l’une bruitée, l’autre
« normalisée »
Ajout d’informations morphologiques : lemme, catégorie
morphosyntaxique, traits morphologique
Facile à générer, de très bons analyseurs morphologiques sont
disponibles et permettront une annotation et une correction très
rapide
28 juin 2012
26 / 40
Plan
1
Introduction
2
3
4
5
6
7
Campagne d’évaluation “Parsing the Web” (SANCL
2012)
Évaluer les analyseurs syntaxiques sur des données extraites du web
Organisateur : Google
Langue : anglais
Corpus : « réponses », e-mails, forums, « avis », blogs
Données : corpus de développement de tailles réduites, annoté
manuellement + gros volume de données brutes
Tâche : analyse syntaxique, soit en constituants, soit en dépendances
Référence : Google WebBank, corpus arboré annoté manuellement
Résultats présentés à SANCL, workshop de NAACL 2012
28 juin 2012
28 / 40
Campagne d’évaluation “Parsing the Web” SANCL 2012
Architecture et Résultats
Nous avons participé à cette campagne (tâche d’analyse en constituants) :
Architecture : adaptation/extension de celle décrite ci-dessus
Analyseur syntaxique probabiliste (LORG, repose sur les PCFG-LA)
Adaptation au « nouveau domaine » par clustering lexical sur les
corpus bruts et auto-apprentissage (self-training)
→ Nos systèmes ont été classés resp. deuxièmes et troisièmes (entre Dublin City University/Université Paris 13 et Stanford University).
(Seddah et al 2012 ; Petrov et McDonald 2012)
28 juin 2012
29 / 40
Plan
1
Introduction
2
3
4
5
6
7
Le corpus de transcriptions TCOF
Corpus de transcriptions TCOF (André et Canut 2010), librement
disponible (100 000 tokens)
Exemple :
L1 et puis je crois que c’est en je crois je crois même que c’est
en zone industrielle
L2 ouais ouais je pense aussi ça doit pas être en ville
L1 oui mais
L2 en Belgique aussi il y a des trucs euh un genre de grand
tr- enfin un genre de grande galerie en Belgique et puis
c’est que des magasins de fringues aussi
28 juin 2012
31 / 40
Exemple : quelques points communs avec les données NMC
L1 oui mais
28 juin 2012
31 / 40
Exemple : nombreux phénomènes spécifiques à l’oral
L1 oui mais
28 juin 2012
31 / 40
Construction du TCOF-POS (Benzitoun et al 2012)
Pré-annotation : tree-tagger (83% de précision, entraîné sur des
données écrites standard)
Jeu d’étiquettes : 62 étiquettes (plus précis que précédemment)
Méthodologie très contrôlée d’annotation manuelle, pour garantir la
meilleure qualité possible
I
Double annotation puis adjudication des différences
Ré-entraînement de tree-tagger à mi-parcours, grâce aux données
déjà corrigées
I l’accord inter-annotateurs (κ
Cohen ) passe de 94% à 98%
I
I
la précision mesurée a posteriori sur la version adjudiquée passe de
91% à 96%
temps d’annotation presque divisé par deux
28 juin 2012
32 / 40
Étiquetage morphosyntaxique de transcriptions de l’oral
Courbes d’apprentissage pour tree-tagger et MElt : précision vs. nombre
de fichiers utilisés pour l’apprentissage (1 fichier ∼ 500 phrases)
28 juin 2012
33 / 40
Plan
1
Introduction
2
3
4
5
6
7
Conclusion
Corpus annoté morphosyntaxiquement, en arbres de constituance et en
fonctions syntaxiques 20 000 tokens issus des NMC
Disponibilité du French Social Media Bank
Disponible lorsqu’il aura été finalisé complètement
Licence libre LGPL-LR
Corpus annoté morphosyntaxiquement de 100 000 tokens de transcription
de données orales
Disponibilité de TCOF-POS
Disponible sur le site du CNRTL
Licence libre Creative Commons BY-NC-SA
28 juin 2012
35 / 40
Perspectives
En traitement automatique :
I
I
I
normalisation textuelle
étiquetage et analyse syntaxique automatique, soit par apprentissage
direct sur nos données, soit en passant par des phases de
normalisation et de dénormalisation
traitement des mots inconnus, lexique dynamique, évolutions au fil du
temps
En linguistique :
I
I
I
un accès à des données langagières non normatives (linguistique de
corpus)
type de données dans lesquelles certaines certitudes linguistiques
sont mises à mal
une nouvelle forme de « linguistique de terrain »
Pour les deux domaines : qu’y a-t-il de commun et de différent entre
données textuelles issues des NMC et données orales transcrites ?
À terme : annoter 10 000 phrases de domaines variés et de genres variés
28 juin 2012
36 / 40
Merci !
28 juin 2012
37 / 40
Quelques spécificités
Le vocabulaire communautaire
Les modifieurs
re, grave, trop "Trop fuuuuuuune" (Twitter), molo "faut yaller molo" (Twitter),
super dans j’en suis super satisfaite (Doctissimo), chelou "une meuf elle
me regarde chelou" (Twitter)
Les nouveaux adjectifs
issu du verlan : chelou, meuf, quécho (Twitter), keum "meuf dis quand t’as
keums sur twitter" (Twitter), relou "je suis tjs relou en bouffe" (Twitter) "ce qui
est relou" (Twitter), teubé (Twitter), reubeu (Twitter), swaag "il es sawaag"
(Twitter)
emprunts à l’anglais : good — "c’est trop good" (Twitter), down "le site du
centre pompidou est down. . . "
swaag — "il es sawaag" (Twitter)
28 juin 2012
38 / 40
les nouveaux verbes (1/2)
kicker "ils m’ont kické à cause d’une querelle avec un autre gars",
"vien on la kick" (Twitter)
taffer "Tu taf en quoi ?"
chatter "Enfin pour chatter en ligne sur Skype" (JeuxVideos.com)
adder "tu m’add quand tu peux"
save "save ?"
twi(i)ter ou tweeter "tweetez-moi" (Twitter),
sms "sms-moi"(Twitter)
spoiler " spoilez pas "
28 juin 2012
39 / 40
les nouveaux verbes (2/2)
faire péter qqch " cmm a y pete les uv " (Twitter) / péter qqch "y pete
les uv" (∼faire des UV — Twitter)
péter un cable "il a pêté un câble" (JeuxVideos.com)
faire chier "qui aime bien fait bien chier" (Twitter)
saouler "j’me saoule toute seule" (Twitter)
mater "je mate la téloche sur mon canap’" (Twitter)
lover qqn "on te love" (FaceBook)
s’éclater " Eclates toi bien" (FaceBook)
kiffer "on te kiffffffffff" (FaceBook)
28 juin 2012
40 / 40
divers
Tchuus les mioches
téloche
canap’
matos (JeuxVideos.com)
cacheton
zerma (Twitter)
conasse (Twitter)
feignasse (Twitter)
28 juin 2012
41 / 40

Annoter des corpus non

Transcription

Documents pareils

La question de corpus

sujets de dissertation sur l`argumentation

Medinfo 2007 "Evaluation of a simple method for

article traduction automatique - Laboratoire des Théories et Modèles

L`arrivée du Corpus Christi en Espagne: les

Les corpus dynamiques et GlossaNet. Extension de

Télécharger le PDF

Alpage de la Ponsonnière - Parc national des Ecrins

Résumé long

Chers frères et sœurs, Je voudrais parler aujourd`hui de Saint Benoît