Annoter des corpus non
Transcription
Annoter des corpus non
Annoter des corpus non-standard Benoît Sagot en collaboration avec Djamé Seddah, Marie Candito, Virginie Mouilleron, Vanessa Combet, Christophe Benzitoun, Karën Fort Alpage, INRIA Paris-Rocquencourt & Université Paris 7 IR Corpus — Consortium Corpus Écrits — Groupe de travail 7 28 juin 2012 Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 1 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 2 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives Données textuelles issus des nouveaux moyens de communication Nouveaux moyens de communication Forums, e-mails (années 1960/1970) Messagerie instantanée (fin des années 1970), utilisation massive depuis la fin des années 1990 SMS (1993), utilisation en très forte croissance depuis la fin des années 1990 Blogs (fin des années 1990), utilisation massive depuis le début des années 2000 Médias sociaux : Facebook (2004), Twitter (2006), utilisation généralisée depuis quelques années seulement Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 4 / 40 Ni nouveau, ni mal écrit : le Jabberwocky Le Jabberwocky de Lewis Caroll (1872) ’Twas brillig, and the slithy toves Did gyre and gimble in the wabe ; All mimsy were the borogoves, And the mome raths outgrabe. Un objet d’étude unique pour la linguistique Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 5 / 40 Ni nouveau, ni mal écrit : le Jabberwocky Le Jabberwocky de Lewis Caroll (1872) ’Twas brillig, and the slithy toves Did gyre and gimble in the wabe ; All mimsy were the borogoves, And the mome raths outgrabe. À première vue, peu en commun entre Lewis Caroll et les textes issus des nouveaux moyens de communication (NMC) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 5 / 40 Ni nouveau, ni mal écrit : le Jabberwocky Le Jabberwocky de Lewis Caroll (1872) ’Twas brillig, and the slithy toves Did gyre and gimble in the wabe ; All mimsy were the borogoves, And the mome raths outgrabe. À première vue, peu en commun entre Lewis Caroll et les textes issus des nouveaux moyens de communication Extrait du sous-corpus “réponses” du corpus Google WebBank maybe they like u or they just r weird Im sorry to the person I called A freaazoid ? it is allright i guess you cooled down now, wan na be friends ? ? Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 5 / 40 Ni nouveau, ni mal écrit : le Jabberwocky À première vue, peu en commun entre Lewis Caroll et les textes issus des NMC, mis à part : ⇒ mots inconnus (typos, capitalisation, créativité lexicale, nouveaux domaines, nouveaux mots) Le Jabberwocky de Lewis Caroll (1872) ’Twas brillig, and the slithy toves Did gyre and gimble in the wabe ; All mimsy were the borogoves, And the mome raths outgrabe. Extrait du sous-corpus “réponses” du corpus Google WebBank maybe they like u or they just r weird Im sorry to the person I called A freaazoid ? it is allright i guess you cooled down now, wanna be friends ? ? Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 5 / 40 Ni nouveau, ni mal écrit : le Jabberwocky À première vue, peu en commun entre Lewis Caroll et les textes issus des NMC, mis à part : ⇒ mots inconnus ⇒ Tokenisation (découpage en “mots”) Le Jabberwocky de Lewis Caroll (1872) ’Twas brillig, and the slithy toves Did gyre and gimble in the wabe ; All mimsy were the borogoves, And the mome raths outgrabe. Extrait du sous-corpus “réponses” du corpus Google WebBank maybe they like u or they just r weird Im sorry to the person I called A freaazoid ? it is allright i guess you cooled down now, wanna be friends ? ? Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 5 / 40 Ni nouveau, ni mal écrit : le Jabberwocky À première vue, peu en commun entre Lewis Caroll et les textes issus des NMC, mis à part : ⇒ mots inconnus, tokenisation ⇒ Découpage en “phrases”/“énoncés” Le Jabberwocky de Lewis Caroll (1872) ’Twas brillig, and the slithy toves Did gyre and gimble in the wabe ;\n? All mimsy were the borogoves, And the mome raths outgrabe.\n Extrait du sous-corpus “réponses” du corpus Google WebBank maybe they like u or they just r weird \n Im sorry to the person I called A freaazoid ? it is allright\n i guess you cooled down now,\n? wanna be friends ? ?\n Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 5 / 40 Le syndrome du Jabberwocky : annoter du texte non-standard Non-standard à trois niveaux, qu’il faut savoir traiter : ⇒ les unités de base : tokenisation ⇒ le niveau lexical : mots inconnus ⇒ le niveau syntaxique : segmentation en phrases, structures syntaxiques Tout en ayant à traiter certains phénomènes inattendus ⇒ Syntaxe distordue (cf. Best. Workshop. Ever., www.idontknow.com, @John seriously, dude...”) ⇒ Binettes (smileys) : méta-texte ou “mots” de plein droit ? La linguistique c’est chouette :) vs :) ne veut pas dire que c’est marrant ⇒ . . . et nous laissons de côté les mélanges d’encodages, le code mixing, l’ASCII art. . . Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 6 / 40 Le syndrome du Jabberwocky : annoter du texte non-standard Non-standard à trois niveaux, qu’il faut savoir traiter : ⇒ les unités de base : tokenisation ⇒ le niveau lexical : mots inconnus ⇒ le niveau syntaxique : segmentation en phrases, structures syntaxiques Principes de base pour annoter de telles données : Pré-traitements lourds pour améliorer la pré-annotation Extension des guides d’annotation — points communs avec l’annotation de l’oral (méta-texte..) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 6 / 40 Le syndrome du Jabberwocky : annoter du texte non-standard Non-standard à trois niveaux, qu’il faut savoir traiter : ⇒ les unités de base : tokenisation ⇒ le niveau lexical : mots inconnus ⇒ le niveau syntaxique : segmentation en phrases, structures syntaxiques Principes de base pour analyser de telles données : Pré-traitements lourds pour “nettoyer le texte” de ses scories Etiquettage morpho-syntaxique rigoureux Analyse syntaxique robuste Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 6 / 40 Une telle machinerie est-elle utile ? ? Problème de l’analyse syntaxique probabiliste Systèmes actuellement les plus performants MAIS ⇒ Extrêmement dépendants du corpus d’entraînement : I I genre, domaine et notions de découpage en mots et en phrases nécessairement identiques Extrême sensibilité aux variations lexicales Comment évaluer l’impact de ces limitations ? Problèmes exacerbés dans le cas des NMC Comment quantifier ces problèmes ? les évaluer ? y remédier ? Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 7 / 40 Une telle machinerie est-elle utile ? ? Problème de l’analyse syntaxique probabiliste Systèmes actuellement les plus performants MAIS ⇒ Extrêmement dépendants du corpus d’entraînement : I I genre, domaine et notions de découpage en mots et en phrases nécessairement identiques Extrême sensibilité aux variations lexicales Comment évaluer l’impact de ces limitations ? Vers un nouveau Treebank Une nouvelle source de données linguistiques I I I proposant un panel de phénomènes avérés provenant de sources variés et les plus communes permettant une évaluation fine de nos outils de contournement le French Social Media Bank : Un treebank du français tel qu’utilisé dans les NMC Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 7 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives French Social Media Bank (1) Spécifications Corpus représentatif des usages de la langue de taille significative (2000 phrases) couvrant la plupart des usages et contraintes liés aux NMC I I I Taille limite des messages : propension aux ellipses, abréviations, apocopes, absence de ponctuation utilisation d’un vocabulaire spécialisé : jargon, taux élévés de mots inconnus orthographe pour le moins non canonique Choix des phrases arbitraire : lié à notre volonté de représenter un français désormais courant mais non canonique ⇒ On ne peut donc pas parler de corpus équilibré Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 9 / 40 French Social Media Bank (2) Choix des sources de corpus Asynchrone : Forums, web 2.0 I I Doctissimo.fr : Forum de santé généraliste, un des plus gros site français JeuxVidéos.com : Forums lié à tout ce qui concerne les jeux vidéos (aide, technique, débat, système d’exploitation, etc.. Temps réel : Plateformes de micro-blogging I I Twitter : plate forme de microblogging, extrêmement en vogue comme chacun sait - limite à 140 caractères Facebook : réseau social gargantuesque Contraintes légales (Corpus anonymisés) Accords officiels de diffusion pour Doctissimo et JeuxVidéos.com Pour Twitter et Facebook, sélection des textes seulement accessibles sans enregistrement préalable (Doctrine du Fair Use) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 10 / 40 French Social Media Bank (4) Exemples corpus : Doctissimo.fr Présupposé très discutable : le niveau de respect de la langue est probablement lié à l’âge de l’auteur ⇒ Nous voulions avoir un panel large (y compris du texte relativement bien édité) Thème 1 : Problèmes touchant les femmes enceintes primipares ⇒ Niveau de langue : moyen Thème 2 : Problèmes liés à la contraception des adolescentes ⇒ Niveau de langue : bruité Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 11 / 40 French Social Media Bank (4) Critère de sélection des corpus : Doctissimo.fr (Exemples) (3) a. pt que les choses ont changé depuis ? Peut-être que les choses ont changé depuis ? Thème 1 b. lol vu que 2-3 smaine apres qd jai su que j’etai enceinte jetai de 3 semaine..... Rires, vu que 2-3 semaines après, quand j’ai su que j’étais enceinte, je l’étais de 3 semaines.... Thème 2 Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 11 / 40 French Social Media Bank (4) Critère de sélection des corpus : Doctissimo.fr (2) Problème : Textes selectionnés ne présentent que trop peu de cas extrêmes Solution : choisir des textes avec le moins de contrôle possible de la part de l’auteur ⇒ Des textes au contenu émotionnel chargé Sélection de quelques textes relatifs à la détresse sentimentale et affective ⇒ Contenu extrêmement bruité Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 11 / 40 French Social Media Bank (4) Exemple (suite) : Doctissimo.fr (8) a. car je ne me senté pa desiré, pa aimé, pa bel du cou, g t pa grd chose en fet. Car je ne me sentais pas désirée, pas aimée, pas belle du coup, je n’étais pas grand chose en fait. Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 11 / 40 French Social Media Bank (5) Critère de sélection : JeuxVidéos.com Objectif : Corpus avec lexique très spécialisé, beaucoup d’emprunts, beaucoup d’anglicisme et un très riche vocabulaire. Contient aussi toute une gestuelle propre : smileys sur-representés, “+1”, éléments métadiscursifs (reprise de texte, etc..) Thématique : Fils de discussions les plus fréquentés (Jeux vidéos : Call of Duty, Linux, problèmes matériels et logiciels) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 12 / 40 French Social Media Bank (5) Exemple (suite) : JeuxVidéos.com (10) a. Ces pas possible déjà que battelfield a un passe online Ce n’est pas possible, Battlefield a déjà un pass en ligne b. je suis lvl 56 Je suis au niveau 56 c. Si y’a que Juliet &Zayn qui sont co’ sur le RPG,et qui font leur vie tranquilles Si, il n’y a que Juliet et Zayn qui sont chef des opérations sur le RPG, et qui font leurs vies tranquillement Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 12 / 40 French Social Media Bank (6) Critère de sélection : Twitter Contexte : Média social Temps réel par excellence. Twitter ne permet pas un accès libre et gratuit à ses archives. Le contenu évolue en fonction de l’actualité Thématique : Mots clefs liés à l’actualité du moment (Novembre 2011) ⇒ Difficultés à trouver des textes “naturels” qui émergent du flux : La plupart des tweets saillants sont issus d’auteurs, de bloggeurs semi voire professionnels, d’habitués cherchant le trait d’esprit en 140 caractères. (Contrairement aux US où le tweet est en train de supplante les SMS) ⇒ Difficultés à identifier le contenu informationnel des tweets : retweets, follow-up, hashtag intégrés ou non dans le tweet (J’aime bcp le #football en ce moment vs l’EDF a perdu ! ! ! #football #equipeFR #leparisien) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 13 / 40 French Social Media Bank (6) Critère de sélection (suite) : Twitter Comment trouver des tweets non édités ? pas de thématiques spécifiques : Mots clefs relativement aléatoires résolument liés à l’actualité (objets de la vie courantes, argot, verlan, etc..) ⇒ ici encore, présupposés presque cynique sur le niveau de bruit attendu Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 13 / 40 French Social Media Bank (6) Exemple (suite) : Twitter (13) a. Je soupçonnes que "l’enfarineuse" était en faite une cocaineuse vu la pêche de #Hollande ce soir à #Rouen. Je soupçonne que l’enfarineuse était en fait une cocaïneuse vu la pêche de #Hollande ce soir à #Rouen. Thèmes d’actualités (relativement édités) b. @IziiBabe C mm pa élégant wsh tpx mm pa marshé a coté dsa d meufs ki fnt les thugs c mm pa leur rôle wsh Ce n’est même pas élégant voyons, tu ne peux même pas marcher à coté de sa petite amie qu’ils font les voyous, ce n’est même pas leur rôle voyons. (traduction imparfaite) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 13 / 40 French Social Media Bank (7) Critère de sélection : Facebook Contexte : Réseau social à diffusion semi privée. Facebook ne permet pas d’accès généralisé au contenu privé. Objectif : se focaliser sur les interventions sur des “murs” ouverts à tous (homme politique, marques, semi-célibrités). Récolter des formes extrêmes de français bruités. ⇒ Difficultés : le contenu informationnel se trouve noyé dans la masse d’information d’une page (status, nom de login, date, nombre de likes, commentaires, etc...) ⇒ Ce même contenu s’exprime parfois graphiquement (J’r ma 6t Votez → :)Hollande :) ) la notion de découpage en phrase a parfois peu de sens et se rapproche de l’oral avec des tours de paroles, des interruptions, etc... Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 14 / 40 French Social Media Bank (7) Exemples : Facebook (15) a. L’ Ange Michael vraiment super conten pour toi mé tora plus grace a moi tkt love you ! L’Ange Michael : (Je suis) Vraiment super content pour mais tu auras plus grace à moi. Ne t’inquiètes pas. Je t’aime ! b. Afida : Viens on se check dans la vibes du moove pour voir comment on peut faire la hype à Hollywood avec Jane et Bryan Afida : (sans commentaires) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 14 / 40 Phénomènes les plus saillants Lexicaux Les contractions non standard : Jme (je me), lapa (elle n’a pas), atu as-tu, kil (qu’il), ct (c’était) ⇒ Recoupent des phénomènes divers : mauvaise ponctuation, erreurs typographiques ou volonté de briéveté (apocopes, abréviation, suppression des voyelles, etc.), voire transfert du langage SMS (dont l’usage s’est généralisé bien avant les NMCs) Créativité lexicale et lexique spécialisé : Peu de recoupement de mots inconnus (hors erreurs typographiques) entre domaine bien délimités. ⇒ Domaine JeuxVidéos : le plus riche en terme d’inventivité, d’emprunts à l’anglais (verbe dénominaux : lagger, fragger, headshoter, rebooter, etc..). Facebook et Twitter (non edité) : les plus extrêmes dans le nom respect de la norme. Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 15 / 40 Phénomènes les plus saillants Syntaxiques Sursegmentation (frontière morpho-syntaxe) : Phénomènes fréquents (quoique -> koi ke) surtout après une contraction (c’était -> ct -> c t ; il a raison -> ila ré zon ; parce qu’il -> parcekil -> parcek y) ou absence du tiret de liaison (rendez-vous -> rendez vous) Généralisation des phénomènes d’ellipses sur les pure média sociaux : lié à la limite formelle (Twitter) ou visuelle (Facebook : fenêtre d’affichage des messages) Généralisation des disloquées dans les forums : (le doliprane, moi, on m’a dit que.., des clivées (c’est le samedi que ça se passe), des formes à l’impératif (redis-le doucement ?) ⇒ Autant de formes très peu présentes dans le corpus d’entraînement et que les analyseurs statistiques ne peuvent donc pas analyser de façon satisfaisante. Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 15 / 40 French Social Media Bank (7) Caractéristiques du Treebank Doctissimo Facebook JeuxVideos Twitter Total Benoît Sagot (Alpage) nombe de phrases 965 417 324 240 1946 nombre de tokens 11460 2772 4252 2183 20667 longueur moyenne 11.88 6.65 13.12 9.10 10.6 Annoter des corpus non-standard écart-type 9.36 6.18 12.53 7.08 - 28 juin 2012 16 / 40 Comment annoter de telles données ? Corpus variés I I sources, thématiques niveau de langue, niveau de bruit Une annotation avec des outils standard ne fonctionne de façon utilisable que sur les données les moins bruités → besoin d’une annotation alternative pour les données les plus bruitées → besoin d’un moyen de mesurer objectivement le niveau de déviation d’un sous-corpus par rapport à une norme Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 17 / 40 Mesurer quantitativement le caractère non-standard Objectif : évaluer quantitativement la distance entre un sous-corpus et un texte considéré comme standard (ici, le Corpus Arboré de Paris 7) Déviation par rapport au standard mesure statistique qui estime la divergence entre séquences de 3 caractères dans le corpus à évaluer par rapport à celles du corpus de référence divergence de Kullback-Leibler Bonne corrélation avec l’intuition Doctissimo sous-corpus très bruité autres sous-corpus JeuxVideos.com Twitter sous-corpus très bruité autres sous-corpus Facebook Benoît Sagot (Alpage) Annoter des corpus non-standard 0.43 1.07 0.29 0.75 1.36 1.46 1.09 2.58 28 juin 2012 18 / 40 Mesurer quantitativement le caractère non-standard Objectif : évaluer quantitativement la distance entre un sous-corpus et un texte considéré comme standard (ici, le Corpus Arboré de Paris 7) Déviation par rapport au standard mesure statistique qui estime la divergence entre séquences de 3 caractères dans le corpus à évaluer par rapport à celles du corpus de référence divergence de Kullback-Leibler Bonne corrélation avec l’intuition Doctissimo sous-corpus très bruité autres sous-corpus JeuxVideos.com Twitter sous-corpus très bruité autres sous-corpus Facebook Benoît Sagot (Alpage) Annoter des corpus non-standard 0.43 1.07 0.29 0.75 1.36 1.46 1.09 2.58 28 juin 2012 18 / 40 Mesurer quantitativement le caractère non-standard Objectif : évaluer quantitativement la distance entre un sous-corpus et un texte considéré comme standard (ici, le Corpus Arboré de Paris 7) Déviation par rapport au standard mesure statistique qui estime la divergence entre séquences de 3 caractères dans le corpus à évaluer par rapport à celles du corpus de référence divergence de Kullback-Leibler Bonne corrélation avec l’intuition Doctissimo sous-corpus très bruité sous-corpus très bruité JeuxVideos.com Twitter sous-corpus très bruité autres sous-corpus Facebook Benoît Sagot (Alpage) Annoter des corpus non-standard 0.43 1.07 0.29 0.75 1.36 1.46 1.09 2.58 28 juin 2012 18 / 40 Protocole d’annotation Protocole séquenciel : 1 2 3 4 5 6 annotation morphosyntaxique automatique correction/validation manuelle des étiquettes morphosyntaxiques analyse syntaxique automatique, avec en entrée les étiquettes corrigées/validées manuellement correction/validation manuelle des arbres de constituants étiquetage fonctionnel automatique sur les arbres de constituants corrigés/validés manuellement correction/validation manuelle des étiquettes fonctionnelles À chaque étape, deux anotatrices, déjà formées aux guides d’annotation (annotatrices du corpus Sequoia) I I I une annotatrice corrige le résultat de l’annotation automatique la seconde vérifie le résultat de cette correction d’un fichier à annoter à l’autre, les annotatrices inversent les rôles Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 19 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives Deux chaînes d’annotation morphosyntaxique segmentation en phrases tokenisation mesure de déviation du standard >1 normalisation étiquetage morphosyntaxique <=1 étiquetage morphosyntaxique restauration des tokens d’origine validation manuelle Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 21 / 40 Annotation de base outils de segmentation du système Bonsai (analyseurs syntaxiques probabilistes du français) étiqueteur morpho-syntaxique Morfette (Chrupała et al 2008) I I état-de-l’art pour le français, meilleurs résultats sur les mots connus jeu d’étiquettes du Corpus Arboré de Paris 7, version dite « FTB-UC »(Candito et Crabbé 2009) → chaîne utilisée pour pré-annoter les sous-corpus de niveau de déviation ≤ 1 Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 22 / 40 Annotation pour textes fortement bruités outils de segmentation du système Bonsai (analyseurs syntaxiques probabilistes du français) reconnaissance de certaines « entités nommées » au moyen de modules de la chaîne SxPipe module de normalisation de textes bruités étiqueteur morpho-syntaxique MElt (Denis et Sagot 2009) appliqué au texte normalisé I I état-de-l’art pour le français, meilleurs résultats sur les mots inconnus même jeu d’étiquettes dé-normalisation et distribution des étiquettes sur les tokens d’origine → chaîne utilisée pour pré-annoter les sous-corpus de niveau de déviation > 1 Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 23 / 40 Annotation pour textes fortement bruités sa fé o moin 6 mois qe les preliminaires sont "sauté" c a dire qil yen a presk pa Tokens d’origine sa fé o moin 6 mois qe les preliminaires sont " sauté " c a dire qil yen a presk pa « Tokens » corrigés : référence ça fait au_moins 6 mois que les préliminaires sont " sautés " c’est-à-dire qu’ il y en a presque pas Benoît Sagot (Alpage) « Tokens » corrigés et étiquetés automatiquement ça/PRO fait/V au/P+D moins/ADV 6/DET mois/NC que/PROREL les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c’est-à-dire/CC qu’/CS il/CLS y/CLO en/CLO a/V presque/ADV pas/ADV Étiquettes attribuées automatiquement aux tokens d’origine sa/PRO fé/V o/P+D moin/ADV 6/DET mois/NC qe/PROREL les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c/Y a/Y dire/Y qil/X yen/X a/V presk/ADV pa/ADV Annoter des corpus non-standard Étiquettes corrigées manuellement sur les tokens d’origine sa/PRO fé/V o/P+D moin/ADV 6/DET mois/NC qe/CS les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c/Y a/Y dire/Y qil/X yen/X a/V presk/ADV pa/ADV 28 juin 2012 24 / 40 Annotation pour textes fortement bruités sa fé o moin 6 mois qe les preliminaires sont "sauté" c a dire qil yen a presk pa Tokens d’origine sa fé o moin 6 mois qe les preliminaires sont " sauté " c a dire qil yen a presk pa « Tokens » corrigés : référence ça fait au_moins 6 mois que les préliminaires sont " sautés " c’est-à-dire qu’ il y en a presque pas Benoît Sagot (Alpage) « Tokens » corrigés et étiquetés automatiquement ça/PRO fait/V au/P+D moins/ADV 6/DET mois/NC que/PROREL les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c’est-à-dire/CC qu’/CS il/CLS y/CLO en/CLO a/V presque/ADV pas/ADV Étiquettes attribuées automatiquement aux tokens d’origine sa/PRO fé/V o/P+D moin/ADV 6/DET mois/NC qe/PROREL les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c/Y a/Y dire/Y qil/X yen/X a/V presk/ADV pa/ADV Annoter des corpus non-standard Étiquettes corrigées manuellement sur les tokens d’origine sa/PRO fé/V o/P+D moin/ADV 6/DET mois/NC qe/CS les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c/Y a/Y dire/Y qil/X yen/X a/V presk/ADV pa/ADV 28 juin 2012 24 / 40 Annotation pour textes fortement bruités sa fé o moin 6 mois qe les preliminaires sont "sauté" c a dire qil yen a presk pa Tokens d’origine sa fé o moin 6 mois qe les preliminaires sont " sauté " c a dire qil yen a presk pa « Tokens » corrigés : référence ça fait au_moins 6 mois que les préliminaires sont " sautés " c’est-à-dire qu’ il y en a presque pas Benoît Sagot (Alpage) « Tokens » corrigés et étiquetés automatiquement ça/PRO fait/V au/P+D moins/ADV 6/DET mois/NC que/PROREL les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c’est-à-dire/CC qu’/CS il/CLS y/CLO en/CLO a/V presque/ADV pas/ADV Étiquettes attribuées automatiquement aux tokens d’origine sa/PRO fé/V o/P+D moin/ADV 6/DET mois/NC qe/PROREL les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c/Y a/Y dire/Y qil/X yen/X a/V presk/ADV pa/ADV Annoter des corpus non-standard Étiquettes corrigées manuellement sur les tokens d’origine sa/PRO fé/V o/P+D moin/ADV 6/DET mois/NC qe/CS les/DET preliminaires/NC sont/V "/PONCT sauté/VPP "/PONCT c/Y a/Y dire/Y qil/X yen/X a/V presk/ADV pa/ADV 28 juin 2012 24 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives Annotation Syntaxique Schéma d’annotation : base schéma du Corpus Arboré de Paris 7 (FTB) Utilisation des guides d’annotation + le FTB + discussion (Abeillé et al., 2004 ; Abeillé 2004 ; Abeillé et Clément, 2006) Annotation des : I I I Étiquettes morpho-syntaxiques (catégories, traits morphologiques) Constituants Fonctions grammaticales pour les dépendants des verbes Spécificités par rapport au Corpus Arboré de Paris 7 (FTB) Mots composés (seuls les composés insécables et à sélection non libre sont annotés) Format (Format parenthésée type Penn Treebank - moins riche) Annotation des contractions non standard et des sursegmentations (jeu d’annotation enrichi pour les premiers — CL+V+Neg, DET+NC,. . . —, en cours de finition pour les seconds) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 26 / 40 Annotation Syntaxique Schéma d’annotation : base schéma du Corpus Arboré de Paris 7 (FTB) Utilisation des guides d’annotation + le FTB + discussion (Abeillé et al., 2004 ; Abeillé 2004 ; Abeillé et Clément, 2006) Annotation des : I I I Étiquettes morpho-syntaxiques (catégories, traits morphologiques) Constituants Fonctions grammaticales pour les dépendants des verbes Méthodologie d’annotation Après la phase d’étiquetage morphosyntaxique, un analyseur syntaxique état-de-l’art (PCFG-LA, (Petrov et al., 2006) génère les annotations ) Celles-ci sont ensuite corrigées manuellement à l’aide de l’outil Wordfreak Une phase d’annotation fonctionnelle est ensuite effectuée (Candito et al., 2009) puis corrigée à nouveau Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 26 / 40 Annotation Syntaxique Schéma d’annotation : base schéma du Corpus Arboré de Paris 7 (FTB) Utilisation des guides d’annotation + le FTB + discussion (Abeillé et al., 2004 ; Abeillé 2004 ; Abeillé et Clément, 2006) Annotation des : I I I Étiquettes morpho-syntaxiques (catégories, traits morphologiques) Constituants Fonctions grammaticales pour les dépendants des verbes Extensions prévues Version « gold » : Corrections de tous les tokens non standard. L’idée est de proposer le corpus en 2 versions : l’une bruitée, l’autre « normalisée » Ajout d’informations morphologiques : lemme, catégorie morphosyntaxique, traits morphologique Facile à générer, de très bons analyseurs morphologiques sont disponibles et permettront une annotation et une correction très rapide Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 26 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives Campagne d’évaluation “Parsing the Web” (SANCL 2012) Évaluer les analyseurs syntaxiques sur des données extraites du web Organisateur : Google Langue : anglais Corpus : « réponses », e-mails, forums, « avis », blogs Données : corpus de développement de tailles réduites, annoté manuellement + gros volume de données brutes Tâche : analyse syntaxique, soit en constituants, soit en dépendances Référence : Google WebBank, corpus arboré annoté manuellement Résultats présentés à SANCL, workshop de NAACL 2012 Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 28 / 40 Campagne d’évaluation “Parsing the Web” SANCL 2012 Architecture et Résultats Nous avons participé à cette campagne (tâche d’analyse en constituants) : Architecture : adaptation/extension de celle décrite ci-dessus Analyseur syntaxique probabiliste (LORG, repose sur les PCFG-LA) Adaptation au « nouveau domaine » par clustering lexical sur les corpus bruts et auto-apprentissage (self-training) → Nos systèmes ont été classés resp. deuxièmes et troisièmes (entre Dublin City University/Université Paris 13 et Stanford University). (Seddah et al 2012 ; Petrov et McDonald 2012) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 29 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives Le corpus de transcriptions TCOF Corpus de transcriptions TCOF (André et Canut 2010), librement disponible (100 000 tokens) Exemple : L1 et puis je crois que c’est en je crois je crois même que c’est en zone industrielle L2 ouais ouais je pense aussi ça doit pas être en ville L1 oui mais L2 en Belgique aussi il y a des trucs euh un genre de grand tr- enfin un genre de grande galerie en Belgique et puis c’est que des magasins de fringues aussi Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 31 / 40 Le corpus de transcriptions TCOF Corpus de transcriptions TCOF (André et Canut 2010), librement disponible (100 000 tokens) Exemple : quelques points communs avec les données NMC L1 et puis je crois que c’est en je crois je crois même que c’est en zone industrielle L2 ouais ouais je pense aussi ça doit pas être en ville L1 oui mais L2 en Belgique aussi il y a des trucs euh un genre de grand tr- enfin un genre de grande galerie en Belgique et puis c’est que des magasins de fringues aussi Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 31 / 40 Le corpus de transcriptions TCOF Corpus de transcriptions TCOF (André et Canut 2010), librement disponible (100 000 tokens) Exemple : nombreux phénomènes spécifiques à l’oral L1 et puis je crois que c’est en je crois je crois même que c’est en zone industrielle L2 ouais ouais je pense aussi ça doit pas être en ville L1 oui mais L2 en Belgique aussi il y a des trucs euh un genre de grand tr- enfin un genre de grande galerie en Belgique et puis c’est que des magasins de fringues aussi Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 31 / 40 Construction du TCOF-POS (Benzitoun et al 2012) Pré-annotation : tree-tagger (83% de précision, entraîné sur des données écrites standard) Jeu d’étiquettes : 62 étiquettes (plus précis que précédemment) Méthodologie très contrôlée d’annotation manuelle, pour garantir la meilleure qualité possible I Double annotation puis adjudication des différences Ré-entraînement de tree-tagger à mi-parcours, grâce aux données déjà corrigées I l’accord inter-annotateurs (κ Cohen ) passe de 94% à 98% I I la précision mesurée a posteriori sur la version adjudiquée passe de 91% à 96% temps d’annotation presque divisé par deux Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 32 / 40 Étiquetage morphosyntaxique de transcriptions de l’oral Courbes d’apprentissage pour tree-tagger et MElt : précision vs. nombre de fichiers utilisés pour l’apprentissage (1 fichier ∼ 500 phrases) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 33 / 40 Plan 1 Introduction 2 Sélection des données 3 Annotation morphosyntaxique 4 Annotation syntaxique 5 L’évaluation SANCL 2012 6 Le corpus de l’oral TCOF-POS 7 Conclusion et perspectives Conclusion Corpus annoté morphosyntaxiquement, en arbres de constituance et en fonctions syntaxiques 20 000 tokens issus des NMC Disponibilité du French Social Media Bank Disponible lorsqu’il aura été finalisé complètement Licence libre LGPL-LR Corpus annoté morphosyntaxiquement de 100 000 tokens de transcription de données orales Disponibilité de TCOF-POS Disponible sur le site du CNRTL Licence libre Creative Commons BY-NC-SA Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 35 / 40 Perspectives En traitement automatique : I I I normalisation textuelle étiquetage et analyse syntaxique automatique, soit par apprentissage direct sur nos données, soit en passant par des phases de normalisation et de dénormalisation traitement des mots inconnus, lexique dynamique, évolutions au fil du temps En linguistique : I I I un accès à des données langagières non normatives (linguistique de corpus) type de données dans lesquelles certaines certitudes linguistiques sont mises à mal une nouvelle forme de « linguistique de terrain » Pour les deux domaines : qu’y a-t-il de commun et de différent entre données textuelles issues des NMC et données orales transcrites ? À terme : annoter 10 000 phrases de domaines variés et de genres variés Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 36 / 40 Merci ! Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 37 / 40 Quelques spécificités Le vocabulaire communautaire Les modifieurs re, grave, trop "Trop fuuuuuuune" (Twitter), molo "faut yaller molo" (Twitter), super dans j’en suis super satisfaite (Doctissimo), chelou "une meuf elle me regarde chelou" (Twitter) Les nouveaux adjectifs issu du verlan : chelou, meuf, quécho (Twitter), keum "meuf dis quand t’as keums sur twitter" (Twitter), relou "je suis tjs relou en bouffe" (Twitter) "ce qui est relou" (Twitter), teubé (Twitter), reubeu (Twitter), swaag "il es sawaag" (Twitter) emprunts à l’anglais : good — "c’est trop good" (Twitter), down "le site du centre pompidou est down. . . " swaag — "il es sawaag" (Twitter) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 38 / 40 Quelques spécificités les nouveaux verbes (1/2) kicker "ils m’ont kické à cause d’une querelle avec un autre gars", "vien on la kick" (Twitter) taffer "Tu taf en quoi ?" chatter "Enfin pour chatter en ligne sur Skype" (JeuxVideos.com) adder "tu m’add quand tu peux" save "save ?" twi(i)ter ou tweeter "tweetez-moi" (Twitter), sms "sms-moi"(Twitter) spoiler " spoilez pas " Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 39 / 40 Quelques spécificités les nouveaux verbes (2/2) faire péter qqch " cmm a y pete les uv " (Twitter) / péter qqch "y pete les uv" (∼faire des UV — Twitter) péter un cable "il a pêté un câble" (JeuxVideos.com) faire chier "qui aime bien fait bien chier" (Twitter) saouler "j’me saoule toute seule" (Twitter) mater "je mate la téloche sur mon canap’" (Twitter) lover qqn "on te love" (FaceBook) s’éclater " Eclates toi bien" (FaceBook) kiffer "on te kiffffffffff" (FaceBook) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 40 / 40 Quelques spécificités divers Tchuus les mioches téloche canap’ matos (JeuxVideos.com) cacheton zerma (Twitter) conasse (Twitter) feignasse (Twitter) Benoît Sagot (Alpage) Annoter des corpus non-standard 28 juin 2012 41 / 40