Présentation passe
Transcription
Présentation passe
Textos au Canada : encodage, analyses en cours et analyses projetées Christian Guilbault, Université Simon Fraser Patrick Drouin, Université de Montréal Plan de cette présentation 1. Texto4science.ca : présentation générale 2. Défis de l'analyse 1. Transcription + annotation 2. Interface de consultation 3. Exploitation des données : 1. Traducteur 2. Pourrisseur 3. Détection de rendez-vous (CalTexto) 4. Clustering 4. Conclusion et projets futurs... Texto4science.ca ⇨ Objectif général : colliger et analyser le plus grand nombre de textos possible (en deux phases...) au Canada et mise à la disponibilité des chercheurs en base de données (aussi : faire un premier corpus de référence pour les analyses linguistiques) ⇨ Objectifs spécifiques : ⇨ Études de tous les aspects ⇨ linguistiques pertinents (lexique, phonétique, syntaxique, morphologie, alternance de code, sociolinguistique, etc.) Développements d'applications liées à ce nouvel usage de la langue (correcteurs, traduction automatique, etc.) Texto4science.ca ⇨Organismes ⇨ ⇨ ⇨ ⇨ et institutions impliqués : Recherche appliquée en linguistique informatique (RALI) Centre de recherche interdisciplinaires en technologies émergentes (CITE) Universités : UdeM, UofO, SFU Autres partenaires ⇨Compétences : terminologues, informaticiens, linguistes, communications, traducteurs ⇨Méthodologie : similaire aux autres projets liés à SMS4science (Belgique) Texto4science.ca Résultats de la collecte : ⇨ Effectuée de 2009-2010 ⇨ Total environ 7274 messages (très majoritairement en français, 400 en anglais, 6842 en français) ⇨ Environ 13 135 phrases ⇨ Environ 106 785 mots ⇨ Collecte terminée officiellement (officieusement?) Texto4science.ca : annotations (le balisage) ⇨Fait manuellement (complètement ⇨Très détaillé pour : !) Appréhender le corpus Faciliter les recherches ultimement grâce aux balises nombreuses et détaillées ⇨ Faute de ressources (personnel et argent) ⇨ ⇨ ⇨ A été effectué par DEUX assistantes, avec une principale qui est repassée pour harmoniser ⇨ Est très coûteux à faire... ⇨ Plus de 31 000 annotations total, 4,5 par message 6 Texto4science.ca : annotations (le balisage) Les balises structurantes : <document> <texto> <user_id> ... </user_id> <orig> ... </orig> <transcrip> ... </transcrip> <texto> </document> 7 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Abréviation (ABREV) Utilisation : Balise toute abréviation. Exemple : Je vais p-e devoir travailler un peu en fds Je vais <abrev forme="peut-être">p-e</abrev> devoir travailler un peu en <abrev forme="fin de semaine">fds</abrev> Accord (ACCORD) Utilisation : Balise les accords fautifs pour substantifs, adjectifs et verbes. Exemple : Tu ne t'en rend pas compte. Tu ne t'en <accord forme="rends">rend</accord> pas compte 8 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Binettes ou smileys (BINET) Utilisation : toutes encadrées pour étude éventuelle. Note : dans la phrase, balisées directement. En début de phrase et ou en fin de phrase sans ponctuation, la ponctuation ou la majuscule initiale sont rétablies et la binette est balisée à l'extérieur de la phrase. Exemple : Merci. :) Merci <binet> :) </binet> Bisous (BISOUS) Les diverses réalisations des baisers dans les textes seront balisées. Exemple : Bonne journée ! Xxx Bonne journée ! <bisous> Xxx </bisous> 9 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Bloc langue (BLOC_LANG) Les changements de langues dans un texto sont identifiés. Une langue est associée au texto par défaut. Exemple : Are you kidding me ? C'est fou ça ! <bloc_lang langue="en">Are you kidding me </bloc_lang > C'est fou ça! Coquille (COQUILLE) Utilisation : fautes d'inattention ou « de frappe ». Exemple : Ke m'appelle Georges. <coquille forme="Je">Ke</coquille> m'appelle Georges. 10 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Élément inconnu (ELEMENT_INCONNU) Utilisation : Identifier les caractères étranges (éléments graphiques non reconnus) Exemple : On ira ÌŠailleurs. On <element_inconnu> ÌŠ</element_inconnu> ira ailleurs. Forme inconnue (FORME_INCONNUE) Utilisation : Identifier formes ling. inconnues Exemple : On n'accepte pas les <forme_inconnue>dli</forme_inconnue> à la maison. On n'accepte pas les <forme_inconnue>dli</forme_inconnue> à la maison. 11 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Majuscule (MAJUS) Utilisation : Relève une erreur de majuscule (manquante ou en trop). Exemple : On va à new york demain. On va à <majus type_majus="ajout" forme="New York">new york</majus> demain. Négation (NEGAT) Utilisation : Rétablit la négation manquante. Exemple : Je pense pas. Je <negat forme="ne"></negat>pense pas. 12 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Orthographe (ORTHO) Utilisation : Balise toute faute d'orthographe. Exemple : C'est a deux heures. C'est <ortho forme="à ">a</ortho> deux heures. Ponctuation (PONC) Utilisation : Balise la ponctuation fautive (manquante ou trop abondante). Exemple : Je suis arrivée Je suis arrivée <ponc forme="."></ponc> 13 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Remarque (REMARQUE) Utilisation : Laisser, à l'intérieur des textos, des commentaires ou des observations. Exemple : Je vais travailler en psy. Je vais travailler en psy <remarque>pas certaine de l'équivalent de l'abréviation "psy". Rire (RIRE) Utilisation : Diverses formes de rire Note : Si dans phrase, balisé directement. En début ou fin de phrase sans ponctuation, ponctuation rétablie et rire est balisé à l'extérieur de phrase. Exemple : je sais pas lol. Je ne sais pas <rire> lol </rire> 14 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Symb (SYMB) Utilisation : Remplace le symbole qui remplace un mot. Exemple 1 : Je suis @ Berri Je suis <symb forme="à ">@</symb> Berri. Exemple 2 : Je n'en sais pas +. Je n'en sais pas <symb forme="plus">+</symb>. 15 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Synt (SYNT) Utilisation : Grammaire Exemple 1 : Y ne sait pas de quoi il parle. <synt type_synt="corr" forme="Il">Y</synt> ne sait pas de quoi il parle. Exemple 2 : Suis revenue! Bonne journee et merci :) <synt type_synt="ins" forme="Je suis">Suis</synt> revenue! Bonne <ortho forme="journée">journee</ortho> et merci<ponc forme="."/> <binet>:)</binet> 16 Texto4science.ca : annotations (le balisage) Les 17 balises pour l'annotation Typographie (TYPOG) Utilisation : Signale les espaces manquants entre deux mots ou l'apostrophe qui a été remplacée par un espace. Exemple : J ai faim. <typog forme="J'ai"> J ai </typog> faim. 17 Texto4science.ca : anonymisation Anonymisation ⇨ Approche par annotation : nouveaux prénoms et noms seront générés automatiquement ⇨ Problèmes d'uniformisation (étape d'anonymisation entièrement manuelle, certains oublis) ⇨ Problèmes similaires à une anonymisation automatique ? Texto4science.ca : annotations (le balisage) Les 4 balises pour l'anonymisation Adresse (ADRESSE) Utilisation : Encadre toutes les adresses, qui pourront toutes être enlevés en même temps. Exemple : Viens au 2376, christophe-colomb Viens au <adresse> 2376, christophecolomb</adresse> Nom (NOM) Utilisation : Encadre les noms de famille. Exemple : Elle s'appelle Tremblay. Elle s'appelle <nom>Tremblay</prenom>. 19 Texto4science.ca : annotations (le balisage) Les 4 balises pour l'anonymisation Numéro (NUMERO) Utilisation : Encadre les numéros (de téléphone, de cartes...) qui doivent être anonymisés. Exemple : C'est le 514 555-3127 C'est le <numero>514 555-3127</numero>. Prénom (PRENOM) Utilisation : Encadre les prénoms. Exemple: Elle s'appelle Ariel. Elle s'appelle <prenom sexe="fem">Ariel</prenom>. 20 Sommaire des annotations Type Fréquence Type Fréquence ponc 9027 synt=corr 290 ortho 7496 coquille 267 abrev 5082 synt=supp 183 synt=retab 1648 forme_inconnue 146 binet 1605 nom 121 accord 1505 element_inconnu 28 bloc_lang 1480 numero 21 majus 1427 adresse 17 prenom 1038 synt= 4 typog 1006 majus= 4 synt=ins 836 web 1 negat 818 mail 1 rire 622 majus=supp 307 Texto4science.ca Interface de consultation ? Où est-elle ? Pas encore constituée malheureusement... Nécessaire pour les analyses ultérieures ! Texto4science.ca : exploitation Normaliseur (Fabrizio Gotti, RALI, Université de Montréal) Traduction des textos an francè vers le français Pour normaliser Pour repérer divers phénomènes (rendez-vous, détection du profil d'utilisateur, etc.) ⇨ Modèle de traduction appris sur le corpus "bilingue". ⇨ Problèmes : ⇨ Corpus trop petit pour la construction de ce modèle, alors corpus d'oral (théâtre, télésérie). ⇨ Mots inconnus bloquent le processus. Texto trop créatif ?!? Mais, un lexique du français + quelques règles de compression des lettres répétées, de désaglutination (jpense -> je pense) et de réaccentuation permet d'augmenter les résultats. - Premiers résultats sont encourageants : taux d'erreurs de 18%. ⇨ ⇨ Texto4science.ca : exploitation Exploitation originale des données : le koolificateur (Florent Cottin, en stage au RALI) ⇨ ⇨ ⇨ ⇨ Coolificateur : traduction automatique du français en texto québécois Basé sur le corpus Basé sur un dico et la fréquence, aucun modèle de langue ni d'apprentissage Résultats un peu aléatoires mais intéressants pour une première ébauche Exactitude et productivité ? « pourrisseur » Texto4science.ca : exploitation Prototype CalTexto (Thibault Bughin, CENTAL en stage à l'OLST à UdeM) ⇨Annotation des marqueurs de RV dans les textos ⇨Analyse de la temporalité des RV dans les textos ⇨Construction d'un typologie des RV ⇨Rédaction de grammaires permettant l'extraction automa- tique des RV ⇨Mise au point du prototype CalTexto qui insère automatique dans Google Calendar les RV trouvés Texto4science.ca : exploitation Clustering et vecteurs sémantiques (Patrick Drouin, OLST, UdeM) ⇨Début phase de tests sur données ⇨Idée : l'analyse distributionnelle peut aider à regrouper ce qui est sémantiquement relié ⇨Pourrait guider l'annotation (identification des prénoms, variation orthographique des pronoms) ou pour l'analyse des données selon un angle sémantique. ⇨La taille du corpus risque de poser problème Conclusion ⇨Corpus est satisfaisant dans sa taille ⇨Corpus satisfaisant dans sa transcription ⇨Interface de consultation ? ⇨Applications ⇨Potentiel tures intéressantes intéressant pour analyses linguistiques fu-