Présentation passe

Transcription

Présentation passe
Textos au Canada :
encodage, analyses en cours
et analyses projetées
Christian Guilbault, Université Simon Fraser
Patrick Drouin, Université de Montréal
Plan de cette présentation
1. Texto4science.ca : présentation générale
2. Défis de l'analyse
1. Transcription + annotation
2. Interface de consultation
3. Exploitation des données :
1. Traducteur
2. Pourrisseur
3. Détection de rendez-vous (CalTexto)
4. Clustering
4. Conclusion et projets futurs...
Texto4science.ca
⇨
Objectif général : colliger et analyser le plus grand
nombre de textos possible (en deux phases...) au Canada
et mise à la disponibilité des chercheurs en base de données
(aussi : faire un premier corpus de référence pour les analyses linguistiques)
⇨ Objectifs spécifiques :
⇨ Études de tous les aspects
⇨
linguistiques pertinents
(lexique, phonétique, syntaxique, morphologie, alternance de code, sociolinguistique, etc.)
Développements d'applications liées à ce nouvel usage
de la langue (correcteurs, traduction automatique,
etc.)
Texto4science.ca
⇨Organismes
⇨
⇨
⇨
⇨
et institutions impliqués :
Recherche appliquée en linguistique informatique (RALI)
Centre de recherche interdisciplinaires en technologies émergentes (CITE)
Universités : UdeM, UofO, SFU
Autres partenaires
⇨Compétences
: terminologues, informaticiens, linguistes,
communications, traducteurs
⇨Méthodologie
: similaire aux autres projets liés à SMS4science (Belgique)
Texto4science.ca
Résultats de la collecte :
⇨ Effectuée de 2009-2010
⇨ Total environ 7274 messages
(très majoritairement en français, 400 en anglais, 6842
en français)
⇨ Environ 13 135 phrases
⇨ Environ 106 785 mots
⇨ Collecte terminée officiellement (officieusement?)
Texto4science.ca : annotations (le
balisage)
⇨Fait manuellement (complètement
⇨Très détaillé pour :
!)
Appréhender le corpus
Faciliter les recherches ultimement grâce aux balises nombreuses et détaillées
⇨ Faute de ressources (personnel et argent)
⇨
⇨
⇨ A été
effectué par DEUX assistantes, avec une
principale qui est repassée pour harmoniser
⇨ Est très coûteux à faire...
⇨ Plus de 31 000 annotations total, 4,5 par message
6
Texto4science.ca : annotations (le
balisage)
Les balises structurantes :
<document>
<texto>
<user_id> ... </user_id>
<orig> ... </orig>
<transcrip> ... </transcrip>
<texto>
</document>
7
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Abréviation (ABREV)
Utilisation : Balise toute abréviation.
Exemple :
Je vais p-e devoir travailler un peu
en fds
Je vais <abrev forme="peut-être">p-e</abrev> devoir travailler un peu en <abrev forme="fin de
semaine">fds</abrev>
Accord (ACCORD)
Utilisation : Balise les accords fautifs pour
substantifs, adjectifs et verbes.
Exemple :
Tu ne t'en rend pas compte.
Tu ne t'en <accord forme="rends">rend</accord>
pas compte
8
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Binettes ou smileys (BINET)
Utilisation : toutes encadrées pour étude éventuelle.
Note : dans la phrase, balisées directement. En début de
phrase et ou en fin de phrase sans ponctuation, la ponctuation ou la majuscule initiale sont rétablies et la binette est balisée à l'extérieur de la phrase.
Exemple :
Merci. :)
Merci <binet> :) </binet>
Bisous (BISOUS)
Les diverses réalisations des baisers dans les
textes seront balisées.
Exemple :
Bonne journée ! Xxx
Bonne journée ! <bisous> Xxx </bisous>
9
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Bloc langue (BLOC_LANG)
Les changements de langues dans un texto sont
identifiés. Une langue est associée au texto par
défaut.
Exemple :
Are you kidding me ? C'est fou ça !
<bloc_lang langue="en">Are you kidding me </bloc_lang > C'est fou ça!
Coquille (COQUILLE)
Utilisation : fautes d'inattention ou « de
frappe ».
Exemple :
Ke m'appelle Georges.
<coquille forme="Je">Ke</coquille> m'appelle
Georges.
10
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Élément inconnu (ELEMENT_INCONNU)
Utilisation : Identifier les caractères étranges
(éléments graphiques non reconnus)
Exemple :
On ira ÌŠailleurs.
On <element_inconnu> ÌŠ</element_inconnu> ira
ailleurs.
Forme inconnue (FORME_INCONNUE)
Utilisation : Identifier formes ling. inconnues
Exemple :
On n'accepte pas les
<forme_inconnue>dli</forme_inconnue> à la maison.
On n'accepte pas les
<forme_inconnue>dli</forme_inconnue> à la maison.
11
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Majuscule (MAJUS)
Utilisation : Relève une erreur de majuscule
(manquante ou en trop).
Exemple :
On va à new york demain.
On va à <majus type_majus="ajout" forme="New
York">new york</majus> demain.
Négation (NEGAT)
Utilisation : Rétablit la négation manquante.
Exemple :
Je pense pas.
Je <negat forme="ne"></negat>pense pas.
12
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Orthographe (ORTHO)
Utilisation : Balise toute faute d'orthographe.
Exemple :
C'est a deux heures.
C'est <ortho forme="à ">a</ortho> deux heures.
Ponctuation (PONC)
Utilisation : Balise la ponctuation fautive
(manquante ou trop abondante).
Exemple :
Je suis arrivée
Je suis arrivée <ponc forme="."></ponc>
13
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Remarque (REMARQUE)
Utilisation : Laisser, à l'intérieur des textos,
des commentaires ou des observations.
Exemple : Je vais travailler en psy.
Je vais travailler en psy <remarque>pas certaine
de l'équivalent de l'abréviation "psy".
Rire (RIRE)
Utilisation : Diverses formes de rire
Note : Si dans phrase, balisé directement. En
début ou fin de phrase sans ponctuation, ponctuation rétablie et rire est balisé à l'extérieur de phrase.
Exemple :
je sais pas lol.
Je ne sais pas <rire> lol </rire>
14
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Symb (SYMB)
Utilisation : Remplace le symbole qui remplace
un mot.
Exemple 1 :
Je suis @ Berri
Je suis <symb forme="à ">@</symb> Berri.
Exemple 2 : Je n'en sais pas +.
Je n'en sais pas <symb forme="plus">+</symb>.
15
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Synt (SYNT)
Utilisation : Grammaire
Exemple 1 : Y ne sait pas de quoi il parle.
<synt type_synt="corr" forme="Il">Y</synt> ne
sait pas de quoi il parle.
Exemple 2 : Suis revenue! Bonne journee et merci
:)
<synt type_synt="ins" forme="Je
suis">Suis</synt> revenue! Bonne <ortho
forme="journée">journee</ortho> et merci<ponc
forme="."/> <binet>:)</binet>
16
Texto4science.ca : annotations (le
balisage)
Les 17 balises pour l'annotation
Typographie (TYPOG)
Utilisation : Signale les espaces manquants
entre deux mots ou l'apostrophe qui a été remplacée par un espace.
Exemple :
J ai faim.
<typog forme="J'ai"> J ai </typog> faim.
17
Texto4science.ca : anonymisation
Anonymisation
⇨ Approche
par annotation : nouveaux prénoms et
noms seront générés automatiquement
⇨ Problèmes d'uniformisation (étape d'anonymisation
entièrement manuelle, certains oublis)
⇨ Problèmes similaires à une anonymisation automatique ?
Texto4science.ca : annotations (le
balisage)
Les 4 balises pour l'anonymisation
Adresse (ADRESSE)
Utilisation : Encadre toutes les adresses, qui
pourront toutes être enlevés en même temps.
Exemple :
Viens au 2376, christophe-colomb
Viens au <adresse> 2376, christophecolomb</adresse>
Nom (NOM)
Utilisation : Encadre les noms de famille.
Exemple :
Elle s'appelle Tremblay.
Elle s'appelle <nom>Tremblay</prenom>.
19
Texto4science.ca : annotations (le
balisage)
Les 4 balises pour l'anonymisation
Numéro (NUMERO)
Utilisation : Encadre les numéros (de téléphone,
de cartes...) qui doivent être anonymisés.
Exemple :
C'est le 514 555-3127
C'est le <numero>514 555-3127</numero>.
Prénom (PRENOM)
Utilisation : Encadre les prénoms.
Exemple:
Elle s'appelle Ariel.
Elle s'appelle <prenom
sexe="fem">Ariel</prenom>.
20
Sommaire des annotations
Type
Fréquence
Type
Fréquence
ponc
9027 synt=corr
290
ortho
7496 coquille
267
abrev
5082 synt=supp
183
synt=retab
1648 forme_inconnue
146
binet
1605 nom
121
accord
1505 element_inconnu
28
bloc_lang
1480 numero
21
majus
1427 adresse
17
prenom
1038 synt=
4
typog
1006 majus=
4
synt=ins
836 web
1
negat
818 mail
1
rire
622
majus=supp
307
Texto4science.ca
Interface de consultation ?
Où est-elle ?
Pas encore constituée malheureusement...
Nécessaire pour les analyses ultérieures !
Texto4science.ca : exploitation
Normaliseur (Fabrizio Gotti, RALI, Université de Montréal)
Traduction des textos an francè vers le français
Pour normaliser
Pour repérer divers phénomènes (rendez-vous, détection du profil
d'utilisateur, etc.)
⇨ Modèle de traduction appris sur le corpus "bilingue".
⇨ Problèmes :
⇨ Corpus trop petit pour la construction de ce modèle, alors corpus
d'oral (théâtre, télésérie).
⇨ Mots inconnus bloquent le processus. Texto trop créatif ?!?
Mais, un lexique du français + quelques règles de
compression des lettres répétées, de désaglutination (jpense -> je
pense) et de réaccentuation permet d'augmenter les résultats.
- Premiers résultats sont encourageants : taux d'erreurs de 18%.
⇨
⇨
Texto4science.ca : exploitation
Exploitation originale des données : le koolificateur
(Florent Cottin, en stage au RALI)
⇨
⇨
⇨
⇨
Coolificateur : traduction automatique du français en
texto québécois
Basé sur le corpus
Basé sur un dico et la fréquence, aucun modèle de
langue ni d'apprentissage
Résultats un peu aléatoires mais intéressants pour une
première ébauche Exactitude et productivité ?
« pourrisseur »
Texto4science.ca : exploitation
Prototype CalTexto (Thibault Bughin, CENTAL en stage à
l'OLST à UdeM)
⇨Annotation des marqueurs de RV dans les textos
⇨Analyse de la temporalité des RV dans les textos
⇨Construction d'un typologie des RV
⇨Rédaction de grammaires permettant l'extraction
automa-
tique des RV
⇨Mise au point du prototype CalTexto qui insère automatique dans Google Calendar les RV trouvés
Texto4science.ca : exploitation
Clustering et vecteurs sémantiques (Patrick Drouin, OLST,
UdeM)
⇨Début phase de tests sur données
⇨Idée : l'analyse distributionnelle peut
aider à regrouper ce
qui est sémantiquement relié
⇨Pourrait guider l'annotation (identification des prénoms,
variation orthographique des pronoms) ou pour l'analyse des données selon un angle sémantique.
⇨La taille du corpus risque de poser problème
Conclusion
⇨Corpus
est satisfaisant dans sa taille
⇨Corpus
satisfaisant dans sa transcription
⇨Interface
de consultation ?
⇨Applications
⇨Potentiel
tures
intéressantes
intéressant pour analyses linguistiques fu-