ATTITUDES-VN : Corpus audio-visuel pour l`étude des
Transcription
ATTITUDES-VN : Corpus audio-visuel pour l`étude des
ATTITUDES-VN : Corpus audio-visuel pour l’étude des attitudes en langue vietnamienne Description du corpus, dans le cadre d’une demande d’Aide à la finalisation de corpus oraux ou multimodaux pour diffusion, valorisation et dépôt pérenne MAC Dang-Khoa Institut de recherche international MICA, HUST - CNRS/UMI-2954 - Grenoble INP HANOI UNIVERSITY of SCIENCE and TECHNOLOGY 1 Dai Co Viet - Hai Ba Trung HANOI - VIETNAM [email protected] 10/2013 En bref: D’où proviennent les données ? Ce corpus a été conçu et enregistré au cours de la thèse de MAC Dang-Khoa : « Génération de parole expressive dans le cas des langues à tons ». Cette thèse a été préparée d’octobre 2007 à juin 2012 en co-tutelle entre le Laboratoire d’Informatique de Grenoble (LIG) et l’Institut de recherche international MICA (Hanoi, Vietnam). A quoi peuvent servir ces données ? Ce corpus est à notre connaissance le premier corpus audio-visuel pour l’étude des attitudes en langue vietnamienne. Il est conçu en vue de la caractérisation des attitudes (recherche fondamentale), puis de l’application de ces observations à la synthèse de la parole expressive en vietnamien ; tâches déjà entamées, et qui se poursuivront à l’Institut MICA au cours des années qui viennent. La mise en ligne des données, en libre accès, permettra aux lecteurs des publications fondées sur ces données de vérifier les analyses proposées ; la mise en ligne permettra en outre aux collègues de soumettre ces mêmes données à de nouveaux questionnements. Au-delà des usages prévus par leur concepteur, les données se prêtent en effet aux usages les plus divers, à commencer par la reconnaissance automatique de la parole expressive et l’analyse et la modélisation visuelles de l’expression des attitudes en langue vietnamienne. Quelles tâches reste-t-il à réaliser en vue de la mise en ligne ? Le corpus intégral serait à mettre en ligne en l’état, tel que décrit ci-dessous. Cela passe par la réalisation de tâches de routine, telles que la saisie des métadonnées et le versement des documents à l’archivage. La rédaction d’un descriptif/guide de l’utilisateur (trilingue français-anglais-vietnamien) sera réalisée par le déposant, en -1- concertation avec l’équipe du projet ORTOLANG pour l’organisation du document et la bonne complémentarité entre les informations qu’il fournira « en toutes lettres » et celles, standardisées, qui figureront dans les métadonnées. C’est en vue de ces tâches qu’une aide est demandée. Quelle évolution future pour le corpus ? Il est prévu de refaire le point de l’évolution du corpus environ 36 mois après le premier dépôt. A cette date, en fonction des tâches qui auront été réalisées par les utilisateurs du corpus (à commencer par son concepteur, qui à ce jour a été l’unique utilisateur), une nouvelle version du corpus sera déposée : selon l’avancement du travail, les documents actuellement non découpés en phrases pourront être déposés dans un format identique à celui des autres documents (un fichier par phrase), et des fichiers d’annotation enrichis pourront être déposés. Le corpus gagnera ainsi en symétrie (caractère systématique de la présentation des données) et en richesse des annotations (systématisation d’un alignement au niveau de la syllabe, par exemple ; en fonction des tâches qui auront été réalisées). Si le dépôt de plusieurs versions de cet ensemble de données relativement volumineux est possible, l’ancienne version restera accessible, conservant la mémoire de l’évolution du traitement du corpus ; mais un simple remplacement serait également une solution satisfaisante. Néanmoins, si l’équipe du projet ORTOLANG recommandait d’appliquer certains traitements aux données préalablement à leur dépôt (par exemple en généralisant le découpage en 1 fichier par phrase), cela pourrait bien sûr être envisagé. Description du corpus 1. Les attitudes sélectionnées Sur la base d’études antérieures portant sur d’autres langues (français, anglais, japonais), 16 attitudes ont été sélectionnées pour ce corpus : voir le tableau ci-dessous. Attitude AbréviationAttitude Abréviation Déclaration Question-simple Exclamation de surprise neutre Exclamation de surprise positif Exclamation de surprise negatif Evidence Doute-incrédulité Autorité DEC INT EXo EXp EXn EVI DOU AUT IRR SAR MEP POL ADM MAT SED FAM Irritation Ironie sarcastique Mépris Politesse Admiration Maternel Séduction Familier 2. La structure phono-linguistique du corpus Le corpus est constitué de 125 phrases isolées dont la longueur varie entre 1 et 8 syllabes. Le corpus contient : -2- 9 phrases d’une seule syllabe, qui correspondent aux 8 représentations des tons vietnamiens (6 tons en syllabe sans occlusive finale, 2 tons sur syllabes à occlusives finales) ; 64 phrases de 2 syllabes, qui couvrent toutes les combinaisons entre tons. Ces combinaisons offrent un aperçu du phénomène de coarticulation tonale entre tons adjacents en vietnamien ; 52 phrases de 3 à 8 syllabes, variables dans leur structure syntaxique : mono-mot, groupe nominal isolé (GN), groupe verbal isolé (GV) ou structure simple « sujetverbe-objet » (S-V-O), une structure courante en vietnamien. Pour chaque longueur de phrase, notre corpus présente des phrases avec toutes les syllabes au ton 1 (ton plat ; ton étymologique A1). Ces phrases nous permettent d’étudier les contours prosodiques qui remplissent une fonction attitudinale (au niveau de la phrase) en maintenant constant le facteur « ton lexical » (au niveau de syllabe). Dans les autres phrases, différents tons (tons 2, 3, 4, 5, 6, 5b, 6b) sont positionnés sur les syllabes en début, milieu et fin de phrase, permettant une étude de la réalisation simultanée des tons lexicaux et de l’intonation. Afin de pouvoir être réalisées dans des contextes très variés, recouvrant l’éventail entier des 16 attitudes étudiées, les phrases du corpus doivent être sans connotation particulière ; leur sens doit être le plus neutre possible. A cette fin, nous avons exclu toute phrase portant un contenu sémantique significatif « attitudinalement » afin de ne pas interférer dans la production et la perception des attitudes véhiculées. Nous avons aussi utilisé comme énoncés des nombres, qui sont considérés comme des phrases sans segmentation syntaxique. Ayant un sens neutre, ils ne présentent pas d’incompatibilité avec telle ou telle attitude. Exemple des phrases du corpus d’attitudes vietnamiennes Nombre de syllabes Séquence des tons Phrases Vietnamien Syntaxe 1 1 Ta 2 1_1 Anh ta lui mot 3 1_1_1 Hai mươi ba vingt-trois Numéro 3 1_4_6 Em bảo chị Tu me dis SOV 4 1_1_2_1 Găng tay bằng da gant en cuir GN 5 1_1_1_1_1 Hai em đi theo anh SVO 6 5b_4_3_1_1_6 Tất cả đã đi theo chị Vous me suivez tous les deux Ils t’ont tous suivie 7 1_1_1_1_1_2_1 1_1_2_1_1_1_1_1 Deux paires de gants bruns en cuir 20253 GN 8 Hai đôi găng tay da màu nâu Hai mươi ngàn hai trăm năm mươi ba Traduction en français nous -3- mot SVO Nombre 3. Locuteurs Deux locuteurs ont enregistré le corpus : un homme et une femme, originaires de Hanoi (prononciation standard du vietnamien), qui sont jeunes enseignants universitaires. Ils ont fourni un consentement écrit pour l’utilisation des données et leur mise à libre disposition selon une licence CreativeCommons BY-NC-SA. 4.Enregistrement Le corpus audio-visuel a été enregistré en studio d’enregistrement (« chambre sourde »). De l’extérieur du studio, les phrases à prononcer ainsi que l’attitude à reproduire sont affichées sur un écran faisant face au locuteur. Les 125 énoncés à oraliser sont affichés dans un ordre aléatoire pour chaque attitude. Le locuteur est debout devant la caméra, avec un micro AKG C1000S placé à quarante centimètres de sa bouche. Le microphone est connecté à un dispositif audio qui numérise le son (à 44,1kHz, 16-bits) et le transmet à un ordinateur situé à l’extérieur du studio, sur lequel sont stockés les enregistrements sonores. La gestuelle faciale des locuteurs (la face et le haut du buste sont cadrés par la caméra) est enregistrée grâce une caméra numérique (Sony DXC990). Les signaux vidéos sont numérisés grâce au codec « CinePack » avec une résolution vidéo de 784 x 576 pixels. Enfin, pendant une des sessions d’enregistrement, un électroglottographe a été utilisé pour obtenir une estimation de la surface d’accolement des plis vocaux du locuteur. Ci-dessous une photo du dispositif expérimental avec électroglottographe. -4- 5. Bilan des données recueillies et état actuel du corpus L’ensemble du corpus a été enregistré une fois avec locutrice, et 3 fois avec locuteur masculin (dont 1 fois avec électroglottographe). Les données représentent environ 14 heures de signaux audiovisuels. Le corpus final est composé de 8.000 énoncés au total (4 enregistrements * 16 attitudes * 125 phrases). Chaque énoncé est stocké dans un fichier séparé. Les signaux audio-visuels du locuteur masculin ont été découpés semi-automatiquement au niveau de la phrase grâce à des scripts VirtualDub1 et Praat2. Les phrases ont ensuite été annotées au niveau phonétique avec le logiciel Praat. Nous avons dont totalement 6000 fichier audio et 6000 fichier vidéo, correspondants aux 3 enregistrements * 16 attitudes * 125 phrases. Parmi les 16 attitudes, un sous-ensemble de quatre a été sélectionné sur la base des scores obtenus lors de tests de perception visant à l’identification des attitudes. Puis 180 énoncés réalisés avec ces 4 attitudes ont été segmentés et annotés au niveau de la syllabe dans Praat : voir image ci-dessous. Les noms des fichiers audio et vidéo du corpus suivent les consignes suivantes : Abréviation de l’attitude (3 caractères)_ Numéro de phrase_ Nom du locuteur + Fois d’enregistrement_ Séquence des tons Extension du fichier (.wav/.avi) 1 http://www.virtualdub.org/ 2 http://www.fon.hum.uva.nl/praat/ -5- Par exemple, le fichier : aut_113_Khoa3_5_1_6_4_1_2.wav est le fichier Audio (.wav) correspondant à l’attitude Autorité (aut) pour la phrase numéro 113 ; Khoa3 indique que le locuteur est Khoa, et que cette phrase est tirée de la 3e lecture du corpus. Enfin, la séquence 5_1_6_4_1_2 indique que cette phrase contient 6 syllabes, dont le ton lexical respectif est : 5-1-6-4-1-2. Les fichiers sont regroupés dans des sous-répertoires ; chaque sous-répertoire regroupe les fichiers partageant la même valeur des paramètres suivants : numéro de séance d’enregistrement, locuteur et attitude. Par exemple, tous les énoncés en attitude Admiration réalisés par le locuteur Khoa lors de sa 2e lecture du corpus sont regroupés dans un même sous-répertoire. Les signaux de la locutrice n’ont pas encore été segmentés, non plus que les fichiers EGG. Les signaux de la locutrice sont stockés dans 299 fichiers audio et 299 fichiers vidéo. Ils sont regroupés dans un même répertoire. Chaque fichier est nommé avec l’abréviation de l’attitude correspondant et un numéro qu’indique l’ordre d’enregistrement. Par exemple, les signaux vidéo l’attitude Déclaration sont stockes dans 22 fichiers: dec1.avi, dec2.avi, dec3.avi ... dec22.avi Les signaux EGG sont stockés dans 16 fichiers correspondant aux 16 attitudes. Le corpus total représente un volume de données d’environ 36 GB. La table cidessous résume l’état actuel du corpus (EGG = électroglottographie) et le temps de travail prévu pour compléter le découpage des données non-découpés au niveau de la phrase et la segmentation au niveau de la syllabe -6- Fois Locuteur, d’enre- sexe gistre- biologique ment et EGG Découpage Nombre de Nombre de Temps prévu au niveau de fichiers fichiers pour découper la phrase audio vidéo au niveau de la phrase Nombre de Temps prévu phrases pour segmenter segmentées au au niveau de la niveau de la syllabe syllabe 1 M7 (Masculin) Non Oui 2000 2000 60 200 heures 2 M7 (Masculin) Non Oui 2000 2000 60 200 heures 3 M7 (Masculin) Oui Oui 2000 2000 50 heures 60 (pour EGG) 400 heures (Audio + EGG) 4 F2 (Féminin) Non 299 299 20 heures 200 heures 6000 6000 70 heures Total Non -7- 180 1000 heures Le corpus dans son état actuel est donc constitué de signaux audio et électroglottographiques, ainsi que d’enregistrements vidéo. Les transcriptions intégrales sont disponibles sous forme de fichiers de traitement de texte. A ces documents s’ajoute une documentation, qui peut être mise en forme au format PDF (pour archivage) et/ou HTML (pour présentation en ligne) qui fournit des explications utiles pour prendre en main le corpus. En particulier, la caractérisation détaillée des 16 attitudes, présentée dans le tableau ci-dessous, a vocation à être mise à disposition en association avec les enregistrements. Un lien pourra également être établi, via les métadonnées, avec la thèse de l’auteur du corpus, qui fournit des informations et analyses concernant ce corpus. Les attitudes pour le vietnamien et leur définition No 1 Attitude Déclaration Abréviation DEC 2 Question-simple QUE 3 Exclamation de surprise neutre EXo 4 Exclamation de surprise positive EXp 5 Exclamation de surprise négative EXn 6 Evidence EVI 7 Doute-incrédulité DOU 8 Autorité AUT 9 Irritation IRR 10 Ironie sarcastique SAR 11 Mépris MEP 12 Politesse POL 13 14 Admiration Maternel ADM MAT 15 Séduction SED Définitions Le locuteur fait part d’une simple information, sans exprimer aucun point de vue Le locuteur demande une information, sans exprimer de point de vue, et sans attendre autre chose qu’une simple réponse Le locuteur manifeste son étonnement concernant l’information qu’il donne à son interlocuteur, sans préciser si cette information surprenante le dérange ou lui plait Le locuteur manifeste son étonnement concernant l’information qu’il donne à son interlocuteur : cette information est une très bonne nouvelle pour le locuteur Le locuteur manifeste son étonnement concernant l’information qu’il donne à son interlocuteur : cette information est une mauvaise nouvelle pour le locuteur Le locuteur parle de quelque chose dont il est certain et manifeste cette certitude Le locuteur veut exprimer son incertitude, ou son manque de conviction, concernant une information que vient de lui donner son interlocuteur : il répète cette information tout en manifestant son doute Le locuteur veut imposer son avis à son interlocuteur, ou au moins l’influencer fortement Le locuteur est fortement mécontent de ce qui vient d’être dit, cela le dérange et il le manifeste. Son interlocuteur vient d’affirmer une information avec laquelle le locuteur n’est pas d’accord, il le manifeste mais par le biais de l’ironie, ce qui pourrait ressembler à prononcer par ex « Oui, c’est exactement ça… », mais en exprimant clairement qu’il pense le contraire… Le locuteur manifeste de l’arrogance, du mépris, manifestant qu’il considère ce qui vient d’être dit n’est pas digne d’intérêt, voire pire.... Le locuteur souhaite exprimer sa courtoisie et de la politesse vis-à-vis de son interlocuteur Le locuteur est admiratif et le manifeste. Le locuteur bienveillant s’adresse à un petit enfant, le met en confiance affectueusement. Le locuteur veut plaire à son interlocuteur, gagner son -8- 16 Familier-Intime FAM estime et sa confiance, peut-être même la séduire amoureusement Le locuteur partage une intimité avec son interlocuteur et s’adresse à lui avec naturel -9-