ATTITUDES-VN : Corpus audio-visuel pour l`étude des

Transcription

ATTITUDES-VN : Corpus audio-visuel pour l`étude des
ATTITUDES-VN :
Corpus audio-visuel pour l’étude des attitudes
en langue vietnamienne
Description du corpus, dans le cadre d’une demande d’Aide à la finalisation de corpus
oraux ou multimodaux pour diffusion, valorisation et dépôt pérenne
MAC Dang-Khoa
Institut de recherche international MICA, HUST - CNRS/UMI-2954 - Grenoble INP
HANOI UNIVERSITY of SCIENCE and TECHNOLOGY
1 Dai Co Viet - Hai Ba Trung
HANOI - VIETNAM
[email protected]
10/2013
En bref:
D’où proviennent les données ?
Ce corpus a été conçu et enregistré au cours de la thèse de MAC Dang-Khoa :
« Génération de parole expressive dans le cas des langues à tons ». Cette thèse a été
préparée d’octobre 2007 à juin 2012 en co-tutelle entre le Laboratoire d’Informatique
de Grenoble (LIG) et l’Institut de recherche international MICA (Hanoi, Vietnam).
A quoi peuvent servir ces données ?
Ce corpus est à notre connaissance le premier corpus audio-visuel pour l’étude des
attitudes en langue vietnamienne. Il est conçu en vue de la caractérisation des attitudes
(recherche fondamentale), puis de l’application de ces observations à la synthèse de la
parole expressive en vietnamien ; tâches déjà entamées, et qui se poursuivront à
l’Institut MICA au cours des années qui viennent. La mise en ligne des données, en
libre accès, permettra aux lecteurs des publications fondées sur ces données de vérifier
les analyses proposées ; la mise en ligne permettra en outre aux collègues de
soumettre ces mêmes données à de nouveaux questionnements. Au-delà des usages
prévus par leur concepteur, les données se prêtent en effet aux usages les plus divers, à
commencer par la reconnaissance automatique de la parole expressive et l’analyse et
la modélisation visuelles de l’expression des attitudes en langue vietnamienne.
Quelles tâches reste-t-il à réaliser en vue de la mise en ligne ?
Le corpus intégral serait à mettre en ligne en l’état, tel que décrit ci-dessous. Cela
passe par la réalisation de tâches de routine, telles que la saisie des métadonnées et le
versement des documents à l’archivage. La rédaction d’un descriptif/guide de
l’utilisateur (trilingue français-anglais-vietnamien) sera réalisée par le déposant, en
-1-
concertation avec l’équipe du projet ORTOLANG pour l’organisation du document et
la bonne complémentarité entre les informations qu’il fournira « en toutes lettres » et
celles, standardisées, qui figureront dans les métadonnées. C’est en vue de ces tâches
qu’une aide est demandée.
Quelle évolution future pour le corpus ?
Il est prévu de refaire le point de l’évolution du corpus environ 36 mois après le
premier dépôt. A cette date, en fonction des tâches qui auront été réalisées par les
utilisateurs du corpus (à commencer par son concepteur, qui à ce jour a été l’unique
utilisateur), une nouvelle version du corpus sera déposée : selon l’avancement du
travail, les documents actuellement non découpés en phrases pourront être déposés
dans un format identique à celui des autres documents (un fichier par phrase), et des
fichiers d’annotation enrichis pourront être déposés. Le corpus gagnera ainsi en
symétrie (caractère systématique de la présentation des données) et en richesse des
annotations (systématisation d’un alignement au niveau de la syllabe, par exemple ; en
fonction des tâches qui auront été réalisées). Si le dépôt de plusieurs versions de cet
ensemble de données relativement volumineux est possible, l’ancienne version restera
accessible, conservant la mémoire de l’évolution du traitement du corpus ; mais un
simple remplacement serait également une solution satisfaisante.
Néanmoins, si l’équipe du projet ORTOLANG recommandait d’appliquer certains
traitements aux données préalablement à leur dépôt (par exemple en généralisant le
découpage en 1 fichier par phrase), cela pourrait bien sûr être envisagé.
Description du corpus
1. Les attitudes sélectionnées
Sur la base d’études antérieures portant sur d’autres langues (français, anglais,
japonais), 16 attitudes ont été sélectionnées pour ce corpus : voir le tableau ci-dessous.
Attitude
AbréviationAttitude
Abréviation
Déclaration
Question-simple
Exclamation de surprise neutre
Exclamation de surprise positif
Exclamation de surprise negatif
Evidence
Doute-incrédulité
Autorité
DEC
INT
EXo
EXp
EXn
EVI
DOU
AUT
IRR
SAR
MEP
POL
ADM
MAT
SED
FAM
Irritation
Ironie sarcastique
Mépris
Politesse
Admiration
Maternel
Séduction
Familier
2. La structure phono-linguistique du corpus
Le corpus est constitué de 125 phrases isolées dont la longueur varie entre 1 et 8
syllabes. Le corpus contient :
-2-
 9 phrases d’une seule syllabe, qui correspondent aux 8 représentations des tons
vietnamiens (6 tons en syllabe sans occlusive finale, 2 tons sur syllabes à
occlusives finales) ;
 64 phrases de 2 syllabes, qui couvrent toutes les combinaisons entre tons. Ces
combinaisons offrent un aperçu du phénomène de coarticulation tonale entre
tons adjacents en vietnamien ;

52 phrases de 3 à 8 syllabes, variables dans leur structure syntaxique : mono-mot,
groupe nominal isolé (GN), groupe verbal isolé (GV) ou structure simple « sujetverbe-objet » (S-V-O), une structure courante en vietnamien.
Pour chaque longueur de phrase, notre corpus présente des phrases avec toutes les
syllabes au ton 1 (ton plat ; ton étymologique A1). Ces phrases nous permettent
d’étudier les contours prosodiques qui remplissent une fonction attitudinale (au niveau
de la phrase) en maintenant constant le facteur « ton lexical » (au niveau de syllabe).
Dans les autres phrases, différents tons (tons 2, 3, 4, 5, 6, 5b, 6b) sont positionnés sur
les syllabes en début, milieu et fin de phrase, permettant une étude de la réalisation
simultanée des tons lexicaux et de l’intonation.
Afin de pouvoir être réalisées dans des contextes très variés, recouvrant l’éventail
entier des 16 attitudes étudiées, les phrases du corpus doivent être sans connotation
particulière ; leur sens doit être le plus neutre possible. A cette fin, nous avons exclu
toute phrase portant un contenu sémantique significatif « attitudinalement » afin de ne
pas interférer dans la production et la perception des attitudes véhiculées. Nous avons
aussi utilisé comme énoncés des nombres, qui sont considérés comme des phrases
sans segmentation syntaxique. Ayant un sens neutre, ils ne présentent pas
d’incompatibilité avec telle ou telle attitude.
Exemple des phrases du corpus d’attitudes vietnamiennes
Nombre
de
syllabes
Séquence des tons
Phrases
Vietnamien
Syntaxe
1
1
Ta
2
1_1
Anh ta
lui
mot
3
1_1_1
Hai mươi ba
vingt-trois
Numéro
3
1_4_6
Em bảo chị
Tu me dis
SOV
4
1_1_2_1
Găng tay bằng da
gant en cuir
GN
5
1_1_1_1_1
Hai em đi theo anh
SVO
6
5b_4_3_1_1_6
Tất cả đã đi theo chị
Vous me suivez tous les
deux
Ils t’ont tous suivie
7
1_1_1_1_1_2_1
1_1_2_1_1_1_1_1
Deux paires de gants
bruns en cuir
20253
GN
8
Hai đôi găng tay da màu
nâu
Hai mươi ngàn hai trăm
năm mươi ba
Traduction en français
nous
-3-
mot
SVO
Nombre
3. Locuteurs
Deux locuteurs ont enregistré le corpus : un homme et une femme, originaires de
Hanoi (prononciation standard du vietnamien), qui sont jeunes enseignants
universitaires. Ils ont fourni un consentement écrit pour l’utilisation des données et
leur mise à libre disposition selon une licence CreativeCommons BY-NC-SA.
4.Enregistrement
Le corpus audio-visuel a été enregistré en studio d’enregistrement (« chambre
sourde »). De l’extérieur du studio, les phrases à prononcer ainsi que l’attitude à
reproduire sont affichées sur un écran faisant face au locuteur. Les 125 énoncés à
oraliser sont affichés dans un ordre aléatoire pour chaque attitude. Le locuteur est
debout devant la caméra, avec un micro AKG C1000S placé à quarante centimètres de
sa bouche. Le microphone est connecté à un dispositif audio qui numérise le son (à
44,1kHz, 16-bits) et le transmet à un ordinateur situé à l’extérieur du studio, sur lequel
sont stockés les enregistrements sonores. La gestuelle faciale des locuteurs (la face et
le haut du buste sont cadrés par la caméra) est enregistrée grâce une caméra
numérique (Sony DXC990). Les signaux vidéos sont numérisés grâce au codec
« CinePack » avec une résolution vidéo de 784 x 576 pixels.
Enfin, pendant une des sessions d’enregistrement, un électroglottographe a été utilisé
pour obtenir une estimation de la surface d’accolement des plis vocaux du locuteur.
Ci-dessous une photo du dispositif expérimental avec électroglottographe.
-4-
5. Bilan des données recueillies et état actuel du corpus
L’ensemble du corpus a été enregistré une fois avec locutrice, et 3 fois avec locuteur
masculin (dont 1 fois avec électroglottographe). Les données représentent environ 14
heures de signaux audiovisuels. Le corpus final est composé de 8.000 énoncés au total
(4 enregistrements * 16 attitudes * 125 phrases).
Chaque énoncé est stocké dans un fichier séparé. Les signaux audio-visuels du
locuteur masculin ont été découpés semi-automatiquement au niveau de la phrase
grâce à des scripts VirtualDub1 et Praat2. Les phrases ont ensuite été annotées au
niveau phonétique avec le logiciel Praat. Nous avons dont totalement 6000 fichier
audio et 6000 fichier vidéo, correspondants aux 3 enregistrements * 16 attitudes * 125
phrases.
Parmi les 16 attitudes, un sous-ensemble de quatre a été sélectionné sur la base des
scores obtenus lors de tests de perception visant à l’identification des attitudes. Puis
180 énoncés réalisés avec ces 4 attitudes ont été segmentés et annotés au niveau de la
syllabe dans Praat : voir image ci-dessous.
Les noms des fichiers audio et vidéo du corpus suivent les consignes suivantes :
Abréviation de l’attitude (3 caractères)_
Numéro de phrase_
Nom du locuteur + Fois d’enregistrement_
Séquence des tons
Extension du fichier (.wav/.avi)
1
http://www.virtualdub.org/
2
http://www.fon.hum.uva.nl/praat/
-5-
Par exemple, le fichier :
aut_113_Khoa3_5_1_6_4_1_2.wav
est le fichier Audio (.wav) correspondant à l’attitude Autorité (aut) pour la phrase
numéro 113 ; Khoa3 indique que le locuteur est Khoa, et que cette phrase est tirée de
la 3e lecture du corpus. Enfin, la séquence 5_1_6_4_1_2 indique que cette phrase
contient 6 syllabes, dont le ton lexical respectif est : 5-1-6-4-1-2.
Les fichiers sont regroupés dans des sous-répertoires ; chaque sous-répertoire
regroupe les fichiers partageant la même valeur des paramètres suivants : numéro de
séance d’enregistrement, locuteur et attitude. Par exemple, tous les énoncés en attitude
Admiration réalisés par le locuteur Khoa lors de sa 2e lecture du corpus sont regroupés
dans un même sous-répertoire.
Les signaux de la locutrice n’ont pas encore été segmentés, non plus que les fichiers
EGG.
Les signaux de la locutrice sont stockés dans 299 fichiers audio et 299 fichiers vidéo.
Ils sont regroupés dans un même répertoire. Chaque fichier est nommé avec
l’abréviation de l’attitude correspondant et un numéro qu’indique l’ordre
d’enregistrement. Par exemple, les signaux vidéo l’attitude Déclaration sont stockes
dans 22 fichiers:
dec1.avi, dec2.avi, dec3.avi ... dec22.avi
Les signaux EGG sont stockés dans 16 fichiers correspondant aux 16 attitudes.
Le corpus total représente un volume de données d’environ 36 GB. La table cidessous résume l’état actuel du corpus (EGG = électroglottographie) et le temps de
travail prévu pour compléter le découpage des données non-découpés au niveau de la
phrase et la segmentation au niveau de la syllabe
-6-
Fois
Locuteur,
d’enre- sexe
gistre- biologique
ment
et EGG
Découpage
Nombre de Nombre de Temps
prévu
au niveau de fichiers
fichiers
pour découper
la phrase
audio
vidéo
au niveau de la
phrase
Nombre
de Temps
prévu
phrases
pour segmenter
segmentées au au niveau de la
niveau de la syllabe
syllabe
1
M7 (Masculin) Non
Oui
2000
2000
60
200 heures
2
M7 (Masculin) Non
Oui
2000
2000
60
200 heures
3
M7 (Masculin) Oui
Oui
2000
2000
50
heures 60
(pour EGG)
400
heures
(Audio + EGG)
4
F2 (Féminin)
Non
299
299
20 heures
200 heures
6000
6000
70 heures
Total
Non
-7-
180
1000 heures
Le corpus dans son état actuel est donc constitué de signaux audio et
électroglottographiques, ainsi que d’enregistrements vidéo. Les transcriptions
intégrales sont disponibles sous forme de fichiers de traitement de texte. A ces
documents s’ajoute une documentation, qui peut être mise en forme au format PDF
(pour archivage) et/ou HTML (pour présentation en ligne) qui fournit des explications
utiles pour prendre en main le corpus. En particulier, la caractérisation détaillée des 16
attitudes, présentée dans le tableau ci-dessous, a vocation à être mise à disposition en
association avec les enregistrements. Un lien pourra également être établi, via les
métadonnées, avec la thèse de l’auteur du corpus, qui fournit des informations et
analyses concernant ce corpus.
Les attitudes pour le vietnamien et leur définition
No
1
Attitude
Déclaration
Abréviation
DEC
2
Question-simple
QUE
3
Exclamation de
surprise neutre
EXo
4
Exclamation de
surprise positive
EXp
5
Exclamation de
surprise négative
EXn
6
Evidence
EVI
7
Doute-incrédulité
DOU
8
Autorité
AUT
9
Irritation
IRR
10
Ironie sarcastique
SAR
11
Mépris
MEP
12
Politesse
POL
13
14
Admiration
Maternel
ADM
MAT
15
Séduction
SED
Définitions
Le locuteur fait part d’une simple information, sans exprimer
aucun point de vue
Le locuteur demande une information, sans exprimer de
point de vue, et sans attendre autre chose qu’une simple
réponse
Le locuteur manifeste son étonnement concernant
l’information qu’il donne à son interlocuteur, sans préciser si
cette information surprenante le dérange ou lui plait
Le locuteur manifeste son étonnement concernant
l’information qu’il donne à son interlocuteur : cette
information est une très bonne nouvelle pour le locuteur
Le locuteur manifeste son étonnement concernant
l’information qu’il donne à son interlocuteur : cette
information est une mauvaise nouvelle pour le locuteur
Le locuteur parle de quelque chose dont il est certain et
manifeste cette certitude
Le locuteur veut exprimer son incertitude, ou son manque de
conviction, concernant une information que vient de lui
donner son interlocuteur : il répète cette information tout en
manifestant son doute
Le locuteur veut imposer son avis à son interlocuteur, ou au
moins l’influencer fortement
Le locuteur est fortement mécontent de ce qui vient d’être
dit, cela le dérange et il le manifeste.
Son interlocuteur vient d’affirmer une information avec
laquelle le locuteur n’est pas d’accord, il le manifeste mais
par le biais de l’ironie, ce qui pourrait ressembler à
prononcer par ex « Oui, c’est exactement ça… », mais en
exprimant clairement qu’il pense le contraire…
Le locuteur manifeste de l’arrogance, du mépris, manifestant
qu’il considère ce qui vient d’être dit n’est pas digne
d’intérêt, voire pire....
Le locuteur souhaite exprimer sa courtoisie et de la politesse
vis-à-vis de son interlocuteur
Le locuteur est admiratif et le manifeste.
Le locuteur bienveillant s’adresse à un petit enfant, le met en
confiance affectueusement.
Le locuteur veut plaire à son interlocuteur, gagner son
-8-
16
Familier-Intime
FAM
estime et sa confiance, peut-être même la séduire
amoureusement
Le locuteur partage une intimité avec son interlocuteur et
s’adresse à lui avec naturel
-9-