Une valuation de comparatif d`humain et d`ordinateur de l`effort et

Transcription

Une valuation de comparatif d`humain et d`ordinateur de l`effort et
SETIT 2007
4th International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications
March 25-29, 2007 – TUNISIA
Reconnaissance Automatique et Evaluation Subjective
du Stress et des Styles de Parole de la Base SUSAS
M. Kammoun et N. Ellouze
Unité de Recherche Signal, Image et Reconnaissance des Formes, Ecole Nationale d’Ingénieurs de Tunis
ENIT, BP.37 Le Belvédère, 1002, Tunis, Tunisie
[email protected]
[email protected]
Résumé: Ce papier traite la comparaison entre les résultats obtenus respectivement par une RAP (Reconnaissance
Automatique de la Parole) et une évaluation subjective. Pour cette recherche une classification indépendante des mots
et des locuteurs est illustrée. Les paramètres considérés résultent de la concaténation des Coefficients Mel Cepstre avec
des paramètres prosodiques, à savoir le logarithme de l’énergie et le contour de la fréquence fondamentale, les dérivées
premières et secondes de la matrice incluant l’ensemble de ces paramètres sont calculées. L'approche proposée est basée
sur la reconnaissance de la parole par les modèles de Markov cachés (MMC) de type Bakis. Les performances des
MMC sont testées sur la partie simulée de la base de données SUSAS (Speech under Simulated and Actual Stress). Le
taux moyen de reconnaissance des 11 stress et styles de parole de la base atteint 77.83%. Les résultats obtenus par
l’analyse subjective ont une valeur moyenne de 62.81%. Nous exécutons l'identification des 11 modèles ensemble pour
les tests d’écoute et l'évaluation d'ordinateur. Les résultats obtenus dans l'évaluation de la RAP valident l'efficacité du
classificateur par les MMC et le choix des paramètres.
Mots clés : Stress et styles de parole, fréquence fondamentale, Log énergie, Mfcc, MMC.
- troisièmement de la différence interindividuelle
dans la représentation des émotions chez chaque
individu, et
INTRODUCTION
L’intégration de plusieurs indices acoustiques (F0,
registre, plage, contour, durée, intensité, débit de la
parole) est l’un des éléments clés dans l’expression des
énoncés émotionnels. Les diverses études antérieures
ont indiqué les tendances suivantes: Une fréquence
fondamentale (F0) élevée évoque l’expression de la
joie et de la colère, au contraire, une F0 basse évoque
la tristesse avec souvent une plage de F0 réduite [FON
86], [FRI 85]. Il a été également indiqué que la F0 et la
durée sont plus marquées dans l’expression de la « joie
» par rapport aux émotions « neutre », « colère », «
tristesse ». Il est toutefois difficile de donner un modèle
définitif et figé sur le rapport entre les indices
acoustiques et l’expression des différents états
émotionnels [HAN 98]. Cette difficulté vient:
- quatrièmement les problèmes d’intégration de
divers paramètres au niveau perceptif [LEE 01] [COW
01] [LEI 97].
La base de données employée pour tester la
performance de notre système de reconnaissance est la
base SUSAS, en particulier la partie « simulée », qui
se compose des expressions de neuf locuteurs
masculins dans chacun des 11 styles étudiés qui sont :
neutre, stress moyen, stress élevé, énervé, lombard,
fort, doux, rapide, lent, interrogatif et clair. La première
section décrit le corpus vocal. Le cadre expérimentale
est présenté en détail dans la deuxième section. Les
sections 3 et 4 exposent respectivement les résultats
obtenus par l’analyse subjective et objective. Enfin la
section 5 résume le papier et présente des conclusions.
-premièrement de la différence méthodologique
(émotions simulées ou réelles),
1. Description du corpus vocal
-deuxièmement de la difficulté d’établir une
définition absolue des différents états émotionnels
(joie, colère, peur, tristesse, etc. ; l’émotion est
considérée comme un phénomène continu et non
catégoriel),
Les données vocales employées dans le cadre de
cette recherche sont extraites de la base de données
SUSAS, qui représente une base de données
enregistrée sous l’effet de facteurs de stress, elle a été
-1-
SETIT2007
collectée par le laboratoire robuste de traitement de
signal de l’université de Duke sous la direction du
Professeur John Hansen et sponsorisée par l’air force
américaine [HAN 97]. La base de données est partagée
en 5 domaines, englobant une large variété de stress et
de styles de parole. Un nombre total de 32 locuteurs
(13 femmes et 19 hommes) dans un intervalle d’âge
entre 22 et 76 ans ont participé pour générer 16000
échantillons vocaux. Les cinq domaines de stress
incluent : 1) Styles de parole (lent, rapide, doux, fort,
énervé, clair, interrogatif), 2) Parole produite dans le
bruit (effet Lombard), 3) production d’une tâche lourde
dans un temps très limité (stress moyen et stress élevé),
4) sujets réels stressés et effrayés, 5) Analyse
psychiatrique (production de la parole sous l’effet de la
dépression, de la peur, de l’anxiété) Un vocabulaire
très hautement similaire servant aux communications à
bord des hélicoptères de l’air force américaine
représente la donnée de parole de cette base. Les mots
isolés répétés par les locuteurs de la partie simulée sont
au nombre de 35.
étiquettes obtenues suite à la modélisation du modèle
markovien, l’évaluation des performances est opérée.
2. Cadre expérimental
Figure 2. Etage d’extraction des paramètres
2.1. Extraction des paramètres spectraux et
prosodiques
Pré traitement et codage
Estimation
Calcul
spectrale
d’énergie
Calcul de F0
Calcul des dérivées premières et secondes
12 MFCC+Δ+ΔΔ
Log E +Δ+ΔΔ
F0+Δ+ΔΔ
La figure ci-dessus détaille l’étage d’extraction des
paramètres utilisés pour le codage des mots isolés de la
base échantillonnée à 8 kHz. La phase de pré
traitement et codage englobe une étape de pré
accentuation par un filtre non récursif d’ordre 1 et de
coefficient 0.97 permettant d’élever les aigues toujours
plus faibles que les graves, ainsi les informations
portées par les aigues ne sont pas négligées.
L’évaluation spectrale est la deuxième étape du pré
traitement, elle est assurée en appliquant un fenêtrage
par des fenêtres glissantes de Hamming pour lisser le
signal au début et à la fin de chaque fenêtre réduisant
ainsi les discontinuités dues au découpage en trame. 25
ms est la largeur de la fenêtre habituellement employée
dans la RAP avec un recouvrement de moitié. Après le
fenêtrage, le spectre est calculé par la FFT
(Transformée de Fourier Rapide). Le spectre est ensuite
passé dans des filtres Mel triangulaires, prenant ainsi
en considération la perception de l’oreille humaine. 22
filtres sont employés dans cette étude. Le vecteur
acoustique des MFCC comprend 12 coefficients, le
coefficient 0 sert souvent à la mesure de l’énergie (Log
E). Le contour de la fréquence fondamentale est obtenu
par l’approche cepstrale utilisant COLEA (un outil
pour l’analyse de la parole par Matlab) [LOI 99]. Les
paramètres dynamiques incluent les premières (delta)
et secondes (delta-delta) dérivées des MFCC, Log
énergie et fréquence fondamentale, les paramètres
obtenus après le bloc de l’extraction sont : MFCC,
∆MFCC, ∆∆MFCC, Log énergie, ∆∆Log énergie et ∆
F0 et ∆∆F0.
Le graphe ci-dessous décrit la procédure
d’élaboration des 11 modèles de Markov relatifs aux
stress et aux styles de parole de la base SUSAS. La
base d’apprentissage comprend 7700 mots isolés,
étiquetés dont 700 mots pour chaque modèle (700*11).
2508 mots non étiquetés forment la base de test dont
228 mots par modèle (228*11).
Préparation de la base d’apprentissage
et de la base de test
Extraction des paramètres
Initialisation d’un modèle prototype markovien
Apprentissage ré estimation et évaluation du modèle
Évaluation des performances
Figure 1. Algorithme de construction d’une RAP
La deuxième étape requise pour l’élaboration des
modèles est l’extraction des paramètres qui sont de
deux types différents spectraux et prosodiques.
L’initialisation d’un modèle prototype markovien est
opérée en utilisant un modèle gauche droite avec une
gaussienne par état, basé sur un processus markovien
continu de vecteur moyenne à composantes nulles,
vecteur variance de composantes égales à 1 et une
matrice de transition diagonale [HIL 03]. Le volet
suivant permet l’apprentissage, la ré- estimation et
l’évaluation du modèle en utilisant respectivement
l’algorithme de Baum Welch, l’algorithme de Viterbi
et l’algorithme Backward-Forward. En comparant les
étiquettes de la base d’apprentissage par rapport aux
2.2. Système de reconnaissance automatique de la
parole
Le diagramme suivant donne une vue d’ensemble
d’un système de RAP typique, comme c’est illustré sur
la figure 3, le système est composé du bloc de
l’extraction des paramètres, des modèles acoustiques,
un dictionnaire et un modèle de chaque stress et style
de parole. L’extraction des paramètres et l’élaboration
-2-
SETIT2007
3.2. Résultats relatifs aux tests
des modèles ont été décrites dans les sections
précédentes. La tâche de reconnaissance du système est
représentée par la recherche de la séquence du mot Ŵ
qui maximise la probabilité postérieure P(W/X) que la
séquence des mots W a produit donnant ainsi
l’observation du vecteur acoustique X.
Ŵ=
Argmax P(W/X)
Les résultats moyens relatifs à 15 auditeurs sont
présentés dans le tableau 1 et apparaissent en
pourcentage avec : N : Neutre, C : Clair, D : Doux,
LB : Lombard, E : Enervé, R : Rapide, L : Lent, SM :
Stress Moyen, SE : Stress Elevé, I : Interrogatif.
(1)
%
N
w ЄW
La performance de la reconnaissance est évaluée
par l’expression suivante :
ACC=100-WER
S+D+I
WER(Word Error Rate) =
N
(2)
*100
(3)
N, S, D et I sont respectivement le nombre total des
mots dans la base test (2508 mots), le nombre total des
mots substitués, le nombre total des mots supprimés et
le nombre total des mots insérés.
C
8,66
D
3,66
LB
4
F
0
E
0,66
R
0
L
0,66
SM
5,33
SE
1,66
I
0
C
D
LB
F
N
75,33
21,66
7,66
13
0
55,66
5
6,33
1
6
70,33
4,33
0
3,66
4
44,33
0,66
0
0
0,66
78,33
1
0
1,33
14,33
0
0
0
2,66
3,66
3
6,66
0
5,33
8
8
0,33
3
0,66
12,33
0,33
0
1,33
3
2,33
E
1,33
1,66
0
1
20,33
68
4,33
0
1,33
0,33
1,66
R
0
2
0,66
1
2,66
11,66
67
0
4,33
2
8,66
L
SM
SE
I
2,33
12
15
0,33
0,33
3,33
5,33
3,66
4,66
5,66
1,66
0,66
6
7
3,66
1
0
0
0,66
1
0
0
3,66
4
0
1,66
2,66
8,66
80,33
1,66
0,33
0,66
1,66
41,66
24,33
3
4,66
26,33
0
0,66
3
70,33
39,66
6,66
Tableau 1. Taux moyens de l’évaluation subjective
La matrice de confusion suivante présentée sous
forme de tableau, nous permet de déduire les taux
moyens de reconnaissances sur la diagonale, le style
lent présente le meilleur pourcentage de reconnaissance
(80.33%) suivi du style rapide (78.33%), du style
neutre (75.33%) et du style doux (70.33%). Les autres
stress et styles de parole ont été reconnus avec des taux
inférieurs à 70%.
Donnée
vocale
Extraction des
paramètres
4. Evaluation objective par la RAP
x
Modèles
acoustiques
Calcul des
probabilités
Dans cette section, nous exécutons l'identification
des 11 stress et styles de parole présentés dans la base
de test composée de 2508 mots comprenant 228 mots
par style et stress.
Dictionnaire
P(x/w)
Modèle
Evaluation
P(w)
Résultats
ŵ
Figure 3. Diagramme structurel d’une RAP
4.1. Résultats de classification
La classification des 11 stress et styles de parole
utilisant les paramètres décrits dans la section 2 (12
MFCC combinés avec les paramètres prosodiques E et
F0) est présentée sous forme d’une matrice de
confusion dans le tableau 2, cette matrice permet
d’évaluer les confusions entre les différents styles. On
note que le style lent présente le meilleur taux de
reconnaissance (89.73%), les styles de parole neutre,
stress moyen, stress élevé, rapide et énervé présentent
des taux d’exactitude aux alentours de 80%. Quant aux
autres styles et stress ils donnent des pourcentages
moindres allant jusqu’à 62.8% pour le style
interrogatif.
3. Evaluation subjective par tests d’écoute
Dans cette section, nous décrivons les tests d’écoute
établis et présentons les résultats d’évaluation.
3.1. Stratégie expérimentale des tests
L'évaluation subjective du stress et des styles de
parole est réalisée en effectuant les essais d’écoute
subjectifs avec les auditeurs naïfs. Quinze auditeurs (7
femmes et 8 hommes) avec des âges s'étendant de 21 à
39 ans ont participé à l'expérience et chacun des
auditeurs a été présenté avec 550 expressions. Les
stimuli d'essai ont été présentés dans l'ordre aléatoire
afin d'éliminer tous les effets corrélatifs dans la prise
de décision. Des écouteurs ont été utilisés et les sujets
ont eu la liberté d’ajuster le volume et d’écouter le mot
autant de fois qu'ils le souhaitent, cependant une fois le
choix attribué, ils n'ont plus le droit de retourner en
arrière. L'évaluation consiste à écouter un ensemble de
11 stress et styles de parole mixés et placés dans 11
répertoires différents, chacun de ces répertoires
comprend 50 mots, l’auditeur est tenu de reconnaitre à
chaque fois le style du mot écouté et de cocher la case
correspondante à la catégorie à laquelle appartienne ce
mot. La durée moyenne d'essai était de 30 minutes par
auditeur.
%
N
SM
SE
F
LB
D
C
L
I
E
R
N
SM
SE
F
LB
D
C
L
82,63 2,16 1,16 0,25 1,69 2,64 3,05 0,85
2,52 81,31 2,31 1,31 1,36 1,62
2,9
0,51
1.24 4.95 85.25 0.81
1.3
0.92
1.9
0.29
1,91 1,54 0,96 79.52 2,92 1,37 1,61 0,57
4,92 3,59 2,81 1,32 74.13 1,64 0,56
0,9
5,92 2,54 2,32 0,95 0,94 70.92 2,98 2,02
3,21 2,64 2,64 0,92 1,92
3,1 73.82 1,52
1,72 0,62 1,62 0,27 1,34 2,62 1,82 89.73
1,98 2,57 1,57 1,56 2,31 2,52 4,62 0,97
2,56 1,74 0,84 3,82 1,81 0,25 0,41 0,94
1,85 2,57 3.87 2,93 2,51 1,12 2,41 0,95
I
E
1,94 0,62
1,39 1,38
1.29 1.27
2,18 4,52
2,51 2,48
1,98 1,56
3,92 5,25
1.96 0,85
62.8 4,68
2,6 81.15
1,82 3,91
R
2,92
2,02
3.12
3,1
1,68
5,52
4,67
1,27
12,95
4,94
72.36
Tableau 2. Taux de reconnaissance des 11 stress et
styles de parole
-3-
SETIT2007
4.2. Comparaison des résultats objectifs et
subjectifs
32 et 64 et de noter l’effet de cette variation sur les
taux de reconnaissance.
La figure ci-dessous illustre les taux d’erreur
obtenus avec les évaluations subjectives et objectives,
respectivement opérées par des tests d’écoute et un
système de reconnaissance automatique de parole. Les
erreurs du système de reconnaissance sont nettement
plus inférieures que celles des évaluateurs humains. Le
style interrogatif est le seul style qui présente une
erreur de classification par la RAP supérieure à l’erreur
des tests d’écoute. Les 3 styles lombard, stress moyen
et élevé sont remarquablement mieux dissociables par
notre système de reconnaissance que par l’oreille
humaine.
REFERENCES
[COW 01] Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N.,
Votsis, G., Kollias, S., Fellenz, and Taylor, J., “Emotion
recognition in human-computer interactions”, IEEE Sig.
Proc. Mag., vol.18(1), pp. 32-80, Jan 2001.
[FON 86] I. Fónagy, La vive voix :
psychophonétique,Ed. Payot, Paris, 1986.
[HIL 03] J.M Hillenbrand, ‘Automatic Speech Recognition in
Adverse Acoustic Conditions’, PhD thesis, Western
Michigan University, November 2003, © Febe de Wet,
2003, ISBN: 90-6464-983-9.
60
[HAN 97] J. H. L. Hansen and S. E. Bou-Ghazale, “Getting
started with SUSAS: A speech under simulated and
actual stress database,” in Proceedings of the European
Conference on Speech Communication and Technology
(EUROSPEECH), (Rhodes, Greece), pp. 1743–1746,
September 1997.
50
40
30
20
10
SM
SE
F
LB
Analyse objective
D
C
L
I
E
de
[FRI 85] R.W. Frick, Communicating emotion: the role of
prosodic features. In Psychol. Bull., 97 :412-429, 1985.
70
N
Essai
R
[HAN 98] J. H. L. Hansen, “Analysis and Compensation of
Stressed and Noisy Speech with Application to Robust
Automatic Recognition”, PhD thesis, Georgia Institute of
Technology, July 1988.
Analyse subjective
Figure 4. Erreurs de confusion des évaluations
objectives et subjectives
[LEE 01] Lee, C. M., and Narayanan, S., “Towards detecting
emotion in spoken dialogs”, IEEE Trans. on Speech &
Audio Processing, 2001.
5. Conclusion
Dans cette étude, nous avons exploré à quel point
les individus et les ordinateurs identifient le stress et les
styles de parole.
Nous avons appliqué la
reconnaissance à partir de mots isolés en utilisant un
protocole indépendant du texte et du locuteur. Les
modèles de Markov Cachés ont permis l’élaboration
des 11 modèles des styles à reconnaitre. Les paramètres
de modélisation du stress et des styles de parole sont le
résultat de la concaténation des paramètres spectraux et
prosodiques. Plusieurs conclusions peuvent découler
des résultats obtenus, d’une part, le décodage du stress
et des styles de parole est très influencé par les
caractéristiques culturelles, sociales et intellectuelles
du locuteur, d’autre part les individus sont incapables
de détecter des troubles vocaux liés au stress. Quant à
notre système de reconnaissance, il permet de détecter
des troubles du comportement chez l’individu tels
qu’une déficience auditive, très similaire à la
production de la parole sous l’effet lombard, ou un
stress continuel qui relève d’une dépression ou de
troubles psychologiques. Les taux de reconnaissances
du stress et des styles de parole de la base de données
SUSAS ont atteints presque 90%, qui représente un
taux très intéressent vus les variabilités imposées au
système telles que la reconnaissance dans un milieu
indépendant du mot et du locuteur. Les travaux qui
succéderont viseront à introduire deux nouveaux
paramètres, le jitter et le shimmer représentant
respectivement les micros variations de la fréquence
fondamentale et de l’énergie, et de tester leur influence
sur le système de reconnaissance proposé. Une autre
issue concerne la variation des états des HMM à 8, 16,
[LEI 97] L. Leinonen and T. Hiltunen, “Expression of
emotional motivational connotations with a one-word
utterance,” J. Acoust. Soc. Am., vol. 102(3), pp. 1853–
1863, Sep 1997.
[LOI 99] COLEA: A MATLAB software tool for speech
analysis. Philip Loizou, PhD Assistant Professor Dept. of
Applied Science University of Arkansas at Little Rock
Little Rock, AR 72204-1099, 1999
-4-

Documents pareils