Une valuation de comparatif d`humain et d`ordinateur de l`effort et
Transcription
Une valuation de comparatif d`humain et d`ordinateur de l`effort et
SETIT 2007 4th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 25-29, 2007 – TUNISIA Reconnaissance Automatique et Evaluation Subjective du Stress et des Styles de Parole de la Base SUSAS M. Kammoun et N. Ellouze Unité de Recherche Signal, Image et Reconnaissance des Formes, Ecole Nationale d’Ingénieurs de Tunis ENIT, BP.37 Le Belvédère, 1002, Tunis, Tunisie [email protected] [email protected] Résumé: Ce papier traite la comparaison entre les résultats obtenus respectivement par une RAP (Reconnaissance Automatique de la Parole) et une évaluation subjective. Pour cette recherche une classification indépendante des mots et des locuteurs est illustrée. Les paramètres considérés résultent de la concaténation des Coefficients Mel Cepstre avec des paramètres prosodiques, à savoir le logarithme de l’énergie et le contour de la fréquence fondamentale, les dérivées premières et secondes de la matrice incluant l’ensemble de ces paramètres sont calculées. L'approche proposée est basée sur la reconnaissance de la parole par les modèles de Markov cachés (MMC) de type Bakis. Les performances des MMC sont testées sur la partie simulée de la base de données SUSAS (Speech under Simulated and Actual Stress). Le taux moyen de reconnaissance des 11 stress et styles de parole de la base atteint 77.83%. Les résultats obtenus par l’analyse subjective ont une valeur moyenne de 62.81%. Nous exécutons l'identification des 11 modèles ensemble pour les tests d’écoute et l'évaluation d'ordinateur. Les résultats obtenus dans l'évaluation de la RAP valident l'efficacité du classificateur par les MMC et le choix des paramètres. Mots clés : Stress et styles de parole, fréquence fondamentale, Log énergie, Mfcc, MMC. - troisièmement de la différence interindividuelle dans la représentation des émotions chez chaque individu, et INTRODUCTION L’intégration de plusieurs indices acoustiques (F0, registre, plage, contour, durée, intensité, débit de la parole) est l’un des éléments clés dans l’expression des énoncés émotionnels. Les diverses études antérieures ont indiqué les tendances suivantes: Une fréquence fondamentale (F0) élevée évoque l’expression de la joie et de la colère, au contraire, une F0 basse évoque la tristesse avec souvent une plage de F0 réduite [FON 86], [FRI 85]. Il a été également indiqué que la F0 et la durée sont plus marquées dans l’expression de la « joie » par rapport aux émotions « neutre », « colère », « tristesse ». Il est toutefois difficile de donner un modèle définitif et figé sur le rapport entre les indices acoustiques et l’expression des différents états émotionnels [HAN 98]. Cette difficulté vient: - quatrièmement les problèmes d’intégration de divers paramètres au niveau perceptif [LEE 01] [COW 01] [LEI 97]. La base de données employée pour tester la performance de notre système de reconnaissance est la base SUSAS, en particulier la partie « simulée », qui se compose des expressions de neuf locuteurs masculins dans chacun des 11 styles étudiés qui sont : neutre, stress moyen, stress élevé, énervé, lombard, fort, doux, rapide, lent, interrogatif et clair. La première section décrit le corpus vocal. Le cadre expérimentale est présenté en détail dans la deuxième section. Les sections 3 et 4 exposent respectivement les résultats obtenus par l’analyse subjective et objective. Enfin la section 5 résume le papier et présente des conclusions. -premièrement de la différence méthodologique (émotions simulées ou réelles), 1. Description du corpus vocal -deuxièmement de la difficulté d’établir une définition absolue des différents états émotionnels (joie, colère, peur, tristesse, etc. ; l’émotion est considérée comme un phénomène continu et non catégoriel), Les données vocales employées dans le cadre de cette recherche sont extraites de la base de données SUSAS, qui représente une base de données enregistrée sous l’effet de facteurs de stress, elle a été -1- SETIT2007 collectée par le laboratoire robuste de traitement de signal de l’université de Duke sous la direction du Professeur John Hansen et sponsorisée par l’air force américaine [HAN 97]. La base de données est partagée en 5 domaines, englobant une large variété de stress et de styles de parole. Un nombre total de 32 locuteurs (13 femmes et 19 hommes) dans un intervalle d’âge entre 22 et 76 ans ont participé pour générer 16000 échantillons vocaux. Les cinq domaines de stress incluent : 1) Styles de parole (lent, rapide, doux, fort, énervé, clair, interrogatif), 2) Parole produite dans le bruit (effet Lombard), 3) production d’une tâche lourde dans un temps très limité (stress moyen et stress élevé), 4) sujets réels stressés et effrayés, 5) Analyse psychiatrique (production de la parole sous l’effet de la dépression, de la peur, de l’anxiété) Un vocabulaire très hautement similaire servant aux communications à bord des hélicoptères de l’air force américaine représente la donnée de parole de cette base. Les mots isolés répétés par les locuteurs de la partie simulée sont au nombre de 35. étiquettes obtenues suite à la modélisation du modèle markovien, l’évaluation des performances est opérée. 2. Cadre expérimental Figure 2. Etage d’extraction des paramètres 2.1. Extraction des paramètres spectraux et prosodiques Pré traitement et codage Estimation Calcul spectrale d’énergie Calcul de F0 Calcul des dérivées premières et secondes 12 MFCC+Δ+ΔΔ Log E +Δ+ΔΔ F0+Δ+ΔΔ La figure ci-dessus détaille l’étage d’extraction des paramètres utilisés pour le codage des mots isolés de la base échantillonnée à 8 kHz. La phase de pré traitement et codage englobe une étape de pré accentuation par un filtre non récursif d’ordre 1 et de coefficient 0.97 permettant d’élever les aigues toujours plus faibles que les graves, ainsi les informations portées par les aigues ne sont pas négligées. L’évaluation spectrale est la deuxième étape du pré traitement, elle est assurée en appliquant un fenêtrage par des fenêtres glissantes de Hamming pour lisser le signal au début et à la fin de chaque fenêtre réduisant ainsi les discontinuités dues au découpage en trame. 25 ms est la largeur de la fenêtre habituellement employée dans la RAP avec un recouvrement de moitié. Après le fenêtrage, le spectre est calculé par la FFT (Transformée de Fourier Rapide). Le spectre est ensuite passé dans des filtres Mel triangulaires, prenant ainsi en considération la perception de l’oreille humaine. 22 filtres sont employés dans cette étude. Le vecteur acoustique des MFCC comprend 12 coefficients, le coefficient 0 sert souvent à la mesure de l’énergie (Log E). Le contour de la fréquence fondamentale est obtenu par l’approche cepstrale utilisant COLEA (un outil pour l’analyse de la parole par Matlab) [LOI 99]. Les paramètres dynamiques incluent les premières (delta) et secondes (delta-delta) dérivées des MFCC, Log énergie et fréquence fondamentale, les paramètres obtenus après le bloc de l’extraction sont : MFCC, ∆MFCC, ∆∆MFCC, Log énergie, ∆∆Log énergie et ∆ F0 et ∆∆F0. Le graphe ci-dessous décrit la procédure d’élaboration des 11 modèles de Markov relatifs aux stress et aux styles de parole de la base SUSAS. La base d’apprentissage comprend 7700 mots isolés, étiquetés dont 700 mots pour chaque modèle (700*11). 2508 mots non étiquetés forment la base de test dont 228 mots par modèle (228*11). Préparation de la base d’apprentissage et de la base de test Extraction des paramètres Initialisation d’un modèle prototype markovien Apprentissage ré estimation et évaluation du modèle Évaluation des performances Figure 1. Algorithme de construction d’une RAP La deuxième étape requise pour l’élaboration des modèles est l’extraction des paramètres qui sont de deux types différents spectraux et prosodiques. L’initialisation d’un modèle prototype markovien est opérée en utilisant un modèle gauche droite avec une gaussienne par état, basé sur un processus markovien continu de vecteur moyenne à composantes nulles, vecteur variance de composantes égales à 1 et une matrice de transition diagonale [HIL 03]. Le volet suivant permet l’apprentissage, la ré- estimation et l’évaluation du modèle en utilisant respectivement l’algorithme de Baum Welch, l’algorithme de Viterbi et l’algorithme Backward-Forward. En comparant les étiquettes de la base d’apprentissage par rapport aux 2.2. Système de reconnaissance automatique de la parole Le diagramme suivant donne une vue d’ensemble d’un système de RAP typique, comme c’est illustré sur la figure 3, le système est composé du bloc de l’extraction des paramètres, des modèles acoustiques, un dictionnaire et un modèle de chaque stress et style de parole. L’extraction des paramètres et l’élaboration -2- SETIT2007 3.2. Résultats relatifs aux tests des modèles ont été décrites dans les sections précédentes. La tâche de reconnaissance du système est représentée par la recherche de la séquence du mot Ŵ qui maximise la probabilité postérieure P(W/X) que la séquence des mots W a produit donnant ainsi l’observation du vecteur acoustique X. Ŵ= Argmax P(W/X) Les résultats moyens relatifs à 15 auditeurs sont présentés dans le tableau 1 et apparaissent en pourcentage avec : N : Neutre, C : Clair, D : Doux, LB : Lombard, E : Enervé, R : Rapide, L : Lent, SM : Stress Moyen, SE : Stress Elevé, I : Interrogatif. (1) % N w ЄW La performance de la reconnaissance est évaluée par l’expression suivante : ACC=100-WER S+D+I WER(Word Error Rate) = N (2) *100 (3) N, S, D et I sont respectivement le nombre total des mots dans la base test (2508 mots), le nombre total des mots substitués, le nombre total des mots supprimés et le nombre total des mots insérés. C 8,66 D 3,66 LB 4 F 0 E 0,66 R 0 L 0,66 SM 5,33 SE 1,66 I 0 C D LB F N 75,33 21,66 7,66 13 0 55,66 5 6,33 1 6 70,33 4,33 0 3,66 4 44,33 0,66 0 0 0,66 78,33 1 0 1,33 14,33 0 0 0 2,66 3,66 3 6,66 0 5,33 8 8 0,33 3 0,66 12,33 0,33 0 1,33 3 2,33 E 1,33 1,66 0 1 20,33 68 4,33 0 1,33 0,33 1,66 R 0 2 0,66 1 2,66 11,66 67 0 4,33 2 8,66 L SM SE I 2,33 12 15 0,33 0,33 3,33 5,33 3,66 4,66 5,66 1,66 0,66 6 7 3,66 1 0 0 0,66 1 0 0 3,66 4 0 1,66 2,66 8,66 80,33 1,66 0,33 0,66 1,66 41,66 24,33 3 4,66 26,33 0 0,66 3 70,33 39,66 6,66 Tableau 1. Taux moyens de l’évaluation subjective La matrice de confusion suivante présentée sous forme de tableau, nous permet de déduire les taux moyens de reconnaissances sur la diagonale, le style lent présente le meilleur pourcentage de reconnaissance (80.33%) suivi du style rapide (78.33%), du style neutre (75.33%) et du style doux (70.33%). Les autres stress et styles de parole ont été reconnus avec des taux inférieurs à 70%. Donnée vocale Extraction des paramètres 4. Evaluation objective par la RAP x Modèles acoustiques Calcul des probabilités Dans cette section, nous exécutons l'identification des 11 stress et styles de parole présentés dans la base de test composée de 2508 mots comprenant 228 mots par style et stress. Dictionnaire P(x/w) Modèle Evaluation P(w) Résultats ŵ Figure 3. Diagramme structurel d’une RAP 4.1. Résultats de classification La classification des 11 stress et styles de parole utilisant les paramètres décrits dans la section 2 (12 MFCC combinés avec les paramètres prosodiques E et F0) est présentée sous forme d’une matrice de confusion dans le tableau 2, cette matrice permet d’évaluer les confusions entre les différents styles. On note que le style lent présente le meilleur taux de reconnaissance (89.73%), les styles de parole neutre, stress moyen, stress élevé, rapide et énervé présentent des taux d’exactitude aux alentours de 80%. Quant aux autres styles et stress ils donnent des pourcentages moindres allant jusqu’à 62.8% pour le style interrogatif. 3. Evaluation subjective par tests d’écoute Dans cette section, nous décrivons les tests d’écoute établis et présentons les résultats d’évaluation. 3.1. Stratégie expérimentale des tests L'évaluation subjective du stress et des styles de parole est réalisée en effectuant les essais d’écoute subjectifs avec les auditeurs naïfs. Quinze auditeurs (7 femmes et 8 hommes) avec des âges s'étendant de 21 à 39 ans ont participé à l'expérience et chacun des auditeurs a été présenté avec 550 expressions. Les stimuli d'essai ont été présentés dans l'ordre aléatoire afin d'éliminer tous les effets corrélatifs dans la prise de décision. Des écouteurs ont été utilisés et les sujets ont eu la liberté d’ajuster le volume et d’écouter le mot autant de fois qu'ils le souhaitent, cependant une fois le choix attribué, ils n'ont plus le droit de retourner en arrière. L'évaluation consiste à écouter un ensemble de 11 stress et styles de parole mixés et placés dans 11 répertoires différents, chacun de ces répertoires comprend 50 mots, l’auditeur est tenu de reconnaitre à chaque fois le style du mot écouté et de cocher la case correspondante à la catégorie à laquelle appartienne ce mot. La durée moyenne d'essai était de 30 minutes par auditeur. % N SM SE F LB D C L I E R N SM SE F LB D C L 82,63 2,16 1,16 0,25 1,69 2,64 3,05 0,85 2,52 81,31 2,31 1,31 1,36 1,62 2,9 0,51 1.24 4.95 85.25 0.81 1.3 0.92 1.9 0.29 1,91 1,54 0,96 79.52 2,92 1,37 1,61 0,57 4,92 3,59 2,81 1,32 74.13 1,64 0,56 0,9 5,92 2,54 2,32 0,95 0,94 70.92 2,98 2,02 3,21 2,64 2,64 0,92 1,92 3,1 73.82 1,52 1,72 0,62 1,62 0,27 1,34 2,62 1,82 89.73 1,98 2,57 1,57 1,56 2,31 2,52 4,62 0,97 2,56 1,74 0,84 3,82 1,81 0,25 0,41 0,94 1,85 2,57 3.87 2,93 2,51 1,12 2,41 0,95 I E 1,94 0,62 1,39 1,38 1.29 1.27 2,18 4,52 2,51 2,48 1,98 1,56 3,92 5,25 1.96 0,85 62.8 4,68 2,6 81.15 1,82 3,91 R 2,92 2,02 3.12 3,1 1,68 5,52 4,67 1,27 12,95 4,94 72.36 Tableau 2. Taux de reconnaissance des 11 stress et styles de parole -3- SETIT2007 4.2. Comparaison des résultats objectifs et subjectifs 32 et 64 et de noter l’effet de cette variation sur les taux de reconnaissance. La figure ci-dessous illustre les taux d’erreur obtenus avec les évaluations subjectives et objectives, respectivement opérées par des tests d’écoute et un système de reconnaissance automatique de parole. Les erreurs du système de reconnaissance sont nettement plus inférieures que celles des évaluateurs humains. Le style interrogatif est le seul style qui présente une erreur de classification par la RAP supérieure à l’erreur des tests d’écoute. Les 3 styles lombard, stress moyen et élevé sont remarquablement mieux dissociables par notre système de reconnaissance que par l’oreille humaine. REFERENCES [COW 01] Cowie, R., Douglas-Cowie, E., Tsapatsoulis, N., Votsis, G., Kollias, S., Fellenz, and Taylor, J., “Emotion recognition in human-computer interactions”, IEEE Sig. Proc. Mag., vol.18(1), pp. 32-80, Jan 2001. [FON 86] I. Fónagy, La vive voix : psychophonétique,Ed. Payot, Paris, 1986. [HIL 03] J.M Hillenbrand, ‘Automatic Speech Recognition in Adverse Acoustic Conditions’, PhD thesis, Western Michigan University, November 2003, © Febe de Wet, 2003, ISBN: 90-6464-983-9. 60 [HAN 97] J. H. L. Hansen and S. E. Bou-Ghazale, “Getting started with SUSAS: A speech under simulated and actual stress database,” in Proceedings of the European Conference on Speech Communication and Technology (EUROSPEECH), (Rhodes, Greece), pp. 1743–1746, September 1997. 50 40 30 20 10 SM SE F LB Analyse objective D C L I E de [FRI 85] R.W. Frick, Communicating emotion: the role of prosodic features. In Psychol. Bull., 97 :412-429, 1985. 70 N Essai R [HAN 98] J. H. L. Hansen, “Analysis and Compensation of Stressed and Noisy Speech with Application to Robust Automatic Recognition”, PhD thesis, Georgia Institute of Technology, July 1988. Analyse subjective Figure 4. Erreurs de confusion des évaluations objectives et subjectives [LEE 01] Lee, C. M., and Narayanan, S., “Towards detecting emotion in spoken dialogs”, IEEE Trans. on Speech & Audio Processing, 2001. 5. Conclusion Dans cette étude, nous avons exploré à quel point les individus et les ordinateurs identifient le stress et les styles de parole. Nous avons appliqué la reconnaissance à partir de mots isolés en utilisant un protocole indépendant du texte et du locuteur. Les modèles de Markov Cachés ont permis l’élaboration des 11 modèles des styles à reconnaitre. Les paramètres de modélisation du stress et des styles de parole sont le résultat de la concaténation des paramètres spectraux et prosodiques. Plusieurs conclusions peuvent découler des résultats obtenus, d’une part, le décodage du stress et des styles de parole est très influencé par les caractéristiques culturelles, sociales et intellectuelles du locuteur, d’autre part les individus sont incapables de détecter des troubles vocaux liés au stress. Quant à notre système de reconnaissance, il permet de détecter des troubles du comportement chez l’individu tels qu’une déficience auditive, très similaire à la production de la parole sous l’effet lombard, ou un stress continuel qui relève d’une dépression ou de troubles psychologiques. Les taux de reconnaissances du stress et des styles de parole de la base de données SUSAS ont atteints presque 90%, qui représente un taux très intéressent vus les variabilités imposées au système telles que la reconnaissance dans un milieu indépendant du mot et du locuteur. Les travaux qui succéderont viseront à introduire deux nouveaux paramètres, le jitter et le shimmer représentant respectivement les micros variations de la fréquence fondamentale et de l’énergie, et de tester leur influence sur le système de reconnaissance proposé. Une autre issue concerne la variation des états des HMM à 8, 16, [LEI 97] L. Leinonen and T. Hiltunen, “Expression of emotional motivational connotations with a one-word utterance,” J. Acoust. Soc. Am., vol. 102(3), pp. 1853– 1863, Sep 1997. [LOI 99] COLEA: A MATLAB software tool for speech analysis. Philip Loizou, PhD Assistant Professor Dept. of Applied Science University of Arkansas at Little Rock Little Rock, AR 72204-1099, 1999 -4-