Un nouveau codage parcimonieux temps- fréquence de la parole
Transcription
Un nouveau codage parcimonieux temps- fréquence de la parole
Un nouveau codage parcimonieux tempsfréquence de la parole Fraihat Salam Laboratoire des Sciences de l’Information et des Systèmes - UMR 6168 Domaine Universitaire de Saint-Jérôme, Avenue Escadrille Normandie-Niemen 13397 MARSEILLE CEDEX 20 - FRANCE [email protected] RÉSUMÉ. Cet article présente une nouvelle méthode parcimonieuse de paramétrisation de la parole, basée sur une simple quantification en temps-fréquence par sous-bande. L’algèbre temporelle d’Allen est appliquée, en binarisant l’activité de voisement des sous-bandes. Alors que les paramétrisations habituelles de phonème se composent d’une trentaine de réels de MFCC (Mel Frequency Cepstrum Coefficients) ou de coefficients PLP, notre méthode emploie dix fois moins de coefficients d’entiers (15) codes sur 4bits, tout en donnant des résultats significatifs. Les expériences sont réalisées sur un corpus d’émissions radiophonique de plusieurs locuteurs, enregistrés par le DGA pour la campagne d’évaluation des systèmes de transcription des émissions radiophoniques (environ 40 heures manuellement transcrites, échantillon de fréquence 16kHz). Les résultats préliminaires de reconnaissance de voyelles locuteur indépendant, sur le sous-ensemble des voyelles françaises les plus fréquentes, sont environ 38 % de taux de reconnaissance (21 % mieux que le modèle aléatoire). Nous discutons finalement sur la généralisation de notre approche sur des séquences de CVC pour un codage efficace de la parole dans le cadre des systèmes robustes de reconnaissance automatique de la parole. ABSTRACT. This paper presents a new parsimonious speech parametrization, based on a simple subband time-frequency quantization. It is using Allen temporal algebra applied on binarized voicing subband activity. Whereas usual phoneme parametrizations are composed of hundred of Mel Frequency Cepstrum or PLP float coefficients, our method uses ten times less of integer coefficients (15), while giving significant results. Experiments are conducted on a multi-speaker broadcast news radio corpus, recorded by the french defense office for the Evaluation Campaign for Rich Transcription (about 40 hours manually transcribed, 16kHz frequency sample). Preliminary results of independant speaker vowel identification, on the subset of the most frequent french vowels, are around 38% recognition rate (21% better than the aleatoire model). We finaly discuss on the generalisation of our approach on CVC sequences for an efficient speech coding in the framework of robust automatic speech recognition systems. MOTS-CLÉS : Codage parcimonieux de la parole, algèbre temporelle d’Allen, quantification en Temps-Fréquence, reconnaissance automatique de la parole , MLP. e soumission à JDL6, le 21 mars 2008. 2 e soumission à JDL6. KEYWORDS: Parsimonious Speech Coding, Allen Temporal Algebra, Time-Frequency Quantization, Automatic Speech Recognition, MLP. Codage parcimonieux TF de la parole 3 1. Introduction Plusieurs spécificités du signal de la parole ne sont toujours pas bonnes exploitées par les modèles conventionnels actuellement utilisés dans le domaine du traitement de la parole. Le but de cet article est de présenter et discuter un codage original de la parole tandis que la majorité des méthodes d’analyses de la parole sont basées sur une analyse spectrale comme MFCC (Mel Frequency Cepstrum Coefficients). Il a été établie que la perception phonétique est un processus par sous bandes [FLE 22].Ceci inspira de nombreux algorithmes pour la reconnaissances robuste de la parole liées au niveau TF de voisement[GLO 01]. De plus l’un des effets de la réverbération est de brouiller la teneur spectrale du signal acoustique à travers le temps et la fréquence. La dynamique temps-fréquences (TF) apparaît donc importante dans la perception de la parole. Nous supposons dans notre approche que l’intervalle de voisement reflète une propriété singulière de modulation du spectre qui peut fournir un cadre qualitatif pour produire des modèles précis de phonème. Dans cet article nous présentons une nouvelle approche de codage de la parole basée sur la dynamique de sous bandes(SB) de ces niveaux TF de voisement. Nous donnons ses bases théoriques et les premiers résultats significatifs des expériences réalisées sur ESTER 1 . Nous rappelons d’abord l’Algèbre temporelle d’Allen, et les propriétés TF de voisement. Dans la section 4 nous montrons le processus de binarisation de notre représentation parcimonieuse de la parole. Après nous donnons des résultats significatifs de taux d’erreur de classe, ce dernier est discuté dans la dernière section. Nous proposons également l’optimisation de quelques processus, et nous concluons sur une généralisation de notre approche pour une modélisation d’ordres de phonèmes CV et CVC dans le cadre de la reconnaissance automatique de la parole. 2. Algèbre temporelle d’Allen Une algèbre d’intervalles temporelles a été définie dans [ALL 81, ALL 83, GLO 06], dans laquelle 14 relations (y compris «aucun-relation ») atomiques sont considérées entre deux intervalles de temps. Ces relations temporelles d’Allen sont représentées dans la fig 1, où X est l’intervalle coulissant qui donne, progressivement, avec Y les relations d’Allen. Nous pouvons placer à 1 une distance algébrique d entre les deux intervalles les plus proches. Nous l’incrémentons pendant que les intervalles s’écartent, définissant un nombre entier pour chaque relation. Ainsi le symbole “b”est codé par “1”, “m”par “2”, . . .pour les 14 relations (voir fig. 1). La relation « aucunrelation » est codée par 0, elle se produit entre deux intervalles vides. Nous proposons d’utiliser ces représentations temporelles, pour représenter des événements de la pa1. ESTER : campagne d’Évaluation des Systèmes de Transcription Enrichie des Émissions Radiophoniques(contient environ 40 heures de diffusion de journal radiophonique transcrites manuellement). 4 e soumission à JDL6. Relation Symbole X before Y b X meets Y m X overlaps Y o X starts Y s X during Y d Y X finishes Y f Y X equals Y eq Inverse Relation Illustration Symbole Illustration X X Y X after Y bi X met-by Y mi X overlapped-by Y oi X started-by Y si X contains Y di X finished-by Y fi Y X X Y Y X X Y Y X X Y X Y X X Y X Y X Y Figure 1. La structure de construction d’intervalle avec leurs symboles. Il y a 7 relations + leur inverse (notes (i*)) + “aucun-relation”. role par une petite ensemble de nombres entiers. Afin de définir des intervalles, nous analysons les niveaux TF des sous-bande comme détailles dans la prochaine section. 3. Génération des intervalles temps-fréquences Afin d’obtenir les intervalles de voisement des sous-bandes, nous utilisons la mesure de voisement[GLO 01]. Ce taux de voisement est fortement corrélé avec le SNR ( Rapport Signal sur Bruit) [GLO 99] et est équivalent à l’index d’harmonicité[GLO 01]. Il est extrait à partir de l’autocorrelogramme du signal démodulé. Dans le cas du bruit gaussien, le corrélogramme de la fenêtre de bruit est moins modulé qu’un corrélogramme propre. Avant l’autocorrélation, nous calculons le signal démodulé après une rectification, suivi d’un filtrage dans le domaines de pitch ([90,350] hertz). Pour chaque fenêtre FLV (fenêtre locale de voisement) de 128ms, nous calculons le ratio R = R1/R0, où R1 est le maximum local d’un segment de délais de temps correspondant à la fréquence fondamentale, et R0 est l’énergie d’une cellule. Cette mesure est fortement corrélée avec SNR au rang 5-20 dB. La figure 2 montre explicitement les niveaux de voisement pour chaque sous-bande et chaque fenêtre. Les définitions des sous-bandes (SB) suivent les études de Fletcher, suivies par autres Codage parcimonieux TF de la parole 5 études comme celles d’ALLEN J.B. 2 [FLE 22, ALL 94, GLO 01]. Nous avons coupé le signal à six sous-bandes chevauchées, afin de calculer la relation d’Allen entre elles. Les définitions de rangs des six SB(hertz) sont : : [216 778 ;707 1631 ;1262 2709 ;2121 3800 ;3400 5400 ;5000 8000]. 4. Binarisation et Représentation Nous avons essayé dans [BEN 07] d’estimer la meilleure fonction de binarisation en réduisant au minimum les occurrences du “aucun-relation”, dûes aux intervalles vides. Mais ce critère peut conduire à un artefact. Afin d’obtenir la représentation générique du signal avec des intervalles de temps significatifs pour produire des relations d’Allen, nous seuillons la matrice R en mettant à 1 les T voisements les plus grands par sous-bande (les autres a 0 ). Nous avons fixé la longueur de la fenêtre FBL, sur laquelle la binarisation est calculée, à 32ms avec un décalage de moitié. Après le seuillage des SBs de voisement, nous enlevons tous les intervalles qui sont connexes aux bords de la fenêtre d’analyse afin d’extraire les relations temporelles réelles. Enfin nous considérons que la fenêtre doit contenir au moins 4 intervalles reliés. Nous dérivons alors leurs relations temporelles d’Allen (voir fig. 2). Les étiquettes de voyelle pour la phase d’apprentissage sont données par le réalignement forcé sur le modèle standard de HMM-MMG [GAL 05]. Comme nous avons 6 SB, nous avons 15 relations temporelles (une pour chaque couple), ordonnées des bassses aux hautes fréquences. Dans notre exemple (fig. 2), de I’1 à I’5, nous obtenons le vecteur de paramètres [di di di oi oi d d d d s oi d oi f d], où i est la relation inverse (voir fig. 1). Puis ces paramètres TFQ estimés dans chaque fenêtrede taille FBL, sont présentes à l’entrée d’un classifieur (réseau de neurones), (un autre classificateur pourrait être employé). Le niveau relatif de R à travers le SB de fréquence est une information importante (position de formant), que nous perdrons dans les TFQ en raison de la binarisation. Ainsi les fonctions de binarisation et d’extraction devraient également intégrer la hiérarchie de fréquence de SB(voir tab.1). Nous testons donc si la position des formants améliore la performance de codage des phonèmes en ajoutant les 6 entiers correspondants au niveau relatif de R (= expérience Allen+freq) aide le classifier a mieux reconnaître les phonèmes ( -24,8 de gain)(voir tab.1). 2. Notez que ALLEN J.B et ALLEN J.F. sont deux auteurs différents, le premier travaillé sur l’analyse de la parole, la deuxième sur la représentation générique de temps. Notre modèle est basé sur les deux approches. 6 e soumission à JDL6. Figure 2. Du signal au niveau de voisement et à l’intervalle d’Allen : (a) signal de voisement, (b) le niveau de voisement R par sous-bande, (c) le seuillage de R. 5. Codage des phonèmes et expériences Dans cette section nous essayons de définir les paramètres dynamiques moyens pour la reconnaissance automatique de la parole(RAP)[FRA 08]. Notre première expérience est faite indépendant des locuteurs sur les six voyelles les plus fréquentes de la langue françaises : /Aa/,/Ai/,/An/,/Ei/,/Eu/,/Ii/. Nous varions la durée de la fenêtre FLV de 64ms, 32ms et le décalage entre 16ms et 4ms. les fenêtres sont étiquetées avec le phonème qui couvre au maximum la fenêtre FLV. Les paramètres d’Allen extraits de 1 heure de parole continue sont utilisées pour l’apprentissage de notre MLP, et nous testons le MLP avec d’autres enregistrements de 20 minutes de parole continue. Le nombre de neurones, dans la couche caché de notre MLP, et les meilleurs résultats sont données dans la table de résultats tab.1. Le critère de classification est le cross-entropie. Nous notons dans la figure 3 qu’il y a une similitude entre les formes 1 et 2, et différences entre 2 et 3. Ceci peut être dû au fait que les différents locuteurs ont différentes relations d’Allen comme présenté dans [FRA 08], cette différences peut négativement influencer la reconnaissance de phonème. D’autres études devront être basées sur cette question. 6 5 4 3 2 1 bands bands Codage parcimonieux TF de la parole 4 6 voicing DATA bands 4 6 voicing DATA 2 4 6 Binary DATA 8 2 4 6 Binary DATA 8 2 4 6 Binary DATA 8 6 5 4 3 2 1 8 6 5 4 3 2 1 2 6 5 4 3 2 1 8 6 5 4 3 2 1 2 bands 4 6 voicing DATA bands bands 2 7 6 5 4 3 2 1 8 Figure 3. Exemple de donnée binaire et de voisement de trois occurrences différentes de la voyelle /Aa/. Le vecteur des trois occurrences sont :vec1=[d,io,io,no,io,io,io,no,io,if,no,is,no,no,io], vec2=[io,io,io,no,no,s,id,no,no,id,no,no,id,no,no,no], vec3=[s,s,d,d,no,s,io,io,d,d,no,is,no,no] . 6. Discussion et Conclusion Le résultat de reconnaissances de voyelles avec une facteur de compression de 6,4 est intéressant (=70% ER), car si nous le comparons avec le taux d’erreur theorique d’un modèle aléatoire (=83% ER) 3 ). De plus les scores de reconnaissances phonétiques (sur 30 phonèmes) de l’état de l’art sont de l’ordre de 40% d’erreur pour la même base d’apprentissage et de Test ( Système de France Telecom et IRIT) avec 33 coefficients de type cepstraux (valeurs réelles)[SAL 08]. 3. Le taux d’erreur d’un classificateur aléatoire 2 est : P P k) où c est le nombre de classes et ERrand = 1 − ck=1 (Pk )2 = 1 − ck=1 P ccard(C card(C) k=1 card(Ck ) est le nombre d’exemples d’une classe Ck , card(C) : le nombre total d’exemples. 8 soumission à JDL6. 6 6 5 5 4 4 bands bands e 3 2 3 2 1 1 1 2 3 4 5 6 Binary DATA 7 8 9 1 2 3 4 5 6 Binary DATA 7 8 9 Figure 4. Exemple de données binaires issues des voisement de deux occurrences différentes de la voyelle /Ii/ pour deux locuteurs différents. Les vecteurs des deux occurrences sont :vec1=[no,no,no,no,no,o,b,o,o,o,s,eq,io,io,is], vec2=[s,o,no,o,o,if,no,o,if,no,s,eq,no,no,is]. Ils partagent donc 5 paramètres égaux : nous trouvons les mêmes relations entre des bandes comme :chevauchement entre B2 et B5, B3 et B5, B5 et B6 débutent en même temps, B3 et B6 sont égales. Ces ressemblances permettant l’agregation en une seule classe de ces exemples. Type de Paramètre T # dim Type # bytes CP Nhu Voisement Binaire Allen Allen Allen Allen Allen+Freq Allen+Freq Allen+Freq 0.5 0.4 0.5 0.6 0.7 0.5 0.6 0.7 48 48 15 id id id 15+6 id id réel bool int id id id id id id 384 48 60 id id id 84 id id 1 8 6,4 id id id 4,6 id id 128 512 128 512 128 128 512 128 128 Class_Erreur Appr Test (%) (%) 49,8 57,2 75,3 67,5 10,1 72,2 14,7 70,5 10,2 72 12,3 70 9,7 62,4 11,7 65,1 4,3 67,7 Gain Relatif (%) -31,1 -18,7 -14,2 -15,1 -13,3 -15,7 -24,8 -21,6 -18,4 Tableau 1. Résultats des classes d’erreurs pour les différentes expériences. Les erreurs théoriques de la distribution de classe des voyelles est 83%. T est la proporton de parametres egaux à 1 dans la trame en chaque SB après binarisation de SB dans la fenêtre FBL. Le gain est la diminution relative de taux d’erreur relative contre le système aléatoire. #dim : Nombre de dimension. CP : taux de Compression des Paramètres. Nhu : Nombres unités cachées du MLP Cependant comme démontré dans [FRA 08], les paramètres de TFQ sont locuteurs indépendants pour FLB = 1s mais à FLB = 32ms (peu d’information) sont locuteurs dépendants. D’autres expériences seront effectuées pour diminuer ce facteur de variation qui peut influences négativement la reconnaissance des phonèmes. En second lieu, la difficulté des étapes de segmentation est le choix de la taille de fenêtres pour Codage parcimonieux TF de la parole 9 la quantification, cette difficulté est dûe à la variabilité des phonèmes et sensible à plusieurs paramètres : type de phonème, débit de locuteur,... Nous avons choisi en 1er analyse d’effectuer nos expériences sur les 6 voyelles les plus fréquentes en français, parce que les voyelles sont idéales pour la définition d’intervalle de voisement. D’autres expériences seront effectuées sur la consonne, considéré comme un intervalle inverse (à 0) entre deux voyelles. Une autre approche consistera à considérer la quantification jointe d’intervalles de voisement des diphones ou des triphones. La moyenne et la variance de la longueur de voisement de la parole, où de la longueur du silence peuvent être plus discriminants, ceci sera testé. Nous testerons également l’utilisation d’informations complémentaires fournies par l’abscisse du pic de voisement. La dynamique de timbre pourrait en effet renforcer celle de voisement. 7. Remerciements Nous remercions Georges LINARES à LIA et Guillaume GRAVIER à l’INRIA/IRISA d’avoir donner les étiquettes phonétiques de leur système de reconnaissance automatique de la parole. 8. Bibliographie [ALL 81] A LLEN J., « An Interval-Based Representation of Temporal Knowledge », IJCAI, 1981, p. 221–226. 7th [ALL 83] A LLEN J., « Maintaining Knowledge About Temporal Intervals », Communications of the ACM, vol. 26 11, 1983, p. 832–843. [ALL 94] A LLEN J., « How do humans process and recognise speech », Speech and Signal Processing 2(4), 1994, p. 567–576. IEEE Trans. on [BEN 07] B EN A LOUI N., G LOTIN H., H EBRARD P., « Application of New Qualitative Voicing Time-Frequency Features for Speaker Recognition », IEEE conference on biometric ICB, 2007, p. 1154-1163. [FLE 22] F LETCHER H., « The nature of speech and its interpretation », J. Franklin Inst., vol. 193 6, 1922, p. 729–747. [FRA 08] F RAIHAT S., A LOUI N., G LOTIN H., « Parsimonious time-frequency quantization for phoneme and speaker classification », IEEE Conference on Electrical and Computer Engineering (CCECE), 2008. [GAL 05] G ALLIANO S., G EOFFROIS E., M OSTEFA D., C HOUKRI K., B ONASTRE J.-F., G RAVIER G., « The Ester Phase 2 : Evaluation Campaign for the Rich Transcription of French Broadcast News », European Conf. on Speech Communication and Technology, 2005, p. 1149-1152. [GLO 99] G LOTIN H., B ERTHOMMIER F., « A new SNR-feature mapping for robust multistream speech recognition », Proc. Int. Congress on Phonetic Sciences (ICPhS), Berkeley University Of California, Ed., San Francisco, 1999, p. 711–715. 10 e soumission à JDL6. [GLO 01] G LOTIN H., « Elaboration and comparatives studies of robust adaptive multistream speech recognition using voicing and localisation cues », Inst. Nat. Polytech Grenoble & EPF Lausanne IDIAP, 2001. [GLO 06] G LOTIN H., « When Allen J-B meets Allen J-F : Quantal Time-Frequency Dynamics for Robust Speech Features », rapport, 2006, Research Report LSIS 2006, Lab Systems and Information Sciences UMR-CNRS. [SAL 08] S ALAH M.-A., M ONNÉ J., J OUVET D., O BRETCH R., « Étude de la cohabitation entre la bande large et la bande étroite en reconnaissance automatique de la parole », Journées d’Etude sur la Parole, vol. 4, no 1, 2008.