Un nouveau codage parcimonieux temps- fréquence de la parole

Transcription

Un nouveau codage parcimonieux temps- fréquence de la parole
Un nouveau codage parcimonieux tempsfréquence de la parole
Fraihat Salam
Laboratoire des Sciences de l’Information et des Systèmes - UMR 6168
Domaine Universitaire de Saint-Jérôme, Avenue Escadrille Normandie-Niemen 13397
MARSEILLE CEDEX 20 - FRANCE
[email protected]
RÉSUMÉ. Cet article présente une nouvelle méthode parcimonieuse de paramétrisation de la
parole, basée sur une simple quantification en temps-fréquence par sous-bande. L’algèbre temporelle d’Allen est appliquée, en binarisant l’activité de voisement des sous-bandes. Alors que
les paramétrisations habituelles de phonème se composent d’une trentaine de réels de MFCC
(Mel Frequency Cepstrum Coefficients) ou de coefficients PLP, notre méthode emploie dix fois
moins de coefficients d’entiers (15) codes sur 4bits, tout en donnant des résultats significatifs.
Les expériences sont réalisées sur un corpus d’émissions radiophonique de plusieurs locuteurs,
enregistrés par le DGA pour la campagne d’évaluation des systèmes de transcription des émissions radiophoniques (environ 40 heures manuellement transcrites, échantillon de fréquence
16kHz). Les résultats préliminaires de reconnaissance de voyelles locuteur indépendant, sur
le sous-ensemble des voyelles françaises les plus fréquentes, sont environ 38 % de taux de
reconnaissance (21 % mieux que le modèle aléatoire). Nous discutons finalement sur la généralisation de notre approche sur des séquences de CVC pour un codage efficace de la parole
dans le cadre des systèmes robustes de reconnaissance automatique de la parole.
ABSTRACT. This paper presents a new parsimonious speech parametrization, based on a simple
subband time-frequency quantization. It is using Allen temporal algebra applied on binarized
voicing subband activity. Whereas usual phoneme parametrizations are composed of hundred
of Mel Frequency Cepstrum or PLP float coefficients, our method uses ten times less of integer
coefficients (15), while giving significant results. Experiments are conducted on a multi-speaker
broadcast news radio corpus, recorded by the french defense office for the Evaluation Campaign
for Rich Transcription (about 40 hours manually transcribed, 16kHz frequency sample). Preliminary results of independant speaker vowel identification, on the subset of the most frequent
french vowels, are around 38% recognition rate (21% better than the aleatoire model). We
finaly discuss on the generalisation of our approach on CVC sequences for an efficient speech
coding in the framework of robust automatic speech recognition systems.
MOTS-CLÉS : Codage parcimonieux de la parole, algèbre temporelle d’Allen, quantification en
Temps-Fréquence, reconnaissance automatique de la parole , MLP.
e
soumission à JDL6, le 21 mars 2008.
2
e
soumission à JDL6.
KEYWORDS: Parsimonious Speech Coding, Allen Temporal Algebra, Time-Frequency Quantization, Automatic Speech Recognition, MLP.
Codage parcimonieux TF de la parole
3
1. Introduction
Plusieurs spécificités du signal de la parole ne sont toujours pas bonnes exploitées
par les modèles conventionnels actuellement utilisés dans le domaine du traitement
de la parole. Le but de cet article est de présenter et discuter un codage original de la
parole tandis que la majorité des méthodes d’analyses de la parole sont basées sur une
analyse spectrale comme MFCC (Mel Frequency Cepstrum Coefficients).
Il a été établie que la perception phonétique est un processus par sous bandes
[FLE 22].Ceci inspira de nombreux algorithmes pour la reconnaissances robuste de
la parole liées au niveau TF de voisement[GLO 01]. De plus l’un des effets de la réverbération est de brouiller la teneur spectrale du signal acoustique à travers le temps
et la fréquence. La dynamique temps-fréquences (TF) apparaît donc importante dans
la perception de la parole.
Nous supposons dans notre approche que l’intervalle de voisement reflète une propriété singulière de modulation du spectre qui peut fournir un cadre qualitatif pour
produire des modèles précis de phonème.
Dans cet article nous présentons une nouvelle approche de codage de la parole basée
sur la dynamique de sous bandes(SB) de ces niveaux TF de voisement. Nous donnons
ses bases théoriques et les premiers résultats significatifs des expériences réalisées sur
ESTER 1 .
Nous rappelons d’abord l’Algèbre temporelle d’Allen, et les propriétés TF de voisement. Dans la section 4 nous montrons le processus de binarisation de notre représentation parcimonieuse de la parole. Après nous donnons des résultats significatifs
de taux d’erreur de classe, ce dernier est discuté dans la dernière section. Nous proposons également l’optimisation de quelques processus, et nous concluons sur une
généralisation de notre approche pour une modélisation d’ordres de phonèmes CV et
CVC dans le cadre de la reconnaissance automatique de la parole.
2. Algèbre temporelle d’Allen
Une algèbre d’intervalles temporelles a été définie dans [ALL 81, ALL 83,
GLO 06], dans laquelle 14 relations (y compris «aucun-relation ») atomiques sont
considérées entre deux intervalles de temps. Ces relations temporelles d’Allen sont
représentées dans la fig 1, où X est l’intervalle coulissant qui donne, progressivement,
avec Y les relations d’Allen. Nous pouvons placer à 1 une distance algébrique d entre
les deux intervalles les plus proches. Nous l’incrémentons pendant que les intervalles
s’écartent, définissant un nombre entier pour chaque relation. Ainsi le symbole “b”est
codé par “1”, “m”par “2”, . . .pour les 14 relations (voir fig. 1). La relation « aucunrelation » est codée par 0, elle se produit entre deux intervalles vides. Nous proposons
d’utiliser ces représentations temporelles, pour représenter des événements de la pa1. ESTER : campagne d’Évaluation des Systèmes de Transcription Enrichie des Émissions Radiophoniques(contient environ 40 heures de diffusion de journal radiophonique transcrites manuellement).
4
e
soumission à JDL6.
Relation
Symbole
X before Y
b
X meets Y
m
X overlaps Y
o
X starts Y
s
X during Y
d
Y
X finishes Y
f
Y
X equals Y
eq
Inverse Relation
Illustration
Symbole
Illustration
X
X
Y
X after Y
bi
X met-by Y
mi
X overlapped-by Y
oi
X started-by Y
si
X contains Y
di
X finished-by Y
fi
Y
X
X
Y
Y
X
X
Y
Y
X
X
Y
X
Y
X
X
Y
X
Y
X
Y
Figure 1. La structure de construction d’intervalle avec leurs symboles. Il y a 7 relations + leur inverse (notes (i*)) + “aucun-relation”.
role par une petite ensemble de nombres entiers. Afin de définir des intervalles, nous
analysons les niveaux TF des sous-bande comme détailles dans la prochaine section.
3. Génération des intervalles temps-fréquences
Afin d’obtenir les intervalles de voisement des sous-bandes, nous utilisons la
mesure de voisement[GLO 01]. Ce taux de voisement est fortement corrélé avec le
SNR ( Rapport Signal sur Bruit) [GLO 99] et est équivalent à l’index d’harmonicité[GLO 01]. Il est extrait à partir de l’autocorrelogramme du signal démodulé. Dans
le cas du bruit gaussien, le corrélogramme de la fenêtre de bruit est moins modulé
qu’un corrélogramme propre. Avant l’autocorrélation, nous calculons le signal démodulé après une rectification, suivi d’un filtrage dans le domaines de pitch ([90,350]
hertz). Pour chaque fenêtre FLV (fenêtre locale de voisement) de 128ms, nous calculons le ratio R = R1/R0, où R1 est le maximum local d’un segment de délais de
temps correspondant à la fréquence fondamentale, et R0 est l’énergie d’une cellule.
Cette mesure est fortement corrélée avec SNR au rang 5-20 dB. La figure 2 montre
explicitement les niveaux de voisement pour chaque sous-bande et chaque fenêtre.
Les définitions des sous-bandes (SB) suivent les études de Fletcher, suivies par autres
Codage parcimonieux TF de la parole
5
études comme celles d’ALLEN J.B. 2 [FLE 22, ALL 94, GLO 01].
Nous avons coupé le signal à six sous-bandes chevauchées, afin de calculer la relation
d’Allen entre elles. Les définitions de rangs des six SB(hertz) sont : : [216 778 ;707
1631 ;1262 2709 ;2121 3800 ;3400 5400 ;5000 8000].
4. Binarisation et Représentation
Nous avons essayé dans [BEN 07] d’estimer la meilleure fonction de binarisation
en réduisant au minimum les occurrences du “aucun-relation”, dûes aux intervalles
vides. Mais ce critère peut conduire à un artefact.
Afin d’obtenir la représentation générique du signal avec des intervalles de temps
significatifs pour produire des relations d’Allen, nous seuillons la matrice R en mettant
à 1 les T voisements les plus grands par sous-bande (les autres a 0 ). Nous avons
fixé la longueur de la fenêtre FBL, sur laquelle la binarisation est calculée, à 32ms
avec un décalage de moitié. Après le seuillage des SBs de voisement, nous enlevons
tous les intervalles qui sont connexes aux bords de la fenêtre d’analyse afin d’extraire
les relations temporelles réelles. Enfin nous considérons que la fenêtre doit contenir
au moins 4 intervalles reliés. Nous dérivons alors leurs relations temporelles d’Allen
(voir fig. 2).
Les étiquettes de voyelle pour la phase d’apprentissage sont données par le réalignement forcé sur le modèle standard de HMM-MMG [GAL 05].
Comme nous avons 6 SB, nous avons 15 relations temporelles (une pour chaque
couple), ordonnées des bassses aux hautes fréquences. Dans notre exemple (fig. 2),
de I’1 à I’5, nous obtenons le vecteur de paramètres [di di di oi oi d d d d s oi d oi f d],
où i est la relation inverse (voir fig. 1). Puis ces paramètres TFQ estimés dans chaque
fenêtrede taille FBL, sont présentes à l’entrée d’un classifieur (réseau de neurones),
(un autre classificateur pourrait être employé).
Le niveau relatif de R à travers le SB de fréquence est une information importante
(position de formant), que nous perdrons dans les TFQ en raison de la binarisation.
Ainsi les fonctions de binarisation et d’extraction devraient également intégrer la hiérarchie de fréquence de SB(voir tab.1).
Nous testons donc si la position des formants améliore la performance de codage
des phonèmes en ajoutant les 6 entiers correspondants au niveau relatif de R (= expérience Allen+freq) aide le classifier a mieux reconnaître les phonèmes ( -24,8 de
gain)(voir tab.1).
2. Notez que ALLEN J.B et ALLEN J.F. sont deux auteurs différents, le premier travaillé sur
l’analyse de la parole, la deuxième sur la représentation générique de temps. Notre modèle est
basé sur les deux approches.
6
e
soumission à JDL6.
Figure 2. Du signal au niveau de voisement et à l’intervalle d’Allen : (a) signal de
voisement, (b) le niveau de voisement R par sous-bande, (c) le seuillage de R.
5. Codage des phonèmes et expériences
Dans cette section nous essayons de définir les paramètres dynamiques moyens
pour la reconnaissance automatique de la parole(RAP)[FRA 08]. Notre première expérience est faite indépendant des locuteurs sur les six voyelles les plus fréquentes de
la langue françaises : /Aa/,/Ai/,/An/,/Ei/,/Eu/,/Ii/. Nous varions la durée de la fenêtre
FLV de 64ms, 32ms et le décalage entre 16ms et 4ms. les fenêtres sont étiquetées
avec le phonème qui couvre au maximum la fenêtre FLV. Les paramètres d’Allen extraits de 1 heure de parole continue sont utilisées pour l’apprentissage de notre MLP,
et nous testons le MLP avec d’autres enregistrements de 20 minutes de parole continue. Le nombre de neurones, dans la couche caché de notre MLP, et les meilleurs
résultats sont données dans la table de résultats tab.1. Le critère de classification est le
cross-entropie.
Nous notons dans la figure 3 qu’il y a une similitude entre les formes 1 et 2, et différences entre 2 et 3. Ceci peut être dû au fait que les différents locuteurs ont différentes
relations d’Allen comme présenté dans [FRA 08], cette différences peut négativement
influencer la reconnaissance de phonème. D’autres études devront être basées sur cette
question.
6
5
4
3
2
1
bands
bands
Codage parcimonieux TF de la parole
4
6
voicing DATA
bands
4
6
voicing DATA
2
4
6
Binary DATA
8
2
4
6
Binary DATA
8
2
4
6
Binary DATA
8
6
5
4
3
2
1
8
6
5
4
3
2
1
2
6
5
4
3
2
1
8
6
5
4
3
2
1
2
bands
4
6
voicing DATA
bands
bands
2
7
6
5
4
3
2
1
8
Figure 3. Exemple de donnée binaire et de voisement de trois
occurrences différentes de la voyelle /Aa/. Le vecteur des trois
occurrences
sont
:vec1=[d,io,io,no,io,io,io,no,io,if,no,is,no,no,io],
vec2=[io,io,io,no,no,s,id,no,no,id,no,no,id,no,no,no],
vec3=[s,s,d,d,no,s,io,io,d,d,no,is,no,no]
.
6. Discussion et Conclusion
Le résultat de reconnaissances de voyelles avec une facteur de compression de 6,4
est intéressant (=70% ER), car si nous le comparons avec le taux d’erreur theorique
d’un modèle aléatoire (=83% ER) 3 ). De plus les scores de reconnaissances phonétiques (sur 30 phonèmes) de l’état de l’art sont de l’ordre de 40% d’erreur pour la
même base d’apprentissage et de Test ( Système de France Telecom et IRIT) avec 33
coefficients de type cepstraux (valeurs réelles)[SAL 08].
3. Le taux d’erreur d’un classificateur aléatoire
2
est :
P
P
k)
où c est le nombre de classes et
ERrand = 1 − ck=1 (Pk )2 = 1 − ck=1 P ccard(C
card(C)
k=1
card(Ck ) est le nombre d’exemples d’une classe Ck , card(C) : le nombre total d’exemples.
8
soumission à JDL6.
6
6
5
5
4
4
bands
bands
e
3
2
3
2
1
1
1
2
3
4
5
6
Binary DATA
7
8
9
1
2
3
4
5
6
Binary DATA
7
8
9
Figure 4. Exemple de données binaires issues des voisement de deux occurrences différentes de la voyelle /Ii/ pour deux locuteurs différents. Les vecteurs des deux occurrences sont :vec1=[no,no,no,no,no,o,b,o,o,o,s,eq,io,io,is],
vec2=[s,o,no,o,o,if,no,o,if,no,s,eq,no,no,is]. Ils partagent donc 5 paramètres égaux :
nous trouvons les mêmes relations entre des bandes comme :chevauchement entre B2
et B5, B3 et B5, B5 et B6 débutent en même temps, B3 et B6 sont égales. Ces ressemblances permettant l’agregation en une seule classe de ces exemples.
Type de
Paramètre
T
#
dim
Type
#
bytes
CP
Nhu
Voisement
Binaire
Allen
Allen
Allen
Allen
Allen+Freq
Allen+Freq
Allen+Freq
0.5
0.4
0.5
0.6
0.7
0.5
0.6
0.7
48
48
15
id
id
id
15+6
id
id
réel
bool
int
id
id
id
id
id
id
384
48
60
id
id
id
84
id
id
1
8
6,4
id
id
id
4,6
id
id
128
512
128
512
128
128
512
128
128
Class_Erreur
Appr Test
(%)
(%)
49,8 57,2
75,3 67,5
10,1 72,2
14,7 70,5
10,2
72
12,3
70
9,7
62,4
11,7 65,1
4,3
67,7
Gain
Relatif
(%)
-31,1
-18,7
-14,2
-15,1
-13,3
-15,7
-24,8
-21,6
-18,4
Tableau 1. Résultats des classes d’erreurs pour les différentes expériences. Les erreurs théoriques de la distribution de classe des voyelles est 83%. T est la proporton
de parametres egaux à 1 dans la trame en chaque SB après binarisation de SB dans
la fenêtre FBL. Le gain est la diminution relative de taux d’erreur relative contre le
système aléatoire. #dim : Nombre de dimension. CP : taux de Compression des Paramètres. Nhu : Nombres unités cachées du MLP
Cependant comme démontré dans [FRA 08], les paramètres de TFQ sont locuteurs
indépendants pour FLB = 1s mais à FLB = 32ms (peu d’information) sont locuteurs
dépendants. D’autres expériences seront effectuées pour diminuer ce facteur de variation qui peut influences négativement la reconnaissance des phonèmes. En second
lieu, la difficulté des étapes de segmentation est le choix de la taille de fenêtres pour
Codage parcimonieux TF de la parole
9
la quantification, cette difficulté est dûe à la variabilité des phonèmes et sensible à
plusieurs paramètres : type de phonème, débit de locuteur,...
Nous avons choisi en 1er analyse d’effectuer nos expériences sur les 6 voyelles
les plus fréquentes en français, parce que les voyelles sont idéales pour la définition d’intervalle de voisement. D’autres expériences seront effectuées sur la consonne,
considéré comme un intervalle inverse (à 0) entre deux voyelles. Une autre approche
consistera à considérer la quantification jointe d’intervalles de voisement des diphones
ou des triphones.
La moyenne et la variance de la longueur de voisement de la parole, où de la
longueur du silence peuvent être plus discriminants, ceci sera testé. Nous testerons
également l’utilisation d’informations complémentaires fournies par l’abscisse du pic
de voisement. La dynamique de timbre pourrait en effet renforcer celle de voisement.
7. Remerciements
Nous remercions Georges LINARES à LIA et Guillaume GRAVIER à l’INRIA/IRISA d’avoir donner les étiquettes phonétiques de leur système de reconnaissance automatique de la parole.
8. Bibliographie
[ALL 81] A LLEN J., « An Interval-Based Representation of Temporal Knowledge »,
IJCAI, 1981, p. 221–226.
7th
[ALL 83] A LLEN J., « Maintaining Knowledge About Temporal Intervals », Communications
of the ACM, vol. 26 11, 1983, p. 832–843.
[ALL 94] A LLEN J., « How do humans process and recognise speech »,
Speech and Signal Processing 2(4), 1994, p. 567–576.
IEEE Trans. on
[BEN 07] B EN A LOUI N., G LOTIN H., H EBRARD P., « Application of New Qualitative Voicing Time-Frequency Features for Speaker Recognition », IEEE conference on biometric
ICB, 2007, p. 1154-1163.
[FLE 22] F LETCHER H., « The nature of speech and its interpretation », J. Franklin Inst.,
vol. 193 6, 1922, p. 729–747.
[FRA 08] F RAIHAT S., A LOUI N., G LOTIN H., « Parsimonious time-frequency quantization
for phoneme and speaker classification », IEEE Conference on Electrical and Computer
Engineering (CCECE), 2008.
[GAL 05] G ALLIANO S., G EOFFROIS E., M OSTEFA D., C HOUKRI K., B ONASTRE J.-F.,
G RAVIER G., « The Ester Phase 2 : Evaluation Campaign for the Rich Transcription of
French Broadcast News », European Conf. on Speech Communication and Technology,
2005, p. 1149-1152.
[GLO 99] G LOTIN H., B ERTHOMMIER F., « A new SNR-feature mapping for robust multistream speech recognition », Proc. Int. Congress on Phonetic Sciences (ICPhS), Berkeley
University Of California, Ed., San Francisco, 1999, p. 711–715.
10
e soumission à JDL6.
[GLO 01] G LOTIN H., « Elaboration and comparatives studies of robust adaptive multistream
speech recognition using voicing and localisation cues », Inst. Nat. Polytech Grenoble &
EPF Lausanne IDIAP, 2001.
[GLO 06] G LOTIN H., « When Allen J-B meets Allen J-F : Quantal Time-Frequency Dynamics for Robust Speech Features », rapport, 2006, Research Report LSIS 2006, Lab
Systems and Information Sciences UMR-CNRS.
[SAL 08] S ALAH M.-A., M ONNÉ J., J OUVET D., O BRETCH R., « Étude de la cohabitation
entre la bande large et la bande étroite en reconnaissance automatique de la parole », Journées d’Etude sur la Parole, vol. 4, no 1, 2008.

Documents pareils