Comparaison des différents Algorithmes de Débruitage du Signal de

Transcription

Comparaison des différents Algorithmes de Débruitage du Signal de
SETIT 2009
5th International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications
March 22-26, 2009 – TUNISIA
Comparaison des différents Algorithmes de
Débruitage du Signal de Parole pour les Aides
Auditives Binaurales
Fathi KALLEL*, Dhouha DAOUD *, Amira DERBEL *, Mohamed GHORBEL *
et Ahmed BEN HAMIDA*
* Laboratoire d’Electronique et des Technologies de l’Information (LETI), ENIS, Sfax, TUNISIE
[email protected]
[email protected]
[email protected]
[email protected]
[email protected]
Résumé: Dans ce papier, différentes techniques de débruitage du signal de parole basées sur les méthodes de la
soustraction spectrale, du filtrage adaptatif de Wiener et de la transformée en ondelettes sont présentées. Une étude
comparative de ces différents algorithmes en termes du taux d’améliorations du SNR et de conservation de la différence
du temps interaural (ITD) est effectuée. En effet, une amélioration du SNR implique une meilleure intelligibilité de la
parole, d’autre part, une conservation de l’ITD permet une meilleure audition binaurale et par suite une meilleure
localisation spatiale des sources de parole et de bruit.
Les résultats trouvés montrent bien que la méthode de débruitage par la transformée en ondelettes est la méthode la plus
efficace en terme d’amélioration du SNR et en terme de la conservation de la différence de temps interaurale.
Mots clés : Appareillage binaural, filtre de Wiener, soustraction spectrale, transformée en ondelettes.
meilleure localisation des sources. Ceci peut être assuré
par un appareillage binaural: Aide auditive binaurale.
INTRODUCTION
La surdité ou bien le dysfonctionnement du système
auditif est un handicap qui peut être parfois grave pour
l’être humain. Trois types de surdité sont ainsi
distingués: les surdités de transmission, les surdités de
perception et les surdités mixtes rassemblant les deux
premières [THO 04]. La surdité de transmission qui
touche l’oreille externe ou moyenne est due à une
atteinte du conduit auditif, du tympan ou des osselets.
Elle apparaît lorsqu’il y a entrave au passage des ondes
sonores. Ce type de surdité peut être remédié grâce à un
appareillage médical : La prothèse auditive.
En effet, plusieurs techniques de débruitage du
signal de parole tels que la méthode de la soustraction
spectrale, le filtrage adaptatif de Wiener et la
transformée en ondelettes sont développées et le choix
entre ces techniques de rehaussement dépend des
données disponibles et des caractéristiques du signal
porteurs de l’information. Ceci nous paraît difficile
dans le cas de la parole qui est considérée comme un
signal non stationnaire ayant des allures inattendues
avec des lentes variations en basses fréquences et des
variations brusques en hautes fréquences [MEA 97].
D’autre part, on se trouve toujours dans un
environnement bruité, et par la suite la perception de la
parole diminue considérablement et la localisation
spatiale des sources de parole et de bruit devient moins
précise. D’où on a besoin d’un traitement spécifique
qui améliore la qualité de la perception de la parole en
diminuant le niveau de bruit et qui assure une
localisation meilleure des sources [FAS 99].
Dans ce papier, on commence par présenter le
principe de l’appareillage binaural. Dans le deuxième
paragraphe on présente le principe de trois algorithmes
de débruitage du signal de parole: La méthode de la
soustraction spectrale, la méthode de filtrage de Wiener
et la méthode de transformée en ondelettes. Enfin, on
présente les résultats de la mise en œuvre et de
comparaison de ces différentes en termes de qualité du
signal et de conservation de la différence interaurale.
Devant ces contraintes, un traitement spécifique du
signal de parole est nécessaire afin d’offrir au
malentendant une meilleure qualité de la parole et une
-1-
SETIT2009
1. Appareillage binaural
environ −0.26 ms [MOU 06].
1.1. Synoptique de l’appareillage binaural
Si le signal est dans la direction d’intérêt, ça veut
dire que la différence de marche entre les deux
microphones est nulle
Afin de bénéficier d’une audition binaurale, deux
aides auditives sont utilisées: l’une au niveau de
l’oreille droite et l’autre au niveau de l’oreille gauche.
Ces deux aides auditives sont pilotées par deux
processeurs de traitement qui sont en communication
permanente et qui assurent le traitement du signal de
parole provenant des différents microphones intégrés
dans les deux aides auditives [VIS 04].
∆ = d.cos(θ)=0
θ = ∏/2
Le délai induit par cette différence de marche est
donc définie par σ = τ.cos(θ) (en s) avec
τ=
d
c
En pratique, l’ITD sera calculée par la fonction
d’autocorrélation du signal reçu par les deux prothèses.
Cette fonction est définie la formule suivante :
La figure suivante montre le principe de traitement
du signal de parole pour une aide auditive binaurale.
(2)
Traitement droit
Traitement gauche
Le maximum de ressemblance entre ces deux
signaux correspond au maximum de Cx,x(r). Si notre
signal est noyé dans un bruit, cette méthode peut nous
aider à connaître la puissance de bruit où il n’y a pas
d’information utile: cette quantité correspond au
minimum des puissances entre les deux voies pendant
cette différence de marche.
2. Algorithmes pour le débruitage du signal
de parole
Figure 1. Synoptique de l’appareillage binaural
Ce type d’appareillage permet d’améliorer la qualité
des sons, l’intelligibilité dans le bruit et la sensation de
sonie. Pour permettre aux algorithmes de traitement
du signal d’exploiter l’ensemble des caractéristiques
des ondes sonores parvenant à chacune des oreilles, un
traitement de signal multi-sources tel que la distance
entre deux oreilles sera considéré égale à d= 20cm
pourrait améliorer et optimiser les performances
obtenues par des sujets portant des aides auditives.
Il existe différents algorithmes de débruitage du
signal de parole. Ici, on s’intéresse aux trois méthodes
suivantes : La méthode de la soustraction spectrale, la
méthode de filtrage de Wiener et la méthode de
transformée en ondelettes [DON 00].
2.1. Technique basée sur la soustraction spectrale
Le principe de base de cette méthode est de
soustraire l’amplitude du spectre de bruit à partir de
celui de la parole bruité [BOL 79]. Une estimation du
signal de bruit est mesurée durant les périodes de
silences (durant l’activité de non parole dans le signal).
1.2. Différence de temps interaurale
L’ITD est un indice binaural significatif pour la
perception spatiale des sons puisqu’il permet de savoir
localiser la source en fonction de la différence de
marche du signal. Ce paramètre est considéré
primordial dans notre étude qui vise à étudier un
algorithme de débruitage pour une prothèse binaurale,
d’où la nécessitée d’étudier l’effet des différentes
algorithmes sur cet indice binaural [GUI 02].
Le schéma du code implémenté à base de la
soustraction spectrale n’utilise aucune
détection
d’activité de parole pour estimer le bruit, qui est
supposé être stationnaire, et son spectre est estimé par
la 1ère trame de l’entrée [THI 01]. On suppose aussi que
le signal de parole et le bruit sont additifs et non
corrélés.
Physiquement, des erreurs sur l'ITD de l'ordre de 30
microsecondes sont perceptibles [VIS 04], donc un
modèle générique basé sur une moyenne de l'ITD d'un
grand nombre d'individus ne peut convenir à tout le
monde (les amplitudes de variation de l'ITD atteignant
quelques millisecondes).
La diffraction du son dans l’air implique que l’ITD
soit plus élevé en basses fréquences qu’en hautes
fréquences. La limite basse fréquence est donnée par
l’équation suivante :
(1)
ITD=1.5*d *cos(θ) / C
Avec « θ » l’angle d’incidence (en rad), « d » la
distance interaural (en m) et « C » est la célérité du son
dans l’air (en m/s). La limite est pour environ 1500 Hz:
en dessous, l’ITD vaut environ −0.38 ms, au-dessus
Figure 2. Synoptique de débruitage par Soustraction
Spectrale
-2-
SETIT2009
Cela pose évidemment le problème de la détection
des zones de silence et de parole. Une erreur dans cette
détection entraîne forcément une erreur dans
l’estimation du spectre du bruit.
Estimation de la SNR (Signal to Noise Ratio)
[OPP 79].
2.3. Technique de rehaussement basée sur la
décomposition en ondelettes
2.2. Technique de rehaussement basée sur le filtrage
adaptatif de Wiener
L’idée de la transformée en ondelettes est de
pouvoir faire varier les largeurs en temps et en
fréquences d’une fonction tout en la translatant le long
du signal et elle permet aussi de mesurer les variations
dans le temps des composantes fréquentielles
(spectrales) d’un signal (Figure 5) [MAL 99].
Un filtrage est rendu adaptatif en traitement de
parole si ses paramètres, les coefficients, sont modifiés
selon un critère donné, dès qu’une nouvelle valeur du
signal devient disponible. Ces modifications doivent
suivre l’évolution des systèmes dans leur
environnement aussi rapidement que possible
[COH 02].
La transformée en ondelettes d’une fonction f en un
point (t,w) du plan temps-fréquences ne dépend donc
que des valeurs de représentation temporelle f(t) et
représentation fréquentielle F(w) dans le rectangle de
Heisenberg [AUG 96] centré en (t,w).
Si on dispose d’une entrée y(n) ainsi que de la
réponse désirée (référence) d(n) et l’erreur e(n), qui est
la différence entre d(n) et la sortie du filtre Ŝ(n), sert à
contrôler (adapter) les valeurs des coefficients du filtre.
Figure 5. La résolution temps-fréquences de la
transformée en ondelettes
Figure 3. Principe d’un filtre adaptatif
Pour avoir un signal débruité, on le transforme en
ondelettes, puis on élimine à toutes les résolutions, les
coefficients supérieurs à un certain seuil déterminé par
différentes manières [MIS 96].
En pratique, il s’agit de trouver le filtre linéaire
stationnaire qui donne la meilleure approximation de
Ŝ(n) à partir de y(n). Le signal et le bruit sont deux
processus aléatoires stationnaires [NAJ 98].
Ensuite, on reconstruit le signal
coefficients restants (figure 6) [COI 98].
Figure 6. Synoptique utilisé pour le débruitage par
transformée en ondelettes
Figure 4. Diagramme de réduction du bruit proposé
Le signal bruité est filtré ainsi que l’enveloppe est
détectée après un redressement « double alternance »
(pour avoir la valeur absolue) et un filtrage passe bas
(200Hz). Puis, l’enveloppe bruitée est multipliée par
une fonction spécifique de pondération entre 0 et 1
selon la valeur du SNR estimé (figure 4). Alors les
deux composants majoritaires dans l’algorithme
proposé sont :
avec les
3. Protocole expérimental
Tout
un
processus
expérimental
permet
l’enregistrement des scènes sonores pour avoir des
scènes en tenant comptes des conditions de l’audition
binaurale qui est très proche de l’audition naturelle
(liste de Lafon). L’enregistrement se fait dans la salle
audiométrique parfaitement isolé de l’hôpital Edouard
Herriot à Lyon-France. La figure suivante montre le
Le calcul de la fonction de pondération qui
dépend de l’estimation de la SNR
-3-
SETIT2009
protocole expérimental utilisé pour l’enregistrement.
[BLA 83]. Ces microphones sont intégrés dans les
conduits auditifs de la tête artificielle (figure 7). Ŝ(n)
est le signal estimé après l’algorithme de débruitage.
Un minimum de cette fonction montre
meilleure semblance entre les deux signaux.
-3
5
une
Comparaison entre les différents algorithmes
x 10
S.spectrale
F.Wiener
T.ondelette
4.5
4
τ
3.5
EQM
3
2.5
2
1.5
1
Figure 7. Protocole expérimental
0.5
0
-20
4. Comparaison entre les différents
algorithmes de débruitage
-15
-10
-5
0
SNR(db)
5
10
15
20
Figure 9. Comparaison de l’EQM
On considère un signal de parole extrait de la liste
de Lafon (séquence en rouge), puis on lui ajoute un
bruit afin d’avoir une valeur du SNR= -5dB. La figure
7 montre les signaux résultats (en bleu) obtenus
respectivement par application des algorithmes de
débruitage basé sur la méthode de la soustraction
spectrale, le filtrage adaptatif de Wiener et le
débruitage par transformée en ondelettes.
4.1.2. Evaluation du SNR
Le rapport signal sur bruit
calculé de la façon suivante :
du signal bruité est
SNR=10. Log (Ps/Pb)
s2(n) =
Avec Ps =
|S (f)| 2 : La
puissance du signal original
b2(n) =
Pb=
B (f) |2: La puissance
de bruit.
Cette métrique permet d’obtenir l’évolution de
rapport signal sur bruit du signal débruité (SNR final)
en fonction de celui du signal bruité (SNR initial).
Cette évolution n’est pas linéaire pour tous les
signaux bruités, donc le pourcentage d’amélioration est
un facteur nécessaire pour savoir si un tel algorithme
est performant ou non.
Comparaison entre les différents algorithmes
25
S.spectrale
F.Wiener
T.ondelette
20
Figure 8. Comparaison des algorithmes pour un
SNR=-5db
SNR final(db)
15
Puisque l’amélioration ne se fait pas de la même
manière pour tous les algorithmes explorés, l’utilisation
des métriques d’évaluation entre eux est indispensable
pour distinguer la plus adaptable à toutes les conditions
dans lesquelles se trouve le malentendant
10
5
0
-5
-10
-20
4.1. Les métriques d’évaluation
4.1.1. Erreur quadratique moyenne
Cette fonction s’écrit sous la forme suivante :
EQM =
-15
-10
-5
0
5
SNR initial(db)
10
15
20
Figure 10. Evolution du SNR final en fonction du SNR
initial
2
4.1.3. Pourcentage d’amélioration de la SNR
Si on suppose que l’information est très claire dans
un bruit tel que le SNR=40dB
Où s(n) est le signal original généré par la liste
Lafon enregistrée à l’aide de deux microphones dans
des conditions qui s’approche de l’audition réelle
Donc le pourcentage d’amélioration s’écrit sous
-4-
SETIT2009
La figure 10 montre que l’EQM varie entre les
valeurs 0.0045 et 0.0005, c'est-à-dire que les différents
types d’algorithmes permettent de minimiser l’erreur
quadratique moyenne.
cette forme :
Amélioration(%)=
* 100
Comparaison entre les différents algorithmes
Dans une telle application, en diminuant la valeur
du SNR initial entraîne une augmentation de la
puissance du signal bruité Py. Dans ce cas, un meilleur
rehaussement du signal nécessite une diminution de la
puissance du signal débruité Ps ainsi qu’une diminution
de la distance LSD : ceci est interprété dans la figure 11
pour les différentes méthodes de débruitage.
100
Amelioration de la SNR (%)
S.spectrale
F.Wiener
T.ondelette
50
0
-50
-20
-15
-10
-5
0
5
SNR initial(db)
10
15
En fixant le SNR initial (Py fixe), la figure 11
montre que l’algorithme de rehaussement par
transformée en ondelettes est la plus efficace
puisqu’elle possède le minimum de LSD.
20
Figure 11. Comparaison de l’Amélioration en (%)
4.1.4. Distance Logarithmique Spectrale
Cette fonction permet de calculer la moyenne de la
distance logarithmique spectrale entre le signal débruité
et le signal bruité généré avec un SNR bien défini.On
peut écrire donc que :
LSD=
ŝ2(n) =
Ps =
|Ŝ (f)| 2 : la puissance
estimée de la moyenne du signal débruité
y2(n) =
Et Py =
|Y (f)| 2: la
puissance de la moyenne de signal bruité.
Le calcul de cette quantité se fait après la
composition du signal d’entrée sur des trames de
courtes durées chevauchées entre elles par des fenêtres
de durée égale à 8ms (N=128). Cette composition
permet d’avoir un quasi stationnarité du signal,
caractéristiques inchangées suivant cette durée, est
imposé aussi par les algorithmes de traitement.
Comparaison entre les différents algorithmes
12
S.spectrale
F.Wiener
T.ondelette
10
LSD
8
6
4
2
0
-20
-15
-10
-5
0
SNR(db)
5
10
15
20
Figure 13. Influence de l’algorithme de débruitage
sur l’ITD
Figure 12. Comparaison de la distance LSD
2.1. Observations
Si on s’intéresse maintenant à évaluer la capacité du
malentendant à localiser la source du son après la phase
de rehaussement, ceci s’explique par la conservation de
l’ITD du signal bruité avec celui rehaussé. La figure 12
montre la variation de l’ITD pour différents SNR avant
Après évaluation, on constate que dans les deux
figures 8 et 9 le débruitage par transformée en
ondelettes possède la meilleure amélioration du SNR.
-5-
SETIT2009
(courbe bleu) et après (courbe verte) l’application de
l’algorithme de débruitage respectivement par la
méthode de la soustraction spectrale, le filtrage
adaptatif de Wiener et le débruitage par la transformée
en ondelettes.
[FAS 99] H. Fastl, E. Zwicker, Psychoacoustics, Springer
Verlag, 2nd. Ed. Edition, 1999.
[GUI 02] Guillaume LeNost.partie1, Modélisation de
fonctions de transfert acoustiques de têtes humaines
(HRTF) et application à l'individualisation de la synthèse
binaurale, 2002.
On remarque que la différence interaurale du signal
débruité par la méthode du débruitage par la
transformée en ondelettes est la plus proche de celle du
signal bruité sauf dans le cas où SNR très faible. On
peut dire alors qu’il s’agit vraiment d’une meilleure
localisation du signal reçu après rehaussement.
[MAL 99] Mallat S. A wavelet tour of signal processing,
Academic Press, 1999.
[MEA 97] Mead C. Killion, Chapitre Hearing Aid
Transducers, John Wiley & Sons, Encyclopedia of
Acoustics, volume 4, 1979–1991, 1997.
[MIS 96] M.Misit, Y.Misit, G. opperhein and J.M.Poggi,
Threshold selective using Stein’s Unbiased Risk Estimate,
12 Mars 96.
5. Conclusion
Dans cet article, nous avons étudié et validé trois
différentes méthodes de rehaussement du signal de
parole pour la réhabilitation de la surdité par les aides
auditives.
[MOU 06] Mouba and S. Marchand, A
Localisation/Separation/Respatialisation System
on Unsupervised Classification of interaural
Proceedings
of
the
Digital
Audio
Conference,Montreal, Quebec, Canada, 2006
Une étude comparative a été réalisée et à montré la
supériorité de l’algorithme de débruitage à base de la
transformée en ondelettes en termes d’amélioration du
SNR et de conservation de la différence de temps
interaurale. Ceci à pour but d’établir le meilleur choix
de l’algorithme qui sera utilisé dans des travaux futurs
d’implémentation sur DSP dans une finalité de
validation du débruitage sur une plateforme temps réel.
Source
Based
Cues,
Effects
[NAJ 98] Najim. M , Filtrage optimal, Edition 1998.
[OPP 79] Oppenheim J.S. Lim. Enhancement and bandwidth
compression of noisy speech. Proc. IEEE, Dec. 1979.
[THI 01] Thiemann, Acoustic Noise Suppression for Speech
Signals using Auditory Masking Effects, Master's thesis,
McGill University, Montreal, 2001.
A l’issue de cet article, nous soulignerons
simplement qu’un travail important reste à faire pour
s’assurer de la compatibilité des algorithmes proposés
en prenant également en compte les modules de
traitement du signal standards d’une prothèse auditive
binaurale. Les interactions entre les différentes étapes
du traitement peuvent produire une modification du
retard interaural et par conséquence perdre la
possibilité de localiser la source. D’autre part, il faut
s’assurer que, du point de vue du malentendant, la
qualité sonore finale est acceptable et exempte de tout
défaut gênant.
[THO 04] Thomas F., Traitement Numérique du Signal
acoustique pour une Aide aux Malentendants, thèse,
2004.
[VIS 04] Viste H. Binaural Localization and separation
techniques, PhD thesis, Ecole Polytechnique Fédérale de
Lausanne, 2004.
BIBLIOGRAPHIE
[AUG 96] Auger F., P. Flandrin, P. Gonçalvès and
O. Lemoine, Time-frequency toolboxfor use with Matlab
Tutorial, CNRS (France), Rice University (USA),19951996.
[BLA 83] J. Blauert, Spatial Hearing: the psychophysics of
Human Sound Localization, MIT Press, 1983.
[BOL 79] Boll S.F., Suppression of acoustic noise in speech
using spectral subtraction, IEEE Trans. Acoust., Speech,
Signal Processing, 27:113–120, 1979.
[COH 02] Cohen I., and Berdugo B., Noise estimation by
minima controlled recursive averaging for robustspeech
enhancement, IEEE Signal Process, Lett. 9, 12–15, 2002.
[COI 98] Coifman R. and Wickerhauser M., Experiments
with Adapted Wavelet De-Noising for Medical Signals
and Images. In Metin Akay editor, Time-Frequency and
Wavelets in Biomedical Engineering, pp. 323-346, 1998.
[DON 00] Donoho, Denoising by soft thresholding. IEEE
Transaction, 2000.
-6-