Comparaison des différents Algorithmes de Débruitage du Signal de
Transcription
Comparaison des différents Algorithmes de Débruitage du Signal de
SETIT 2009 5th International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 22-26, 2009 – TUNISIA Comparaison des différents Algorithmes de Débruitage du Signal de Parole pour les Aides Auditives Binaurales Fathi KALLEL*, Dhouha DAOUD *, Amira DERBEL *, Mohamed GHORBEL * et Ahmed BEN HAMIDA* * Laboratoire d’Electronique et des Technologies de l’Information (LETI), ENIS, Sfax, TUNISIE [email protected] [email protected] [email protected] [email protected] [email protected] Résumé: Dans ce papier, différentes techniques de débruitage du signal de parole basées sur les méthodes de la soustraction spectrale, du filtrage adaptatif de Wiener et de la transformée en ondelettes sont présentées. Une étude comparative de ces différents algorithmes en termes du taux d’améliorations du SNR et de conservation de la différence du temps interaural (ITD) est effectuée. En effet, une amélioration du SNR implique une meilleure intelligibilité de la parole, d’autre part, une conservation de l’ITD permet une meilleure audition binaurale et par suite une meilleure localisation spatiale des sources de parole et de bruit. Les résultats trouvés montrent bien que la méthode de débruitage par la transformée en ondelettes est la méthode la plus efficace en terme d’amélioration du SNR et en terme de la conservation de la différence de temps interaurale. Mots clés : Appareillage binaural, filtre de Wiener, soustraction spectrale, transformée en ondelettes. meilleure localisation des sources. Ceci peut être assuré par un appareillage binaural: Aide auditive binaurale. INTRODUCTION La surdité ou bien le dysfonctionnement du système auditif est un handicap qui peut être parfois grave pour l’être humain. Trois types de surdité sont ainsi distingués: les surdités de transmission, les surdités de perception et les surdités mixtes rassemblant les deux premières [THO 04]. La surdité de transmission qui touche l’oreille externe ou moyenne est due à une atteinte du conduit auditif, du tympan ou des osselets. Elle apparaît lorsqu’il y a entrave au passage des ondes sonores. Ce type de surdité peut être remédié grâce à un appareillage médical : La prothèse auditive. En effet, plusieurs techniques de débruitage du signal de parole tels que la méthode de la soustraction spectrale, le filtrage adaptatif de Wiener et la transformée en ondelettes sont développées et le choix entre ces techniques de rehaussement dépend des données disponibles et des caractéristiques du signal porteurs de l’information. Ceci nous paraît difficile dans le cas de la parole qui est considérée comme un signal non stationnaire ayant des allures inattendues avec des lentes variations en basses fréquences et des variations brusques en hautes fréquences [MEA 97]. D’autre part, on se trouve toujours dans un environnement bruité, et par la suite la perception de la parole diminue considérablement et la localisation spatiale des sources de parole et de bruit devient moins précise. D’où on a besoin d’un traitement spécifique qui améliore la qualité de la perception de la parole en diminuant le niveau de bruit et qui assure une localisation meilleure des sources [FAS 99]. Dans ce papier, on commence par présenter le principe de l’appareillage binaural. Dans le deuxième paragraphe on présente le principe de trois algorithmes de débruitage du signal de parole: La méthode de la soustraction spectrale, la méthode de filtrage de Wiener et la méthode de transformée en ondelettes. Enfin, on présente les résultats de la mise en œuvre et de comparaison de ces différentes en termes de qualité du signal et de conservation de la différence interaurale. Devant ces contraintes, un traitement spécifique du signal de parole est nécessaire afin d’offrir au malentendant une meilleure qualité de la parole et une -1- SETIT2009 1. Appareillage binaural environ −0.26 ms [MOU 06]. 1.1. Synoptique de l’appareillage binaural Si le signal est dans la direction d’intérêt, ça veut dire que la différence de marche entre les deux microphones est nulle Afin de bénéficier d’une audition binaurale, deux aides auditives sont utilisées: l’une au niveau de l’oreille droite et l’autre au niveau de l’oreille gauche. Ces deux aides auditives sont pilotées par deux processeurs de traitement qui sont en communication permanente et qui assurent le traitement du signal de parole provenant des différents microphones intégrés dans les deux aides auditives [VIS 04]. ∆ = d.cos(θ)=0 θ = ∏/2 Le délai induit par cette différence de marche est donc définie par σ = τ.cos(θ) (en s) avec τ= d c En pratique, l’ITD sera calculée par la fonction d’autocorrélation du signal reçu par les deux prothèses. Cette fonction est définie la formule suivante : La figure suivante montre le principe de traitement du signal de parole pour une aide auditive binaurale. (2) Traitement droit Traitement gauche Le maximum de ressemblance entre ces deux signaux correspond au maximum de Cx,x(r). Si notre signal est noyé dans un bruit, cette méthode peut nous aider à connaître la puissance de bruit où il n’y a pas d’information utile: cette quantité correspond au minimum des puissances entre les deux voies pendant cette différence de marche. 2. Algorithmes pour le débruitage du signal de parole Figure 1. Synoptique de l’appareillage binaural Ce type d’appareillage permet d’améliorer la qualité des sons, l’intelligibilité dans le bruit et la sensation de sonie. Pour permettre aux algorithmes de traitement du signal d’exploiter l’ensemble des caractéristiques des ondes sonores parvenant à chacune des oreilles, un traitement de signal multi-sources tel que la distance entre deux oreilles sera considéré égale à d= 20cm pourrait améliorer et optimiser les performances obtenues par des sujets portant des aides auditives. Il existe différents algorithmes de débruitage du signal de parole. Ici, on s’intéresse aux trois méthodes suivantes : La méthode de la soustraction spectrale, la méthode de filtrage de Wiener et la méthode de transformée en ondelettes [DON 00]. 2.1. Technique basée sur la soustraction spectrale Le principe de base de cette méthode est de soustraire l’amplitude du spectre de bruit à partir de celui de la parole bruité [BOL 79]. Une estimation du signal de bruit est mesurée durant les périodes de silences (durant l’activité de non parole dans le signal). 1.2. Différence de temps interaurale L’ITD est un indice binaural significatif pour la perception spatiale des sons puisqu’il permet de savoir localiser la source en fonction de la différence de marche du signal. Ce paramètre est considéré primordial dans notre étude qui vise à étudier un algorithme de débruitage pour une prothèse binaurale, d’où la nécessitée d’étudier l’effet des différentes algorithmes sur cet indice binaural [GUI 02]. Le schéma du code implémenté à base de la soustraction spectrale n’utilise aucune détection d’activité de parole pour estimer le bruit, qui est supposé être stationnaire, et son spectre est estimé par la 1ère trame de l’entrée [THI 01]. On suppose aussi que le signal de parole et le bruit sont additifs et non corrélés. Physiquement, des erreurs sur l'ITD de l'ordre de 30 microsecondes sont perceptibles [VIS 04], donc un modèle générique basé sur une moyenne de l'ITD d'un grand nombre d'individus ne peut convenir à tout le monde (les amplitudes de variation de l'ITD atteignant quelques millisecondes). La diffraction du son dans l’air implique que l’ITD soit plus élevé en basses fréquences qu’en hautes fréquences. La limite basse fréquence est donnée par l’équation suivante : (1) ITD=1.5*d *cos(θ) / C Avec « θ » l’angle d’incidence (en rad), « d » la distance interaural (en m) et « C » est la célérité du son dans l’air (en m/s). La limite est pour environ 1500 Hz: en dessous, l’ITD vaut environ −0.38 ms, au-dessus Figure 2. Synoptique de débruitage par Soustraction Spectrale -2- SETIT2009 Cela pose évidemment le problème de la détection des zones de silence et de parole. Une erreur dans cette détection entraîne forcément une erreur dans l’estimation du spectre du bruit. Estimation de la SNR (Signal to Noise Ratio) [OPP 79]. 2.3. Technique de rehaussement basée sur la décomposition en ondelettes 2.2. Technique de rehaussement basée sur le filtrage adaptatif de Wiener L’idée de la transformée en ondelettes est de pouvoir faire varier les largeurs en temps et en fréquences d’une fonction tout en la translatant le long du signal et elle permet aussi de mesurer les variations dans le temps des composantes fréquentielles (spectrales) d’un signal (Figure 5) [MAL 99]. Un filtrage est rendu adaptatif en traitement de parole si ses paramètres, les coefficients, sont modifiés selon un critère donné, dès qu’une nouvelle valeur du signal devient disponible. Ces modifications doivent suivre l’évolution des systèmes dans leur environnement aussi rapidement que possible [COH 02]. La transformée en ondelettes d’une fonction f en un point (t,w) du plan temps-fréquences ne dépend donc que des valeurs de représentation temporelle f(t) et représentation fréquentielle F(w) dans le rectangle de Heisenberg [AUG 96] centré en (t,w). Si on dispose d’une entrée y(n) ainsi que de la réponse désirée (référence) d(n) et l’erreur e(n), qui est la différence entre d(n) et la sortie du filtre Ŝ(n), sert à contrôler (adapter) les valeurs des coefficients du filtre. Figure 5. La résolution temps-fréquences de la transformée en ondelettes Figure 3. Principe d’un filtre adaptatif Pour avoir un signal débruité, on le transforme en ondelettes, puis on élimine à toutes les résolutions, les coefficients supérieurs à un certain seuil déterminé par différentes manières [MIS 96]. En pratique, il s’agit de trouver le filtre linéaire stationnaire qui donne la meilleure approximation de Ŝ(n) à partir de y(n). Le signal et le bruit sont deux processus aléatoires stationnaires [NAJ 98]. Ensuite, on reconstruit le signal coefficients restants (figure 6) [COI 98]. Figure 6. Synoptique utilisé pour le débruitage par transformée en ondelettes Figure 4. Diagramme de réduction du bruit proposé Le signal bruité est filtré ainsi que l’enveloppe est détectée après un redressement « double alternance » (pour avoir la valeur absolue) et un filtrage passe bas (200Hz). Puis, l’enveloppe bruitée est multipliée par une fonction spécifique de pondération entre 0 et 1 selon la valeur du SNR estimé (figure 4). Alors les deux composants majoritaires dans l’algorithme proposé sont : avec les 3. Protocole expérimental Tout un processus expérimental permet l’enregistrement des scènes sonores pour avoir des scènes en tenant comptes des conditions de l’audition binaurale qui est très proche de l’audition naturelle (liste de Lafon). L’enregistrement se fait dans la salle audiométrique parfaitement isolé de l’hôpital Edouard Herriot à Lyon-France. La figure suivante montre le Le calcul de la fonction de pondération qui dépend de l’estimation de la SNR -3- SETIT2009 protocole expérimental utilisé pour l’enregistrement. [BLA 83]. Ces microphones sont intégrés dans les conduits auditifs de la tête artificielle (figure 7). Ŝ(n) est le signal estimé après l’algorithme de débruitage. Un minimum de cette fonction montre meilleure semblance entre les deux signaux. -3 5 une Comparaison entre les différents algorithmes x 10 S.spectrale F.Wiener T.ondelette 4.5 4 τ 3.5 EQM 3 2.5 2 1.5 1 Figure 7. Protocole expérimental 0.5 0 -20 4. Comparaison entre les différents algorithmes de débruitage -15 -10 -5 0 SNR(db) 5 10 15 20 Figure 9. Comparaison de l’EQM On considère un signal de parole extrait de la liste de Lafon (séquence en rouge), puis on lui ajoute un bruit afin d’avoir une valeur du SNR= -5dB. La figure 7 montre les signaux résultats (en bleu) obtenus respectivement par application des algorithmes de débruitage basé sur la méthode de la soustraction spectrale, le filtrage adaptatif de Wiener et le débruitage par transformée en ondelettes. 4.1.2. Evaluation du SNR Le rapport signal sur bruit calculé de la façon suivante : du signal bruité est SNR=10. Log (Ps/Pb) s2(n) = Avec Ps = |S (f)| 2 : La puissance du signal original b2(n) = Pb= B (f) |2: La puissance de bruit. Cette métrique permet d’obtenir l’évolution de rapport signal sur bruit du signal débruité (SNR final) en fonction de celui du signal bruité (SNR initial). Cette évolution n’est pas linéaire pour tous les signaux bruités, donc le pourcentage d’amélioration est un facteur nécessaire pour savoir si un tel algorithme est performant ou non. Comparaison entre les différents algorithmes 25 S.spectrale F.Wiener T.ondelette 20 Figure 8. Comparaison des algorithmes pour un SNR=-5db SNR final(db) 15 Puisque l’amélioration ne se fait pas de la même manière pour tous les algorithmes explorés, l’utilisation des métriques d’évaluation entre eux est indispensable pour distinguer la plus adaptable à toutes les conditions dans lesquelles se trouve le malentendant 10 5 0 -5 -10 -20 4.1. Les métriques d’évaluation 4.1.1. Erreur quadratique moyenne Cette fonction s’écrit sous la forme suivante : EQM = -15 -10 -5 0 5 SNR initial(db) 10 15 20 Figure 10. Evolution du SNR final en fonction du SNR initial 2 4.1.3. Pourcentage d’amélioration de la SNR Si on suppose que l’information est très claire dans un bruit tel que le SNR=40dB Où s(n) est le signal original généré par la liste Lafon enregistrée à l’aide de deux microphones dans des conditions qui s’approche de l’audition réelle Donc le pourcentage d’amélioration s’écrit sous -4- SETIT2009 La figure 10 montre que l’EQM varie entre les valeurs 0.0045 et 0.0005, c'est-à-dire que les différents types d’algorithmes permettent de minimiser l’erreur quadratique moyenne. cette forme : Amélioration(%)= * 100 Comparaison entre les différents algorithmes Dans une telle application, en diminuant la valeur du SNR initial entraîne une augmentation de la puissance du signal bruité Py. Dans ce cas, un meilleur rehaussement du signal nécessite une diminution de la puissance du signal débruité Ps ainsi qu’une diminution de la distance LSD : ceci est interprété dans la figure 11 pour les différentes méthodes de débruitage. 100 Amelioration de la SNR (%) S.spectrale F.Wiener T.ondelette 50 0 -50 -20 -15 -10 -5 0 5 SNR initial(db) 10 15 En fixant le SNR initial (Py fixe), la figure 11 montre que l’algorithme de rehaussement par transformée en ondelettes est la plus efficace puisqu’elle possède le minimum de LSD. 20 Figure 11. Comparaison de l’Amélioration en (%) 4.1.4. Distance Logarithmique Spectrale Cette fonction permet de calculer la moyenne de la distance logarithmique spectrale entre le signal débruité et le signal bruité généré avec un SNR bien défini.On peut écrire donc que : LSD= ŝ2(n) = Ps = |Ŝ (f)| 2 : la puissance estimée de la moyenne du signal débruité y2(n) = Et Py = |Y (f)| 2: la puissance de la moyenne de signal bruité. Le calcul de cette quantité se fait après la composition du signal d’entrée sur des trames de courtes durées chevauchées entre elles par des fenêtres de durée égale à 8ms (N=128). Cette composition permet d’avoir un quasi stationnarité du signal, caractéristiques inchangées suivant cette durée, est imposé aussi par les algorithmes de traitement. Comparaison entre les différents algorithmes 12 S.spectrale F.Wiener T.ondelette 10 LSD 8 6 4 2 0 -20 -15 -10 -5 0 SNR(db) 5 10 15 20 Figure 13. Influence de l’algorithme de débruitage sur l’ITD Figure 12. Comparaison de la distance LSD 2.1. Observations Si on s’intéresse maintenant à évaluer la capacité du malentendant à localiser la source du son après la phase de rehaussement, ceci s’explique par la conservation de l’ITD du signal bruité avec celui rehaussé. La figure 12 montre la variation de l’ITD pour différents SNR avant Après évaluation, on constate que dans les deux figures 8 et 9 le débruitage par transformée en ondelettes possède la meilleure amélioration du SNR. -5- SETIT2009 (courbe bleu) et après (courbe verte) l’application de l’algorithme de débruitage respectivement par la méthode de la soustraction spectrale, le filtrage adaptatif de Wiener et le débruitage par la transformée en ondelettes. [FAS 99] H. Fastl, E. Zwicker, Psychoacoustics, Springer Verlag, 2nd. Ed. Edition, 1999. [GUI 02] Guillaume LeNost.partie1, Modélisation de fonctions de transfert acoustiques de têtes humaines (HRTF) et application à l'individualisation de la synthèse binaurale, 2002. On remarque que la différence interaurale du signal débruité par la méthode du débruitage par la transformée en ondelettes est la plus proche de celle du signal bruité sauf dans le cas où SNR très faible. On peut dire alors qu’il s’agit vraiment d’une meilleure localisation du signal reçu après rehaussement. [MAL 99] Mallat S. A wavelet tour of signal processing, Academic Press, 1999. [MEA 97] Mead C. Killion, Chapitre Hearing Aid Transducers, John Wiley & Sons, Encyclopedia of Acoustics, volume 4, 1979–1991, 1997. [MIS 96] M.Misit, Y.Misit, G. opperhein and J.M.Poggi, Threshold selective using Stein’s Unbiased Risk Estimate, 12 Mars 96. 5. Conclusion Dans cet article, nous avons étudié et validé trois différentes méthodes de rehaussement du signal de parole pour la réhabilitation de la surdité par les aides auditives. [MOU 06] Mouba and S. Marchand, A Localisation/Separation/Respatialisation System on Unsupervised Classification of interaural Proceedings of the Digital Audio Conference,Montreal, Quebec, Canada, 2006 Une étude comparative a été réalisée et à montré la supériorité de l’algorithme de débruitage à base de la transformée en ondelettes en termes d’amélioration du SNR et de conservation de la différence de temps interaurale. Ceci à pour but d’établir le meilleur choix de l’algorithme qui sera utilisé dans des travaux futurs d’implémentation sur DSP dans une finalité de validation du débruitage sur une plateforme temps réel. Source Based Cues, Effects [NAJ 98] Najim. M , Filtrage optimal, Edition 1998. [OPP 79] Oppenheim J.S. Lim. Enhancement and bandwidth compression of noisy speech. Proc. IEEE, Dec. 1979. [THI 01] Thiemann, Acoustic Noise Suppression for Speech Signals using Auditory Masking Effects, Master's thesis, McGill University, Montreal, 2001. A l’issue de cet article, nous soulignerons simplement qu’un travail important reste à faire pour s’assurer de la compatibilité des algorithmes proposés en prenant également en compte les modules de traitement du signal standards d’une prothèse auditive binaurale. Les interactions entre les différentes étapes du traitement peuvent produire une modification du retard interaural et par conséquence perdre la possibilité de localiser la source. D’autre part, il faut s’assurer que, du point de vue du malentendant, la qualité sonore finale est acceptable et exempte de tout défaut gênant. [THO 04] Thomas F., Traitement Numérique du Signal acoustique pour une Aide aux Malentendants, thèse, 2004. [VIS 04] Viste H. Binaural Localization and separation techniques, PhD thesis, Ecole Polytechnique Fédérale de Lausanne, 2004. BIBLIOGRAPHIE [AUG 96] Auger F., P. Flandrin, P. Gonçalvès and O. Lemoine, Time-frequency toolboxfor use with Matlab Tutorial, CNRS (France), Rice University (USA),19951996. [BLA 83] J. Blauert, Spatial Hearing: the psychophysics of Human Sound Localization, MIT Press, 1983. [BOL 79] Boll S.F., Suppression of acoustic noise in speech using spectral subtraction, IEEE Trans. Acoust., Speech, Signal Processing, 27:113–120, 1979. [COH 02] Cohen I., and Berdugo B., Noise estimation by minima controlled recursive averaging for robustspeech enhancement, IEEE Signal Process, Lett. 9, 12–15, 2002. [COI 98] Coifman R. and Wickerhauser M., Experiments with Adapted Wavelet De-Noising for Medical Signals and Images. In Metin Akay editor, Time-Frequency and Wavelets in Biomedical Engineering, pp. 323-346, 1998. [DON 00] Donoho, Denoising by soft thresholding. IEEE Transaction, 2000. -6-