103 - Laboratoire d`Informatique de l`Université du Maine
Transcription
103 - Laboratoire d`Informatique de l`Université du Maine
Simulation des effets de la presbyacousie sur l’intelligibilité et la compréhension de la parole dans le silence et dans le bruit Lionel Fontan Cynthia Magnen Julien Tardieu Pascal Gaillard U.R.I. Octogone (EA 4156), Université de Toulouse II [email protected], [email protected], [email protected], [email protected] RÉSUMÉ L’objectif de cette étude est de fournir des données de référence sur l’intelligibilité et la compréhension de la parole en français dans les cas de presbyacousie. Les principaux effets de la presbyacousie ont été simulés afin d’obtenir un jeu de stimuli reproduisant les caractéristiques de la parole perçue par des patients atteints à divers degrés de sévérité, que ce soit dans des conditions de bruit ambiant (brouhaha) ou de silence. Soixante participants ont écouté ces stimuli et exécuté trois tâches situées sur le continuum entre l’intelligibilité et la compréhension de la parole : la répétition de mots (T1), la répétition de phrases (T2) et la réponse à des consignes verbales (T3). Tout en offrant des perspectives différentes et complémentaires sur les performances des auditeurs, les trois tests révèlent des effets significatifs de la simulation de la presbyacousie et du bruit. ABSTRACT Simulation of the effects of presbycusis on the intelligibility and comprehension of speech in noisy and quiet environments This study deals with the effects of presbycusis on speech intelligibility and comprehension in French, both in quiet and noisy conditions. Speech stimuli representative of hearing losses at various ages have been created by simulating the main effects of presbycusis on audio signals. Sixty participants listened to these stimuli and were asked to perform three tasks situated along the continuum between speech intelligibility and comprehension : repeating words (T1), repeating sentences (T2) and responding to oral commands (T3). While offering different and complementary perspectives on listeners’ performances, the three tests reveal significant effects of presbycusis simulation and noise. MOTS-CLÉS : Presbyacousie, intelligibilité, compréhension, parole dans le bruit. KEYWORDS: Presbycusis, speech intelligibility, speech comprehension, speech in noise. 1 Introduction La presbyacousie est une atteinte cochléaire bilatérale et relativement symétrique liée au vieillissement naturel du système auditif. Le phénomène survient chez des sujets âgés de plus de 50 ans et se caractérise par une diminution progressive et irrémédiable de l’acuité auditive. Cette surdité de perception se caractérise d’un point de vue fonctionnel par une perte de cellules sensorielles qui débute au départ de la cochlée et lèse en premier les cellules ciliées externes (CCE). Dès lors, la sensibilité et la sélectivité fréquentielles disparaissent, de même que la capacité à séparer le signal du bruit ambiant (Bouccara et al., 2005). Du point de vue audiométrique, l’atteinte se traduit par une chute sélective dans les fréquences aiguës (les seuils étant relativement conservés jusqu’à 1 kHz), ce qui provoque des difficultés de compréhension de la parole, en particulier en milieu bruyant. Par ailleurs, le rôle de compression de l’intensité sonore que jouent les CCE est également largement atténué. En résulte une distorsion de la sensation d’intensité : les sujets deviennent progressivement intolérants aux sons forts produits dans leur entourage. Ces pertes auditives pouvant s’accompagner de dysfonctionnements cognitifs également causés par le vieillissement, les conséquences de la presbyacousie sur le traitement de la parole sont difficiles à mettre en lumière. Une solution est alors de simuler les effets de la pathologie sur des signaux de parole, que l’on fait ensuite écouter à des sujets sains. 1.1 Simulation des effets de la presbyacousie Il existe deux grandes approches pour simuler les pertes auditives liées à l’âge (Arriöz, 2012). La première consiste à masquer la parole dans du bruit pour simplement réduire l’audibilité du signal. La seconde approche implique d’effectuer des traitements sur les signaux de parole pour simuler les effets produits par le système auditif déficient. Sont alors pris en compte les trois effets qui accompagnent la plupart des pertes auditives (Moore, 2007) : 1. l’augmentation du seuil d’audibilité. L’intensité du signal de parole est réduite de manière plus ou moins importante en fonction des bandes de fréquences concernées ; 2. la réduction de la sélectivité fréquentielle. La procédure habituellement utilisée, décrite dans Baer et Moore (1993), consiste à effectuer un lissage du spectre fréquentiel ; 3. le recrutement de sonie. L’enveloppe du signal est élevée à la puissance 2 ou 3 pour accroître les variations d’intensité (Moore et Glasberg, 1993). Ces trois traitements sont appliqués à divers degrés en fonction de la sévérité du cas de presbyacousie dont on cherche à simuler les effets. 1.2 Effets de la presbyacousie sur l’intelligibilité de la parole De manière générale, plus la presbyacousie est importante, plus elle dégrade l’intelligibilité de la parole. Plusieurs auteurs ont montré que pris ensemble, les différents facteurs de dégradation décrits ci-dessus n’ont pas les mêmes conséquences sur l’intelligibilité de la parole, et que les effets sont aggravés par la présence d’un bruit de fond. Par exemple, Baer et Moore (1993) ont montré que l’effet du lissage du spectre fréquentiel sur l’intelligibilité de la parole est beaucoup plus important lorsque les signaux de parole sont diffusés dans du bruit. Pour que la simulation des effets de l’âge sur l’intelligibilité de la parole soit réaliste, il faut donc combiner les différents facteurs de dégradation associés à la presbyacousie ainsi que la présence ou non d’un bruit de fond (Moore, 2007; Nejime et Moore, 1997). 1.3 Intelligibilité et comprehension de la parole Contrairement aux tests d’intelligibilité qui se concentrent sur la perception d’unités linguistiques, les tests de compréhension visent à vérifier la capacité de l’auditeur à interpréter des énoncés entendus, en contexte ou non. Les tests de compréhension portent donc sur des énoncés complets (phrases) et engagent l’auditeur dans différentes tâches dont la réalisation implique leur traitement sémantique. Les auditeurs peuvent ainsi être amenés à répondre à des questions sur le contenu sémantique d’un texte entendu, à apparier des images avec les énoncés qu’elles illustrent, ou encore à réagir à des phrases impératives en exécutant les actions commandées sur des objets. Les données recueillies dans plusieurs études ont suggéré que les scores d’intelligibilité de la parole n’étaient pas ou très peu corrélés avec les scores obtenus dans des tâches tournées vers la compréhension de l’auditeur (Fontan, 2012; Hustad, 2008). Ces études suggèrent en effet que les tests d’intelligibilité et de compréhension de la parole offrent des perspectives différentes sur le traitement d’énoncés linguistiques par des auditeurs. Les tests d’intelligibilité, laissant moins de part à la mobilisation de connaissances extralinguistiques par l’auditeur, ont une validité interne accrue : les mesures sont plus sensibles aux variations dans la qualité du signal de parole. D’un autre côté les tests de compréhension de la parole peuvent être envisagés comme ayant une meilleure validité externe (une meilleure représentativité), car les tâches qu’ils impliquent s’approchent davantage de situations de communication réelles, dans lesquelles les auditeurs peuvent exploiter leurs connaissances encyclopédiques ou bien liées au contexte de communication pour interpréter les énoncés (Fontan, 2012). En conséquence, pour capturer l’image la plus exhaustive des effets de la presbyacousie sur le traitement d’énoncés linguistiques perçus dans le silence et dans le bruit, il est nécessaire de convoquer différents tests situés le long du continuum entre l’intelligibilité et la compréhension de la parole. 1.4 Objectif de l’étude L’objectif de l’étude est de mesurer les effets de la presbyacousie simulée sur l’intelligibilité et la compréhension de la parole en français, dans le silence et dans le bruit. En accord avec les études précitées, nous nous attendons à ce que la dégradation du signal par la simulation des effets de la presbyacousie, ainsi que par l’ajout de bruit, provoque une baisse générale des scores d’intelligibilité et de compréhension de la parole. Nous émettons également l’hypothèse que ces effets seront d’autant plus importants que la tâche dans laquelle est engagée l’auditeur ne lui permet pas de mobiliser des connaissances externes au signal de parole. Dit autrement, les scores d’intelligibilité devraient faire preuve d’une plus grande sensibilité aux dégradations du signal de parole que les scores de compréhension. 2 2.1 Méthode Dessein experimental général Afin de couvrir le continuum partant de l’intelligibilité vers la compréhension présenté ci-dessus, trois tests ont été développés. T1 – Répétition de mots. Ce type de test, très utilisé par les audioprothésistes, consiste pour l’auditeur à répéter des mots dissyllabiques. Le matériel sonore du test a été sélectionné à partir d’un sous ensemble des listes de Fournier (Fournier, 1951). Le corpus est constitué de 10 mots d’entraînement et 60 mots de tests. T2 – Répétition de phrases. Les phrases utilisées dans ce second test sont issues de la version française du test HINT (pour Hearing in Noise Test, développé initialement en anglais par Nilsson et al., 1994; Vaillancourt et al., 2005, pour la version française). Ce test est également très utilisé par les audioprothésistes pour évaluer l’intelligibilité de la parole en milieu bruité. Le corpus est constitué de 10 phrases d’entraînement et de 60 phrases de test. T3 - Exécution de commandes verbales. Ce test de compréhension (Fontan et al., 2014; Fontan, 2012) consiste à demander aux auditeurs de répondre à des consignes verbales leur demandant de déplacer des images sur un écran d’ordinateur (ex. : « Mettez - objet n˚1 - position - objet n˚2 »). Les phrases du test ont été élaborées afin que la proportion de déplacements à gauche/droite et au-dessus/au-dessous soit la plus équilibrée possible, et que chaque objet cible n’apparaisse qu’une fois dans le test. Au total, 10 phrases d’entraînement (ex : « Mettez l’hélicoptère au dessus de la girafe ») et 30 phrases de test ont été définies. Pour chaque phrase, les deux images cibles sont accompagnées de quatre autres images pouvant induire l’auditeur en erreur. 2.2 Participants Soixante participants (nombre de femmes = 34, âge moyen = 21,3 écart type = 2,2) ont été sélectionnés et rémunérés pour cette expérience. Les critères d’inclusion étaient les suivants : francophones natifs (langue maternelle française, ayant toujours vécu en France), âgés de 18 à 30 ans inclus, étudiant dans des disciplines autres que musique, sciences du langage, langues étrangères ou psychologie, sans problème de vue non corrigé par des lentilles ou des lunettes. Enfin, le niveau d’audition de chaque participant a été vérifié par un audiogramme tonal (critère d’inclusion : moyenne des pertes entre 2kHz et 8kHz < 15 dB). 2.3 Stimuli Afin que nos enregistrements soient représentatifs d’un panel de voix variées, deux locuteurs adultes (un homme et une femme, 46 et 47 ans) et une enfant de 12 ans ont été enregistrés dans la cabine audiométrique PETRA (http ://petra.univ-tlse2.fr), avec un microphone omnidirectionnel Sennheiser MD46, une console de mixage TASCAM DM-3200 et un ordinateur MacPro équipé du logiciel Reaper (http ://www.reaper.fm). Pour simuler la présence d’un bruit ambiant, nous avons choisi de créer un bruit de type « brouhaha » (babble noise). Pour cela nous avons mixé les phrases enregistrées pour T2, en prenant soin d’alterner entre les locuteurs ainsi qu’en introduisant un décalage temporel aléatoire entre les phrases (cette procédure correspond à celle suivie dans Fontan, 2012). Ce fichier de bruit a ensuite été mixé aux phrases et aux mots avec un rapport signal sur bruit de 5 dB A. Les stimuli de parole avec et sans bruit ont ensuite été traités pour simuler les effets de la presbyacousie. La simulation a été effectuée dans MATLAB à partir des algorithmes initialement développés par Nejime et Moore (1997). À partir des données issues de la littérature (étude épidémiologique sur 3753 sujets de Cruickshanks et al., 1998), et afin de couvrir une large plage de presbyacousie, dix niveaux de dégradation ont été définis : un premier niveau correspondant au signal non dégradé ; puis 9 niveaux distribués linéairement de l’âge théorique de 60 ans à 110 ans (dégradation maximale). 2.4 Procédure Chaque participant était invité à passer deux des trois tests, selon la répartition suivante : (1) Groupe 1 (30 participants) : T1 et T3, (2) Groupe 2 (30 participants) : T2 et T3 1 . Dans chaque groupe, les deux tests étaient passés en alternant l’ordre de présentation afin d’éviter un éventuel effet d’entrainement à la voix des locuteurs. Les trois tests ont été effectués avec le même équipement que celui qui a permis l’enregistrement des stimuli (cf. section 2.3). Les participants étaient assis à un mètre des haut-parleurs (Tannoy Precision 6D), avec un niveau de diffusion des phrases non dégradées (condition 1) de 60 dB A. L’interface dédiée aux tests T1 et T2 et créée avec le logiciel Max/MSP permettait la présentation audio des stimuli et l’enregistrement sonore des réponses données par les participants. Les réponses ont ensuite été transcrites par les expérimentateurs afin de calculer les scores d’intelligibilité. Concernant T3, les images, l’interface et le logiciel permettant de récupérer les réponses des auditeurs proviennent d’une étude consistant à évaluer la compréhension de la parole pathologique (Fontan, 2012; Fontan et al., 2014). 3 3.1 Résultats T1 : intelligibilité de listes de mots Pour chaque mot, le score est égal à 100 % si le mot est totalement reconnu (l’article précédent le mot n’est pas pris en compte) ou 0 % si il n’est que partiellement reconnu ou non reconnu. Les résultats sont présentés sur la Figure 1 et montrent que plus la dégradation du signal de parole augmente, plus les scores de reconnaissance diminuent, aussi bien dans le silence que dans le bruit. On note aussi que dans le bruit, les scores sont toujours plus faibles que dans le silence (différence de 18,6 % en moyenne). Les données ont été analysées en utilisant un modèle linéaire mixte généralisé, et ont révélé un effet significatif de la dégradation (χ 2 (9) = 205, 3; p < 0, 001) et du bruit (χ 2 (1) = 38, 9; p < 0, 001). 3.2 T2 : intelligibilité de listes de phrases Pour ce deuxième test, tous les mots des phrases sont pris en compte dans le calcul des scores de reconnaissance, le score est égal au nombre de mots reconnus divisé par nombre de mots total dans la phrase. Les résultats de ce test sont présentés sur la Figure 2. On observe les mêmes tendances que pour le test 1 avec cette fois une différence moyenne entre les scores dans le 1. Nous avons volontairement doublé le nombre de sujets pour T3 car nous envisageons dans une étape ultérieure de faire une étude portant précisément sur les effets de contexte impliqués dans ce test. % mots reconnus 100 % mots reconnus Dég. Silence Bruit 1 97,8 (14,8) 81,1 2 97,8 (14,8) 75,6 3 92,2 (26,9) 72,2 4 91,1 (28,6) 65,6 5 84,4 (36,4) 53,3 6 70,0 (46,0) 34,4 7 32,2 (46,9) 15,6 8 1,1 (10,5) 1,1 9 0 (0) 0 75 50 25 0 Dans le silence Dans le bruit 1 2 3 4 5 6 7 8 (39,3) (43,2) (45,0) (47,7) (50,1) (47,7) (36,4) (10,5) (0) 9 Dégradation FIGURE 1 – T1 : pourcentages de mots reconnus en fonction du niveau de dégradation, dans le silence et dans le bruit. Tableau : pourcentages moyens et écarts-types entre parenthèses silence et le bruit de 15 %. Les données ont été analysées en utilisant un modèle linéaire mixte et ont révélé un effet significatif du niveau de dégradation (F (9; 1711) = 572, 8; p < 0, 001) et du bruit (F (1; 1711) = 188, 3; p < 0, 001). % mots reconnus 100 % mots reconnus Dég. Silence Bruit 1 98,9 (8,7) 92,4 2 97,7 (8,3) 86,0 3 98,6 (7,5) 80,5 4 96,3 (9,1) 75,4 5 86,8 (23,7) 56,2 6 69,0 (37,0) 39,6 7 32,1 (37,3) 13,6 8 1,9 (6,9) 2,1 9 0 (0) 0 75 50 25 0 Dans le silence Dans le bruit 1 2 3 4 5 6 7 8 (15,4) (22,0) (28,7) (33,3) (38,0) (37,7) (24,8) (8,2) (0) 9 Dégradation FIGURE 2 – T2 : pourcentages de mots reconnus dans les phrases en fonction du niveau de dégradation, dans le silence et dans le bruit. Tableau : pourcentages moyens et écarts-types entre parenthèses 3.3 T3 : compréhension de listes de phrases Pour ce test, le score est égal à 100% si l’action est correctement réalisée ou 0% si elle ne l’est que partiellement ou pas du tout. Les scores sont présentés sur la Figure 3. Ici aussi les scores décroissent avec la dégradation et sont plus faibles dans le bruit (différence moyenne de 6,7 %). Les données ont été analysées en utilisant un modèle linéaire mixte, et ont révélé un effet significatif de la dégradation (F (9; 551) = 75, 7; p < 0, 001) et du bruit (F (1; 551) = 4, 6; p < 0, 05). % actions correctes 100 % actions correctes Dég. Silence Bruit 1 100 (0) 93,2 (25,4) 2 100 (0) 89,1 (31,3) 3 98,8 (10,7) 85,8 (35,2) 4 97,7 (15) 84,6 (36,3) 5 88,6 (31,9) 73,9 (44,2) 6 79,5 (40,6) 66,3 (47,6) 7 47,8 (50,2) 47,7 (50,2) 8 5,4 (22,8) 17,0 (37,8) 9 0 (0) 0 (0) 75 50 25 0 Dans le silence Dans le bruit 1 2 3 4 5 6 7 8 9 Dégradation FIGURE 3 – T3 : pourcentages d’actions correctes en fonction du niveau de dégradation, dans le silence et dans le bruit. Tableau : pourcentages moyens et écarts-types entre parenthèses 4 Discussion L’étude présentée dans cet article a permis de mesurer les effets de la simulation de la presbyacousie – pour des âges théoriques compris entre 60 et 110 ans – sur les scores obtenus par 60 participants à deux tests d’intelligibilité (T1 : répétition de mots et T2 : répétition de phrases) et à un test de compréhension (T3 : exécution de commandes verbales). Dans un premier temps et comme attendu, les résultats observés rejoignent ceux des travaux précédents sur la simulation de la presbyacousie (Moore, 2007) et montrent que les effets produits sur le signal de parole conduisent à une perte d’intelligibilité significative et importante pour l’auditeur. Dans cette étude la même observation a été faite concernant cette fois la compréhension de la parole, testée à travers la réaction des auditeurs à des commandes verbales. La seconde hypothèse testée était que selon la nature du test utilisé, les scores ne démontreraient pas la même sensibilité aux deux dégradations étudiées. Nos données semblent confirmer cette hypothèse. Tout d’abord, les courbes des scores observées montrent que les valeurs plafond et plancher sont atteintes plus rapidement dans T3 que dans T2, et plus rapidement dans T2 que dans T1. C’est en effet dans ce dernier test que les scores suivent l’évolution la plus linéaire, et en particulier pour la condition bruitée. Cette observation va dans le sens d’une plus grande sensibilité des tests d’intelligibilité, pour lesquels de faibles variations dans la qualité du signal se traduisent immédiatement par des variations dans les scores des participants. Les différences de résistance au bruit observées dans les trois tests viennent également appuyer cette seconde hypothèse : la chute des scores provoquée par l’ajout de bruit est moins importante pour le test de compréhension que pour les tests d’intelligibilité ; et parmi les deux tests d’intelligibilité convoqués, la baisse des scores est moins importante pour le test de répétition de phrases que pour le test de répétition de mots. Ces résultats renforcent les conclusions qui ont découlé d’études sur les différences entre l’intelligibilité et la compréhension de la parole pathologique (Fontan, 2012; Hustad, 2008), et selon lesquelles les scores d’intelligibilité présentent de meilleures caractéristiques de validité interne (meilleure sensibilité), alors que les scores de compréhension offrent davantage de validité externe (meilleure représentativité de la dimension que l’on cherche à mesurer). Dans le cas présent les auditeurs ont pu mobiliser davantage de connaissances de haut niveau dans le test T3 (grâce à la présence du contexte imagé) et le test T2 (grâce à la présence du contexte phrastique), ce que l’on peut concevoir comme une situation plus proche d’une communication réelle que la tâche de répétition de mots isolés. 5 Conclusions et perspectives En conclusion, cette étude offre différentes perspectives sur les performances d’auditeurs atteints de presbyacousie, dans le silence et dans le bruit. Le corpus de stimuli constitué et les scores associés dans les tests d’intelligibilité peuvent servir de référence pour des études reposant sur l’observation d’évolutions subtiles dans les performances de l’auditeur (par ex. en vue d’optimiser de fins réglages dans les prothèses auditives) et les scores de compréhension de la parole peuvent donner une indication plus globale de la capacité de l’auditeur à communiquer dans la vie quotidienne. Ce travail de constitution de données de référence pourra être poursuivi en affinant les mesures relevées dans cette étude. Les scores d’intelligibilité pourront par exemple être nuancés en prenant en compte le nombre de phonèmes reconnus par les 60 auditeurs pour chaque stimulus. Concernant le test de compréhension, les effets de la distance phonologique entre les noms correspondant aux images cibles et ceux correspondant aux autres images présentes dans le contexte pourront être étudiés ; ceci permettra de mieux contrôler les effets de contexte et ainsi d’accroître la validité et la précision des mesures de compréhension. À terme, les données quantitatives et qualitatives relevées serviront à l’étude de la prédictibilité des performances d’auditeurs atteints de presbyacousie. Dans cette optique, la voie que nous privilégions est le rapprochement des données subjectives d’intelligibilité et de compréhension de la parole avec les performances objectives de systèmes informatiques de reconnaissance automatique de la parole. Remerciements Cette étude a été réalisée dans le cadre d’un projet financé par la Région Midi-Pyrénées. Références ARRIÖZ, U. (2012). Developping subject-specific hearing loss simulation to apply different frequency lowering algorithms for the enhancement of sensorineural hearing losses. Middle-East Technical University. BAER, T. et MOORE, B. C. J. (1993). Effects of spectral smearing on the intelligibility of sentences in the presence of noise. Journal of the Acoustical Society of America, 94(4):1229–1241. B OUCCARA, D., FERRARY, E., MOSNIER, I., B OZORG GRAYELI, A. et STERKERS, O. (2005). Presbyacousie. EMC – Oto-Rhino-Laryngologie, 2(4):329–342. CRUICKSHANKS, K. J., WILEY, T. L., TWEED, T. S., KLEIN, B. E., KLEIN, R., MARES-PERLMAN, J. A. et NONDAHL, D. M. (1998). Prevalence of hearing loss in older adults in Beaver Dam, Wisconsin. The Epidemiology of Hearing Loss Study. American Journal of Epidemiology, 148:879–886. FONTAN, L. (2012). De la mesure de l’intelligibilité à l’évaluation de la compréhension de la parole pathologique en situation de communication. Université de Toulouse. FONTAN, L., GAILLARD, P. et WOISARD, V. (2014). Comprendre et agir : les tests pragmatiques de compréhension de la parole et EloKanz. In SOCK, R., VAXELAIRE, B. et FAUTH, C., éditeurs : Travaux en phonétique clinique, pages 131–144, Mons (Belgique). CIPA. (sous presse). FOURNIER, J.-E. (1951). Audiométrie vocale : les épreuves d’intelligibilité et leurs applications au diagnostic, à l’expertise et à la correction prothétique des surdités. Maloine. HUSTAD, K. C. (2008). The relationship between listener comprehension and intelligibility scores for speakers with dysarthria. Journal of Speech, Language and Hearing Research, 51(3):562–573. MOORE, B. C. J. (2007). Cochlear hearing loss : Physiological, psychological and technical Issues. Wiley. MOORE, B. C. J. et GLASBERG, B. R. (1993). Simulation of the effects of loudness recruitment and treshold elevation on the intelligibility of speech in quiet and in background of speech. Journal of the Acoustical Society of America, 94(4):2050–2062. NEJIME, Y. et MOORE, B. C. J. (1997). Simulation of the effect of threshold elevation and loudness recruitment combined with reduced frequency selectivity on the intelligibility of speech in noise. Journal of the Acoustical Society of America, 102:603–615. NILSSON, M., SOLI, S. et SULLIVAN, J. A. (1994). Development of the Hearing in Noise Test for the measurement of speech reception thresholds in quiet and in noise. Journal of the Acoustical Society of America, 95(2):1085–1099. VAILLANCOURT, V., LAROCHE, C., MAYER, C., BASQUE, C., NALI, M., ERIKS-BROPHY, A., SOLI, S. D. et GIGUÈRE, C. (2005). Adaptation of the HINT (Hearing in Noise Test) for adult Canadian Francophone populations. International Journal of Audiology, 44:358–369.