la specificite des types de parole pour la perception de la voyelle
Transcription
la specificite des types de parole pour la perception de la voyelle
La spécificité des types de parole pour la perception de la voyelle Christine Meunier 1 et Caroline Floccia 1,2 1 Laboratoire de Psycholinguistique Expérimentale F.P.S.E, Université de Genève, 9, route de Drize - 1227 Carouge - SUISSE tél: + 41 22 705 97 41 - email: [email protected] 2 Laboratoire de Psychologie - Université de Franche-Comté 30 rue Mégevand - 25000 Besançon - tél: + 33 3 81 66 54 71 ABSTRACT We compared acoustic-phonetic variability in three different types of speech: spontaneous, continuous read speech and isolated read words. Analyses of vowels extracted from these samples revealed greater dispersion of F1 and F2 values for the /a/, especially in the context of spontaneous speech. Results obtained from a transcription task show both poor identification scores for /a/, and a correlation between subjects' responses and the acoustic properties of the items. Implications for the role of phonetic information in lexical access are discussed. 1. INTRODUCTION En psycholinguistique la plupart des résultats expérimentaux, et les modèles qui s'en inspirent, sont obtenus à partir des performances des sujets sur du matériel linguistique de laboratoire très contrôlé. Il s'agit en effet de mots isolés, enregistrés dans de très bonnes conditions acoustiques. Ceci est fait pour des raisons pratiques (obtenir précisément les stimuli dont on a besoin), mais également pour n'utiliser que des stimuli "parfaits" d'un point de vue acoustique, qui ne parasiteront pas le système de traitement de la parole avec des indices acoustiques supposés non pertinents. Cela pose-t-il un problème pour la généralisation de ces résultats et de ces modélisations au traitement de la parole naturelle? En psycholinguistique, la variable dépendante la plus fréquemment utilisée est le temps de réaction des sujets, qui permet d'évaluer le décours temporel des différents mécanismes de traitement. Si les indices acoustico-phonétiques des stimuli de laboratoire sont plus présents que dans un échantillon de parole naturelle, on peut se demander si l'intégration de ces informations a vraiment lieu à un niveau précoce de traitement de la parole, comme le postulent la plupart des modèles de reconnaissance des mots. Jusqu'à quel point la parole de laboratoire est-elle vraiment représentative de la parole naturelle? Dans la parole naturelle, il existe un grand nombre d'informations non présentes dans les mots produits en isolation: les informations prosodiques, syntaxiques, sémantiques et pragmatiques. De ce point de vue, la parole de laboratoire est évidemment plus pauvre que la parole naturelle. Mais d'un autre côté, la parole de laboratoire devrait avoir des caractéristiques acoustiques et phonétiques nettement meilleures, puisqu'une grande attention est portée à la qualité de l'enregistrement et à la diction des locuteurs, ce qui joue un rôle important dans les réalisations acoustiques. Certaines expériences (Pollack et Pickett, 1969) ont ainsi montré que coupés de leur contexte, la plupart des mots extraits de discours spontanés ne sont plus identifiables. Cependant, il n'existe pas d'études à notre connaissance qui aient entrepris de comparer de manière systématique les caractéristiques acoustiques de la parole dans différentes modalités (continue/isolée, lue ou spontanée) et l'impact de ces éventuelles différences sur la perception humaine. Dans cette étude, nous comparons la variabilité de la parole dans trois modalités de parole: des mots extraits de parole continue spontanée, des mots lus en isolation et des mots extraits de phrases lues. Cette dernière modalité est un compromis entre les deux précédents types de parole: il s'agit de parole lue, donc vraisemblablement mieux réalisée que la parole spontanée, mais permettant au locuteur d'utiliser d'autres sources d'information. Les caractéristiques acoustiques et phonétiques des mots extraits de phrases lues devraient se situer entre celles des mots produits en isolation et celles des mots extraits de parole spontanée. Nous avons choisi d'analyser les caractéristiques formantiques et temporelles des voyelles /a/ et /i/. Ces deux voyelles sont acoustiquement et articulatoirement les plus éloignées. Notre étude permettra peut-être de dégager des caractéristiques de variation propres au type de production de chaque voyelle 2. ANALYSES ACOUSTIQUES 2.1. Recueil du corpus, choix des mots et analyses Nous avons sélectionné 30 mots au sein d'un discours spontané (une locutrice conversait librement). Sur ces 30 mots, 15 contenaient une voyelle /a/ non finale et les 15 autres une voyelle /i/ non finale. Les 30 mots sélectionnés ont ensuite été intégrés dans des phrases porteuses qui ont été lues par la même locutrice. Les phrases étaient courtes (7 mots en moyenne) et de structure syntaxique simple. Enfin, ces 30 mots ont été lus isolément toujours par la même locutrice. Pour les 90 mots (30 mots * 3 modalités), les voyelles pertinentes (/a/ et /i/) ont été extraites et placées dans des fichiers isolés. Le 1er et le 2ème formant de chaque voyelle ont été mesurés manuellement au travers d'une analyse spectrale LPC à l'aide du logiciel PHONEDIT (User's Manual, 1997) 2.2. Résultats des analyses Analyse de durée On observe un effet principal du type de voyelle, toutes modalités confondues (F(1,28)=11.73, p<.01). En effet, les différents exemplaires de /a/ sont toujours plus longs que les exemplaires de /i/ (86.9 ms versus 74.3 ms). Par ailleurs, on observe un effet principal de la modalité de parole sur la durée des deux voyelles (F(2,56)=9.85, p<.01), qui est aussi important pour /a/ que pour /i/ (interaction entre le type de voyelle et la modalité: F(2,56)<1). Cet effet principal est dû à un allongement des voyelles dans la modalité I par rapport aux deux autres modalités (durée des voyelles dans I: 88.2 ms, versus dans S et L: respectivement 76.8 et 76.85 ms: F(1,28)=17.55, p<.01). La taille et la direction de ces effets sont identiques pour chaque type de voyelle: aucune interaction entre le type de voyelles et les comparaisons entre modalités n'est significative. Analyse de F1 et F2 Pour la voyelle /i/, on observe une faible dispersion des valeurs de F1 et F2, quelle que soit la modalité de parole. Il y a cependant un effet de la modalité sur F1 (F(2,28)=3.62, p=.04), mais pas sur F2 (F(2,28)<1). En revanche pour /a/, on observe dans les 3 conditions une dispersion importante des valeurs de F1 et F2, avec un maximum de dispersion atteint pour la parole spontanée. On observe d'ailleurs un effet de la modalité sur F1 (F(2,28)=13.83, p<.01) et sur F2 (F(2,28)= 7.33, p<.01). Lorsqu'on compare les modalités S et I, on observe un effet sur F1 (F(1,14)=16.45, p<.01) mais pas sur F2 (F(1,14)<1). Spontané Phrases lues Mots isolés Figure 1: répartition spectrale des 15 voyelles /a/ en fonction des trois modalités Spontané Phrases lues Mots isolés Figure 2: répartition spectrale des 15 voyelles /i/ en fonction des trois modalités. La figure 1 montre l'importante variabilité spectrale de la voyelle /a/. Les valeurs de /a/ en parole spontanée, et dans une moindre mesure dans les deux autres moFigure 3: Estimation spectrale (Calioppe, 1989) des voyelles du dalités, couvrent une partie français (afin que l'échelle soit identique au 2 figures précédentes, importante du champ spectral certaines voyelles ne sont pas représentées). des voyelles du français. 2.3. Discussion des analyses Un premier résultat peu surprenant est que la durée des voyelles est significativement plus importante en condition de mots isolés que dans les deux autres conditions, ce qui signale une diction plus rapide en parole continue qu'en lecture de mots isolés. Un second résultat plus intéressant concerne les dispersions des valeurs de F1 et F2. Tout d'abord les valeurs de F1 et F2 pour /i/ se situent autour des valeurs généralement mises en évidence par les phonéticiens, et ce quelle que soit la modalité de parole. Ceci signale une grande stabilité de cette voyelle. En revanche, les valeurs F1 et F2 de /a/ varient de manière importante en condition S, un peu moins en condition L, et encore moins en condition I, tout en étant nettement plus dispersées que les valeurs des formants pour le /i/ dans les modalités équivalentes. Pour expliquer ces effets, des raisons articulatoires peuvent être invoquées: la voyelle /a/ est le phonème qui demande un degrés d'aperture maximal, on peut supposer que le /a/ soit éloigné de sa cible articulatoire (et se rapproche ainsi de l'articulation des phonèmes qui l'entourent) pour des raisons de réduction d'effort articulatoire (Lindblom, 1990). Une autre explication, qui n'exclut pas la précédente, est que la voyelle /a/ est la voyelle la plus fréquente en français (Wioland, 1985). Il est possible que pour l'identifier, il ne soit pas nécessaire de disposer d'indices acoustiques très réguliers et systématiques dans la mesure ou sa probabilité d'apparition dans un corpus est très importante. Pour déterminer si cette hypothèse est correcte, il sera nécessaire de réaliser le même type d'analyses sur les autres voyelles du français, ou dans d'autres langues pour lesquelles la fréquence d'utilisation du /a/ est différente. En résumé, les analyses acoustiques des voyelles /a/ et /i/ indiquent une grande instabilité des valeurs formantiques du /a/ en fonction de la modalité de parole, avec un maximum de dispersion obtenu en parole spontanée. Ces variations sont-elles perçues par les auditeurs francophones? Pour répondre à cette question, nous avons réalisé une expérience de transcription des voyelles /a/ et /i/ analysées précédemment. 3. EXPERIENCE DE TRANSCRIPTION 3.1. Matériel et procédure Les 90 voyelles précédemment extraites pour l'analyse acoustique ont été utilisées pour cette expérience. Trois listes ont été constituées. Chaque liste contenait les 30 voyelles d'un type de parole. A ces 30 voyelles ont été ajoutés 15 voyelles non /a/ et non /i/ faisant office de distracteurs. 15 voyelles d'entraînement (5 pour chaque liste) ont été choisies. Ces stimuli ont été transférés sur une cassette. L'ensemble de ces stimuli a été présenté dans un ordre aléatoire fixe dans chacune des trois listes. Chaque liste était donc constituée de 45 stimuli (30 tests + 15 distracteurs) d'un type de parole donnée et était précédée de cinq voyelles d'entraînement extraites du corpus de la liste. Les sujets ont reçu les listes dans trois ordres différents: S-L-I, L-I-S ou I-S-L. Vingt sujets de langue maternelle française (agés entre 20 et 40 ans et ne présentant pas de troubles auditifs caractéristiques) ont transcrit par écrit chaque voyelle entendue au travers d'un casque et provenant d'une cassette de DAT (Digital Audio Tape). Chaque sujet devait donc identifier 90 exemplaires des voyelles /a/ et /i/ dans trois modalités différentes. 3.2. Résultats Toute modalité de parole confondue, les sujets identifient correctement la voyelle /i/ dans 85.8% des cas, contre 26.2% pour la voyelle /a/. Cependant, pour le /a/, 95.0% des réponses données sont des voyelles proches acoustiquement du /a / (voyelles miouvertes: E, EU, O). Les performances des sujets varient-elles en fonction de la modalité de parole? Pour le /a/ comme pour le /i/, le score d'identification correcte des voyelles augmente à mesure que la parole est plus contrôlée. Ainsi, l'effet de la modalité de parole sur les bonnes réponses moyennes des sujets est significatif pour la voyelle /a/ (F(2,57)=9.66, p<.01), ainsi que pour la voyelle /i/ (F(2,57)=5.81, p<.01). Cet effet n'est pas plus important pour /i/ que pour /a/ (interaction entre modalité et voyelle: F(2,114)<1). 100 80 60 spontané 78 lu 85 94 isolé 38 40 20 21 20 0 /a/ /i/ Figure 4: proportion (en pourcentage) d'identification des voyelles /a/ et /i en fonction des 3 modalités Les réponses des sujets sont-elles corrélées avec les caractéristiques acoustiques des voyelles? Nous avons étiqueté la qualité de chaque voyelle sur la base de ses caractéristiques formantiques, et nous avons comparé les réponses des sujets avec la valeur prédite des voyelles. Pour le /i/, on obtient une très bonne corrélation puisque 95.5% des réponses données correspondent aux valeurs prédites (ce qui est peu surprenant compte tenu à la fois de la faible dispersion des /i/ dans l'espace vocalique, et de la faible dispersion des réponses des sujets). Pour le /a/, 74.3% des réponses des sujets sont en accord avec les valeurs prédites acoustiquement. De plus, parmi les 25.7% de réponses non cohérentes, 64 % sont des réponses proches des réponses prédites (par exemple les sujets rapportent entendre une voyelle ouverte lorsque le voyelle prédite était ouverte). 3.3. Discussion de l'expérience Un premier résultat apparaissant dans cette expérience est que la transcription de la voyelle /i/ donne lieu à très peu d'erreurs, quelle que soit la modalité. Ceci est peu surprenant compte tenu de la grande stabilité des valeurs formantiques analysées auparavant pour cette voyelle. De plus, lorsque les sujets rapportent entendre une voyelle différente du /i/, ils indiquent une voyelle proche du /i/ dans l'espace vocalique classique. Par contre, pour le /a/, on observe une grande dispersion des résultats. Les meilleures scores d'identification sont obtenus pour les /a/ extraits de mots isolés (37.7% de bonnes réponses), mais ce score est nettement plus faible que celui obtenu pour l'identification du /i/ dans la même modalité (94%). Pour les deux autres modalités, les réponses des sujets sont très dispersées dans toute la partition des voyelles. Cependant davantage de réponses sont données pour des voyelles ouvertes proches du /a/ (en moyenne 73% des réponses pour E, EU et O) que pour des voyelles distantes (7.5% des réponses pour d'autres catégories de voyelles). Par ailleurs, il existe une très bonne corrélation entre les réponses des sujets et les réponses prédites par les caractéristiques acoustiques des voyelles. 4. DISCUSSION GENERALE L'objectif de cette étude était de comparer les variations acoustiques et phonétiques des sons de parole dans différents types de parole, ainsi que leur impact sur les performances des sujets dans une tâche de perception. Ce travail a pu montrer que si la modalité de parole joue un rôle important dans la variabilité, le type de voyelle est également un facteur déterminant. Les résultats indiquent une variabilité importante à la fois acoustique et perceptive pour la voyelle /a/, et ce d'autant plus importante que la parole est moins contrôlée. Il est possible que ces variations ne soient pas très préjudiciables en parole spontanée, car l'auditeur peut alors utiliser un grand nombre de sources d'information (prosodique, syntaxique, lexicale...) pour pallier ces éventuelles imprécisions acoustico-phonétiques. Cependant ces résultats indiquent clairement que la parole de laboratoire (mots isolés lus) possède des caractéristiques acoustiques et phonétiques nettement plus stables que la parole naturelle. Sans aller jusqu'à remettre au cause l'hypothèse classique d'une intégration précoce de l'information phonétique lors de l'accès lexical, ces résultats indiquent que le rôle de cette information pour la reconnaissance des mots pourrait être minimisée. Toutefois, on peut s'interroger sur le rôle de cette variabilité: peut-elle gêner - ou aider la reconnaissance des mots? Nous avons cherché à déterminer si cette variabilité était aléatoire, ou bien si elle était relativement stable à l'intérieur de chaque mot. Des analyses de corrélation post-hoc montrent que pour un même mot, les valeurs des formants de chaque voyelle ne varient pas beaucoup. Ainsi pour le /a/, ces corrélations montrent que les variations sont fonction du mot et/ou du contexte phonétique environnant. De nombreux travaux (Stevens et House, 1963, Schouten et Pols, 1979) ont en effet montré le l'impact du contexte phonétique sur les caractéristiques spectrales des voyelles. Cette régularité dans les variations pourrait être utilisée par l'auditeur pour identifier le mot. Pour tester cette hypothèse, une expérience est en cours, dans laquelle les sujets doivent détecter les voyelles /a/ et /i/ soit dans le contexte du mot, soit extraites des mots et présentées en isolation. Si les variations allophoniques des voyelles sont informatives pour la reconnaissance des mots, il est possible que le coût perceptif attendu pour la détection de voyelles en isolation disparaisse en contexte de mots. Ainsi, comme le soutiennent certains auteurs (Repp, Elman and Clelland 1986, 1982, Rossi, 1989), ces résultats pourraient mettre en évidence l'utilisation - et donc la nécessité - des phénomènes de variation contextuelle pour l'accès au lexique. REFERENCES Calliope (1989), La parole et son traitement automatique, Masson (Ouvrage collectif). Elman J., Mc Clelland J. (1986), "Exploiting Lawfull Variability in the Speech Wave", in Invariance and variability in speech processes, Perkell and Klatt eds., M.I.T., London. Lindblom, B. (1990), "Explaining phonetic variation: a sketch of the hyper- and hypospeech theory", Speech Production and Speech Modelling, Hardcastle and Marchal (eds.), Kluwer Academic Publishers, 403-439. Phonédit: User's Manual, (1997), (Manuel non diffusé) S.Q.Lab., Aix-en-Provence, France. Pollack, O., Pickett, J.M. (1969) "Intelligibility of Excerpts from Fluent Speech: auditory vs structural context", Journal of Verbal Learning and Verbal Behavior, 3, 79-84. Repp, B. (1982), "Phonetic Trading Relations and Context Effect: New Experimental Evidence for a Speech Mode of Perception", Psychological Bulletin, vol. 92, No. 1, 81-110. Rossi M. (1989), "De la quiddité des variables", Actes du séminaire Variabilité et spécificité du locuteur: Etudes et Applications, Marseille, éd. H. Méloni, 11-31 Schouten, M.E.H. and Pols, L.C.W (1979), "Vowel Segments in Consonantal Context", Journal of Phonetics, 7 (1), 1-23. Stevens, K.N., House, A.S. (1963), "Perturbation of Vowel Articulations by Consonantal Context: An Acoustical Study", Journal of Speech and Hearing Research, 6 (2), 111-128. Wioland, F. (1985) Les structures syllabiques du français: fréquence et distribution des phonèmes consonantiques, contraintes idiomatiques dans les séquences consonantiques, Genève: Slatkine; Paris: Champion. Remerciements: cette recherche a pu être réalisée grâce au Fond National de la Recherche Scientifique Suisse (F.N.R.S. n°11-39553.93).