la specificite des types de parole pour la perception de la voyelle

Transcription

la specificite des types de parole pour la perception de la voyelle
La spécificité des types de parole pour la perception de la voyelle
Christine Meunier 1 et Caroline Floccia 1,2
1 Laboratoire de Psycholinguistique Expérimentale
F.P.S.E, Université de Genève, 9, route de Drize - 1227 Carouge - SUISSE
tél: + 41 22 705 97 41 - email: [email protected]
2 Laboratoire de Psychologie - Université de Franche-Comté
30 rue Mégevand - 25000 Besançon - tél: + 33 3 81 66 54 71
ABSTRACT
We compared acoustic-phonetic variability in three different types of speech:
spontaneous, continuous read speech and isolated read words. Analyses of vowels
extracted from these samples revealed greater dispersion of F1 and F2 values for the /a/,
especially in the context of spontaneous speech. Results obtained from a transcription
task show both poor identification scores for /a/, and a correlation between subjects'
responses and the acoustic properties of the items. Implications for the role of phonetic
information in lexical access are discussed.
1. INTRODUCTION
En psycholinguistique la plupart des résultats expérimentaux, et les modèles qui s'en
inspirent, sont obtenus à partir des performances des sujets sur du matériel linguistique
de laboratoire très contrôlé. Il s'agit en effet de mots isolés, enregistrés dans de très
bonnes conditions acoustiques. Ceci est fait pour des raisons pratiques (obtenir
précisément les stimuli dont on a besoin), mais également pour n'utiliser que des stimuli
"parfaits" d'un point de vue acoustique, qui ne parasiteront pas le système de traitement
de la parole avec des indices acoustiques supposés non pertinents. Cela pose-t-il un
problème pour la généralisation de ces résultats et de ces modélisations au traitement de
la parole naturelle?
En psycholinguistique, la variable dépendante la plus fréquemment utilisée est le temps
de réaction des sujets, qui permet d'évaluer le décours temporel des différents
mécanismes de traitement. Si les indices acoustico-phonétiques des stimuli de
laboratoire sont plus présents que dans un échantillon de parole naturelle, on peut se
demander si l'intégration de ces informations a vraiment lieu à un niveau précoce de
traitement de la parole, comme le postulent la plupart des modèles de reconnaissance
des mots.
Jusqu'à quel point la parole de laboratoire est-elle vraiment représentative de la parole
naturelle? Dans la parole naturelle, il existe un grand nombre d'informations non
présentes dans les mots produits en isolation: les informations prosodiques, syntaxiques,
sémantiques et pragmatiques. De ce point de vue, la parole de laboratoire est
évidemment plus pauvre que la parole naturelle. Mais d'un autre côté, la parole de
laboratoire devrait avoir des caractéristiques acoustiques et phonétiques nettement
meilleures, puisqu'une grande attention est portée à la qualité de l'enregistrement et à la
diction des locuteurs, ce qui joue un rôle important dans les réalisations acoustiques.
Certaines expériences (Pollack et Pickett, 1969) ont ainsi montré que coupés de leur
contexte, la plupart des mots extraits de discours spontanés ne sont plus identifiables.
Cependant, il n'existe pas d'études à notre connaissance qui aient entrepris de comparer
de manière systématique les caractéristiques acoustiques de la parole dans différentes
modalités (continue/isolée, lue ou spontanée) et l'impact de ces éventuelles différences
sur la perception humaine.
Dans cette étude, nous comparons la variabilité de la parole dans trois modalités de
parole: des mots extraits de parole continue spontanée, des mots lus en isolation et des
mots extraits de phrases lues. Cette dernière modalité est un compromis entre les deux
précédents types de parole: il s'agit de parole lue, donc vraisemblablement mieux
réalisée que la parole spontanée, mais permettant au locuteur d'utiliser d'autres sources
d'information. Les caractéristiques acoustiques et phonétiques des mots extraits de
phrases lues devraient se situer entre celles des mots produits en isolation et celles des
mots extraits de parole spontanée. Nous avons choisi d'analyser les caractéristiques
formantiques et temporelles des voyelles /a/ et /i/. Ces deux voyelles sont
acoustiquement et articulatoirement les plus éloignées. Notre étude permettra peut-être
de dégager des caractéristiques de variation propres au type de production de chaque
voyelle
2. ANALYSES ACOUSTIQUES
2.1. Recueil du corpus, choix des mots et analyses
Nous avons sélectionné 30 mots au sein d'un discours spontané (une locutrice conversait
librement). Sur ces 30 mots, 15 contenaient une voyelle /a/ non finale et les 15 autres
une voyelle /i/ non finale. Les 30 mots sélectionnés ont ensuite été intégrés dans des
phrases porteuses qui ont été lues par la même locutrice. Les phrases étaient courtes (7
mots en moyenne) et de structure syntaxique simple. Enfin, ces 30 mots ont été lus
isolément toujours par la même locutrice. Pour les 90 mots (30 mots * 3 modalités), les
voyelles pertinentes (/a/ et /i/) ont été extraites et placées dans des fichiers isolés. Le 1er
et le 2ème formant de chaque voyelle ont été mesurés manuellement au travers d'une
analyse spectrale LPC à l'aide du logiciel PHONEDIT (User's Manual, 1997)
2.2. Résultats des analyses
Analyse de durée
On observe un effet principal du type de voyelle, toutes modalités confondues
(F(1,28)=11.73, p<.01). En effet, les différents exemplaires de /a/ sont toujours plus
longs que les exemplaires de /i/ (86.9 ms versus 74.3 ms). Par ailleurs, on observe un
effet principal de la modalité de parole sur la durée des deux voyelles (F(2,56)=9.85,
p<.01), qui est aussi important pour /a/ que pour /i/ (interaction entre le type de voyelle
et la modalité: F(2,56)<1). Cet effet principal est dû à un allongement des voyelles dans
la modalité I par rapport aux deux autres modalités (durée des voyelles dans I: 88.2 ms,
versus dans S et L: respectivement 76.8 et 76.85 ms: F(1,28)=17.55, p<.01). La taille et
la direction de ces effets sont identiques pour chaque type de voyelle: aucune interaction
entre le type de voyelles et les comparaisons entre modalités n'est significative.
Analyse de F1 et F2
Pour la voyelle /i/, on observe une faible dispersion des valeurs de F1 et F2, quelle que
soit la modalité de parole. Il y a cependant un effet de la modalité sur F1 (F(2,28)=3.62,
p=.04), mais pas sur F2 (F(2,28)<1). En revanche pour /a/, on observe dans les 3
conditions une dispersion importante des valeurs de F1 et F2, avec un maximum de
dispersion atteint pour la parole spontanée. On observe d'ailleurs un effet de la modalité
sur F1 (F(2,28)=13.83, p<.01) et sur F2 (F(2,28)= 7.33, p<.01). Lorsqu'on compare les
modalités S et I, on observe un effet sur F1 (F(1,14)=16.45, p<.01) mais pas sur F2
(F(1,14)<1).
Spontané
Phrases lues
Mots isolés
Figure 1: répartition spectrale des 15 voyelles /a/ en fonction des trois modalités
Spontané
Phrases lues
Mots isolés
Figure 2: répartition spectrale des 15 voyelles /i/ en fonction des trois modalités.
La figure 1 montre l'importante variabilité spectrale de
la voyelle /a/. Les valeurs de
/a/ en parole spontanée, et
dans une moindre mesure
dans les deux autres moFigure 3: Estimation spectrale (Calioppe, 1989) des voyelles du
dalités, couvrent une partie
français (afin que l'échelle soit identique au 2 figures précédentes, importante du champ spectral
certaines voyelles ne sont pas représentées).
des voyelles du français.
2.3. Discussion des analyses
Un premier résultat peu surprenant est que la durée des voyelles est significativement
plus importante en condition de mots isolés que dans les deux autres conditions, ce qui
signale une diction plus rapide en parole continue qu'en lecture de mots isolés. Un
second résultat plus intéressant concerne les dispersions des valeurs de F1 et F2. Tout
d'abord les valeurs de F1 et F2 pour /i/ se situent autour des valeurs généralement mises
en évidence par les phonéticiens, et ce quelle que soit la modalité de parole. Ceci signale
une grande stabilité de cette voyelle. En revanche, les valeurs F1 et F2 de /a/ varient de
manière importante en condition S, un peu moins en condition L, et encore moins en
condition I, tout en étant nettement plus dispersées que les valeurs des formants pour le
/i/ dans les modalités équivalentes. Pour expliquer ces effets, des raisons articulatoires
peuvent être invoquées: la voyelle /a/ est le phonème qui demande un degrés d'aperture
maximal, on peut supposer que le /a/ soit éloigné de sa cible articulatoire (et se
rapproche ainsi de l'articulation des phonèmes qui l'entourent) pour des raisons de
réduction d'effort articulatoire (Lindblom, 1990). Une autre explication, qui n'exclut pas
la précédente, est que la voyelle /a/ est la voyelle la plus fréquente en français (Wioland,
1985). Il est possible que pour l'identifier, il ne soit pas nécessaire de disposer d'indices
acoustiques très réguliers et systématiques dans la mesure ou sa probabilité d'apparition
dans un corpus est très importante. Pour déterminer si cette hypothèse est correcte, il
sera nécessaire de réaliser le même type d'analyses sur les autres voyelles du français, ou
dans d'autres langues pour lesquelles la fréquence d'utilisation du /a/ est différente.
En résumé, les analyses acoustiques des voyelles /a/ et /i/ indiquent une grande
instabilité des valeurs formantiques du /a/ en fonction de la modalité de parole, avec un
maximum de dispersion obtenu en parole spontanée. Ces variations sont-elles perçues
par les auditeurs francophones? Pour répondre à cette question, nous avons réalisé une
expérience de transcription des voyelles /a/ et /i/ analysées précédemment.
3. EXPERIENCE DE TRANSCRIPTION
3.1. Matériel et procédure
Les 90 voyelles précédemment extraites pour l'analyse acoustique ont été utilisées pour
cette expérience. Trois listes ont été constituées. Chaque liste contenait les 30 voyelles
d'un type de parole. A ces 30 voyelles ont été ajoutés 15 voyelles non /a/ et non /i/
faisant office de distracteurs. 15 voyelles d'entraînement (5 pour chaque liste) ont été
choisies. Ces stimuli ont été transférés sur une cassette. L'ensemble de ces stimuli a été
présenté dans un ordre aléatoire fixe dans chacune des trois listes. Chaque liste était
donc constituée de 45 stimuli (30 tests + 15 distracteurs) d'un type de parole donnée et
était précédée de cinq voyelles d'entraînement extraites du corpus de la liste. Les sujets
ont reçu les listes dans trois ordres différents: S-L-I, L-I-S ou I-S-L. Vingt sujets de
langue maternelle française (agés entre 20 et 40 ans et ne présentant pas de troubles
auditifs caractéristiques) ont transcrit par écrit chaque voyelle entendue au travers d'un
casque et provenant d'une cassette de DAT (Digital Audio Tape). Chaque sujet devait
donc identifier 90 exemplaires des voyelles /a/ et /i/ dans trois modalités différentes.
3.2. Résultats
Toute modalité de parole confondue, les sujets identifient correctement la voyelle /i/
dans 85.8% des cas, contre 26.2% pour la voyelle /a/. Cependant, pour le /a/, 95.0% des
réponses données sont des voyelles proches acoustiquement du /a / (voyelles miouvertes: E, EU, O). Les performances des sujets varient-elles en fonction de la
modalité de parole? Pour le /a/ comme pour le /i/, le score d'identification correcte des
voyelles augmente à mesure que la parole est plus contrôlée. Ainsi, l'effet de la modalité
de parole sur les bonnes réponses moyennes des sujets est significatif pour la voyelle /a/
(F(2,57)=9.66, p<.01), ainsi que pour la voyelle /i/ (F(2,57)=5.81, p<.01). Cet effet n'est
pas plus important pour /i/ que pour /a/ (interaction entre modalité et voyelle:
F(2,114)<1).
100
80
60
spontané
78
lu
85
94
isolé
38
40
20 21
20
0
/a/
/i/
Figure 4: proportion (en pourcentage) d'identification des voyelles /a/ et /i en fonction des 3 modalités
Les réponses des sujets sont-elles corrélées avec les caractéristiques acoustiques des
voyelles? Nous avons étiqueté la qualité de chaque voyelle sur la base de ses
caractéristiques formantiques, et nous avons comparé les réponses des sujets avec la
valeur prédite des voyelles. Pour le /i/, on obtient une très bonne corrélation puisque
95.5% des réponses données correspondent aux valeurs prédites (ce qui est peu
surprenant compte tenu à la fois de la faible dispersion des /i/ dans l'espace vocalique, et
de la faible dispersion des réponses des sujets). Pour le /a/, 74.3% des réponses des
sujets sont en accord avec les valeurs prédites acoustiquement. De plus, parmi les 25.7%
de réponses non cohérentes, 64 % sont des réponses proches des réponses prédites (par
exemple les sujets rapportent entendre une voyelle ouverte lorsque le voyelle prédite
était ouverte).
3.3. Discussion de l'expérience
Un premier résultat apparaissant dans cette expérience est que la transcription de la
voyelle /i/ donne lieu à très peu d'erreurs, quelle que soit la modalité. Ceci est peu
surprenant compte tenu de la grande stabilité des valeurs formantiques analysées
auparavant pour cette voyelle. De plus, lorsque les sujets rapportent entendre une
voyelle différente du /i/, ils indiquent une voyelle proche du /i/ dans l'espace vocalique
classique. Par contre, pour le /a/, on observe une grande dispersion des résultats. Les
meilleures scores d'identification sont obtenus pour les /a/ extraits de mots isolés (37.7%
de bonnes réponses), mais ce score est nettement plus faible que celui obtenu pour
l'identification du /i/ dans la même modalité (94%). Pour les deux autres modalités, les
réponses des sujets sont très dispersées dans toute la partition des voyelles. Cependant
davantage de réponses sont données pour des voyelles ouvertes proches du /a/ (en
moyenne 73% des réponses pour E, EU et O) que pour des voyelles distantes (7.5% des
réponses pour d'autres catégories de voyelles). Par ailleurs, il existe une très bonne
corrélation entre les réponses des sujets et les réponses prédites par les caractéristiques
acoustiques des voyelles.
4. DISCUSSION GENERALE
L'objectif de cette étude était de comparer les variations acoustiques et phonétiques des
sons de parole dans différents types de parole, ainsi que leur impact sur les
performances des sujets dans une tâche de perception. Ce travail a pu montrer que si la
modalité de parole joue un rôle important dans la variabilité, le type de voyelle est
également un facteur déterminant. Les résultats indiquent une variabilité importante à la
fois acoustique et perceptive pour la voyelle /a/, et ce d'autant plus importante que la
parole est moins contrôlée. Il est possible que ces variations ne soient pas très
préjudiciables en parole spontanée, car l'auditeur peut alors utiliser un grand nombre de
sources d'information (prosodique, syntaxique, lexicale...) pour pallier ces éventuelles
imprécisions acoustico-phonétiques. Cependant ces résultats indiquent clairement que la
parole de laboratoire (mots isolés lus) possède des caractéristiques acoustiques et
phonétiques nettement plus stables que la parole naturelle. Sans aller jusqu'à remettre au
cause l'hypothèse classique d'une intégration précoce de l'information phonétique lors de
l'accès lexical, ces résultats indiquent que le rôle de cette information pour la
reconnaissance des mots pourrait être minimisée.
Toutefois, on peut s'interroger sur le rôle de cette variabilité: peut-elle gêner - ou aider la reconnaissance des mots? Nous avons cherché à déterminer si cette variabilité était
aléatoire, ou bien si elle était relativement stable à l'intérieur de chaque mot. Des
analyses de corrélation post-hoc montrent que pour un même mot, les valeurs des
formants de chaque voyelle ne varient pas beaucoup. Ainsi pour le /a/, ces corrélations
montrent que les variations sont fonction du mot et/ou du contexte phonétique
environnant. De nombreux travaux (Stevens et House, 1963, Schouten et Pols, 1979)
ont en effet montré le l'impact du contexte phonétique sur les caractéristiques spectrales
des voyelles. Cette régularité dans les variations pourrait être utilisée par l'auditeur pour
identifier le mot. Pour tester cette hypothèse, une expérience est en cours, dans laquelle
les sujets doivent détecter les voyelles /a/ et /i/ soit dans le contexte du mot, soit
extraites des mots et présentées en isolation. Si les variations allophoniques des voyelles
sont informatives pour la reconnaissance des mots, il est possible que le coût perceptif
attendu pour la détection de voyelles en isolation disparaisse en contexte de mots. Ainsi,
comme le soutiennent certains auteurs (Repp, Elman and Clelland 1986, 1982, Rossi,
1989), ces résultats pourraient mettre en évidence l'utilisation - et donc la nécessité - des
phénomènes de variation contextuelle pour l'accès au lexique.
REFERENCES
Calliope (1989), La parole et son traitement automatique, Masson (Ouvrage collectif).
Elman J., Mc Clelland J. (1986), "Exploiting Lawfull Variability in the Speech Wave", in Invariance and variability
in speech processes, Perkell and Klatt eds., M.I.T., London.
Lindblom, B. (1990), "Explaining phonetic variation: a sketch of the hyper- and hypospeech theory", Speech
Production and Speech Modelling, Hardcastle and Marchal (eds.), Kluwer Academic Publishers, 403-439.
Phonédit: User's Manual, (1997), (Manuel non diffusé) S.Q.Lab., Aix-en-Provence, France.
Pollack, O., Pickett, J.M. (1969) "Intelligibility of Excerpts from Fluent Speech: auditory vs structural context",
Journal of Verbal Learning and Verbal Behavior, 3, 79-84.
Repp, B. (1982), "Phonetic Trading Relations and Context Effect: New Experimental Evidence for a Speech Mode of
Perception", Psychological Bulletin, vol. 92, No. 1, 81-110.
Rossi M. (1989), "De la quiddité des variables", Actes du séminaire Variabilité et spécificité du locuteur: Etudes et
Applications, Marseille, éd. H. Méloni, 11-31
Schouten, M.E.H. and Pols, L.C.W (1979), "Vowel Segments in Consonantal Context", Journal of Phonetics, 7 (1),
1-23.
Stevens, K.N., House, A.S. (1963), "Perturbation of Vowel Articulations by Consonantal Context: An Acoustical
Study", Journal of Speech and Hearing Research, 6 (2), 111-128.
Wioland, F. (1985) Les structures syllabiques du français: fréquence et distribution des phonèmes consonantiques,
contraintes idiomatiques dans les séquences consonantiques, Genève: Slatkine; Paris: Champion.
Remerciements: cette recherche a pu être réalisée grâce au Fond National de la Recherche Scientifique
Suisse (F.N.R.S. n°11-39553.93).

Documents pareils