Différences inter-dialectales dans l`émergence de la

Transcription

Différences inter-dialectales dans l`émergence de la
Différences inter-dialectales dans l'émergence
de la segmentation de la parole chez les enfants
francophones. Influence de la prosodie.
Master de recherche en sciences cognitives soutenu par
Karima Mersad
Sous la direction de
Thierry Nazzi
Laboratoire de Psychologie de la Perception
CNRS-Université de Paris V
Session 2007
1
Résumé
Des recherches à l'université de Mc Gill à Montréal ont montré que les enfants
apprenant le québécois segmentent les mots bisyllabiques vers 7.5 mois, qu'il s'agisse
du français québécois ou du français parisien. Nazzi et ses collègues ont partiellement
répliqué cette expérience en utilisant les stimuli parisiens, avec des enfants parisiens.
Ils n'ont trouvé d'effet de segmentation, ni à 8 mois, ni à 12 mois. Une étude avait
précédemment mis en évidence une segmentation des mots bisyllabiques, chez les
enfants parisiens, seulement vers 16 mois. Cette précocité de la capacité de
segmentation chez les enfants québécois est-elle le résultat de l'utilisation d'indices
présents spécifiquement dans les stimuli de l'expérience québécoise ? Les enfants
parisiens parviendraient-ils à exploiter ces informations comme leurs homologues
québécois à 8 mois ? Notre première expérience suggère une réponse négative à cette
question. Les analyses acoustiques des stimuli utilisés dans les expériences sus-citées,
mises en oeuvre dans notre seconde expérience, montrent d'une part que les
caractéristiques de l'Infant Directed Speech, facilitent la tâche de segmentation aux
nourrissons ; d'autre part, que de substantielles différences prosodiques entre les
stimuli québécois et parisiens suggèrent que leur expérience linguistique favorise la
sensibilité des enfants québécois aux indices prosodiques de segmentation.
2
I. Introduction
1. Au commencement il y eut ... l'énigme
Une question centrale en psycholinguistique est le découpage de la parole en mots, étape
fondamentale dans l'apprentissage du langage. Pour acquérir le lexique de sa langue, l'enfant doit en
effet percevoir, dans la suite des sons qui constituent la parole, la forme sonore de chaque mot, afin
de l'associer à un référent sémantique. Une étude de Newman et. al, (2006) a montré que la capacité
à segmenter la parole, dès les tout premiers mois de la vie, a une incidence sur la richesse du
vocabulaire acquis ultérieurement. D'autre part, selon les théories de l'acquisition de la syntaxe, les
phrases sont traitées comme des séquences constituées de mots : la segmentation de la parole
pourrait ainsi jouer un rôle essentiel dans l'acquisition du langage, ce d'autant que certaines études
ont mis en évidence la faible proportion de mots adressés à l'enfant, prononcés isolément, (Aslin,
1993 ; Brent & Siskind, 2001).
Cependant, le signal physique de la parole ne révèle pas de corrélât clair de ce que qui est
perçu par l'oreille humaine comme une frontière entre les mots. En effet, au niveau acoustique, il
n'existe pas de limite marquée, systématique entre les mots (Cole & Jakimik, 1978, 1980; Klatt,
1979, 1989). Certains modèles de perception de la parole postulent que les adultes utilisent dans
leur processus de segmentation, dans des conditions d'écoute non dégradée, des stratégies de type
top-down, basées sur le lexique, (Mattys et. al, (2005), McCLelland & Elman, (1986); Norris,
(1994)). Selon ces modèles, au fur et à mesure que le mot est prononcé, l'auditeur compare la
succession des phonèmes entendus aux mots qu'il possède dans son lexique, et procède à
l'extraction lorsque la forme phonologique d'une séquence de sons coïncide avec une représentation
lexicale mentale. Ces théories s'appuient sur un lexique déjà construit, cependant, comment les
adultes sont-ils parvenus à se constituer un lexique ? L'utilisation par les enfants de procédés de
type top-down pour effectuer la segmentation a été mise en évidence dès 6 mois pour un type de
mots très familiers comme « maman » ou le propre prénom de l'enfant. On peut considérer
l'hypothèse que les très jeunes enfants vont acquérir tout d'abord quelques mots particulièrement
familiers, souvent prononcés isolément, puis, grâce à ce premier lexique, qu'ils vont parvenir à
segmenter les mots immédiatement adjacents, dans le signal de parole, aux mots de leur
rudimentaire vocabulaire. Ces mots nouvellement acquis leur serviraient par la suite à segmenter
d'autres mots inconnus et ainsi de suite. Mais le faible nombre de mots prononcés en isolation et les
3
nombreuses études ayant étudié cette question nous suggèrent qu'à un stade précoce de la
constitution de son lexique, l'enfant va recourir à d'autres informations que ses connaissances
lexicales. Les processus mis en jeux, de type bottom-up, procèdent d'une analyse des phénomènes
sensoriels vers celle des représentations abstraites.
2. Des indices de frontière dans le signal de parole
Des études, portant en majorité sur la langue anglaise, ont établi l'existence d'un certain
nombre d'informations présentes dans le signal de parole, indiquant les frontières de mots, et
susceptibles d'être utilisées par les nourrissons, comme des indices de segmentation :
2.1 Les indices prosodiques et l'hypothèse de l'initialisation
rythmique de la segmentation
Un indice auquel nous nous intéresserons particulièrement est la dimension musicale de la
parole ou prosodie, qui s'exprime dans les propriétés de rythme, d'accent et d'intonation. Dans la
langue parlée, certains éléments phonologiques se répètent à intervalles réguliers, produisent une
organisation temporelle du signal de parole. L'idée qu'il existe plusieurs classes rythmiques pour le
signal de parole, remonte à quelques décennies (Abercombie, 1967 ; Pike, 1945) ; à ce jour, trois
classes rythmiques1 principales sont considérées : la classe des langues à accent (comme l'anglais, le
néerlandais ou le polonais), celle des langues syllabiques (comme le français, l'italien et l'espagnol)
et la classe des langues moraïques (comme le japonais ou le tamoul).
-----------------------------------------------------------------------1
Le rythme est l'organisation temporelle de la langue en un certain type d'unités phonologiques qui se répètent à
intervalles réguliers. Abercombie, (1967) et Pike, (1945), ont proposé un point de vue selon lequel la distinction entre
les langues accentuelles et les langues syllabiques est strictement catégorique, les langues ne pouvant pas être plus ou
moins accentuelles ou syllabiques. Selon cette théorie (dite de l'isochronie), les langues syllabiques partagent la
propriété de posséder des intervalles réguliers entre les syllabes , les langues accentuelles possèdent des intervalles
réguliers entre deux unités d'accent, et pour les langues moraiques, deux mora successives sont quasiment égales en
terme de durée. La théorie de l'isochronie a été mise en doute par de nombreuses données empiriques. Dauer, (1983),
suggère que le type de rythme obéit à d'autres contraintes : les langues accentuelles ont une plus grande variété de type
de syllabes et tendent donc à avoir des syllabes d'un poids différent, de plus, dans ces langues, les syllabes non
accentuées ont un système vocalique réduit. Le modèle de Dauer, (1987), postule un continuum rythmique, aux
extrémités duquel on trouve les langues à accents et les langues syllabiques , des langages plus ou moins syllabiques et
accentuelles se trouvant dans l'intervalle qui sépare les deux. Les données d'études plus récentes (voir : Ramus, Nespor
& Mehler, 1999) valident cette approche.
4
Chacune de ces classes ayant comme unité de rythme sous-jacente respectivement, l'accent,
la syllabe et la more.
Jusczyk et ses collègues ont, les premiers, envisagé l'influence du rythme sur la
segmentation de la parole chez le très jeune enfant. Dans une étude portant sur la langue anglaise,
en utilisant la technique HPP, ils ont montré que les enfants de 7.5 mois utilisent la forme
prosodique prédominante en anglais 'Strong-Weak' (une syllabe forte (Strong), contenant une
voyelle pleine, suivie d'une syllabe faible (Weak), contenant une voyelle réduite) pour amorcer le
découpage de la parole (Jusczyk & Aslin, 1995). Cette stratégie de segmentation prosodique est
compatible avec la Stratégie de la Segmentation Métrique (Metrical Segmentation Strategy ou
MSS) de l'adulte, qui consiste à traiter toute syllabe forte comme un début de mot potentiel et
permettrait de segmenter correctement la majorité des mots en anglais, Cutler & Norris, (1998).
Nazzi et ses collègues ont, à leur tour, ouvert ce champ de recherche à des langues à structure
syllabique. Dans une série d'expériences sur les enfants acquérant le français, Nazzi et. al, (2006 a)
ont mis en évidence une stratégie de segmentation, chez les enfants de 12 mois, basée sur la syllabe.
Ainsi ont-ils suggéré que (a) l'émergence des capacités de segmentation diffère d'une langue à
l'autre, en fonction de la classe rythmique du langage en cours d'acquisition, (voir aussi : Curtin &
al., 2005; Echols & al., 1997; Houstin & al., 2004; Johnson & Jusczyk, 2001; Jusczyk & al., 1999b;
Morgan & Saffran, 1995; Nazzi & al., 2005), (b) la procédure de segmentation s'appuie initialement
sur l'unité rythmique de la langue maternelle, (c) la métrique rythmique joue un rôle prédominant
aux stades les plus précoces de la segmentation et cette importance décroît dans les étapes
ultérieures du développement, modifiant ainsi le poids relatif des indices prosodiques et des autres
indices de segmentation. Les propositions (a), (b) et (c) constituent l'hypothèse d'initialisation
rythmique de la segmentation.
2.2 Les probabilités transitionnelles
Les très jeunes enfants montrent également une aptitude à analyser les régularités
statistiques présentes dans la langue : à 8 mois, ceux-ci peuvent extraire des pseudo-mots d'un
langage artificiel, sur la seule base de probabilités transitionnelles (Saffran et. al, 1996). Cette
stratégie repose sur le fait que sur l'ensemble du corpus, les probabilités de transition d'une syllabe à
la suivante sont plus grandes si ces syllabes forment un mot que si elles sont séparées par une
frontière lexicale, Curtin, Mintz & Christiansen, (2005).
5
2.3 Les indices phonotactiques
Jusczyk, Friederichi, Wessels & Svenkerud, (1993), ont établi qu'à 9 mois, les enfants sont
sensibles aux propriétés phonotactiques, ou règles de combinaisons de phonèmes spécifiques à leur
langue. Mattys, Jusczyk, Luce & Morgan, (1999), ont montré qu'à cet âge, les enfants exploitent le
fait que certaines suites de sons sont peu fréquentes (par exemple la suite [pb] en français) pour
effectuer la segmentation : en entendant une séquence 'illégale', les enfants en déduisent la présence
d'une frontière de mots.
2.4 les indices allophoniques
Certains phonèmes se prononcent différemment selon leur position dans le mot, par
exemple, en anglais, les phonèmes /t/ et /r/ n'ont pas la même prononciation dans « night rate » et
dans « nitrate », les nourrissons, vers 2 mois détectent ces différences (Hohne & Jusczyk, 1994),
vers 10,5 mois, les enfants sont capables de se servir de ces marqueurs de frontière pour extraire de
la parole des mots avec lesquels ils ont été familiarisés (Jusczyk, Hohne & Bauman, 1999a).
Si aucun des indices évoqués ne constitue en soi une marque univoque de segmentation, leur
utilisation combinée peut résulter en une stratégie fine, relativement fiable, adoptée par les enfants
pour découvrir quelles unités forment le flux continu du discours, Christiansen, Allen &
Seidenberg, (1998).
3. Sur la piste de la prosodie
En français, la segmentation précoce semble donc basée sur l'unité rythmique syllabique.
Cependant, des résultats contrastés concernant l'émergence des capacités de segmentation ont été
trouvés, lors d'études conduites avec des enfants francophones, à Paris et à Montréal. Nous les
rapportons dans ce qui suit.
Dans une étude menée en 2003, Polka et Sundara, ont testé 16 enfants québécois
francophones, en utilisant le protocole HPP et ont trouvé que ces enfants segmentent les mots
bisyllabiques vers 7.5 mois, qu'il s'agisse de stimuli français québécois ou français parisiens (que
nous désignerons par Q et PPolka respectivement). Par ailleurs Nazzi et. al, (2006), ont testé un
nombre identique d'enfants acquérant le français parisien, en utilisant le même protocole et des
6
stimuli français parisiens (que nous désignerons par PNazzi) et ont trouvé que vers 12 mois, les
enfants segmentent individuellement la syllabe initiale et la syllabe finale des mots bisyllabiques, et
que c'est seulement vers l'âge de 16 mois qu'ils extraient ces mots comme une seule unité. Il faut
bien entendu tenir compte du fait que l'étude de Polka & Sundara, (2003), laisse un doute quant à la
nature de l'unité segmentée, et ne permet pas, à l'inverse des études conduites par Nazzi et. al,
(2006), avec les enfants français, de déterminer si c'est le mot entier ou l'une de ses syllabes que les
enfants québécois ont extrait. Cependant, une différence entre les enfants québécois et français
semble exister, concernant l'âge auquel l'effet de segmentation apparaît.
Ces résultats font apparaître la possibilité d'une spécificité de la trajectoire de segmentation
pour chacun des deux dialectes, et font place à deux hypothèses :
1. Les différences observées entre les résultats de ces études sont dues aux conditions
expérimentales. En effet, les compétences de segmentation des deux groupes d'enfants devraient
êtres comparées en utilisant les même stimuli, or, d'une part, les stimuli PPolka utilisés avec les
enfants québécois et les stimuli PNazzi utilisés avec les enfants parisiens bien qu'étant tous deux en
français, paraissent, à l'écoute, différents : les premiers sont dans un registre 'adressé au bébé'
(dorénavant IDS : Infant Directed Speech) plus prononcés que les seconds. D'autre part, seul le
groupe d'enfants québécois a été testé avec les stimuli québécois.
2. Les différences observées entre les résultats de ces études sont dues au fait que la trajectoire
développementale de la segmentation des enfants québécois est différente de celle des enfants
parisiens. Cette divergence tient probablement sa source dans l'input que reçoivent les enfants et
plus spécifiquement dans les différences phonologiques entre les deux dialectes.
Les résultats inattendus de ces études comparatives ont incité les chercheurs à poursuivre dans
cette voie. Des expériences consistant à croiser les stimuli des études québécoises et parisiennes,
sont en cours. Les résultats partiels obtenus montrent d'une part, que les enfants parisiens testés par
Nazzi et ses collègues, ne parviennent à segmenter les stimuli PPolka, ni à 8 mois, ni à 12 mois,
d'autre part, que les enfants québécois testés par Polka et son équipe, échouent à segmenter les
stimuli PNazzi à 12 mois mais réussissent à segmenter ces stimuli à 16 mois (ces deux séries
d'expériences dont le but est de reproduire les études de Polka et Sundara, (2003) et de Nazzi et al.,
(2006) en interchangeant les stimuli utilisés, ont observé le même nombre d'enfants et le même
paradigme que les études initiales). Le tableau 1 synthétise les résultats précédemment décrits.
7
Résultats de segmentation des mots bisyllabiques obtenus avec les enfants parisiens et
québécois âgés de 8 à 12 mois
Stimuli Q
Stimuli Ppolka
Enfants Québécois 8 mois : oui. Syllabe ? Mot entier ? 8 mois : oui. Syllabe ? Mot entier ?
Enfants Parisiens
?
Stimuli Pnazzi
8 mois : non, 12 mois : non, 16 mois ?
8 mois : non, 12 mois : non, 16 mois ? 8 mois : non, 12 mois :oui (syllabes), 16 mois : oui (mot)
Tableau 1. Résultats de segmentation précoce avec des enfants québécois et parisiens.
D'après les études de Polka & Sundara, (2003) et de Nazzi et. al, (2006)
Ces données nous permettent de constater que, testés sur les mêmes stimuli de l'étude de
Polka et Sundara, (2003)), avec la même méthode et dans des conditions très similaires, les enfants
parisiens de 8 mois échouent à segmenter les mots bisyllabiques, alors que les enfants québécois du
même âge y réussissent. Il est donc vraisemblable que la différence observée entre les résultats des
deux groupes d'enfants ne soit pas de cause purement expérimentale et qu'il existe une différence
entre les compétences de segmentation des nourrissons québécois et des nourrissons parisiens.
Avant d'examiner les raisons possibles de ce phénomène, il resterait à éclaircir une question, laissée
sans réponse par l'étude de Polka & Sundara, (2003) : si les enfants québécois ont pu trouver dans
les stimuli Q et PPolka des éléments qui leur ont permis d'effectuer la segmentation, les enfants
parisiens, pour leur part, n'ont pas été en mesure de tirer parti des indices présents dans les stimuli
PPolka. Les enfants parisiens pourraient-ils segmenter les stimuli Q ?
Notre hypothèse repose sur :

Une base théorique : l'hypothèse de la segmentation rythmique selon laquelle l'unité rythmique
de la langue est utilisée dès les débuts de la procédure de segmentation, et qu'elle semble aux
premiers stades, prévaloir à d'autres indices de segmentation. Ceci nous suggère que les enfants
québécois et parisiens devraient utiliser, dans les premiers mois, une procédure de segmentation
similaire, basée essentiellement sur l'unité rythmique du français, la syllabe, et dans laquelle les
autres dimensions phonologiques ont moins d'influence.

Une base empirique : cette série d'études (cf. tableau 1) montre dans quel type de stimuli les
enfants québécois ont tendance à puiser les informations utiles pour détecter les frontières de
mots. Ils segmentent les stimuli Q et PPolka où le caractère IDS est prononcé, mais pas les
stimuli PNazzi, qui n'ont pas cette propriété.
Nous formons l'hypothèse que si les informations utilisées par les enfants québécois pour segmenter
les stimuli Q sont exploitables sans qu'il soit nécessaire d'en avoir une certaine expérience, alors les
8
enfants parisiens devraient parvenir à segmenter les stimuli Q qui semblent, à l'oreille, les plus IDS
des trois types de stimuli (voir aussi Expérience 2). Si les enfants parisiens échouent, cela pourrait
signifier que la capacité de segmentation des mots bisyllabiques dont les enfants québécois de 8
mois semblent faire preuve, se développe grâce à une certaine exposition au dialecte québécois, qui
les rend sensibles à certains indices présents dans la langue qu'ils entendent. L'expérience qui suit a
été menée dans le but de tester cette hypothèse.
II. Expériences
1. Expérience 1
Cette expérience évalue la capacité des enfants parisiens de 8 mois à extraire les mots
bisyllabiques d'un contexte phrastique en français québécois, après avoir été familiarisés avec ces
mots prononcés en isolation. La procédure utilisée est la version du protocole Head Turn Preference
Procedure (HPP) initialement développée par Fernald (1985) et modifiée par Jusczyk et Aslin
(1995). Dans cette méthode, on peut, soit familiariser les enfants avec des mots prononcés en
isolation et les tester ensuite avec des phrases, contenant ou non, les mots avec lesquels ils ont été
familiarisés; soit exposer les enfants à des phrases contenant des mots cibles et les tester avec ces
mots cibles et d'autres mots contrôles prononcés en isolation. Notons qu'en anglais, les études ayant
comparé directement les deux formes de cette procédure ont toujours abouti à des résultats
convergents. Nous utilisons, dans la présente étude, l'ordre 'mots puis phrases', utilisé dans les
études de Polka et Sundara, (2003) et celles de Nazzi et al., (2006), et la plus courante dans la
littérature. Ainsi, les enfants sont familiarisés avec des répétitions de deux mots bisyllabiques, non
familiers aux enfants de cet âge, jusqu'à accumulation de 30 secondes d'écoute de chacun, puis
testés avec quatre groupes de six phrases (que nous appellerons passages), deux passages contenant
un mot cible dans chacune de leurs phrases, les deux autres contenant un mot contrôle dans chacune
de leurs phrases.
1.1 Méthode
1. Sujets
16 enfants âgés de 8 à 9 mois ( âge minimum : 8 mois et 8 jours, âge maximum : 9 mois et 1
jour , âge moyen : 8 mois et 22 jours ) ont participé à cette expérience : 11 filles, 5 garçons, issus de
9
foyers où le français est parlé majoritairement, 5 enfants sont également exposés à une autre langue,
mais entendent dans leur environnement quotidien le français dans une proportion d'au moins 80%.
4 enfants supplémentaires ont été testés, mais leurs données n'ont pas été retenues car ils
représentaient les premiers bébés testés par l'expérimentateur. Les données de 3 autres enfants ont
été écartées, leur session de test ayant été interrompue pour cause de pleurs.
2. Stimuli
Les stimuli sont ceux utilisés par Polka et Sundara, (2003) dans l'étude avec les enfants
québécois de 8 mois. Ils ont été enregistrés par une femme bilingue français canadien, anglais
canadien, ayant été exposée aux deux langues depuis son plus jeune âge et ayant eu une pratique
régulière de ces langues dans sa vie quotidienne. Elle ne possédait aucun accent français en
prononçant l'anglais, ni l'inverse. La locutrice a été priée de parler comme on s'adresse à un très
jeune enfant.
Les enregistrements consistent en plusieurs répétitions de quatre mots bisyllabiques
prononcés en isolation, et quatre passages de six phrases contenant toutes, une fois, le même mot
cible (cf. appendice A). Les mots cibles sont positionnés deux fois au début, deux fois au milieu et
deux fois à la fin des phrases, ce sont les mots : « béret », « surprise », « devis », « guitare ».
a. Stimuli de la phase de familiarisation
Les mots utilisés en phase de familiarisation consistent en une liste de 13 à 16 occurrences de
chaque mot cible prononcé en isolation. La durée moyenne d'une liste d'occurrence d'un mot est de
21,65 s (devis : 20,97 s ; guitare 23,22 s ; béret : 19,53 s ; surprise : 22,9 s). La durée moyenne des
mots en isolation est de 774 ms (devis : 733 ms ; guitare : 687 ms ; béret : 689 ms ; surprise : 988
ms).
b. Stimuli de la phase de test
Les passages utilisés en phase de test, formés de 6 phrases chacun, ont une durée moyenne
de 21. 29 s. (devis : 20,53 s ; guitare : 20,31 ; béret : 21,29 s ; surprise : 23,04). Les mots cibles dans
ces passages ont une durée moyenne de 578 ms (devis : 514 ms ; guitare : 539 ms ; béret : 516 ms ;
surprise : 743 ms).
3. Procédure
La procédure utilisée est la version du protocole HPP implémentée par Jusczk et Aslin
(1995) pour tester la segmentation précoce. Elle est identique à celle utilisée dans les expériences de
10
Nazzi et. al, (2006) et de Polka & Sundara, (2003). Cette méthode repose sur le fait que les
nourrissons tendent à s'orienter vers une source lumineuse (située au même point qu'une source
sonore) et qu'ils maintiennent une réponse (l 'orientation du regard par exemple) lorsqu'une
stimulation sonore intéressante est présentée. L'attention au stimuli auditif est évaluée par la durée
d'orientation du regard vers la lumière. La comparaison des temps d'orientation vers deux stimuli
distincts permet de déterminer s'il y a une différence significative entre les deux, et de conclure, le
cas échéant, à une préférence d'écoute pour le stimuli de la source lumineuse regardée le plus
longtemps.
L'expérience est menée dans une cabine de test formée de 3 panneaux (un panneau de face
et deux panneaux latéraux). Une seule petite ouverture dans le panneau de face permet d'observer
l'orientation du regard des enfants. Du côté droit et du côté gauche de la cabine se trouvent, à
hauteur des yeux, deux petites lumières rouges ainsi qu'un haut parleur (SONY xs-F1722); sur le
panneau central se trouve une petite lumière verte surmontée d'une caméra qui enregistre les
sessions. Derrière le panneau, hors de la vue des enfants, se trouve un terminal PC et une tablette de
réponse. La tablette de réponse, reliée à l'ordinateur contient trois boutons qu'un observateur
manipule, communiquant à l'ordinateur la direction et le temps de regard des enfants vers l'une ou
l'autre lumière. L'ordinateur enregistre ces informations et contrôle l'émission et l'arrêt des sons.
L'enfant se tient sur les genoux d'un accompagnateur qui est assis sur une chaise au centre de la
cabine, face à la lumière centrale. L'observateur et l'accompagnateur portent des casques audio
masquant les stimuli présentés.
Figure 1. Illustration d'une cabine de test HPP.
Chaque essai commence par le clignotement de la lumière verte centrale qui dure jusqu'à ce
que l'enfant ait orienté son regard dans cette direction. La lumière verte s'éteint alors et l'une des
lumières rouges latérales se met à clignoter. Dès que l'enfant tourne la tête d'au moins 30° dans la
direction de la lumière rouge, les stimuli de l'essai sont diffusés (la lumière rouge clignote pendant
11
toute la durée de la diffusion). Chaque stimuli est soit diffusé dans sa totalité soit arrêté si l'enfant
détourne la tête de la lumière rouge plus de deux secondes consécutives. (Si l'enfant quitte du regard
la direction du haut parleur pour une durée t inférieure à deux secondes, puis y reporte son regard à
nouveau, l'essai continue mais le temps t n'est pas pris en compte). Comme il est d'usage dans la
procédure HPP, la mesure enregistrée ici est celle du temps d'orientation de l'enfant vers la lumière
surmontant le haut parleur qui émet les stimuli, et non la mesure du temps d'écoute proprement dit.
Les stimuli sont des enregistrements numériques diffusés depuis l'ordinateur, par un haut parleur via
un amplificateur audio (Marantz PM 4000).
Chaque session d'expérience débute par une phase de familiarisation pendant laquelle les
enfants entendent une série alternée de répétitions de deux mots cibles, jusqu'à accumulation de 30
secondes d'écoute de chacun. La familiarisation se fait avec un ordre (pseudo) aléatoire soumis à
une contrainte : la série d'un mot ne peut pas être diffusée plus deux fois consécutives. Dans la
présente étude, le critère choisi est le même que dans les expériences de Polka & Sundara, (2003),
puisqu'il s'agit de reproduire ces mêmes expériences avec des enfants parisiens. Lorsque l'enfant
atteint le critère de familiarisation pour l'un des mots, la liste contenant l'autre mot continue à être
diffusée jusqu'à obtenir la durée de 30 secondes d'orientation également pour ce dernier. Le côté du
haut parleur diffusant les stimuli varie aléatoirement d'un essai à l'autre. La phase de test commence
immédiatement après que le critère de familiarisation est atteint. Trois blocs, contenant chacun
quatre passages sont diffusés. Un passage contient dans chacune de ses phrases, soit l'un des deux
mots cibles, soit un mot parmi deux mots contrôles (le même dans toutes les phrases d'un passage).
L'ordre des passages dans chaque bloc varie pseudo-aléatoirement .
Pour contrôler une préférence éventuelle, intrinsèque pour certains passages, deux
conditions sont créées, dans lesquelles le rôle des mots cibles et contrôles est inversé. Deux groupes
d'enfants sont formés, et sont soumis chacun à l'une des deux conditions. Ainsi, la moitié des
enfants a été familiarisée avec les mots « devis » et « guitare » et testée à la fois avec les passages
contenant « devis » et « guitare » (les mots cibles) et ceux contenant « béret » et « surprise » (les
mots contrôles) c'est la condition d/g ; l'autre moitié a été soumise au schéma inverse (« béret » et
« surprise » en familiarisation, même stimuli en test que dans la condition d/g ), c'est la condition
b/s.
1.2. Résultats
a. Phase de familiarisation
La moyenne des temps d'orientation de tous les sujets a été calculée dans les deux conditions
12
de familiarisation. Un test t a révélé l'absence de différence significative entre les deux conditions
concernant le temps d'orientation des mots en phase de familiarisation, t(14) < 1 : les enfants ont
reçu une durée d'exposition semblable, qu'ils aient entendu en familiarisation les mots « béret » et
« surprise » (M = 78,3 s ; écart-type = 7,1 s) ou « devis » et « guitare » (M = 75,9 s ; écart-type =
9,5 s).
b. Phase de test
La moyenne des temps d'orientation des passages contenant les mots bisyllabiques écoutés
en familiarisation (que nous appellerons mots familiarisés) et des passages contenant les mots
nouveaux ont été calculées pour chaque enfant. Les résultats sont présentés sur la figure 2.
Figure 2. Moyenne des temps d'orientation.
Une ANOVA à deux facteurs, le facteur inter-groupe condition (« béret » et « surprise » vs.
« devis » et « guitare ») et le facteur intra-sujet familiarité (familiarisés vs. nouveaux) a été
effectuée. L'analyse n'a pas révélé d'effet de la familiarité, F(1,14) = 0,94 ; p = 0,35, indiquant que
les enfants ont des temps d'orientation comparables vers les passages contenant les mots
familiarisés (M = 7,9 s ; écart-type = 2,7 s) et ceux contenant les mots nouveaux (M = 8,4 s ; écarttype = 2,9 s). Seuls six enfants sur 16 ont écouté plus longtemps les mots familiarisés. De même,
l'analyse n'a pas mis en évidence d'effet principal de la condition F(1,14) = 0,97 ; p = 0,34. En
revanche, elle a révélé une interaction marginale entre la condition et la familiarité F(1, 14) = 4,27 ;
13
p = 0,057, indiquant que l'effet de la familiarité tend à être différent entre les deux conditions. Pour
préciser cette interaction marginale familiarité/condition, des comparaisons planifiées ont été
effectuées ; les résultats montrent que dans la condition d/g l'effet de familiarité est juste
significatif, F(1, 14) = 4,65 ; p = 0,049 et indique que les enfants s'orientent significativement plus
longtemps vers les passages contenant les mots nouveaux (moyenne = 8,4 s , écart-type = 2,4 s) que
vers les passages contenant les mots familiarisés (moyenne = 6,7 s, écart-type = 1,9 s). A l'inverse,
dans la condition b/s, l'effet de la familiarité n'atteint pas le seuil de significativité, indiquant que
dans cette condition, les enfants ont des temps d'orientation semblables vers les passages contenant
les mots familiarisés (moyenne = 9,1 s écart-type = 2,8 s) et vers ceux contenant les mots nouveaux
(moyenne = 8,5 s écart-type = 3,5 s).
1.3. Discussion
Dans cette expérience, des enfants parisiens de 8 mois ont été testés avec les stimuli (Q) de
Polka & Sundara, (2003). Familiarisés avec des mots bisyllabiques, ils ont ensuite été testés avec
des passages contenant ou non ces mots. Les résultats ne montrent aucun effet global de
segmentation des mots familiarisés.
Faisons tout d'abord un aparté concernant la signification de l'asymétrie observée entre les
deux conditions. Dans la condition d/g, les temps d'orientation vers les mots nouveaux (« béret » et
« surprise ») sont, contrairement à l 'effet prédit, supérieurs aux temps d'orientation vers les mots
familiarisés (« devis » et « guitare »). Parmi la combinaison de facteurs pouvant être à l'origine de
cette différence, nous avons observé que :
 Les passages « béret » et « surprise » sont, en moyenne, plus longs que les passages « devis » et
« guitare » (22,17 s vs. 20,40 s), ce qui correspond à un pourcentage d'allongement de 8,5% :
une raison possible de la différence observée pourrait être la durée des passages contenant les
mots nouveaux, supérieure dans la condition d/g, à celle des passages contenant les mots
familiarisés.

Les passages « béret » et « surprise » ont en moyenne une intensité plus élevée que celle des
passages « devis » et « guitare » (70,62 dB dans la condition d/g vs. 68,63 dB dans la condition
b/s). Cette différence d'intensité, pourrait, elle aussi, avoir induit une préférence d'orientation de
la part des enfants pour les passages nouveaux dans la condition d/g.
Ces deux facteurs vont dans le même sens et peuvent avoir contribué à une préférence
d'écoute pour les passages contenant les mots « béret » et « surprise ». Cependant, d'une part, les
14
enfants s'orientent rarement vers les passages jusqu'à la fin de leur diffusion, il est donc peu
probable que la durée plus longue des passages « béret » et « surprise » explique à elle seule ces
résultats. D'autre part si la mesure de l'intensité moyenne des passages de la condition b/s diffère
significativement de celle des passages de la condition d/g ( t(22) = 2,3 ; p = 0,03), il n'est pas avéré
que cette différence a été perçue par les enfants et, le cas échéant, qu'elle ait eu un effet sur le temps
d'orientation. En conclusion sur cette question, les raisons de cette asymétrie ne sont pas clairement
déterminées et de nombreux facteurs peuvent être impliqués.
La question suivante peut toutefois être posée : cette différence entre les temps d'orientation
vers les deux groupes de passages est-elle un artefact de notre propre expérience ou peut-elle se
retrouver dans des expériences avec d'autres populations ? Une seconde analyse des données de
Polka et Sundara (communication personnelle) montre que si les enfants québécois de 8 mois
s'orientent plus longtemps vers les passages contenant les mots familiarisés (rappelons qu'ils
segmentent les mots bisyllabiques dans cette étude), ils ont un effet légèrement supérieur dans la
condition où les mots familiarisés sont « béret » et « surprise » (10.6 s pour les mots cibles vs. 8,4 s
pour les mots contrôles) que dans celle où les mots familiarisés sont « devis » et « guitare » (11.9 s
pour les mots cibles vs. 10,6 s pour les mots contrôles). Ces données suggèrent une préférence pour
les passages « béret » et « surprise », indépendamment des conditions de familiarisation. De plus,
les stimuli dont il est question ont été utilisés dans la même étude de Polka & Sundara (2003), avec
cette fois des enfants canadiens anglophones de 8 mois. Les résultats obtenus montrent un pattern
très similaire aux résultats de notre étude avec les enfants parisiens : d'une part les enfants
anglophones de 8 mois échouent à segmenter les mots bisyllabiques, d'autre part ils manifestent une
préférence pour les passages « béret » et « surprise » dans les deux conditions de familiarisation
(10,39 s vs. 9,97 s dans la condition b/s ; 12,87 s vs. 10,63 s dans la condition d/g) montrant une
fois de plus une préférence pour ces passages.
Le tableau 2 récapitule les résultats des trois populations. Ainsi, la dissymétrie entre les
temps d'orientation vers les passages « béret » et « surprise » et les passages « devis » et « guitare »
ne semble pas se limiter à la population testée dans notre étude ni être spécifique à notre expérience,
mais paraît plutôt exprimer une préférence intrinsèque pour les passages « béret » et « surprise ».
Par ailleurs, ces faits suggèrent que si les enfants testés dans cette expérience échouent à segmenter
les stimuli qu'on leur présente, ils semblent, en revanche, effectivement les traiter : tout comme les
enfants canadiens, francophones et anglophones, ils ont montré un temps d'orientation plus long
vers les passages « béret » et « surprise ».
15
Temps d'orientation des enfants
Parisiens
Québécois anglophones
Québécois francophones
Condition d/g
Passages d/g
Passages b/s
6,7
8,4
10,63
12,87
11,9
10,6
Condition b/s
Passages b/s
Passages d/g
9,1
8,4
10,39
9,97
10,6
8,4
Tableau 2. Temps d'orientation par condition.
Ces considérations ne peuvent que souligner l'importance de contrebalancer le rôle des mots
cibles et contrôles en créant deux conditions de familiarisation.
Une manière de confirmer que les passages contenant « béret » et « surprise » sont plus
attractifs que ceux contenant « devis » et « guitare » serait de tester les enfants québécois,
anglophones et parisiens, avec les quatre passages, en omettant la phase de familiarisation : les
résultats devraient alors faire apparaître chez tous les enfants des temps d'orientation plus longs vers
les passages « béret » et « surprise ».
La présente expérience reprenait, avec des enfants parisiens, une étude de Polka et Sundara
(2003), au cours de laquelle des enfants québécois de 8 mois, testés avec des stimuli québécois,
avaient révélé leur aptitude à extraire les mots de la parole continue. Les enfants québécois dans
cette même étude, avaient montré des capacités semblables avec des stimuli parisiens. Les enfants
parisiens de 8 mois, testés par Nazzi et. al, (2006), n'avaient pas montré d'effet de segmentation
avec des stimuli parisiens . Nous avions émis l'hypothèse que les stimuli québécois recelaient
certaines informations que les enfants québécois de 8 mois avaient exploitées pour effectuer la
segmentation, et que, selon la procédure d'initialisation rythmique de la segmentation, ces
informations étaient liées au rythme spécifique du français auquel les enfants parisiens aussi bien
que les québécois sont exposés. Guidés par le comportement des enfants québécois ayant segmenté,
dans les expériences citées, les stimuli IDS mais pas ceux n'ayant pas cette propriété, nous avons
supposé qu'en leur présentant les stimuli québécois particulièrement IDS, les enfants parisiens de 8
mois parviendraient, comme leurs homologues québécois, à effectuer la segmentation. Les enfants
parisiens de 8 mois n'ont pas montré d'effet de segmentation des stimuli québécois. Ce résultat
souligne la complexité des facteurs intervenant dans l'acquisition de cette compétence. Il suggère
qu'une expérience du dialecte québécois a été déterminante pour la segmentation des stimuli utilisés
dans les études citées. Venant compléter le schéma comparatif de segmentation chez les nourrissons
acquérant les dialectes québécois et parisiens, initié par Polka & Sundara, (2003), et poursuivi par
Nazzi et. al, (2006), ce résultat suggère une différence dans l'émergence de la capacité de
segmentation chez les enfants parisiens et québécois. Avant d'envisager les raisons de cette
16
divergence, interrogeons-nous sur l'interprétation des résultats de cette expérience, au regard de la
procédure de segmentation rythmique.
Des différences chronologiques pour une même procédure rythmique de segmentation ?
Les enfants parisiens de 8 mois ne semblent pas montrer d'effet de segmentation des stimuli
Q, lorsque le test de la segmentation porte sur le mot entier. De futures expériences pourraient tester
au même âge, une segmentation de ces stimuli, syllabe par syllabe, puisque, comme l'a montré
l'étude de Nazzi et. al, (2006), ce stade est antérieur à la segmentation en mots. Un résultat positif
suggérerait que des indices particuliers présents dans les stimuli québécois ont joué un rôle pour la
segmentation chez les enfants parisiens de 8 mois, aucun effet de segmentation chez les enfants
parisiens avec des stimuli parisiens n'ayant pu être trouvé avant l'âge de 12 mois. Si
les
enfants
parisiens ne montrent pas d'effet de segmentation syllabe par syllabe des stimuli Q à 8 mois, il serait
intéressant de confirmer qu'ils le font à 12 mois, et qu'ils segmentent comme une seule unité les
mots familiers dans ces stimuli à 16 mois : c'est en effet ainsi qu'ils traitent les stimuli parisiens
appartenant à la même classe rythmique. Ceci nous permettrait de savoir si les enfants parisiens ont
les mêmes capacités de segmentation avec le dialecte parisien qu'avec le dialecte québécois, comme
cela semble être le cas pour les enfants québécois, et de déterminer si la différence supposée entre
les deux populations se borne à un décalage chronologique ou si elle s'étend à la capacité de
segmenter un autre dialecte que le sien, lorsqu'on fait preuve de la capacité de segmentation dans
son propre dialecte.
D'autre part, étant donné le scénario développemental de la segmentation mis en évidence
chez les enfants parisiens par Nazzi et ses collègues, on peut supposer que les enfants québécois
effectuent, à un stade antérieur à la segmentation en mot, une segmentation en syllabes. Une façon
de le confirmer serait de reproduire l'expérience de Polka & Sundara, (2003) avec les enfants
québécois, âgés de 6.5 et 7.5 mois, en les familiarisant avec des syllabes cibles dont l'une serait par
exemple « vis » et de les tester ensuite avec des mots qui contiendraient cette syllabe par exemple
pour la syllabe « vis », le mot « devis ». Si les études mettent en évidence une segmentation en
syllabes, et que par ailleurs, on considère que la segmentation en syllabes disparaît, par la suite, au
profit de la segmentation en mot (ce que suggère l'étude de Nazzi et. al, (2006) avec les enfants
parisiens, et qui sera à confirmer expérimentalement avec les enfants québécois), on en conclura
que chez les enfants québécois, la segmentation des mots bisyllabiques en syllabes précède la
segmentation en mots : le patron développemental de la segmentation chez les enfants québécois
serait, de même que celui des enfants parisiens, basé sur la procédure de segmentation rythmique,
mais présenterait un décalage chronologique.
17
Un doute sur la procédure d'initialisation rythmique de la segmentation ?
En revanche, si les enfants québécois ne montrent pas d'effet de segmentation de la
première, ni de la dernière syllabe des mots bisyllabiques avant l'âge de 8 mois, cela pourrait
remettre en question une procédure de segmentation précoce basée sur la syllabique en français, et
par conséquent, jeter un doute sur la procédure d'initialisation rythmique de la segmentation.
Une autre initialisation ?
A ce titre, certains chercheurs soutiennent la position suivante : l'utilisation des propriétés
distributionnelles pour segmenter la parole est antérieure à l'utilisation des indices prosodiques.
Cette hypothèse est corroborée par des études sur l'acquisition des langages artificiels : une
recherche initiale de Johnson et Jusczyk, (2001), a montré qu'à 9 mois, les enfants acquérant
l'anglais s'appuient d'avantage sur des informations d'accent trochaïque que sur des régularités
distributionnelles pour segmenter la parole. Thiessen & Saffran, (2003), en répliquant cette étude,
ont trouvé un patron inverse à 7 mois, ce qui les a conduits à conclure que l'utilisation des
informations distributionnelles précède celle des informations prosodiques. Toutefois, ce dernier
résultat, basé sur des stimuli d'un langage artificiel simple, constitué de 4 mots trisyllabiques, ne
semble pas être immédiatement généralisable à un langage naturel plus variable et plus complexe.
Plus récemment, Mattys et. al, (2005) ont proposé un modèle hiérarchique d'utilisation des indices
de segmentation de la parole pour l'anglais, selon lequel les adultes ont recours à la procédure de
segmentation basée sur l'unité rythmique, lorsque ni les connaissances lexicales, ni les autres
indices de segmentation ne permettent de déduire les frontières de mots. Ce qui semble bien
confirmer l'utilisation d'une procédure rythmique dans un sens heuristique, en l'absence
d'informations linguistiques d'un autre type. En conclusion, il est possible que pour la variante
dialectale québécoise, la segmentation d'un mot se faisse d'emblée sur sa forme globale sans passer
par le stade syllabique. Des études devront dévoiler si les enfants québécois sont sensibles à la
structure syllabique du français et quels indices ils utilisent pour effectuer la segmentation en mots à
8 mois.
Il est temps de se poser une question cruciale : quelles peuvent être les raisons de l'inégalité
dans la capacité de segmentation entre les enfants québécois et les enfants parisiens ? Si les données
des expériences avec les enfants québécois suggèrent qu'il doit exister dans les stimuli Q et PPolka
des éléments facilitant la segmentation des mots bisyllabiques à des enfants de 8 mois, elles nous
laissent dans l'expectative quant à la nature de ces informations. A ce sujet, on peut considérer le
fait que les enfants québécois ont réussi à segmenter deux types de stimuli (Q, PPolka) mais pas le
18
troisième (PNazzi), et s'interroger sur les caractéristiques communes aux stimuli segmentés par les
enfants québécois et qui les différentient des stimuli que ces enfants n'ont pas réussi à segmenter. Si
on se place dans une perspective bottom-up, ce sont les propriétés physiques du signal de parole qui
constituent, dans ces études, les niveaux potentiellement exploitables par les enfants.
Les stimuli Q et PPolka, utilisés dans la même étude de Polka & sundara, (2003), et
segmentés par les enfants québécois, ont tous deux été enregistrés à Montréal, le premier par une
femme québécoise ayant appris l'anglais et le français dès son plus jeune âge et complètement
bilingue ; le second par une femme ayant le français parisien pour langue maternelle, vivant au
Québec et comédienne de profession. Dans les deux cas, les locutrices ont été priées, lors des
enregistrements, de parler comme on s'adresse à un très jeune enfant. Par conséquent, une
caractéristique saillante des stimuli segmentés par les québécois est leur caractère IDS. En
comparaison, le caractère IDS des stimuli PNazzi paraît beaucoup moins marqué.
Il semble donc que lorsqu'il s'agit de stimuli du registre IDS, (les stimuli Q et PPolka), les
enfants québécois réussissent la tâche de segmentation, mais exposés à des stimuli n'appartenant pas
à ce registre (les stimuli PNazzi), ils rencontrent des difficultés à segmenter, tout comme les enfants
parisiens du même âge. Quelles explications peut-on donner à ces observations ?
Le signal acoustique de la parole est modifié par différents paramètres qui sont liés à la
personne qui le prononce. L'état émotionnel, la pathologie ou l'appartenance culturelle, n'en sont
que quelques exemples. Les variations qui en résultent constituent des marqueurs acoustiques
d'informations liées au contexte non linguistique dans lequel la parole est prononcée (Giles, Scherer
& Taylor, (1979).
Snow, (1977, 1986) montre que le registre IDS diffère par plusieurs caractéristiques du
langage utilisé entre des locuteurs adultes, et que les femmes, mères ou non, s’adressent
différemment aux enfants de 2 ans et à ceux de 10 ans (Snow, 1972). Le langage IDS se caractérise
par un débit de la parole plus lent, la présence de pauses dans le discours, une structure des phrases
simplifiée et une intonation répétitive et exagérée (Fernald, 1987; Gleitman & Newport, 1984).
De nombreuses études en anglais, ont montré que les nourrissons et même les nouveaux nés,
manifestent une préférence d'écoute pour la parole IDS par rapport à la parole ADS, (Fernald, 1985
Cooper & Aslin, 1990), et que cette préférence dure jusqu'à l'âge de 19 mois environ, (Fernald,
Cooper & Aslin, (1990)).
Le registre IDS peut avoir plusieurs fonctions liées au développement du langage : marquer
les épisodes de dialogue de la mère avec son enfant (Snow, 1977), souligner les nouvelles
informations linguistiques (Gleitman & Wanner, 1984), servir au maintien de l'attention et à la
communication d'affects chez les plus jeunes (Papousek & Papousek, 1981), ou encore aider les
19
enfants à segmenter le flux continu de la parole (Fernald & Simon, 1984). En particulier, Thiessen
et Saffran, (2005) ont montré que le langage IDS facilite chez les enfants de 7.5 mois l'utilisation
des indices distributionnels pour retrouver les frontières de mots, soit en fournissant des indications
linguistiques en tant que telles, soit en aidant à découvrir et à utiliser d'autre informations présentes
dans le signal. Ainsi, le registre IDS pourrait faciliter la tâche de segmentation aux jeunes enfants.
Si l'on se base sur l'hypothèse d'initialisation rythmique de la segmentation, prédisant le rôle
majeur des indices prosodiques aux stades précoces, et si l'on considère que le caractère IDS, forme
de parole présumée accentuer les phénomènes prosodiques, pourrait faciliter la tâche de
segmentation, on peut former une première prédiction : les informations prosodiques ont été
cruciales pour la segmentation des stimuli Q et PPolka et certaines propriétés du signal physique
devraient en témoigner : l'observation des dimensions acoustiques liées à la prosodie devrait révéler
d'une part, des similitudes entre les stimuli Q et PPolka segmentés par les enfants québécois, d'autre
part des divergences entre ces derniers et les stimuli PNazzi, que les québécois de 8 mois ont
échoué à segmenter.
Par ailleurs, le schéma comparatif québécois/parisien de la capacité précoce de segmentation
montre que la caractère IDS n'est pas le seul facteur intervenant dans cette tâche, chez les groupes
d'enfants testés : les enfants parisiens, contrairement aux enfants québécois, n'ont pas montré d'effet
de segmentation des stimuli IDS. Les raisons de cette inégalité sont à rechercher dans la différence
de l'expérience linguistique entre les enfants parisiens et les enfants québécois. Intéressons-nous
donc à la dimension phonologique dialectale des stimuli utilisés dans les différentes expériences
que nous avons décrites.
Les variétés québécoises et hexagonales du français sont le résultat de l'évolution de cette
langue en deux dialectes ayant subi des contraintes géographiques et sociales différentes. Si le
français canadien reste une variante très proche du français européen, la majorité de ses traits
phonologiques se retrouvent également dans la variété continentale, Walker, (1984) ; selon certains
auteurs, les deux systèmes phonologiques comportent des différences importantes, notamment en
terme de durée et de timbre pour certaines voyelles. Charboneau, (1971), écrit : « les voyelles
nasales du français moderne sont des voyelles pures, en ce sens qu'elles ne changent pas de timbre
au cours de leur émission, au contraire, les voyelles québécoises changent souvent de timbre
pendant leur émission (ce qui mène à la diphtongaison2 quand la durée le permet). De plus, en
canadien, les modifications mélodiques de la voix sont différentes de celles du français parisien « il
doit y avoir, dans l'intonation du français au Québec, des courbes caractéristiques qui le distinguent
du français de Paris. Ces courbes résonnent dans nos oreilles pendant des semaines après un séjour
au Québec », Delattre, (1971).
20
Notre seconde prédiction s'appuie sur la première : il devrait se dessiner, au niveau
acoustique, deux catégories prosodiques de stimuli, l'une comprenant les stimuli IDS, Q et PPolka,
l'autre les stimuli PNazzi où l’IDS est moins marqué. Nous supposons qu'en outre, il devrait
subsister des différences prosodiques rythmiques entre les stimuli Q et PPolka de la même catégorie
IDS, signalant des propriétés spécifiques à chacun des deux dialectes. L'expérience 2 a été menée
pour tester ces prédictions.
2. Expérience 2:
Cette expérience a pour premier but de mettre à jour certaines différences, sur le plan
acoustique, entre deux types de stimuli : d'une part les stimuli de type IDS, Q et PPolka (utilisés
dans l'étude de Polka et Sundara, 2003), d'autre part les stimuli plus proches du langage ADS,
PNazzi (utilisés dans les études de Polka et Sundara, 2003 et de Nazzi et. al, 2006). Le second but
de cette expérience est de spécifier les éventuelles différences phonologiques dialectales entre deux
types de stimuli (Q et PPolka) semblables par leurs propriétés IDS mais appartenant à deux
dialectes différents du français. Nous confrontons ensuite les résultats des patrons prosodiques avec
les données de segmentation des stimuli, obtenus avec les enfants québécois et parisiens de 8 mois
dans les expériences précédemment citées.
Un certain nombre d'analyses acoustiques ont été choisies. Elles nous paraissaient
pertinentes, pour spécifier le degré d' IDS présent dans les trois stimuli d'une part, et pour distinguer
sur le plan prosodique les stimuli québécois et parisiens d'autre part. Certaines sont des analyses
acoustiques classiques du signal de parole, d'autres ont été spécifiquement conçues pour notre
expérience. Pour toutes ces mesures, lorsque le choix d'une unité rythmique s'est présenté, nous
avons naturellement considéré l'unité syllabique, puisqu'il s'agit, en français, de l'unité rythmique
sous-jacente et que c'est dans le cadre de l'hypothèse d'initialisation rythmique de la segmentation,
que nous envisageons l'origine d'une divergence dans les capacités de segmentation précoce entre
les enfants québécois et français.
---------------------------------------------------------------------2
Voyelle unique qui change de timbre (qualité qui distingue deux sons de même hauteur et de même intensité) au cours
de son émission
21
2.1 Méthode :
1.Stimuli :
Le corpus utilisé est l'ensemble des trois types de stimuli : Q, (utilisés dans notre expérience
et dans les expériences de Polka et Sundara, (2003)), PPolka (utilisés dans les expériences de Polka
et Sundara, (2003) et ayant servi dans les expériences de Nazzi et. al, (2006b), et PNazzi (utilisées
dans les expériences de Nazzi et. al, (2006)). Les trois types de stimuli sont constitués de quatre
passages de six phrases contenant toutes, une fois, le même mot cible (cf. appendice A). Les stimuli
PPolka et Q ont été enregistrés tous deux à Montréal pour les besoins de l'étude Polka et Sundara,
(2003). Les stimuli Q ont été enregistrés par une femme bilingue français canadien, anglais
canadien. Les stimuli PPolka ont été prononcés par une femme ayant le français parisien pour
langue maternelle, vivant au Québec. Les phrases sont identiques dans les deux types de stimuli et
les mots cibles sont : « béret », « surprise », « devis », « guitare ». Les stimuli PNazzi. ont été
enregistrés à Paris par une femme ayant pour langue maternelle le français.
Les phrases sont différentes de celles des stimuli PPolka et Q et les mots cibles sont « bandeau »
« toucan », «putois », « guidon ».
2. Procédure :
Les analyses ont été réalisées avec le logiciel Praat (www.fon.hum.uva.nl/praat/), et se
basent sur la visualisation du spectrogramme de chaque passage. Dans cette représentation des sons
de la parole, le temps est porté en abscisse, l'axe des ordonnées indique la fréquence. La figure 3.
montre le spectrogramme correspondant à la représentation de l'énoncé 'la mode est aux bérets et
aux autres chapeaux'. Sur la partie haute figure la forme de l'onde sonore, la partie basse montre, en
bleu, la courbe de fréquence, en jaune celle de l'intensité du signal. L'intensité est marquée par le
degré de noirceur du point représentatif.
22
Figure3. Spectrogramme de l'énoncé : « la mode est aux bérets et aux autres chapeaux »
1. Silences entourant les mots cibles :
Un indice acoustique qui pourrait, de fait, faciliter la reconnaissance des frontières de mots,
est le marquage de ces frontières par la présence de silences suivant et/ou précédent les mots. Pour
évaluer les différences de cet ordre entre les trois types de stimuli, les silences avant et après les
mots cibles ont été relevés, par l'utilisation simultanée d'indices visuels et auditifs : en écoutant les
phrases et en déterminant visuellement sur le spectrogramme, le temps de pause correspondant. Les
indices visuels de fréquence et d'intensité ont permis de marquer la frontière entre le son et le
silence.
Nous pensons que la mesure de ce paramètre révélera la présence de silences autour des
mots cibles dans les stimuli Q, ce phénomène étant nettement audible. Nous ne faisons pas de
prédictions particulières concernant cette propriété, quant à l'ampleur de la différence entre les
stimuli Q et les stimuli PPolka et PNazzi.
2. Débit de parole :
A l'écoute naïve, il apparait que les stimuli Q se caractérisent par une certaine lenteur dans
l'élocution, si on les compare aux stimuli PNazzi, les stimuli PPolka, pour leur part, semblent se
situer entre les deux. Une mesure du débit de parole (ou vitesse d'élocution) a été effectuée pour
évaluer avec plus de précision la différence perçue à l'écoute.
Le calcul du débit de parole dans une phrase est calculé comme le rapport entre le nombre
de syllabes qu'elle comprend et sa durée totale. Cette mesure nous donne le nombre de syllabes par
seconde. Dans la littérature, un débit de parole relativement lent, est considéré comme une
caractéristique de l'IDS, (Fernald, (1987) ; Thiessen & Saffran, (2005)). Nous pensons voir
23
apparaître dans nos analyses, un débit plus lent dans les stimuli Q et PPolka que dans les stimuli
PNazzi. Nous attendons également une différence dans la vitesse d'élocution entre les stimuli Q
d'une part et les stimuli PPolka et PNazzi d'autre part : certains auteurs suggèrent que l'élocution du
français québécois dans le discours entre adultes est relativement lente par rapport à l'élocution du
français parisien, Gendron, (1966).
3. Intervalle de fréquence fondamentale ou ambitus (valeurs en Hertz et
en Semi-tons) :
L'ambitus est calculé comme la différence entre la valeur minimum de la fréquence
fondamentale, et sa valeur maximum. Sa mesure permet de connaître l'intervalle qui sépare le son le
plus grave du son le plus aigu et d'avoir une estimation de l'étendue de la fréquence fondamentale
par la mesure de son « amplitude ». Fernald & Simon, (1984), ont mesuré un ambitus plus étendu
dans le registre de parole l'IDS que dans l'ADS. Cet indicateur devrait nous permettre de vérifier si
ces patterns se retrouvent dans nos stimuli. Nous nous attendons, par ailleurs, à trouver un ambitus
plus faible dans les stimuli PPolka et PNazzi que dans les stimuli Q. En effet, dans une étude,
Menard, (1999), trouve que les phrases ayant un ambitus plus élevé sont perçues comme des
phrases appartenant au français québécois alors que celles ayant un ambitus plus faible, sont
perçues comme appartenant au français européen.
Pour tenir compte, dans la mesure de l'ambitus, du traitement auditif et perceptif, une
échelle en demi-tons (ST, semitones) a été choisie, cette échelle permet de mesurer non pas des
distances acoustiques brutes mais des distances dites perceptuelles qui compensent la réponse non
linéaire en fréquence de notre système auditif. La conversion de la F0 en Semi-tons a été effectué
selon la formule : F = 12log2(f/fref) où f est la F0 en Hz et fref , la valeur la plus basse de F0 en Hz
dans le corpus analysé.
4. Fréquence fondamentale moyenne et variabilité de la fréquence (écarttype) :
L'ambitus est une mesure de la variabilité de la fréquence fondamentale dépendante de ses
extrema et ignorant la variation dans l'intervalle qui les sépare. Pour obtenir une représentation plus
fine de la variabilité de la fréquence, sa mesure a été effectuée, en moyenne, sur chaque syllabe
d'une phrase. La moyenne de F0 d'une phrase est alors calculée comme la moyenne des fréquences
de ses syllabes. Ce traitement a été fait pour chaque phrase d'un passage et pour tous les passages
des trois types de stimuli.
24
L'écart-type associé à la F0 moyenne d'une phrase donne une mesure de la variabilité de la
fréquence entre les syllabes d'une phrase. Si l'écart-type est faible, la fréquence est relativement
homogène pour toutes les syllabes de la phrase, s'il est grand, cela indique une plus grande
variabilité inter-syllabiques au sein de la phrase.
Dans la littérature, la F0 moyenne est signalée d'une part comme étant plus élevée dans le
registre IDS que dans celui de l'ADS, (Fernald & Simon, (1984) ; Fernald, (1992)), d'autre part,
comme étant plus élevée en français canadien qu'en français européen, Ménard, (1999). La présente
mesure nous permettra de vérifier les prédictions suivantes : une F0 moyenne plus élevée dans les
stimuli Q que dans les stimuli PPolka et PNazzi due à des différences dialectales et une F0 moyenne
plus élevée dans les stimuli Q et PPolka que dans les stimuli PNazzi due à des différences de degré
IDS. Concernant la variabilité de la F0 mesurée par l'écart à la moyenne, l'écoute naïve nous
suggère une tendance similaire à celle de la F0 moyenne pour le patron IDS. Nous ne faisons pas de
prédictions particulières pour les différences dans la variabilité de F0 dans nos stimuli, induites par
le caractère dialectal.
5. Variabilité de la F0 (modèle de Piet Mertens) :
La précédente mesure de la variabilité de la F0 ne permet pas de faire la distinction entre (a)
une variabilité de la fréquence qui suit une courbe monotone (croissante ou décroissante) et une
variabilité caractérisée par une courbe brisée, (sens de variation alterné), (b) une variation de la F0
audible et inaudible. Sur ce dernier point, précisons que pour être audible, une variation de
fréquence fondamentale doit présenter une ampleur minimale qui décroît avec la durée du stimulus.
Ce seuil (nommé seuil de glissando), dans le cas de la parole continue et pour les voyelles vaut
G = 0,32/T2 (ST/s), T étant la durée de la variation (pour une définition du seuil, voir 't Hart, 1976).
Le système de transcription prosodique de Piet Mertens : Prosogramme, utilisable avec le
logiciel Praat fournit une transcription tenant compte des traitements perceptifs. Dans ce graphique,
le temps en secondes est donné en abscisse, la fréquence en semi-tons est donnée en ordonnée, la
fréquence fondamentale est représentée par un trait fin bleu, l'intensité par un trait fin vert et la
hauteur stylisée (forme de la courbe de F0 qui préserve les phénomènes audibles) par des traits
épais noirs. Une variation de hauteur supérieure au seuil de glissando est représentée par une ligne
inclinée, et une variation inférieure au seuil est représentée par un trait plat. Ainsi, le nombre de
pentes de la courbe stylisée indique le nombre de variations de F0 perceptibles, intervenant dans les
noyaux vocaliques. La Figure 4 représente un prosogramme. Par exemple, la voyelle de la
deuxième syllabe du mot « béret » est représentée par un trait incliné : la F0 présente pendant
25
l'émission de cette voyelle une variation perceptible. A l'inverse, la syllabe « la » est représentée par
un trait plat : elle est perçue sans variation de hauteur interne.
Figure 4. Prosogramme (simple compact).
5.1. Nombre de changements intra-vocaliques de la F0 :
A l'aide du Prosogramme, nous avons relevé dans nos stimuli, les changements perceptibles
de F0 à l'intérieur des noyaux vocaliques. Concernant cette mesure, nous prédisons qu'elle
exprimera une différence entre les stimuli québécois et parisiens, le changement de timbre des
voyelles intervenant plus fréquemment dans le dialecte québécois que dans le dialecte parisien,
comme le souligne Charbonneau, (1971).
5.2. Nombre de changements d'orientation de la courbe de la F0 :
Lorsque la courbe stylisée de la F0 montrait un changement d'allure : augmentation suivie
d'une baisse, augmentation suivie d'une allure constante, allure constante suivie d'une augmentation
etc., nous avons compté un changement d'orientation. L'écoute des stimuli nous suggère qu'il
devrait y avoir plus de changements, sur l'échelle allant du grave à l'aigu, dans les stimuli québécois
que dans les stimuli Parisien. Cela devrait se traduire par un plus grand nombre de changements
d'orientation de la courbe de la F0 dans les stimuli québécois que dans les stimuli parisiens.
Dans ce qui précède, la fréquence fondamentale d'une syllabe mesurée à l'aide du logiciel
Praat est celle de sa voyelle, en outre, les mesures de la F0 considérées dans le prosogramme sont
basées sur le noyau vocalique. Nous suivons en cela les hypothèses de Mehler et. al (1996), qui
suppose que la perception de la parole par les enfants est centrée sur les voyelles, car elles
produisent plus d'énergie et sont plus longues que la majorité des consonnes. Il a par ailleurs été
montré que les nouveaux nés portent plus d'attention aux voyelles qu'aux consonnes dans le flux de
la parole continue, (Bertoncini, Bijeljac-Babic, Jusczyk, Kennedy & Mehler, 1988). Enfin, une
étude de Piet Mertens suggère que l'alternance entre voyelles et consonnes entraîne, dans la plupart
26
des cas, un pic d'intensité et de sonorité pendant la voyelle, (Mertens, 2002).
2.2. Résultats :
1. Silences entourant les mots cibles :
La mesure des silences autour des mots cibles n'a révélé de pauses audibles avant les mots
cibles dans aucun des trois stimuli. Après les mots cibles, des pauses audibles ont été mises en
évidence uniquement dans les stimuli Q (M = 0.24 s ; écart-type = 0,1 s), les stimuli PPolka et
PNazzi. ne présentent, eux, aucune pause audible après les mots cibles.
2. Débit de parole :
Les moyennes du débit dans les passages pour les trois types de stimuli sont représentées sur
la Figure 5 .
Figure 5. Vitesse d'élocution moyenne dans les passages.
Une ANOVA de la variable débit, avec le facteur inter-groupe type de stimuli (Q, PPolka et
PNazzi) a été effectuée. L'analyse a révélé un effet significatif du type de stimuli F (2,46) = 2,72 ;
p < 0,01, indiquant que le débit change significativement en fonction du type de stimuli. Pour
établir plus précisément les différences entre les types de stimuli deux à deux, des comparaisons
planifiées ont été effectuées et ont fait apparaître des différences significatives entre tous les types
27
de stimuli croisés ( Q vs. PPolka : F(1,23) = 58,05, p < 0,01 ; PPolka vs. PNazzi F(1,23) = 19,74 , p
< 0,01 ; Q vs. PNazzi : F(1,23) 178,78 p < 0,01 ). Cette analyse montre que le débit de parole est
relativement lent dans les stimuli Q ( M= 3,27 S/s, écart-type = 0,39), plus accéléré dans les stimuli
PPolka (M= 4,32 S/s, écart-type = 0,78) et plus rapide encore dans les stimuli PNazzi (M= 5,16 S/s,
écart-type = 0,55 ).
3. Intervalle de fréquence fondamentale ou ambitus (valeurs en Hz et en
ST) :
La différence entre les valeurs maximale et minimale de la fréquence fondamentale (en Hz)
a été calculée en moyenne dans chaque passage. Elle est représentée sur la figure 6.
Figure 6. Moyenne de l'ambitus pour les trois types de stimuli .
Une ANOVA de la variable ambitus (en Hz), avec le facteur inter-groupe type de stimuli (Q,
Ppolka et PNazzi) a révélé un effet significatif du type de stimuli F (2,46) = 15,5 ; p < 0,01,
indiquant que l'intervalle de valeurs de la fréquence fondamentale perceptible a une taille différente
selon le type de stimuli. Pour établir plus spécifiquement les différences entre les types de stimuli
pris deux à deux, des comparaisons planifiées ont été effectuées. Cette analyse a montré d'une part
28
que les ambitus dans les stimuli Q et PPolka ne sont pas significativement différents
F(1,23) < 1, p = 0,99 ; d'autre part que les stimuli PNazzi sont significativement différents, à la fois
des stimuli Q et des stimuli PPolka (Ppolka vs. PNazzi F(1,23) = 17,28 ; p < 0,01 ; Q vs. PNazzi :
F(1,23) = 23,58 , p < 0,01). Ces résultats indiquent que l'étendue de la fréquence fondamentale dans
les passages des stimuli Q et PPolka est très semblable (M= 269,8 Hz, écart-type = 55,65 versus M
= 273,15 Hz, écart-type = 68,25 respectivement) et qu'elle est significativement supérieure à celle
des passages des stimuli PNazzi (M= 192,78 Hz; écart-type = 63,21).
La différence entre les valeurs maximale et minimale de la fréquence fondamentale a été
calculée en moyenne dans chaque passage sur une échelle perceptive de semi-tons (ST) . Elle est
représentée sur la Figure 7.
Figure 7. Ambitus perceptibles
Une ANOVA de la variable ambitus (en ST), avec le facteur inter-groupe type de stimuli (Q,
PPolka et PNazzi) n'a pas révélé d'effet significatif du type de stimuli F (2,46) = 1,69 ; p = 0,19,
indiquant que l'intervalle de valeurs de la fréquence fondamentale perceptible a une taille similaire
pour les trois types de stimuli. Aucune différence significative de l'ambitus n'a été trouvée entre les
types de stimuli pris deux à deux , Q vs. PPolka : F(1,23) < 1 ; p = 0,98 ; Q vs. PNazzi : F(1,23) =
3,48 ; p < 0,07 ; PPolka vs. PNazzi : F(1,23) = 1,38 ; p < 0,13. Ces résultats indiquent que l'étendue
perceptible de la fréquence fondamentale est semblable dans les passages des stimuli Q, PPolka et
PNazzi. (M = 18,50 ST, écart-type = 4,39 versus M= 18,54 ; écart-type = 5,96 M = 16,18 , écarttype = 5,74 respectivement).
29
4. Fréquence fondamentale moyenne et variabilité de la fréquence (écarttype) :
4.1. Fréquence fondamentale moyenne :
La moyenne de la fréquence fondamentale a été calculée pour chaque syllabe et moyennée
sur une phrase. Les moyennes de fréquence des phrases d'un passage ont été calculées pour tous les
passages des trois types de stimuli et sont représentées sur la Figure 8.
Figure 8. F0 moyenne des trois types de stimuli.
Une ANOVA sur la F0 moyenne a un facteur inter-groupe type de stimuli (Q, PPolka et
PNazzi) a été effectuée. L'analyse a révélé un effet significatif du type de stimuli F(2,46) = 34,30 ;
p < 0.01, indiquant que la moyenne de fréquence fondamentale, mesurée sur les syllabes, change
significativement en fonction du type de stimuli. Pour déterminer plus précisément les différences
entre les types de stimuli deux à deux, des comparaisons planifiées ont été effectuées. Elles font
apparaître d'une part que les moyennes de F0 dans les stimuli Q et PPolka ne sont pas
significativement différentes : F(1,23) = 2,35 ; p = 0,13 ; d'autre part que les stimuli PNazzi sont
30
significativement différents, à la fois des stimuli Q et des stimuli PPolka (PPolka vs. PNazzi
F(1,23) = 34,17 ; p < 0,01 ; Q vs. PNazzi : F(1,23) = 93,28 , p < 0,01). Cette analyse révèle que la
F0 moyenne des stimuli Q et PPolka est comparable (M= 263,13 Hz, écart-type = 22,2 vs. M=253,3
Hz, écart-type =27,5) et qu'elle est significativement supérieure à celle des stimuli PNazzi. (M=
204,16 Hz, écart-type = 22,83).
4.2. Ecart-type associé à la fréquence fondamentale moyenne :
La déviation standard par rapport à F0 moyenne des syllabes a été calculée et est représentée sur la
figure 9.
Figure 9. Déviation standard par rapport F0 moyenne
Une ANOVA de la variable écart-type de F0 a un facteur inter-groupe type de stimuli (Q,
PPolka et PNazzi), montre un effet général significatif, et permet de conclure à un écart à la
moyenne de la fréquence, variant significativement avec le type de stimuli : F(2,46) = 15,05 ; p <
0,01. Des comparaison planifiées ont fait apparaître d'une part que les écart-types de fréquence dans
les phrases des stimuli Q et PPolka sont similaires, F(1,23) = 2,45 , p = 0,13 ; d'autre part que les
stimuli PNazzi sont significativement différents, à la fois des stimuli Q et des stimuli PPolka (Q vs.
PNazzi : F(1,23) = 18,54 ; p < 0,01 ; PPolka vs. PNazzi F(1,23) = 29,19 ; p < 0,01). Ces résultats
31
indiquent que l'écart-type de la F0 est comparable dans les stimuli Q et PPolka
(M= 60,01 Hz, écart-type =11,11 vs. M= 67,04 ; écart-type =18,69 respectivement) et qu'il est
significativement supérieur à celui des passages des stimuli PNazzi (M= 45,74 , écart-type = 12,06).
5. Variabilité de la fréquence fondamentale (modèle de Piet Mertens) :
5.1. Nombre de changements intra-vocaliques de la F0 :
Le prosogramme de Piet Mertens a permis de déterminer le nombre de variations audibles
de la F0 au sein d'une voyelle. Cette mesure a été calculée en moyenne pour toutes les phrases des
trois types de stimuli. Les résultats sont représentés sur la Figure 10.
Figure 10. Nombre de changements perceptibles de la F0.
Une ANOVA sur le nombre de changements intra-vocaliques perceptibles de la F0, a un
facteur intergroupe type de stimuli (Q, PPolka et PNazzi) a montré un effet significatif de ce
paramètre, F(2,6) = 34,11 ; p < 0.01, indiquant que le nombre de variations audibles de F0 fluctue
selon le type de stimuli. Des comparaisons planifiées ont fait apparaître d'une part que les nombres
de changements audibles de la F0 des stimuli PNazzi et PPolka ne sont pas significativement
différents, F(1,3) = 0,09 , p = 0,78 ; d'autre part que les stimuli Q sont significativement différents, à
la fois des stimuli PPolka et des stimuli PNazzi (Q vs. PPolka : F(1,3) = 81.33 ; p = 0,02 ; Q vs.
PNazzi F(1,3) = 96,02 ; p = 0,02 ;). Ces résultats indiquent que les changements audibles de la F0
32
fondamentale dans une voyelle sont en nombres comparables dans les stimuli PPolka et PNazzi
(M = 9,25, écart-type = 2,36 vs. M = 9,75; écart-type = 2,5 respectivement) et que ces nombres sont
significativement inférieurs à celui des passages des stimuli Q (M = 18,25 , écart-type = 0,96).
5.2. Changements d'orientation de la F0 :
Le nombre de changements d'orientation de la courbe de la F0 a été calculé en moyenne
pour toutes les phrases des trois types de stimuli. Le résultat est représenté sur la Figure 11.
Figure 11. Changements d'orientation de la courbe de la F0.
Une ANOVA sur le nombre de changements d'orientation de la courbe de la F0 avec le
facteur inter-groupe type de stimuli (Q, PPolka et PNazzi) a montré un effet significatif de ce
paramètre, F(2,6) = 9,8 ; p = 0,01 , indiquant que le nombre de changements d'orientation de la F0
fluctue selon le type de stimuli. Des comparaisons planifiées ont fait apparaître d'une part que le
nombre de changements audibles de la F0 des stimuli PNazzi et PPolka ne sont pas
significativement différents, F(1,3) = 0,05 , p = 0,83 ; d'autre part que les stimuli Q sont
significativement différents, à la fois des stimuli PPolka et des stimuli PNazzi (Q vs. PPolka : F(1,3)
= 24,41 ; p = 0,01 ; Q vs. PNazzi F(1,3) = 31,95 ; p = 0,01). Ces résultats indiquent que les
changements d'orientation de la courbe de la F0 sont en nombres comparables dans les stimuli
PPolka et PNazzi (M = 23,75, écart-type = 3,86 vs. M = 24,5 ; écart-type = 3,11 respectivement) et
que ces nombres sont significativement inférieurs à celui des passages des stimuli Q (M = 33,25,
écart-type = 3,5).
Les résultats des analyses acoustiques sont résumés dans le tableau ci-dessous :
33
Résultats des analyses acoustiques :
Indices
Comparaisons des stimuli
1. Silences
Q > PPolka = PNazzi
2. Débit
Q < PPolka < PNazzi
3.1. Ambitus (Hz)
Q = PPolka > PNazzi
3.2. Ambitus (ST)
Q = PPolka = PNazzi
4.1. F0 moyenne
Q = PPolka > PNazzi
4.2. F0 écart à la moyenne
Q = PPolka > PNazzi
51. Nbre de changements intervocaliques de la F0
Q > PPolka = PNazzi
5.2. Nbre de changements d'orientation de la F0
Q > PPolka = PNazzi
Tableau 3. Résultats des analyses acoustiques.
2.3. Discussion :
Dans la présente expérience, nous avons effectué des mesures prosodiques du signal
acoustique des différentes phrases constituant les stimuli québécois (Q), parisiens enregistrés à
Montréal (PPolka) et parisiens enregistrés à Paris (PNazzi). Ces mesures se focalisent sur la
présence de pauses dans la parole, la vitesse d'élocution et la variation de la fréquence
fondamentale, trois principaux marqueurs prosodiques rythmiques de la distinction entre les
registres IDS et ADS, considérés par ailleurs comme des variables inter-dialectales phonologiques
du français québécois et parisien.
Le patron IDS :
Notre première prédiction était qu'il existe certaines dimensions acoustiques liées à la
prosodie, pour lesquelles les stimuli Q et PPolka sont similaires et se distinguent des stimuli
PNazzi. Cette prédiction est confirmée par les résultats de la présente expérience. Les mesures de
moyenne, d' écart à la moyenne et d'étendue de la fréquence fondamentale (ambitus) scindent les
stimuli en deux catégories, la première contenant les stimuli PNazzi, la seconde étant formée par les
stimuli Q et PPolka : la moyenne, l'ambitus (en Hz) et l'écart-type de F0 des stimuli Q et PPolka
sont comparables et significativement supérieurs à ceux des stimuli PNazzi, et c'est ce que nous
avions pressenti. Les propriétés caractérisant les stimuli Q et PPolka sont compatibles avec les
propriétés connues de l'IDS, dont on sait qu'il se distingue de l'ADS par une plus grande variabilité
34
dans l'intonation, une exagération de l'intervalle et du niveau de pitch3, (Fernald & Simon, 1984),
(Fernald, 1992 ; Gleitman, Newport, & Gleitman, 1984).
Nous attendions également de ces analyses acoustiques une confirmation des différences
entre les stimuli, concernant la vitesse d'élocution. Les résultats en attestent et nous fournissent des
précisions : les stimuli ayant le débit le plus lent, pattern que l'on retrouve dans l'IDS, sont les
stimuli Q et PPolka, les stimuli PNazzi ayant une vitesse d'élocution significativement supérieure
aux deux précédents.
Notons toutefois, que si les résultats de l'ambitus en valeurs brutes sont compatibles avec les
hypothèse de Fernald & Simon (1984), prédisant que l'ambitus est plus élevé dans le registre IDS
que dans celui de l'ADS, cette différence cesse d'être significative, dans nos stimuli, lorsque l'on
tient compte des phénomènes perceptifs4. Ce fait soulève la question suivante, que de futures études
devront explorer : les différences dans l'ambitus, que l'on trouve entre l'IDS et et l'ADS à un niveau
physique, sont elles conservées au niveau perceptif ? Par ailleurs, la caractérisation du registre IDS
par la présence de pauses dans le discours, (Fernald, 1987; Gleitman & Newport, 1984), n'est pas
mise en évidence dans nos stimuli : les stimuli Q et PPolka, tous deux IDS, divergent sur cette
propriété. De même, ces deux stimuli ne sont semblables, ni par leur nombre de changements intravocaliques perceptibles, ni par leur nombre de changements d'orientation de la F0.
Ainsi, pour certaines dimensions acoustiques prosodiques, considérées comme des
propriétés de l'IDS, les stimuli Q et PPolka sont similaires et se distinguent des stimuli PNazzi. Ce
fait est tout à fait corrélé avec la différence que les enfants québécois semblent avoir faite en
entendant les trois types de stimuli : ils segmentent les stimuli Q et PPolka de la catégorie IDS et
échouent à segmenter les stimuli PNazzi où s'exprime moins cette propriété. Ces résultats viennent
confirmer le rôle que tiennent les indications prosodiques dans la segmentation de la parole en mots
chez les jeunes enfants, (Fernald et Simon, (1984) ; Jusczyk, Houston et Newsome, (1999) ; Gout,
Christophe & Morgan, (2004)), et en particulier le rôle de l'IDS, (Thiessen & saffran, (2005)). Ces
données suggèrent, en outre, que les enfants québécois, s'ils semblent, à un stade aussi précoce que
l'âge de 8 mois, être capables d'effectuer la segmentation de la parole, le font seulement lorsqu'il
s'agit de stimuli où les phénomènes prosodiques prosodiques sont exagérés.
--------------------------------------------------------------------3
Attribut de la sensation auditive qui nous permet d'ordonner les sons sur une échelle allant du grave à l'aigu.
Le patron phonologique dialectal :
La deuxième prédiction que nous avions formée porte sur les différences entre des stimuli,
35
tous deux dans un registre IDS, correspondants à deux variantes dialectales du français : le
québécois (stimuli Q) et le parisien (stimuli PPolka). Nous avions supposé l'existence de certaines
dimensions liées à la prosodie, pour lesquelles les stimuli Q et PPolka présenteraient des différences
significatives. Les résultats de cette expérience vont dans le même sens que nos prédictions : tout
d'abord, les stimuli québécois se caractérisent par la présence de pauses, caractère que l'on ne
retrouve pas dans les stimuli parisiens, en second lieu, conformément à nos prédictions et en
compatibilité avec l'hypothèse que le québécois se caractérise par un rythme lent, (Gendron, 1966),
le débit de parole est plus lent dans les stimuli québécois que dans les stimuli parisiens ; enfin, les
stimuli québécois sont significativement supérieurs aux stimuli parisiens concernant deux mesures :
(a) le nombre de changements intra-vocalique perceptibles de la F0, (b) le nombre de changements
d'orientation de la courbe de la F0. La mesure (a) confirme qu'en canadien, les modifications
mélodiques de la voix qui s'expriment dans les unités vocaliques, sont différentes de celles du
français parisien, (Delattre,1971), en effet, selon certains auteurs, les deux systèmes phonologiques
comportent des différences importantes, notamment en terme de durée et de timbre pour certaines
voyelles. Charboneau, (1971) souligne des phénomènes de diphtongaison quand la durée des
voyelles le permet en québécois, phénomène très peu présent en français parisien. Notons que ces
deux derniers paramètres ainsi que l'écart-type associé à la moyenne de F0, sont des mesures
propres à notre expérience. Les changements de la F0 intra-vocaliques perceptibles ainsi que le
nombre de changements d'orientation de la courbe de la F0 se révèlent, ici, des mesures pertinentes.
Elles mettent en évidence une différence entre les stimuli parisiens et québécois, ce que ne montre
pas la mesure de l'écart-type associé à la moyenne.
Certains résultats de cette expérience sont, cependant, différents de nos prédictions :
l'ambitus (qu'il soit mesuré en Hz ou en ST) et la moyenne de F0 dans les stimuli parisiens PPolka
et PNazzi ne sont pas significativement supérieurs à ceux des stimuli Q, ce que contredisent les
données des études de Ménard, (1999). En effet, ces résultats prédisent que les phrases ayant un
ambitus plus élevé sont perçues comme appartenant au dialecte québécois, comparées à celles dont
--------------------------------------------------------------------4 La conversion des Hz en ST 'tasse' les hautes fréquences, (par la fonction logarithme). Par conséquent, les différences
de fréquences exprimées en Hz, situées dans les fréquences élevées, sont davantage réduites, lors de leur conversion en
ST, que les différences exprimées en Hz, situées dans les fréquences plus basses. Or, la F0 en moyenne est supérieure
dans les stimuli Q et PPolka que dans les stimuli PNazzi. C'est la raison pour laquelle l'ambitus plus élevé lorsqu'il est
exprimé en Hz, dans les stimuli Q et PPolka, est 'réduit' après la conversion en ST, au niveau de l'ambitus PNazzi.
l'ambitus est moins élevé, perçues comme appartenant au français européen, et que le même pattern
se produit pour la moyenne de F0. Si ces propriétés sont bien des caractères distinctifs des deux
dialectes, elles ne semblent pas s'exprimer dans notre échantillon limité de stimuli.
36
Les résultats de ces analyses acoustiques nous ont permis (a) de faire un lien entre les
paramètres prosodiques des stimuli et les performances des enfants dans la tâche de segmentation,
nous amenant ainsi à évaluer l'impact possible de ces indices sur la capacité de segmentation : nous
concluons que les propriétés de l'IDS ont vraisemblablement joué un rôle dans la capacité de
segmentation chez les enfants québécois de 8 mois ; (b) de départager les différences prosodiques
rythmiques observées dans les stimuli en propriétés spécifiques aux registres IDS vs. ADS, et en
propriétés phonologiques prosodiques spécifiques au dialecte québécois vs. parisien : nous trouvons
des différences liées au caractère prosodique d'une part, entre les stimuli IDS et ceux qui ne le sont
pas, d'autre part, entre les stimuli des dialectes québécois et parisien.
Cependant, ces conclusions obtenues à partir d’un unique échantillon de chacun des trois
types de stimuli, prononcés par trois locutrices seulement, nécessitent une confirmation par d'autres
expériences tenant compte des contraintes idiosyncrasiques. Il a été en effet clairement établi que
les variations de F0 sont en partie déterminées par les caractères physiologiques des locuteurs,
notamment par la masse volumique des cordes vocales et que par conséquent la variation tonale est
différente d'un sujet à l'autre, en particulier entre un homme et une femme par exemple, Di Cristo,
(1978).
III. Discussion générale :
La présente étude a exploré l'émergence des capacités de segmentation de la parole en mots
chez les enfants parisiens francophones. La plupart des recherches concernant l'influence de la
dimension prosodique sur la capacité de segmentation aynt porté sur la langue anglaise, notre étude
visait à apporter une contribution à cette question pour le français dans la trame des études de Nazzi
et. al, (2005 et 2006). Cette recherche est guidée par l'hypothèse générale que la procédure de
segmentation précoce s'appuie sur l'unité rythmique de la la langue maternelle et que les
informations prosodiques sont prédominantes pour initier la segmentation, le poids relatif des
indices prosodiques et des autres indices (comme les indices statistiques par exemple), évoluant au
cours du développement. En particulier, nous avons voulu tester l'hypothèse que certaines
informations exploitées par les enfants québécois pour effectuer la segmentation dès 8 mois
pourraient être utilisées par les enfants parisiens du même âge. Avant d'envisager les conséquences
de cette étude comportementale, nous avons émis une seconde hypothèse : l'analyse acoustique des
stimuli utilisés dans les expériences avec les enfants, devrait révéler une correspondance entre
l'expression des indices prosodiques dans les stimuli et les résultats de segmentation de ces stimuli
37
par les enfants.
Dans une première expérience, nous avons répliqué, avec des enfants parisiens de 8 mois,
l'étude conduite par Polka et Sundara avec des enfants québécois francophones du même âge, ayant
mis en évidence la capacité de ces enfants à segmenter la parole : en se basant sur le protocole
utilisé par Jusczyk et Aslin (1995), pour tester la segmentation précoce, nous avons testé les enfants
parisiens de 8 mois avec les stimuli québécois. Les résultats n'ont pas permis de faire apparaître un
effet de segmentation, suggérant ainsi que les enfants parisiens de 8 mois échouent à segmenter des
stimuli que les enfants québécois du même âge réussissent à segmenter.
Dans une seconde expérience, en utilisant deux outils d'analyse acoustique : le logiciel Praat,
permettant des analyses prosodiques et le prosogramme de Piet Mertens, outil de transcription de la
prosodie dans les corpus oraux, nous avons effectué des mesures portant principalement sur la
variation de la F0, la présence de pauses et la vitesse d'élocution, caractéristiques majeures de l'IDS
citée dans la littérature (Fernald & Kuhl, (1987) ; Thiessen & Saffran, (2005)). Les résultats des
analyses acoustiques montrent que la moyenne de la F0, la variabilité de la F0 mesurée par l'écart à
la moyenne, et l'étendue de la F0 (en Hz), trois marqueurs liés au caractère IDS (Fernald & Simon,
1984), (Fernald, 1992 ; Gleitman, Newport, & Gleitman, 1984), sont significativement supérieurs
dans les stimuli segmentés par les enfants québécois. Cependant, les analyses ont montré également
des différences substantielles à l'intérieur du groupe de stimuli situés dans un même registre IDS :
dans les stimuli québécois, le débit de parole est plus lent, les pauses sont plus fréquentes, les
variations perceptibles de la F0 (mesurées à l'intérieur des voyelles) ainsi que les changements
d'orientation de la courbe de la F0 plus nombreux. Certaines différences relevées considérées sont
comme des témoins de ces deux variantes géographiques.
Des stimuli plus ou moins IDS, parallèle avec les performances de segmentation :
La première conclusion que l'on peut tirer de cette étude, au regard du résultat de
segmentation des enfants québécois et des analyses acoustiques des stimuli qu'ils ont segmentés, est
que les indices prosodiques caractéristiques de l'IDS facilitent la segmentation de la parole aux
enfants québécois de 8 mois. Le point qui doit être confirmé est le suivant : ces enfants sont-ils
sensibles à l'unité rythmique du français qu'est la syllabe, et s'en servent-ils pour effectuer la
segmentation ? Ce pattern, prédit par la théorie de la segmentation rythmique (la syllabe est l'unité
rythmique de segmentation en français de même que l'unité d'accent trochaïque est l'unité de
segmentation en anglais), trouve une confirmation dans les résultats de l'étude de Nazzi et. al,
(2006). Cette étude montre de plus qu'une segmentation syllabe par syllabe précède la segmentation
du mot en tant qu'unité. Si un résultat de segmentation syllabique chez les enfants québécois est mis
38
en évidence, il pourrait se retrouver à un âge plus jeune que 8 mois. Le patron développemental de
la segmentation précoce chez les enfants québécois serait alors semblable à celui des enfants
parisiens mais présenterait un décalage chronologique pour l'émergence de ces capacités. Ainsi, à 8
mois, les enfants québécois seraient à un stade où ils utilisent d'autres indices de segmentation, par
exemple les probabilités transitionnelles. Cette évolution est attestée par certaines données
expérimentales : Jusczyk et. al, (1999b) ont montré que les enfants anglais s'appuient initialement,
dans la tâche de segmentation, sur l'unité rythmique sous jacente en anglais. Ce qui les conduit à
une segmentation correcte des mots trochaïques comme « DOCtor » et « CANdle » mais les mène à
une segmentation erronée des mots iambiques comme « guiTAR ». En effet, à 7.5 mois, ils
segmentent la seule syllabe forte « TAR » du mot « guiTAR ». De plus, lorsqu'on leur présente un
mot iambique toujours suivi de la même syllabe faible, par exemple « guiTARis », ils extraient la
forme « TARis » qui possède un patron trochaïque. Il est intéressant de voir que ce phénomène
disparaît à 10.5 mois, âge auquel les enfants segmentent correctement les mots iambiques, même
lorsqu'ils sont présentés toujours suivis de la même syllabe faible, par exemple, en entendant
« guiTARis », les enfants extraient maintenant « guiTAR », Jusczyk et. al, (1999b). Ceci pourrait
refléter le fait que les enfants de 10.5 mois accordent une priorité aux informations d'ordre
statistique, par rapport aux indices prosodiques : ils semblent privilégier l'information que les
syllabes « gui » et « tar » apparaissent souvent groupées, alors même que ces deux syllabes sont
séparées par une frontière rythmique.
Des différences phonologiques dialectales, parallèle avec les performances de segmentation :
Il demeure, à l 'issue de ces études, que les enfants québécois font preuve de capacités de
segmentation à 8 mois, et que les enfants parisiens n'en montrent qu'à 12 mois. Il semble, et c'est la
deuxième conclusion à laquelle on peut aboutir, qu'il ne suffise pas aux enfants parisiens, d'avoir à
disposition des indices de variabilité prosodique dans le signal, pour parvenir, à 8 mois, à extraire
les mots de la parole. Il leur faut en avoir une certaine expérience. Cette expérience pourrait être
liée aux paramètres exprimant les différences phonologiques prosodiques entre les deux dialectes,
que certains de nos résultats soulignent, par exemple, le rythme de la parole, plus lent en québécois
qu'en parisien, comme le suggère Gendron, (1966), le changement de timbre dans les voyelles, plus
fréquent en français québécois qu’en français parisien, comme le souligne Charbonneau, (1971).
Quels peuvent être les éléments, dans l'expérience linguistique des enfants québécois qui
leur confèrent la capacité à exploiter les propriétés de l'IDS, ici, à des fins de segmentation ?
L'IDS en question :
39
Le caractère IDS existe dans de nombreuses langues. Cependant, il ne s'exprime pas
uniformément, par exemple, en japonais, en français et en anglais : tandis qu'on observe dans ce
registre une exagération prosodique importante en anglais par rapport à l'ADS, l'IDS est nettement
plus modéré en japonais, le français se situant dans une position intermédiaire (Dodane, Blanc &
Dominey, 2004). A notre connaissance, la question n'a pas été envisagée en québécois , mais il est
vraisemblable que l'IDS québécois soit plus prononcé que l'IDS français, ce que de futures
recherches pourraient déterminer, et que semblent d'ailleurs confirmer les analyses de notre étude,
mettant en évidence précisément cette hiérarchie. Les enfants parisiens se seraient alors trouvés
désavantagés par rapport à leurs homologues québécois, pour qui la présence d'une plus grande
variabilité dans l'intonation dans les stimuli auxquels ils sont régulièrement exposés, aurait pu
constituer un capteur attentionnel vers la dimension prosodique de la parole. L'expérience pour
détecter les marqueurs prosodiques dans le signal, aurait ainsi permis aux enfants québécois
d'utiliser cet indice même sur des stimuli parisiens moins fortement IDS, appartenant, de surcroît, à
un dialecte différent. Pour cette dernière performance avec les stimuli parisiens, les québécois
pourraient avoir tiré parti de la présence, à un certain degré, du français de France au Québec, le
québécois étant nettement moins présent dans la vie quotidienne des enfants parisiens.
Cependant, notre étude a mis en évidence un certain nombre de caractéristiques prosodiques
qui varient significativement d'un dialecte à l'autre, même lorsque les stimuli québécois et parisiens
analysés font tous deux partie du registre IDS. Ce fait suggère que la variabilité d'intonation
observée n'est pas une différence entre les stimuli spécifiques à cette étude mais plutôt une
différence prosodique entre les deux dialectes québécois et parisiens.
Les différences phonologiques entre le québécois et le parisien en question :
Pourtant, les indices spécifiques au dialecte ne semblent pas avoir été déterminants en tant
que tels pour les enfants québécois, dans l'expérience de Polka & Sundara, puisque les nourrissons
québécois ont pu segmenter les stimuli parisiens appartenant à un autre dialecte. Ce fait suggère que
c'est leur présence dans le dialecte québécois auquel sont exposés les enfants quotidiennement qui a
pu, soit révéler des indices connus par les enfants québécois, présents dans une moindre mesure, ou
dans un contexte phonologique différent, soit, comme le suggèrent Thiessen & Saffran, (2005),
aider à la découverte d'autres informations présentes dans le signal.
Remarquons que ces hypothèses, concernant l'IDS d'une part et les différences phonologiques entre
le québécois et le parisien d'autre part, ne s'excluent pas l'une l'autre.
Un autre point mérite d'être exploré : quels seraient les résultats de segmentation des enfants
québécois avec des stimuli québécois situés, cette fois, dans un registre ADS ?
40

S'ils sont capables d'extraire des mots de ce type de stimuli, cela pourrait signifier que le
dialecte québécois présente une certaine variabilité dans l'intonation qui favorise la
segmentation. En effet, (a) il semble que les enfants québécois ne segmentent pas toutes les
formes de langages proches de l'ADS, puisqu'ils ne segmentent pas les stimuli PNazzi, (b) la
difficulté avec les stimuli PNazzi n'est probablement pas due à des différences dialectales,
puisque les enfants québécois segmentent les stimuli PPolka.

S'ils n'en sont pas capables, cela soulignerait davantage le rôle que joue l'IDS dans le
développement précoce de la capacité de segmentation.
A ce stade, bien que confirmant des études préalables citées plus haut, les résultats de nos
analyses portant sur un corpus de petite taille, prononcé par seulement trois locutrices ne peuvent
tenir lieu de conclusions définitives sur les différences phonologiques entre le québécois et le
parisien, et doivent être confirmés par de futures analyses, d'autant plus que la locutrice des stimuli
québécois, semble avoir prononcé les stimuli, d'une façon effectivement IDS, mais sous une forme
plus proche de la lecture formelle d'un texte que l'on peut entendre dans les médias, que du dialogue
quotidien à l'intérieur d'un foyer québécois. De futures études pourraient évaluer les différences
prosodiques entre les deux dialectes basées sur un corpus plus large, fait d'enregistrements de
conversation spontanée à l'intérieur de différents foyers parisiens d'une part, et québécois d'autre
part. Ces conversations seraient de la parole adressée par leur mère à des enfants de 8 mois, et se
situeraient donc dans un registre IDS. Des analyses acoustiques prosodiques sur ce corpus
permettraient d' examiner les différences phonologiques entre le québécois et le parisien, l'intérêt de
choisir des stimuli IDS serait de confronter les résultats avec les études comportementales sur la
segmentation faites jusqu'ici avec les enfants.
41
Perspectives de recherche :
Citons, parmi les nombreuses questions qui restent à explorer, deux axes de recherche principaux
que nous envisageons :
Les indices de segmentation, une organisation hiérarchique :
Nous avons présenté plusieurs sources d'informations présentes dans le signal et
potentiellement utilisables par les nourrissons pour détecter les frontières de mots, des études
indiquent que les nourrissons sont sensibles à ces informations et qu'ils les utilisent pour extraire les
mots de la parole continue. Le point qui reste à élucider est la manière dont les enfants coordonnent
ces différentes sources d'informations. Il s'agirait, à terme, de produire un modèle, en français,
inspiré de l'hypothèse de Mattys et. al, (2005) portant sur la langue anglaise. Selon cette hypothèse,
les différents types d'indices de segmentation obéissent à une organisation hiérarchique et sont
recrutés, chez l'adulte, en fonction de l'intelligibilité des stimuli, et chez l'enfant, selon le niveau de
développement. Selon ce modèle, le premier niveau, constitué d'indices sub-lexicaux
suprasegmentaux (prosodie), serait utilisé au début du développement et chez l'adulte dans des
conditions de signal très dégradé, le deuxième niveau constitué d'indices sub-lexicaux segmentaux
(phonotactique, allophonie, coarticualation), serait recruté dans une seconde étape de
développement, et chez l'adulte dans des conditions d'information lexicale dégradée, Finalement, le
troisième niveau, lexical (sémantique, syntaxique, pragmatique), serait le dernier à émerger au cours
du développement, et utilisé par les adultes dans des conditions d'écoute optimale. (voir schéma ciaprès)
42
Figure 12. Hypothèse d'organisation hiérarchique des indices de segmentation. [Adapté par T.Nazzi de Mattys, White &
Melhorn, 2005]
Capacité de segmentation et développement atypique :
Dans une étude pionnière, Nazzi et al., (2003), ce sont penchés sur la capacité de segmentation chez
les sujets présentant une anomalie génétique rare, entraînant un retard dans les capacités précoces
du langage : le Syndrome de Willams-Beurens (SW), trouble causé par la délétion d'une section du
chromosome 4 (Tassabehji et. Al 1996). Sur le plan cognitif, ces individus ont la particularité de
présenter d'une part, des performance de langage, un traitement des visages et une interaction
sociale relativement préservées, d'autre part un sévère altération de la représentation spatiale, du
traitement du nombre et de la résolution de problèmes (Arnold et al. 1990). Dans cette étude Nazzi
et al., (2003), utilisant le paradigme HPP pour la première fois avec une population clinique, ont
envisagé la capacité des enfants anglais, porteurs du SW, à extraire les mots de la parole continue.
Les résultats de cette étude ont permis, outre d'infirmer l'hypothèse selon laquelle le langage chez
les SW est relativement intact, de révéler que la relative robustesse du traitement linguistique
présente à l'âge adulte ne semble pas être en place aux stades précoces du développement.
Dans la suite de cette étude, nous nous proposons d 'évaluer la conjecture faite par Nazzi et.
al, (2003), concernant les mécanismes de segmentation chez les sujets porteurs du SW.
Cette hypothèse postule que, les enfants atteints du SW utilisent les indices prosodiques comme
43
marqueurs de frontières de mots, Nazzi et. al (2003), mais ont des difficultés à exploiter les
informations distributionnelles pour effectuer la segmentation. En effet les enfants porteurs du SW
sont capables de segmenter les mots strong-weak à l'âge de 15 mois, mais ne parviennent pas à
segmenter les patrons weak-strong de mots entre 15 et 46 mois. Ce délai entre les deux patterns
rythmiques est nettement plus réduit chez les enfants anglophones, ayant une développement
typique (segmentation des mots strong-weak vers 7.5 mois et des mots weak-strong vers 10.5 mois).
Ces données ouvrent un champ plus vaste de questions : s'il s'avère que chez les enfants
atteints du SW, la compétence d'utilisation des indices distributionnels fait défaut, ces difficultés de
traitement statistique sont-elles limitées au domaine langagier, ou se retrouvent-elles aussi dans le
traitement des séquences musicales ou visuelles ? A quels mécanismes compensatoires les enfants
atteints du SW ont-ils recours pour palier ce manque et acquérir les mots de leur langue ? Autant de
perspectives d'étude.
44
Bibilographie
Abercombie, D. (1976). Elements of general phonetics. Edinburgh : University of Edinburgh Press.
Aslin, R.N (1993). Segmentation of fluent speech into words : learning models and the role of
maternal input. In B. de Boysson-Bardies et al. (Eds.), Developmental Neurocognition : Speech and
face processing in the first year of life. (pp. 305-315). Kluwer.
Brent, M.R., & Siskind, J.M. (2001). The role of exposure to isolated words in early vocabulary
development. Cognition, 81, B33-B44.
Bertoncini J., Bijeljac-Babic, R, Jusczyk, P.W. Kennedy, L.J. & Mehler, J. (1988). An investigation
of young infant's perceptual representations of speech sounds. Journal of experimental psychology :
General, 117 : 21-33.
Bortfeld, H., Morgan, J.L., Golinkoff, R.M., & Rathbun, K. (2005). Mommy an me : familiar names
help launch babies into speech stream segmentation. Psychological science, 16, 298-304
Charbonneau, R. (1971), Les voyelles nasales du franco-canadien (région de Montréal), Etude
phonétique expérimentale, Paris, Klinksieck.
Christiansen, M.H, Allen, J.,& Seidenberg, M.S (1998). Learning to segment speech using multiple
cues : A connectionist model. Language and Cognitive Process, 13, 221-268.
Cole, R.A., & Jakimik, J. (1978). Understanding speech : How words are heard. In G. Underwood
(Ed), Strategies of Information Processing (pp.) New York, NY : Academic Press.
Cole, R.A., & Jakimik, J. (1980). How are syllables used to recognize words ? Journal of the
acoustical society of America, 67, 965-970.
Cutler, A., Norris, D. (1998). the role of strong syllables in segmentation for lexical access. Journal
of experimental psychology : Human perception and performance, 14, 113-121
Curtin, S., Mintz, T.H, Christiansen, M.H.(2005). Stress changes the representational landscape :
evidence from word segmentation. Cognition, 96, 233-262
Cooper. R.P. & Aslin, R.N. (1990) Preference for Infant-Directed Speech in the first mounths after
birth. Child Development, 61, 1584-1595.
Delattre, P.C. (1966). A comparison of syllable lenght conditioning amoung language. International
Journal of Applied Linguistics, 4,182-198
Di Cristo, A. (2004), La prosodie au carrefour de la phonétique, de la phonologie et de l'articulation
formes-fonctions, Travaux Interdisciplinaires du Laboratoire Parole et Langage, 23, 67-211.
Echols, C.H., Crow-Hurst, M.J. & Childers, J.B. (1997). The perception of rythmic units in speech
by infants and adults. Journal of memory and language, 36, 202-225
45
Fernald, A, & Kuhl, P., (1987). Acoustics determinants of infants preference of mothrese speech.
Infant Behavior and Development, 10, 279-283
Fernal, A. (1985). Four-mounth-old prefer to listen to motherese. Infant Behavior and Development,
8, 182-195.
Friederichi, A.D., & Wessels, J.M.I., (1993). Phonotactic knowledge and its use in infant speech
perception. Perceptions & Psychophysics, 54, 287-295.
Gendron, J.D. (1966) Tendances phonétiques du français parlé au canada. Actes des 11èmes
journées de linguistique, Québec, Université Laval, pp. 17-25.
Giles,H, Scherer, K.R & Taylor, D.M (1979). Speech markers in social interaction, In Scherer and
Giles (eds.), Cambridge Universitty Press, pp.343-381.
Gout, A., Christophe, A. & Morgan, J.L. (2004). Phonological phrase boundaries constraint lexical
access II. Infant data. Journal of memory and language, 51, 548-567.
Hart, J.'t. (1976). Psychoacoustic backgrounds of pitch countour stylisation, I.P.O, Annual Pogress
Report, 11, 11-19.
Hohne, E.A., & Jusczyk, P.W. (1994). Two-months-old-infant's sensitivity to allophonic
differences. Perceptions & Psychophysics, 56, 613-623.
Houston, D.M., Santelmann, L.M., & Jusczyk, P.W. (2004). English-learning infant's segmentation
of trisyllabic words from fluent speech. Language and Cognitive Processes, 19, 97-136.
Johnson, E.K. & Jusczyk, P.W. (2001). Word segmentation by 8-months old : when speech cues
counts more than statistics. Journal of memory and language, 44, 1-20.
Jusczyk, P.W.& Aslin, R.N. (1995). Infants detection of the sound patterns of words in fluent
speech. Cognitive Psychology, 29, 1-23
Jusczyk, P.W., Hohne, E.A. & Bauman, A. (1999a ). Infants sensitivity to allophonic cues for word
segmentation. Perceptions & Psychophysics, 62, 1465-1476.
Jusczyk, P.W., Houston, D.M., & Newsome, M. (1999b). The beginning of words segmentation in
infant English-learning infants. Cognitive Psychology, 39, 159-207.
Jusczyk, P.W., Luce, P.A. & Charles-Luce, J. (1994). Infants sensitivity to phonotactic pattern in
the native language. Journal of Memory and Language, 33, 630-645.
Jusczyk, P.W., Friederichi, A.D., Wessels, J., Svenkerud, V.Y. & Jusczyk, A.M. (1993b). Infant's
sensitivity to the sound patterns of native language words. Journal of Memory and Language, 32,
402-420.
Klatt, D.H. (1979). Speech perception : A model of acoustic-phonetic analysis and lexical access.
Journal of phonetics, 7, 279-312
Klatt, D.H. (1989). Perception of auditory equivalence classes for speech in early infancy. Infant
46
Behavior and Development, 6 : 263-285
McCLelland, J.L & Elman, J.L. (1986). The TRACE model of speech perception. Cognitive
Psychology, 18, 1-86.
Mattys, S.L., White, L., Melhorn, J.F. (2005). Integration of Multiple Speech Segmentation. A
Hierarchical Framework. Journal of experimental psychology : General, 134, 477-500
Mehler, J., Dupoux, E., Nazzi, T. & Dehaene-Lambertz, G. (1996). Coping with linguistic diversity
: The infant's viewpoint. Dans J.L Morgan & K. Demuth (Eds)., Signal to syntax Mahwah, N.J :
Laurence Erlbaum Associates. 101-116.
Ménard, L., Ouellon, C. & Dolbec, J. (1999), Prosodic markers of regional group membership : the
case of the French of Quebec versus France, Proceedings of the 14th International Congress of
Phonetic Sciences, San Francisco (Etats-Unis), pp. 1601-1604.
Mertens, P. (2004), Le prosogramme : 'une transcription semi-automatique de la prosodie', in,
Simon, A.C., Grobet, A., Auchlin, A. & Goldman, J.P (ed.), Prosodie, Analyse du discours et
synthèse de parole. Regards croisée autour d'un dialogue attesté, Cahiers de l'Institut de
Linguistique de Louvain, 30, 1-3, 7-25.
J. L., & Saffran, J. R. (1995). Emerging integration of segmental and suprasegmental information in
prelingual speech segmentation. Child Development, 66, 911-936.
Nazzi, T. (2005). Use of phonetic specificity during the acquisition of new words : Differences
between consonants and vowels. Cognition, 98 : 13-30
Nazzi, T., Paterson, A. & Karmiloff-Smith, A. (2003). Early word segmentation by infants and
toddlers with Williams Syndrome. Infancy, 4, 251-271
Nazzi,T., Dilley,L.C., Jusczyk,A.M., Shattuck-Hunagel, S., & Jusczyk, P.W.(2005). Englishlearning infant's segmentation of verbs from fluent speech. Language and Speech, 48, 279-298.
Nazzi, T., Iakimova, I., Bertoncini, J., Fredonie, S., & Alcantara, C. (2006). Early segmentation of
fluent speech by infants acquiring French : Emerging evidence for crosslinguistic differences.
Journal of Memory and Language, 54, 283-299.
Newman,R., Ratner, N.B., Jusczyk, A.M, Jusczyk, P.W, & Ayaka Dow, K. (2006). Infant's Early
Ability to Segment the Conversationnal Speech Signal Predicts Later Language Development : A
Retrospective Analysis. Developmental Psychology, 42 643-655
Norris, D.G. (1994). Short list : a connectionist model of continuous speech recognition. Cognition,
52, 189-234.
Papousek, M.& Papousek, H. (1981), musical elements on the infants vocalizations : their
significance for communication, cognition and creativity. In Lipsitt & Rovee-Collier, 163-224.
Pike, K. (1945). The intonation of American English, Ann Arbor, MI : University of Michigan
47
Press.
Polka, L. & Sundara, M. (2003). Word segmentation in monolingual ans bilingual infant learners of
English and French. Proceedings of 15th International Congress of Phonetic Sciences, Barcelona,
Spain, 1021-1024.
Ramus, F., Nespor, M. & Mehler, J. (1999). Correlates of linguistic rhythm in the speech signal.
Cognition, 73, 265-292.
Saffran, J.R, Aslin, R.N., & Newport, E.L. (1996). Statistical Learning by 8-months-old infants.
Science, 274, 1926-1928.
Snow, C.E., (1972). Mother’s speech to children learning language, Child Development 43, 549565.
Snow, C.E., (1977). The development of conversation between mothers and babies, Journal of
Child Language. 4, pp. 1-22.
Tassabehji, M., Metcalfe, K., Ferguson, W.D.,Carette, M.J.A, Dore, J.K., Domai, D. et al. (1999).
LIM-kinase deleted in Williams syndrome. Nature Genetics, 13, 272-273
Thiessen, E.D. & Saffran, J.R. (2003). When cues collide : Use of stress and statistical cues to word
boundaries by 7-to-9 months-old infants. Developmental Psychology, 39, 706-717.
48
Appendice A :
Stimuli entendus par les enfants lors de l'étude de Polka & Sundara, (2003) et de Nazzi et. al
(2006). Les mots cibles sont « béret », « surprise », « devis » et « guitare ».
Passage 1
La mode est aux bérets et aux autres chapeaux
Plusieurs bérets sont encore en vente
Ces jolis bérets sont à ma soeur
Elle a besoin de trois bérets
Il faut mettre les bérets sur la table
On va apporter d'autres bérets
Passage 2
Les devis reçus sont raisonnables
Elle a d'autres devis à envoyer
On doit faire confiance aux devis
Il y a trois devis posés sur la table
Voilà de bien beaux devis
Plusieurs devis sont falsifiés
Passage 3
Elle a sorti ses belles guitares
Trois guitares ne seraient pas assez
Il faut d'autres guitares pour la fête
Ne faites pas trop attention aux guitares
On voit plusieurs guitares avant de choisir
Les guitares ne sont pas accordées
Passage 4
Voici de belles surprises pour vous
Il a voulu faire plusieurs surprises
D'autres surprises risquent encore de se produire
Les surprises sont faciles à éviter
Mieux vaut deux que trois surprises.
Il s'attend aux surprises à venir
49
Appendice B
Illustration de la mesure du temps d'écoute dans la technique HPP (dite du regard
préférentiel) .
1. L'enfant est assis face à une lumière verte centrale qui clignote.
2. Lorsque l'enfant porte son attention sur la lumière verte, elle s'éteint et une lumière rouge
50
latérale s'allume en clignotant.
3. Dès que l'enfant se tourne vers la lumière rouge, les stimuli sont diffusés. Tant que l'enfant
regarde la lumière, on considère qu'il 'écoute' les stimuli.
51
Appendice C :
Calcul des écarts perceptibles de la F0, conversion des Hz en ST :
L'échelle des semi-tons correspond à l'échelle musicale : une octave correspond en Hz à un
doublement de fréquence, (opération non linéaire) et se divise en 12 intervalles égaux sur une
échelle (linéaire) de semi-tons.
La hauteur F en Semi-tons s'obtient par la formule :
F = 12log2(F1/F2) = [ln(F1) - ln F2]/[ln2/12]
F1 = la fréquence en Hz
F2 = la fréquence de référence, le choix de cette valeur de référence est indifférent pour le calcul
des écarts en semi-tons (elle disparaît par simplification), on choisit généralement la plus basse
fréquence pour obtenir des valeurs positives.
52
Appendice D :
Résultats des temps d'orientation des enfants. Expérience 1.
Nom enfant Condition
b/s
Emma
Nina
Joseph
Joachim
Charlotte
Aden
Eleonore
Clarisse
d/g
Zélia
Jasmine
Anais
Ariane
Thomas
Ludmila
Armand
Chloé
Date naiss
06,05,06
05,05,06
04,05,06
06,05,06
02,06,06
11,07,06
23,07,06
22,08,06
05,05,06
05,05,06
02,06,06
01,06,06
03,06,06
13,07,06
24,07,06
31,08,06
8mois + j
26
25
27
28
25
13
8
12
29
29
24
26
31
15
18
26
22,63
Sexe
F
F
M
M
F
M
F
F
F
F
F
F
M
F
M
F
53
Moy fam
10587
15271
5542
9285
7327
9603
8381
6920
6867
6234
4019
6674
4427
9319
9214
6954
7914
Moy nouv
15421
11117
7010
9165
5659
7120
8435
4125
7465
7287
6986
11023
4131
11046
10992
8510
8468
Diff fam/nouv
-4834
4154
-1468
121
1668
2483
-54
2795
-598
-1053
-2966
-4349
296
-1727
-1778
-1556
-554
Table des matières
Remerciements .................................................................................................................................... 2
Résumé ................................................................................................................................................ 3
I. Introduction...................................................................................................................................... 4
1. Au commencement il y eut ... l'énigme ..................................................................................... 4
2. Des indices de frontière dans le signal de parole ........................................................................ 5
2.1 Les indices prosodiques et l'hypothèse de l'initialisation
rythmique de la
segmentation .............................................................................................................................. 5
2.2 Les probabilités transitionnelles ........................................................................................ 6
2.3 Les indices phonotactiques...................................................................................................
2.4 les indices allophoniques ......................................................................................
7
3. Sur la piste de la prosodie ........................................................................................................ 7
II. Expériences .................................................................................................................................. 10
1. Expérience 1.............................................................................................................................. 10
1.1 Méthode ........................................................................................................................ 10
1. Sujets ............................................................................................................................ 10
2. Stimuli .......................................................................................................................... 11
a. Stimuli de la phase de familiarisation .......................................................... 11
b. Stimuli de la phase de test ........................................................................... 11
3. Procédure ...................................................................................................................... 11
1.2. Résultats .............................................................................................................
13
a. Phase de familiarisation ............................................................................................... 13
b. Phase de test ................................................................................................................. 14
1.3. Discussion ..........................................................................................................
15
2. Expérience 2:............................................................................................................................ 22
2.1 Méthode : ..................................................................................................................... 23
1.Stimuli :.......................................................................................................................... 23
2. Procédure : .................................................................................................................... 23
1. Silences entourant les mots cibles : ............................................................................ 24
2. Débit de parole : ......................................................................................................... 24
3. Intervalle de fréquence fondamentale ou ambitus (valeurs en Hertz et en Semi-tons) : 25
4. Fréquence fondamentale moyenne et variabilité de la fréquence (écart-type) : ........ 25
5. Variabilité de la F0 (modèle de Piet Mertens) :.......................................................... 26
2.2. Résultats : .................................................................................................................... 28
1. Silences entourant les mots cibles : ............................................................................. 28
2. Débit de parole : .......................................................................................................... 28
3. Intervalle de fréquence fondamentale ou ambitus (valeurs en Hz et en ST) : ............ 29
4. Fréquence fondamentale moyenne et variabilité de la fréquence (écart-type) : ............ 31
5. Variabilité de la fréquence fondamentale (modèle de Piet Mertens) :............................ 33
2.3. Discussion : ..........................................................................................................
35
III. Discussion générale :.............................................................................................................. 38
Perspectives de recherche : .......................................................................................................... 43
Appendices :.................................................................................................................................. 50
54