PHOM : une base de données de 14 000 pseudo

Transcription

PHOM : une base de données de 14 000 pseudo
PHOM : une base de données de 14 000
pseudo-homophones
1∗
1∗
Fernand Farioli , Jonathan Grainger et Ludovic Ferrand2
1 CNRS et Aix-Marseille Université, Marseille
2 CNRS et Université Blaise Pascal, Clermont-Ferrand
RÉSUMÉ
Les pseudo-homophones (c’est-à-dire, suite de lettres qui se prononcent
comme un mot réel, comme « siel » à partir de « ciel ») jouent
un rôle important dans les expériences psycholinguistiques, soit parce
qu’ils sont utilisés dans l’exécution de tâches de décision lexicale, ou
qu’ils deviennent le principal objet d’étude, comme dans la lecture de
non-mots. Nous présentons une base de données, PHOM, de plus de
14 000 pseudo-homophones du français. Nous décrivons également un
générateur qui améliore les méthodes habituelles de construction. Il
permet la fabrication de pseudo-homophones qui respectent les contraintes
phonotactiques du français. La base de données est librement disponible sur
le site web : http://sites.google.com/site/ludovicferrand/Home/data.
PHOM: A database of 14,000 pseudo homophones
ABSTRACT
Pseudo-homophones (i.e., novel letter strings that can be pronounced like real words,
i.e., “brane“ from “brain“) play an important role in psycholinguistic experiments, since
they can be used to uncover basic mechanisms associated with the role of phonology
in silent reading and reading aloud. We present a database of more than 14,000 French
pseudo-homophones that respect the phonotactic constraints of French. We also describe
our pseudo-homophone generator that can be used to generate pseudo-homophones that
obey French phonotactic constraints. The database is freely available on the following
website http://sites.google.com/site/ludovicferrand/Home/data.
∗ Correspondance : Fernand Farioli ou Jonathan Grainger, Laboratoire de Psychologie Cognitive, Université de
Provence, CNRS-UMR 6146 Pôle 3C, Bâtiment 9, Case D, 3 Place Victor Hugo, 13331 Marseille Cedex 3. Email :
[email protected] ; [email protected]
Cet article a suivi la procédure habituelle d’expertise, Édouard Gentaz ayant géré entièrement la procédure (du
choix des experts à la décision éditoriale finale).
L’année psychologique, 2011, 111, 725-751
726
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
1. INTRODUCTION
Dans la langue française, il existe de nombreux mots homophones qui
se prononcent de la même manière mais qui ne partagent pas la même
orthographe ni la même signification (c’est le cas par exemple de « sot »,
« seau », « saut » et « sceau » ; voir en particulier Ferrand, 1999, pour une
liste exhaustive des homophones du français). En psycholinguistique, on
définit également les « pseudo-homophones » comme des suites de lettres
nouvelles qui se prononcent comme des mots du français, mais dont la
forme orthographique ne correspond pas à un mot légal en français. Par
exemple, « kafé » et « caphé » se prononcent comme le mot « café », mais
ne sont pas des mots du français.
Les pseudo-homophones sont fréquemment utilisés en psycholinguistique pour étudier l’influence de la phonologie en lecture silencieuse
(voir Ferrand, 2007 pour une synthèse) et en lecture à voix haute (voir
Reynolds & Besner, 2005 pour une synthèse). Les pseudo-homophones sont
également utilisés pour étudier le décours temporel de l’activation des codes
phonologiques en production du langage à l’oral (Ferrand, Grainger, &
Segui, 1994) et à l’écrit (Bonin, Fayol, & Peereman, 1998). Plus récemment,
les pseudo-homophones ont été utilisés pour étudier les représentations
lexicales de mots ayant des prononciations variables (Bürki, Alario &
Frauenfelder, 2011).
Il est donc indispensable de disposer d’une base de pseudo-homophones
suivant les contraintes phonotactiques du français. Dans cet article, nous
présentons une liste de plus de 14 000 pseudo-homophones créés à partir
des règles que nous présentons en détail par la suite.
Si l’homophonie est possible en français, c’est parce qu’il peut exister
des graphies différentes correspondant à une même phonie (voir Catach,
1995). On conviendra d’appeler « graphie »1 un ensemble de graphèmes
consécutifs (par exemple, la graphie « CHATO » est composée de quatre
graphèmes « CH », « A », « T » et « O ») et « phonie » un ensemble de
phonèmes consécutifs (« ZatO »). On peut également considérer qu’un
pseudo-homophone se dérive à partir d’un mot existant, en utilisant une
représentation graphémique différente (une autre graphie) d’une même
phonie. Par exemple, à partir du mot : « sot », on peut construire le
1 Selon Catach (1995), la graphie d’une langue correspond à la manière d’écrire les sons ou les mots de cette langue,
sans référence à une norme ou au système de langue (par exemple, « cognoistre, connoistre, conoistre, connoître,
connètre, conètre, conaitre », etc., sont des graphies du mot « connaître » que l’on trouve effectivement dans
les textes anciens).
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
727
pseudo-homophone « seaut » puisque « eau » et « o » correspondent
à un même phonème. On pourrait tout aussi bien construire « saut »,
mais si « saut » est bien homophone de « sot », c’est également un
mot du français. On appellera donc « saut » mot homophone de « sot »
et « seaut » pseudo-homophone de « sot ». On pourrait également procéder
à la substitution du graphème « s » par le graphème « c » : « ceaut »
serait ici un pseudo-homophone à deux substitutions : seul le « t »
final, d’ailleurs non prononcé, reste en commun entre le mot et le
pseudo-homophone dérivé. On remarquera aussi que « seaut » et « ceaut »
peuvent être considérés comme homophones de l’ensemble des mots
homophones de « sot », à savoir « saut », « seau », « sceau » et leurs
pluriels.
Les pseudo-homophones (PHOM) présentent plusieurs avantages :
- ils se prononcent comme un (ou des) mot(s) réel(s), ayant une
(ou plusieurs) signification(s) : permettent-ils, perturbent-ils, voire
facilitent-ils l’accès lexical au mot réel, et si oui, auquel s’il y a
concurrence ? Par exemple, « seaut » va-t-il plutôt conduire, à effet
de contexte égal, vers un décodage de « sot », « seau », « saut » ou
« sceau » ? et qu’en serait-il de « ço » ou « çau » ?
- dans une certaine mesure, la recherche des pseudo-homophones
peut amener à construire un inventaire des erreurs de transcriptions
orthographiques des mots du langage oral. Ainsi, on pourrait
s’interroger sur la façon dont un apprenant du langage écrit parvient
à transcrire la phrase entendue oralement « le garçon portait un seau
trop lourd pour lui ». L’analyse des fautes respectant la prononciation
peut se révéler fort instructive sur l’accès à la « bonne » transcription,
correspondant à la convention orthographique fixée dans le langage
écrit (voir par exemple Delattre, Bonin, & Barry, 2006).
Il se pourrait que ces paradoxes soient au moins en partie, expliqués par
le fait que certaines associations phonies-graphies sont plus ou moins
souvent observées. On observe plus souvent le graphème « f » pour
transcrire le phonème « f » que la graphie « ph ». Si donc on obtient
un pseudo-homophone par substitution de « f » à « ph » (« foto ») ou
« ph » à « f » (« phacteur ») on peut s’interroger sur l’effet différent
que peut provoquer, dans l’accès lexical, par exemple, l’une ou l’autre
substitution.
L’année psychologique, 2011, 111, 725-751
728
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
L’utilisation des pseudo-homophones en
psycholinguistique : un marqueur classique du codage
phonologique en lecture silencieuse
L’effet de pseudo-homophonie dans la tâche de décision lexicale constitue
sans doute l’effet le plus ancien et le plus robuste en faveur de l’idée d’un
codage phonologique automatique dans la lecture silencieuse (voir Berent
& Perfetti, 1995 ; Ferrand, 2007 ; Frost, 1998 ; Grainger & Ziegler, 2007 ; Van
Orden & Kloos, 2005, pour des synthèses). Cet effet reflète le fait que des
pseudo-homophones sont plus difficiles à rejeter dans la tâche de décision
lexicale que ne le sont des pseudo-mots contrôles (non homophones). Par
exemple, les participants prennent significativement plus de temps et font
plus d’erreurs pour rejeter un pseudo-homophone comme « roze » (dérivé
de « rose ») que pour rejeter un pseudo-mot contrôle comme « rove ».
Cet effet de pseudo-homophonie a été observé pour la première fois
(en anglais) par Rubenstein, Lewis et Rubenstein (1971) et Coltheart,
Davelaar, Jonasson et Besner (1977). Cet effet de pseudo-homophonie a
également été utilisé comme un marqueur de l’activation phonologique
dans le développement de la lecture (Goswami, Ziegler, Dalton & Schneider,
2001) y compris chez les enfants sourds (Transler & Reitsma 2005). Il a
également été observé chez des enfants dans différentes langues comme
l’anglais (Johnston & Thompson 1989), le hollandais (Bosman & De
Groot) et l’allemand (Goswami et al., 2001). Les chercheurs en psychologie
développementale suggèrent que l’activation phonologique démontrée
par l’effet de pseudo-homophonie est une activation obligatoire et cela
dès le début de la reconnaissance des mots écrits. De plus, Goswami
et al. (2001) suggèrent que l’activation phonologique opère à des tailles
d’unités différentes selon l’orthographe de la langue considérée (consistante
vs. inconsistante). Cet effet de pseudo-homophonie apporte donc des
contraintes majeures pour les modèles computationnels de la reconnaissance des mots écrits (voir Diependaele, Ziegler, & Grainger, 2010 ;
Jacobs, Rey, Ziegler, & Grainger, 1998 ; Seidenberg, Petersen, McDonald,
& Plaut, 1996 ; Ziegler, Jacobs, & Klüppel, 2001).
Rubenstein et al. (1971) expliquent le ralentissement des temps de
traitement pour les pseudo-homophones par un conflit de réponses :
la représentation phonologique du pseudo-homophone favoriserait une
réponse positive alors que sa représentation orthographique favoriserait
une réponse négative. La résolution de ce conflit prendrait du temps. L’effet
de pseudo-homophonie suggère que les pseudo-homophones comme
« roze » seraient convertis en une représentation phonologique identique
à celle du mot réel (rose). Le pseudo-homophone n’est pas identifié comme
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
729
un mot car lorsqu’une représentation lexicale est activée, un mécanisme
de vérification orthographique serait déclenché. Le non-appariement
orthographique du pseudo-homophone et du mot activé conduirait au
rejet du pseudo-homophone comme n’étant pas un mot. Mais comme la
représentation phonologique du pseudo-homophone favorise une réponse
positive et sa représentation orthographique une réponse négative, cela
provoque un conflit et la résolution de ce conflit prend du temps.
Ceci expliquerait pourquoi les pseudo-homophones prennent plus de
temps que les pseudo-mots pour être classés comme n’étant pas des
mots. D’une manière générale, l’effet de pseudo-homophonie démontre
une activation phonologique obligatoire même au cours de la lecture
silencieuse.
Bien que les travaux antérieurs aient suggéré la possibilité que l’effet
de pseudo-homophonie soit dû à la similarité orthographique (par ex.,
Martin, 1982 ; Taft, 1982), des études plus récentes ont clairement établi
la nature véritablement phonologique de l’effet de pseudo-homophonie
ainsi que sa robustesse (par ex., Besner & Davelaar, 1983 ; Besner, Twilley,
McCann, & Seergobin, 1990 ; Braun, Hutzler, Ziegler, Dambacher, & Jacobs,
2009 ; Briesemeister, Hofman, Tamm, Kuchinke, Braun, & Jacobs, 2009 ;
Dennis, Besner & Davelaar, 1985 ; McCann, Besner, & Davelaar, 1988 ;
Rastle & Brysbaert, 2006 ; Stone & Van Orden, 1993 ; Van Orden, 1991 ;
Van Orden et al., 1992 ; Ziegler et al., 2001). Certains auteurs ont
également montré que l’effet de pseudo-homophonie était plus fort pour
des pseudo-homophones dérivés de mots de basse fréquence (par ex.,
Braun et al., 2009 ; Rubenstein et al., 1971 ; Ziegler et al., 2001).
Des travaux récents ont examiné l’effet de pseudo-homophonie en
décision lexicale à l’aide mesures électrophysiologiques (potentiels évoqués
ou PEVs ; Braun et al., 2009 ; Briesemeister et al., 2009). Ces travaux
montrent que l’activation phonologique issue des pseudo-homophones
intervient très tôt dans le traitement. Par exemple, Braun et al.
(2009) ont observé que les PEVs concernant les pseudo-homophones
dérivés des mots de basse fréquence différaient aussi précocement
que 150 msec (P150) après le début du stimulus par rapport aux
pseudo-mots contrôles non-homophones. Les auteurs considèrent la P150
comme la réponse électrophysiologique du cerveau au conflit entre
les représentations orthographique et phonologique en mémoire. Des
analyses du décours temporel montrent clairement que le marqueur
phonologique (l’effet de pseudo-homophonie) coexiste avec le marqueur
lexical (l’effet de fréquence des mots) et que ces effets sont observés
dans la même fenêtre temporelle (152-216 msec). Cela suggère que
L’année psychologique, 2011, 111, 725-751
730
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
l’activation phonologique intervient suffisamment tôt pour influencer
l’accès lexical.
D’autres travaux ont utilisé les pseudo-homophones sur des réponses
correctes ainsi que dans de nombreux paradigmes comme la tâche de
catégorisation sémantique et de jugement sémantique (Coltheart et al.,
1994 ; Jared & Seidenberg, 1991 ; Lesch & Pollatsek, 1998 ; Van Orden,
1987 ; Van Orden et al., 1988, 1992), la technique d’amorçage masqué
combinée à l’identification perceptive (Berent & Perfetti, 1995 ; Brysbaert,
2001 ; Grainger & Ferrand, 1994, 1996 ; Perfetti et al., 1988 ; Perfetti & Bell,
1991 ; Tan & Perfetti, 1999 ; Xu & Perfetti, 1999), la décision lexicale (Ashby,
Sanders & Kingston, 2009 ; Berent, 1997 ; Carreiras, Ferrand, Grainger &
Perea, 2005 ; Ferrand & Grainger, 1992, 1993, 1994, 1996 ; Frost et al., 2003
; Grainger & Ferrand, 1996 ; Grainger et al., 2003 ; Pollatsek et al., 2005 ;
Rastle & Brysbaert, 2006 ; Ziegler et al., 2000), la tâche de vérification de
phrases (Jared et al., 1999) ou de lecture de textes (Coltheart et al., 1988,
1991 ; Daneman & Stainton, 1991 ; Jared et al., 1999 ; Van Orden, 1991 ; Van
Orden et al., 1992), la tâche de détection de lettres (Ziegler & Jacobs, 1995 ;
Ziegler et al., 1997) et enfin le paradigme d’enregistrement des mouvements
des yeux (Folk, 1999 ; Jared et al., 1999 ; Lee et al., 1999 ; Rayner et al.,
1995, 1998). Ces nombreux travaux ont montré que la phonologie joue
un rôle crucial dans la lecture silencieuse (voir Ferrand, 2007, pour une
synthèse exhaustive). Ces preuves empiriques d’un codage phonologique
obligatoire et automatique au cours de la lecture silencieuse sont écrasantes
et ne cessent de s’accumuler. À notre connaissance, l’idée qu’une lecture
silencieuse sans activation phonologique soit possible n’a pas fait l’objet de
travaux probants (voir critique de Van Orden et al., 1990). Ces recherches
ont changé de façon importante notre conception de la lecture (Rastle &
Brysbaert, 2006 ; Van Orden & Kloos, 2005), de sorte que tout modèle
actuel de la lecture silencieuse n’incorporant pas un codage phonologique
automatique dans son architecture est de facto un modèle dépassé et non
viable (voir Ferrand, 2007).
Des travaux récents ont également examiné le décours temporel
de l’activation phonologique (et orthographique) à l’aide de l’imagerie
cérébrale (PEVs : Ashby, Sanders, & Kingston, 2009 ; Grainger, Kiyoniga,
& Holcomb, 2006 ; MEG : Wheat, Cornelissen, Frost, & Hansen, 2010).
Par exemple, Grainger et al. (2006) ont étudié le décours temporel des
codes orthographique et phonologique en amorçage avec masquage. Leurs
résultats montrent que le code orthographique est activé environ 50 msec
avant le code phonologique, même si ces deux codes sont activés très
précocement (ce qui confirme les données chronométriques de Ferrand &
Grainger, 1992, 1993). En utilisant la magnéto-encéphalographie combiné
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
731
au paradigme d’amorçage phonologique masqué (la tâche des sujets était
de lire silencieusement les mots cibles et de détecter la présence de
noms d’animaux), Wheat et al. (2010) ont montré un effet d’amorçage
pseudo-homophonique dès les premières 100 msec de traitement (voir
également Ashby et al., 2009, pour une démonstration similaire en
PEVs).
Utilisation des pseudo-homophones dans la lecture à
voix haute
Les pseudo-homophones ont également été utilisés pour étudier les
mécanismes impliqués dans la lecture à voix haute (voir Borowsky, Owen,
& Masson, 2002 ; Grainger, Spinelli, & Ferrand, 2000 ; Herdman, Lefevre,
& Greenham, 1994, 1996 ; Marmurek & Kwantes, 1996 ; McCann & Besner,
1987 ; Taft & Russell, 1992 ; voir Reynolds & Besner, 2005, et Kwantes
& Marmurek, 2007, pour des synthèses). En lecture à voix haute, l’effet
de pseudo-homophonie se traduit par une facilitation du traitement, de
sorte que les pseudo-homophones (comme « brane ») sont prononcés
significativement plus rapidement et plus correctement que des contrôles
orthographiques non-homophones (comme « brate » ; par ex., McCann &
Besner, 1987 ; Taft & Russell, 1992 ; voir Reynolds & Besner, 2005, pour
une synthèse). Cet effet de facilitation pseudo-homophonique en lecture
à voix haute montre que l’accès aux informations phonologiques lexicales
améliore la lecture des pseudo-mots pseudo-homophones.
Effets de fréquence des mots de base des
pseudo-homophones
De nombreux travaux ont également examiné l’effet de la fréquence du
mot de base des pseudo-homophones (fréquence du mot dont est issu
le pseudo-homophone) (voir par exemple Borowsky & Masson, 1999 ;
Grainger et al., 2000). La plupart des travaux ont examiné cet effet dans la
tâche de prononciation (voir Reynolds & Besner, 2005, pour une synthèse).
Certains ont trouvé que les pseudo-homophones dérivés de mots de haute
fréquence étaient prononcés plus rapidement que les pseudo-homophones
dérivés de mots de basse fréquence (par exemple, Taft & Russell, 1992).
Toutefois, lorsque les pseudo-homophones étaient mélangés avec des
non-mots dans le même bloc, l’effet de fréquence des mots de base devient
difficile à obtenir (par ex., Grainger et al., 2000 ; Herdman et al., 1996 ;
McCann & Besner, 1987 ; McCann et al., 1988 ; Seidenberg et al., 1996).
Dans la tâche de décision lexicale, certains ont trouvé des effets robustes
L’année psychologique, 2011, 111, 725-751
732
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
de la fréquence des mots de base (Van Orden, 1991 ; Van Orden et al.,
1992 ; mais voir McCann et al., 1988 ; Seidenberg et al., 1996). Des effets
de fréquence des mots de base ont également été observés dans des tâches
de catégorisation sémantique ainsi qu’en détection d’erreurs en lecture
naturelle (Van Orden et al., 1992) et dans la tâche de détection de lettres
(Ziegler, Van Orden, & Jacobs, 1997). Enfin, ces effets ont également été
obtenus dans la tâche de décision lexicale phonologique, dans laquelle les
sujets doivent décider si un non-mot se prononce comme un mot réel
ou non (par ex., Grainger et al., 2000 ; Taft & Russell, 1992). L’existence
d’un effet de fréquence des mots de base des pseudo-homophones a des
implications théoriques importantes pour les modèles de la lecture (voir en
particulier Reynolds & Besner, 2005 ; Ziegler et al., 2001, et Perry, Ziegler,
& Zorzi, 2007, pour plus de détails).
2. PROBLÉMES DE CONSTRUCTION DES
PSEUDO-HOMOPHONES
Le travail sur les substitutions permettant la construction de pseudohomophones pose de très nombreux problèmes. Si on recherche toutes
les façons de transcrire orthographiquement une unité phonétique, par
exemple ici le phonème « O » fermé (le « O » de « chapeau », opposé
au « o » ouvert de « aube » ou « robe »), va-t-on se limiter à l’inventaire
« o » et « au », en faisant intervenir la notion de lettres d’appui non
prononçables (ou non prononcées) pour exploiter « eau » « ot », « haut »
ou bien, au contraire, intégrera-t-on comme représentatives de la
transcription de « o », aussi bien « oc » (accroc, escroc . . .), que « ault »,
« haut », « aux », « os », « aud », « og » (« kilog »), « aux », etc. dont
l’inventaire est plus vaste, mais réalisable et, peut-être, utile pour certains
types de travaux ? Il faut donc pouvoir se donner les moyens de choisir
l’une ou l’autre approche : inventaire des formes alternatives associées
à des graphies dites « neutres » ou en opposition, analyse qui met en
correspondance une phonie donnée à toute graphie considérant toutes les
lettres comme représentatives de la phonie.
Par ailleurs, certaines formes orthographiques sont fortement associées
à des aspects morphologiques : une importante fonction que les
conventions graphiques, au-delà de la transcription phonologique, font
assurer à l’orthographe, est d’ordre grammatical au sens large : le « s »
en finale joue assez régulièrement le rôle d’indicateur du pluriel, les
terminaisons « ai » sont souvent verbales, comme le « ent » qui se prononce
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
733
comme le « e » muet phonétique et s’associe au pluriel troisième personne
(ils partent, elles chantent).
Il existe de nombreuses études comparées sur les systèmes orthographiques de différentes langues (par ex. Share, 2008). Elles montrent
que la relation phonie-graphie est plus ou moins complexe, plus directe en
russe, italien ou allemand qu’en français ou anglais, et ce n’est pas notre
propos d’aborder ces problèmes, nous nous contenterons de relever les
occurrences observables dans le français.
3. TRAVAUX PRÉALABLES À LA CONSTRUCTION
DES PSEUDO-HOMOPHONES
Nous avons vu précédemment que tout pseudo-homophone peut se
construire à partir d’un mot du français, même si tous les mots ne s’y
prêtent pas facilement : le mot « tube » par exemple, est un mauvais
candidat ; au mieux pourrait-on adjoindre un « h » avant ou après
le « u ».
Dans un premier temps, nous avons voulu créer un outil qui permette de
comptabiliser combien de fois, et avec quelle fréquence une représentation
graphique est associée à une forme phonique. Toutes ces recherches
statistiques sont basées sur l’utilisation de la base de données Lexique 3
(New, Brysbaert, Veronis, & Pallier, 2007 ; voir www.lexique.org).
Nous avons tout d’abord établi un sous-ensemble des 138 449 mots
répertoriés par Lexique 3 selon trois restrictions :
1. ne conserver que des mots ayant au minimum une fréquence de 1 par
million de mots. Cette première restriction amène à ne retenir que
34 536 mots qui, cependant, présentent près de 90 % des fréquences
cumulées ;
2. ne garder que des noms, adjectifs et adverbes ;
3. pour les noms et les adjectifs, ne retenir que les formes au singulier.
Après ces deux dernières restrictions, il ne reste que 6 679 mots, qui servent
de base à la construction des pseudo-homophones.
Il est en effet difficile de demander des jugements orthographiques
sur des mots rares. On ne peut pas facilement distinguer de faux mots
de mots non connus : un tissu peut-il être cambractile* et coruscant ?
Certains mots rares acceptent plus facilement plusieurs orthographes que
les mots fréquents : des formes doubles comme « clé » ou « clef » sont assez
L’année psychologique, 2011, 111, 725-751
734
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
exceptionnelles, alors que, par exemple, « esperluette » est aussi présent sous
la forme « esperluète » (et même « perluette » et « perluète »). Pour ce mot,
les pseudo-homophones suivant seraient othographiquement inacceptables
(« hespairluaite » ou « aispérluaite »), mais, généralement, la tolérance à la
variabilité orthographique est plus grande pour les mots rares.
Nous avons renoncé à la prise en considération des formes verbales
(malgré la forme ambiguë des adjectifs issus des participes passés : le temps
« retrouvé ») car cela permet d’éviter en grande partie les inconvénients
de la charge morphologique de certaines formes orthographiques. (-erai,
-erons, -ez, -es, -ent . . .). C’est d’ailleurs dans les formes orthographiques
de la morphologie qu’existent des exceptions à la règle de « quasi » injection
entre forme graphique vers forme phonique : alors que, de façon très
générale une graphie donnée correspond de façon unique à une forme
phonique, quelques exceptions existent (dont l’exemple classique : les
poules du couvent couvent). Alors que très souvent, il existe plusieurs
formes orthographiques associées à une représentation phonique (c’est
précisément ce qui nous permet de construire des pseudo-homophones).
De même, éviter les pluriels limite certains problèmes en syllabe finale,
et certaines disparités fréquentielles observées entre le singulier et le pluriel
d’un même mot.
4. PRINCIPES DE CONSTRUCTION DES
PSEUDO-HOMOPHONES
Le principe de construction des pseudo-homophones est assez simple :
lorsque, dans un mot nous trouvons un phonème traduit par une forme
graphique, alors qu’il existe dans d’autres mots, une forme graphique
différente (ou plusieurs) qui traduit le même phonème, cette substitution
est réalisée. Si cette opération ne conduit pas à fabriquer un autre mot, on
retient un pseudo-homophone comme résultat.
Nous prendrons, par exemple, le mot « silence ». Il offre plusieurs
possibilités :
substitution 1 : s→c : « cilence » ;
substitution 2 : i→y : « sylence » ;
substitution 3 : en→an: « silance » ;
substitution 4 : c→s : « silense ».
Nous avons réalisé ici une seule substitution à la fois. Il est aisé de voir
que, par combinatoire, à partir du mot « silence », on peut construire,
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
735
en plus des quatre pseudo-homophones à une seule substitution, six
pseudo-homophones en combinant 12, 13, 14, 23, 24, 34, quatre
pseudo-homophones en combinant trois substitutions (123, 124, 134, 234),
et, en dernier ressort, 1234, soit quinze pseudo-homophones à partir
d’un mot.
Le mot « silence » est particulièrement productif. D’autres mots
sont plus stériles : « par » ne peut guère qu’amener une forme
pseudo-homophone comme « pard », par ajout d’une lettre neutre, « d ».
(d’autres ajouts auraient donné des mots : « s » ou « t »). Mais il n’existe
pas de substitution possible.
Nous pensons aussi qu’il convient également de s’interroger sur l’effet
fréquentiel possible d’une substitution : nous avons donc calculé les
fréquences cumulées, au sein des 34 536 mots retenus, des mots où il
apparaît une association phonème graphème donnée, par exemple quand
un phonème « s » est représenté dans un mot par un graphème « c ».
Nous pourrons alors mettre cette fréquence cumulée en regard de celle
correspondant à l’association phonème « s » représenté par graphème
« s ». : Dans la langue écrite, représentée avec une excellente approximation
par le corpus qui sert de référence à la base Lexique 3 (New et al.
2007), pour traduire graphiquement le phonème « s », utilise-t-on plus
ou moins fréquemment le graphème « c » ou le graphème « s » ? La
comparaison des deux fréquences cumulées devrait donner un indice à
prendre en considération lors d’une substitution homophonique en jeu
dans la fabrication des pseudo-homophones.
5. INDICES ASSOCIÉS AUX SUBSTITUTIONS DE
GRAPHÉMES
Nous savons que la fréquence d’un mot est un des meilleurs prédicteurs
des temps de réaction associés au traitement de ce mot. Mais qu’en est-il
des pseudo-homophones ? On peut s’attendre à un effet fréquentiel de
la substitution, comme évoqué plus haut, venant moduler, en quelque
sorte, l’effet de la fréquence du mot de base. Ainsi, lorsqu’est réalisée une
substitution, nous avons construit deux types d’indices :
1. Le rapport fréquence cumulée de l’association phonème-graphème du
pseudo-homophone sur la fréquence cumulée de l’association phonèmegraphème orthographiquement correcte du mot de base. Ce rapport est
supérieur à 1 si l’association dans le pseudo-homophone est plus fréquente
que l’association dans le mot de base, et inférieure dans le cas contraire.
L’année psychologique, 2011, 111, 725-751
736
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
L’intérêt de ce type d’indice permet des questionnements comme par
exemple : dans une expérience avec amorçage, si on amorce la lecture de
la cible « zephyr » par le pseudo-homophone « zefir », qui compte une
voyelle « i », plus fréquemment associée au phonème « i » que la voyelle «
y », et une réalisation de phonème « f » sous la forme « f », elle aussi plus
fréquente que la graphie « ph », facilite-t-on le traitement de la cible ?
Cet indice sera désigné sous le nom de quotient coût/gain, ou Q.
2. Le rapport différence sur somme des fréquences : pour des raisons
de lecture, la différence sera négative, ainsi que le rapport, lorsque la
substitution se fait avec une association moins fréquente, et positive lorsque
la substitution se fait avec une association plus fréquente. (fréquence
substitution-fréquence base) (fréquence substitution + fréquence base). (La
différence est pondérée par la somme des deux fréquences pour relativiser son
importance). Cet indice sera désigné sous le nom de delta coût/gain, ou delta
On pourra lui préférer le rapport différence sur moyenne, (quotient
utilisé : la demi somme des fréquences).
On remarquera aussi que, par exemple, lorsqu’on substitue un
graphème « c » à un graphème « s », l’indice Q, décrit en 1., soit x, est
égal à l’inverse 1/y de l’indice obtenu lorsqu’on substitue un graphème
« s » à un graphème « c » ; et, de même, lorsqu’on substitue un
graphème « c » à un graphème « s », l’indice delta décrit en 2., soit
z, est égal à –t, t étant l’indice obtenu lorsqu’on substitue un graphème
« s » à un graphème « c ».
6. L’OUTIL DE CONSTRUCTION DES VALEURS
FRÉQUENTIELLES
La base de données Lexique 3 (New et al. 2007) nous a servi de référence
pour tous les outils que nous avons construits. Nous avons cependant
réalisé les aménagements suivants.
Pour la construction de l’outil de calcul des fréquences d’association
phonème-forme graphique, rappelons qu’il n’a été retenu que les mots dont
la fréquence « livres » (colonne 10 de Lexique 3 : « 10_freqlivres ») est égale
ou supérieure à 1. Ces 34 536 mots présentent près de 90 % des fréquences
cumulées.
Mise sous forme d’une feuille Excel 2007, dans cette base restreinte
recopiée de Lexique 3, il a été créé deux colonnes comprenant des fonctions
de recherche de la forme graphique et de la forme phonique. Quand les
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
737
deux formes sont repérées sur une même ligne (et, donc, pour un mot
donné) une colonne récupère la valeur de la fréquence « livres ». Quand
les deux formes que nous recherchons, et que nous documentons dans
la feuille de recherche, sont repérées sur une même ligne (et, donc, pour
un mot donné), une colonne récupère la valeur de la fréquence « livres ».
Pour ce faire, en tête de la base restreinte (aux valeurs de fréquences > 1),
on a introduit une zone de documentation, c’est-à-dire quelques lignes,
et, en particulier, une ligne de paramétrage, où on indique, dans deux
cellules-fenêtres, la forme phonétique (clé phon.) et la forme graphique (clé
ortho.) dont on souhaite repérer les occurrences. Lorsque ces deux cellules
sont renseignées, la somme des fréquences de cette association apparaît
dans une autre cellule fenêtre (voir Tableau 1).
Tableau 1. La zone documentation de la feuille « Fréquence des
associations ».
Nombre Clé
de mots ortho
34 536
ô
Clé
Somme Occurrences Somme Somme Autres
phon fréquences
graphies phonies phonies
O
2 524,18
128
128
5 154
5 026
7. LE CHOIX DES SUBSTITUTIONS EN JEU DANS LA
CONSTRUCTION DES PSEUDO-HOMOPHONES
Quelles substitutions sont possibles ? On remarquera tout d’abord que les
graphèmes « b », « d », « l », « m », « n », « p », « r », « t » sont
l’unique moyen de traduire un phonème correspondant, même si certains
se retrouvent présents dans des graphies où ils ont un rôle phonétiquement
neutre (plomb, bord, fils, fusil, muent, trop, tuer, toit . . .), le plus souvent,
sinon exclusivement, en finale.
Mais cette relation n’est pas complètement bijective : Le graphème « k »
ne traduit jamais que le phonème « k », mais celui-ci (voir plus loin)
peut être traduit par plusieurs graphèmes. Mêmes remarques pour les
graphèmes « f », « v » (parfois traduit par « w ») et « z ». « f » et « z »
ont souvent un rôle de neutre en finale. (clef, nez)
Nous allons examiner les phonèmes qui permettent les substitutions. De
nombreux problèmes se posent.
Phonème s : il peut se traduire par les formes graphiques « c », « ç », « s »
et « ss ». Ces formes graphiques connaissent des contraintes : le graphème
L’année psychologique, 2011, 111, 725-751
738
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
« c » ne peut pas transcrire le phonème « s » placé devant « a », « o » et « u »
(et les doublets « ai », « au », « ou »), puisque, dans ce cas, il transcrit le
phonème « k ». Si l’on veut forcer la transcription de « s », on utilisera « ç ».
« ç » ne s’emploie pas devant « e », « i » et « y ». Le graphème « s » traduit
le phonème « s » lorsqu’il n’est pas immédiatement précédé d’une voyelle.
Dans ce cas, il transcrit le phonème « z ». Pour forcer la transcription, il est
utilisé le doublement du « s » graphique (« ss »).
Phonème k : il peut se traduire principalement par les formes graphiques
« c », « k », « qu ». Plus rarement, on rencontre le groupe graphémique
« ch », généralement transcripteur du phonème « Z » (« cheu »), pour
transcrire le phonème « k » (chaos). On a vu que le graphème « c » transcrit
le phonème « k » devant les graphèmes « a », « o » et « u », et, parfois
en finale de mot (avec), mais pas toujours : parfois, il est une finale neutre
(tabac).
Le graphème « k » est moins problématique : il transcrit toujours le
phonème « k ».
Le groupe graphémique « qu » traduit le phonème « k » lorsqu’il précède
les graphèmes « a », « e », « i », « o ». Il n’est jamais en finale (« q »,
par contre, est possible (coq) et ne précède jamais une consonne). En
pratique, donc, on ne pourra pas proposer un pseudo-homophone comme
« qulapet » sur la base de « clapet », alors que « qualice » est acceptable).
Dans quelques formes d’origine latine, « qu » traduit la phonie « kw »
comme dans « quoi » (aquarium, équateur, équilatéral, mais équivalent
(phonème k), quatuor (phonie « kw ») mais quintette (phonème « k »).
Phonème f : trois transcriptions graphémiques : « f », « ff » et « ph ».
Le double f n’a pas de raisons phonémiques particulières. On pourra donc
aussi bien envisager une substitution « f » remplacé par « ph » que « ff »
remplacé par « ph ». Il n’y a pas de raison particulière de substituer à « ph »,
« ff » plutôt que « f », que l’on préférera, sauf si l’on tient à conserver le
même nombre de lettres entre le PHOM et le mot de base.
Phonème z : deux transcriptions sont possibles : le graphème « z » n’a
pas de contraintes particulières, même s’il est assez souvent utilisé en finale
muette (nez). Le graphème « s » transcrit le phonème « z » lorsqu’il est
placé entre deux voyelles (exception notable : alsace).
Phonème Z : une forme peu contrainte, le graphème « j », une forme
conditionnée, le graphème « g » qui transcrit le phonème « z » devant « e,
é, è, i et y ». Sinon, le graphème « g » transcrit le phonème « g » (« gare »).
Pour forcer la transcription « g » avec « é, è, e, i et y », on utilise la graphie
« gu » (gué, guy . . .).
Phonème i : Transcrit par le graphème « i » le plus généralement, mais
aussi le graphème « y », moins fréquent. Quelques emprunts à l’anglais
utilisent la double forme « ee ».
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
739
Phonème @ : se traduit par les groupes graphémiques « an » et « en ».
Phonème 5 : (« in » dans « fin ») : trois formes graphémiques : « in »,
« ain », « ein », en finale ou devant une consonne.
Phonème O : (dit o fermé) « vélo ». Il se traduit en graphème « o », ou
en graphie « au », et la variante avec le graphème « e » (ici « muet ») :
« eau » (échafaud, morçeau).
Phonème o : (dit o ouvert) « forme ». Traduit également par « o »
(« aphone »), ainsi que par « au » (faune).
Les deux phonèmes, « o » et « O », sont traduits par les mêmes formes,
mais pas avec les mêmes fréquences. Pour traduire le phonème « O » :
graphème « o » = 32 396 ; groupe graphémique « au » : 24 348 ; pour
traduire le phonème « o » : graphème « o » = 28 546 ; groupe graphémique
« au » : 233.
Plus en détail : « aum » ne traduit jamais « Om », et avec une fréquence
assez basse « om » : fréquences 106, pour 27 occurrences ; on évitera donc,
car très anti-naturelle dans les mots fréquents, la transcription « aum » et
son allure latine, dans les pseudo-homophones.
Phonème e (é fermé). Il est traduit par « é » (trouvé) ; par « ai »
pratiquement jamais (4 occurrences), un peu plus par « ei » (dans des
formes comme enseignant, ensoleillé)
Phonème E (è ouvert). Il est traduit par « è », mais aussi par « ai » (laine)
et « ei » (pleine). Il faut tenir compte que de fortes variantes régionales
existent : « balai » se prononce par la phonie « bale » ou « bale »
8. LES SUBSTITUTIONS RETENUES POUR
CONSTRUIRE LES PSEUDO-HOMOPHONES
Sur cette base, et en fonction des considérations qui précèdent, après
avoir éliminé des substitutions problématiques, nous avons construit un
tableau des substitutions que nous nous proposons de mettre en jeu (voir
Tableau 2). Les substitutions retenues ne devraient pas poser de problème
de lecture ni de conformité homophonique. Ce tableau comporte cinq
colonnes :
Colonne 1 : le phonème à transcrire ;
Colonne 2 : la graphie orthographiquement correcte dans le mot de base ;
Colonne 3 : la graphie substituée dans le pseudo-homophone ;
Colonne 4 : Le quotient coût/gain ;
Colonne 5 : Le delta coût/gain.
L’année psychologique, 2011, 111, 725-751
740
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
Tableau 2. Substitutions utilisées dans les pseudo-homophones.
phonème
graphie dans
mot de base
graphie dans
pseudo-homophones
s
c
s
2, 87
0,48
s
c
ss
0, 43
–0,40
s
s
c
0, 35
–0,48
s
ss
c
2, 31
0,40
s
ç
s
24, 24
0,92
s
ç
ss
3, 65
0,57
s
s
ç
0, 04
–0,92
s
ss
ç
0, 27
–0,57
k
c
k
0, 01
–0,99
k
c
qu
0, 49
–0,34
k
k
c
136, 24
0,99
k
k
qu
67, 07
0,97
k
qu
c
2, 03
0,34
k
qu
k
0, 01
–0,97
f
f
ph
0, 03
–0,94
f
ph
f
33, 58
0,94
z
z
s
20, 69
0,91
z
s
z
0, 05
–0,91
Z
g
j
1, 52
0,21
Z
j
g
0, 66
–0,21
i
i
y
0, 04
–0,92
i
y
i
24, 32
0,92
L’année psychologique, 2011, 111, 725-751
quotient
delta
Pseudo-homophones
741
Tableau 2. (Suite)
phonème
graphie dans
mot de base
graphie dans
pseudo-homophones
quotient
delta
@
an
en
1, 20
0,09
@
en
an
0, 83
–0,09
5
in
ain
0, 39
–0,44
5
in
ein
0, 08
–0,85
5
ain
in
2, 58
0,44
5
ain
ein
0, 22
–0,64
5
ein
in
11, 95
0,85
5
ein
ain
4, 63
0,64
o
au
o
122, 33
0,98
O
o
au
0, 75
–0,14
O
au
o
1, 33
0,14
E
è
ai
4, 71
0,65
E
è
ei
0, 25
–0,60
E
ai
è
0, 21
–0,65
E
ai
ei
0, 05
–0,90
E
ei
è
4, 03
0,60
E
ei
ai
18, 96
0,90
9. CONSTRUCTION DES PSEUDO-HOMOPHONES :
PRÉPARATION DU FICHIER
On a vu précédemment que le fichier extrait de Lexique 3 (New et al.,
2007), après réduction aux mots de fréquence supérieure ou égale à 1/1
000 000, ramenées aux seuls noms, adjectifs et adverbes, et en excluant les
formes plurielles, nous fournissait un ensemble de 6 679 mots de base. Cet
ensemble de mots comprend de 1 à 5 syllabes.
L’année psychologique, 2011, 111, 725-751
742
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
Il a été choisi de créer les substitutions par syllabe. Pour cela, Lexique 3
(New et al., 2007) est un excellent instrument, puisqu’il ventile en syllabes
aussi bien la forme graphique que la forme phonétique du mot.
Cependant, une adaptation est nécessaire : parfois, le découpage
syllabique sur les graphèmes n’est pas isomorphe à celui des phonèmes,
allant quelquefois jusqu’à ne pas décompter le même nombre de syllabes.
Il y a sans doute d’excellentes raisons à ce découpage non strictement
identique (voir Pallier, 1995), mais nous avons opté pour homogénéiser les
deux découpages, en privilégiant le découpage phonétique, et corrigeant le
découpage graphémique en fonction du découpage phonémique. On aurait
pu, plus restrictivement, éliminer les mots à découpage hétérogène.
Après cette préparation du fichier, et pour tous les mots, on applique
l’ensemble des 39 substitutions décrites dans le Tableau 2, d’abord pour la
première syllabe, ce qui nous fournit 39 listes (dont il est vrai, certaines
sont vides) de propositions de substitution. On procède de même, ensuite,
pour la deuxième syllabe (pour les mots qui ont 2 syllabes ou plus), puis la
troisième, quatrième et cinquième syllabes.
L’algorithme de substitution est simple :
– la syllabe examinée comporte-t-elle le phonème en jeu dans une
substitution ?
– si oui, présente-t-elle la graphie orthographique prévue dans la
substitution ?
– si oui, on remplace cette graphie par la graphie prévue dans la
substitution.
Il restera à examiner si le candidat pseudo-homophone :
- est bien prononçable à l’identique du mot de base.
Pour ce faire, nous avons utilisé notre « sentiment linguistique » (au sens
Chomskyen), qui le considère comme commun aux locuteurs d’une langue,
mais il faudrait, plus sérieusement, utiliser des juges pour une attestation
statistique moins subjective2 ;
2 Nous avons sélectionné 200 pseudo-homophones parmi les 14 000 pour les besoins d’une expérience de décision
lexicale. En utilisant la méthode des juges de Gibbs et Van Orden (1998, voir note 3), nous avons testé 10
participants dont la tâche était de prononcer les items (sans pression temporelle). Les résultats sont encourageants
car sur les 200 pseudohomophones, 9 juges sur 10 ont prononcé correctement 196 pseudo-homophones sur 200
(soit 98 % de bonnes réponses).
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
743
s’il n’est pas lui-même un mot.
Il suffit, pour ce faire, de confronter tout candidat pseudo-homophone
à la liste des 135 000 entrées de Lexique 3.
Si la forme obtenue n’a pas une allure morphologique inductrice d’une
forme autre que nom, adjectif, adverbe : par exemple, sentier >>> sentiai
(outre que « ai » est rarement graphisme du « é » ouvert) produit un
terme qui ressemble à une forme verbale. On a du, de plus, élider le « r
», qui ne garantissait plus l’identification phonologique vers « s@tje », mais
provoquant plutôt le décodage « s@tjiEr », qui cesse d’être homophone.
Une solution consiste à utiliser une forme « aie » : « sentiaie »
Cet examen ne peut être réalisé par un automatisme de façon simple.
Il faut donc relire et corriger les listes au moins en partie manuellement.
Si on peut s’aider efficacement d’Access ou du nouvel Excel (à partir de la
version 2007, qui permet de lire plus de 65 000 lignes, contrairement aux
versions plus anciennes), pour signaler si les formes produites sont des mots
du français, par contre, il n’existe pas de procédé simple pour proposer une
lecture d’un pseudo-homophone, autre que le « sentiment linguistique » tel
que l’évoque Chomsky3 .
On voit que ce procédé des substitutions automatisées laisse de
côté une source non négligeable de formation de pseudo-homophones :
celle qui utilise l’adjonction de lettres neutres phonétiquement. C’est
particulièrement vrai (mais pas uniquement) pour les finales : à partir de la
graphie « accroc », on peut engendrer « accrot », « accrod », (« accros » sera
refusé parce qu’il est admis comme mot).
10. LA BASE DES 14 000 PSEUDO-HOMOPHONES
Le résultat, qui vise à une certaine exhaustivité, après une première tentative
utilisable mais imparfaite, nous a amené à construire un ensemble de
pseudo-homophones (PHOM), sous forme d’un classeur Excel, qui permet
de décrire les différentes manières de les former. Chaque fois le mot de
base homophone est rappelé. D’autre part, chaque homophone présenté ne
comporte qu’une et une seule substitution.
3 Gibbs et Van Orden (1998) ont proposé une méthode pour tester la validité des pseudo-homophones. Cela
consiste à demander à 10 juges de prononcer les items et de déterminer le pourcentage de réponses correctes.
Seuls les items prononcés correctement par 9 juges sur 10 sont considérés comme de bons pseudo-homophones.
Une limitation de cette méthode est qu’elle est coûteuse en participants et il est difficile de tester les 14 000
pseudo-homophones de la présente base grâce à cette méthode. Une solution pour les expérimentations futures
serait d’effectuer une première sélection de pseudo-homophones pour une expérience donnée, et de tester la
validité de cette présélection.
L’année psychologique, 2011, 111, 725-751
744
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
Par exemple, pour le mot « silence », seuls les pseudo-homophones
« cilence », « sylence », « silance » et « silanse » seront présentés. Il
appartiendra à l’utilisateur désireux de réaliser plus d’une substitution
homophonique, de se référer aux principes de combinatoire tels qu’ils sont
décrits.
Dans chaque feuille :
-
la première colonne contient le mot de base ;
la deuxième, la fréquence (Freq) « livres » du mot de base ;
la troisième son nombre de lettres NL ;
la quatrième son nombre de syllabes, NS ;
la cinquième un des pseudo-homophones proposés, PHOM, sur
fond de couleur différent selon le numéro de syllabe où a lieu la
transformation ;
la sixième, le nombre de lettres du phom, NLT ;
la septième, le différentiel NLT-NL, DNL ;
la huitième, le numéro de syllabe de la transformation, NST. C’est
redondant avec la couleur de fond du PHOM ;
la neuvième, le type de transformation, TRANS ;
la dixième, le quotient associé à cette transformation, QT ;
la onzième, le delta, DT.
Voici l’exemple (Tableau 3) de lignes Excel et de l’en tête d’une feuille de la
base des pseudo-homophones.
Ici, les lignes du tableau sont classées ordre alphabétique des mots. Mais
on peut évidemment les classer en fonction de n’importe quelle colonne.
11. ÉVALUATION CRITIQUE ET LIMITES DE LA BASE
DES PSEUDO-HOMOPHONES
Il est à prévoir qu’à l’usage, un lecteur détectera des propositions de
transformation peu acceptables. Aussi est-il prévu des révisions régulières.
Dans l’état actuel, on en est à la révision 4.0 (intégration de la fréquence du
lemme le plus fréquent du mot de base), après des réalisations 1.0 et 1.1,
(formes brutes, plus une 1.2 non aboutie) et 2.2, puis 3.0 (mots issus du
latin en « um »)
L’année psychologique, 2011, 111, 725-751
ambulance
foie
silence
silence
silence
silence
Mot de base
9, 26
76, 49
313, 24
313, 24
313, 24
313, 24
Freq
9
4
7
7
7
7
NL
3
1
2
2
2
2
NS
ambulence
phoie
cilence
sylence
silance
silense
PHOM
9
5
7
7
7
7
NLT
0
1
0
0
0
0
DNL
5
1
1
1
2
2
NST
an/en
f/ph
s/c
i/y
en/an
c/s
TRANS
Tableau 3. Exemple de la base des pseudo-homophones
1, 205
0, 03
0, 35
0, 04
0, 83
2, 87
QT
0, 09
−0, 92
−0, 48
−0, 92
−0, 09
0, 48
DT
Pseudo-homophones
745
L’année psychologique, 2011, 111, 725-751
746
Fernand Farioli
r Jonathan Grainger r Ludovic Ferrand
La combinaison de plusieurs transformations n’y figure pas. Cela aurait
fortement alourdi la taille du dictionnaire, et on peut facilement le réaliser
par la suite.
On peut se demander si les choix qui limitent à 6 679 mots de
base génériques des pseudo-homophones ne sont pas trop restrictifs,
ou, au contraire, si on ne devrait pas se cantonner aux seuls noms
au singulier. Cependant, grâce à la forme paramétrable des outils de
construction, on peut faire évoluer la base vers d’autres formes, et d’autres
investigations.
Les calculs de fréquence reposent sur les fréquences « livres » de Lexique
3 (New et al. 2007). Nous avons réalisé il y a peu une liste de mots dont
la fréquence « livres » ou « films » n’est pas trop différente. Ce sont peut
être des mots équilibrés de la sorte qui pourraient servir de base à ce
dictionnaire.
Par ailleurs, et pour des besoins spécifiques, nous avons deux logiciels
qui permettent de tester et de calculer les paramètres d’occurrence, de
fréquence « livres », de fréquence « films » dans Lexique 3 (New et al.
2007) et qui permettent de travailler sur l’association de deux graphies à
une phonie et deux phonies à une graphie (plus rare).
Nous avions songé, en un temps, à réaliser un outil qui, pour un mot
donné, permette de trouver tous ses homophones4 . Mais la plupart des
utilisateurs potentiels de pseudo-homophones ont besoin de constituer
des listes, et il est plus aisé d’aller chercher dans la base, convenablement
réarrangé par les tris rendus possibles dans sa forme Excel, le matériel
correspondant aux critères recherchés.
Nous allons également essayer de concevoir, dans un futur proche,
un outil qui permette de créer facilement des pseudo-homophones
comportant plus d’une substitution. On peut déjà repérer les mots de
base génériques, présents en plusieurs exemplaires dans le dictionnaire,
et qui, donc, permettent plusieurs substitutions. Mais le problème du
systématisme est complexe : il y a, en effet, des substitutions concurrentes
ou combinables : (sylence, cilence, cylence) dans une même syllabe, et des
substitutions combinables en utilisant plusieurs syllabes. (sy lan se). D’autre
part, comment, alors, faudrait-il combiner les indices Q et delta ? pour
Q, on pourrait imaginer effectuer par exemple le produit des Q associés
à chaque substitution, pour delta, effectuer le quotient de la somme des
numérateurs (différence des fréquences) par la somme des dénominateurs
(somme des fréquences).
4 C’est l’approche adoptée par Rastle, Harrington et Coltheart (2002) pour la création de non-mots, donnant au
final pas moins de 358 534 non-mots monosyllabiques et 48 534 pseudo-homophones monosyllabiques !
L’année psychologique, 2011, 111, 725-751
Pseudo-homophones
747
La présente base de pseudo-homophones (PHOM) constitue une première version qui sera amenée à évoluer. La forme papier occupe 235 pages.
La forme la plus manipulable est sous la forme d’une feuille de tableur.
La base de pseudo-homophones (PHOM) est accessible gratuitement à
l’adresse suivante : http://sites.google.com/site/ludovicferrand/Home/data.
Reçu le 17 octobre 2010.
Révision acceptée le 17 février 2011.
BIBLIOGRAPHIE
Ashby, J., Sanders, L. D., & Kingston,
J. (2009). Skilled readers begin processing
of sub-phonemic features by 80 ms during
visual word recognition: Evidence from
ERPs. Biological Psychology, 80, 84-94.
Berent, I. (1997). Phonological priming in
the lexical decision task: Regularity effects
are not necessary evidence for assembly.
Journal of Experimental Psychology: Human
Perception and Performance, 23, 1727-1742.
Berent, I., & Perfetti, C. A. (1995). A
Rose is a REEZ: The two-cycles model of
phonology assembly in reading English.
Psychological Review, 102, 146-184.
Besner, D., & Davelaar, E. (1983). Suedohomofoan effects in visual word recognition: Evidence for phonological processing. Canadian Journal of Psychology, 37,
300-305.
Besner, D., Twilley, L., McCann, R. S., &
Seergobin, K. (1990). On the association
between connectionism and data: Are a few
words necessary? Psychological Review, 97,
432-446.
Bonin, P., Fayol, M., & Peereman, R.
(1998). Masked form priming in writing
words from pictures: Evidence for direct
retrieval of orthographic codes. Acta Psychologica, 99, 311-328.
Borowsky, R., & Masson, M. E. J. (1999).
Frequency effects and lexical access: On the
interpretation of null pseudo-homophone
base-word frequency effects. Journal of
Experimental Psychology: Human Perception & Performance, 25, 270-275.
Borowsky, R., Owen, W. J., & Masson,
M. E. J. (2002). Diagnostics of phonological lexical processing: Pseudohomophone
naming advantages, disadvantages, and
base-word frequency effects. Memory &
Cognition, 30, 969-987.
Bosman, A. M. T., & De Groot, A. M. B.
(1996). Phonologic mediation is fundamental to reading: Evidence from beginning readers. Quarterly Journal of Experimental Psychology, 49A, 715-744.
Braun, M., Hutzler, F., Ziegler, J. C.,
Dambacher, M., & Jacobs, A. J. (2009).
Pseudohomophone effects provide evidence of early lexico-phonological processing in visual word recognition. Human
Brain Mapping, 30, 1977-1989.
Briesemeister, B. B., Hofmann, M. J.,
Tamm,
S., Kuchinke,
L., Braun,
M., & Jacobs,
A. M. (2009). The
pseudo-homophone
effect:
Evidence
for an orthography-phonology conflict.
Neuroscience Letters, 455, 124-128.
Brysbaert, M. (2001). Prelexical phonological coding of visual words in Dutch:
Automatic after all. Memory & Cognition,
29, 765-773.
Bürki, A., Alario, F. X., & Frauenfelder,
U. H. (2011). Lexical representation of
L’année psychologique, 2011, 111, 725-751
748
Fernand Farioli
phonological variants: Evidence from
pseudo-homophone effects in different
regiolects. Journal of Memory and
Language, 64, 424-442.
Carreiras, M., Ferrand, L., Grainger, J.,
& Perea, M. (2005). Sequential effects of
phonological priming in visual word recognition. Psychological Science, 16, 585-589.
Catach, N. (1995). L’orthographe Française.
Paris : Nathan Université.
Coltheart, M., Davelaar, E., Jonasson, J. T.,
& Besner, D. (1977). Access to the internal
lexicon. In S. Dornic (Ed.), Attention and
Performance VI (pp. 535-555). London:
Academic Press.
Coltheart, M., Rastle, K., Perry, C.,
Langdon, R., & Ziegler, J. (2001). DRC: A
Dual Route Cascaded model of visual word
recognition and reading aloud. Psychological Review, 108, 204-256.
Coltheart, V., Laxon, V., Rickard, M., &
Elton, C. (1988). Phonological recoding in
reading for meaning by adults and children.
Journal of Experimental Psychology: Learning, Memory and Cognition, 14, 387-397.
Coltheart, V., Avons, S. E., Masterson, J.,
& Laxon, V. J. (1991). The role of assembled phonology in reading comprehension.
Memory and Cognition, 19, 387-400.
Coltheart, V., Patterson, K., & Leahy, J.
(1994). When a ROWS is a ROSE: Phonological effects in written word comprehension. Quarterly Journal of Experimental
Psychology, 47A, 917-955.
Daneman, M., & Stainton, M. (1991).
Phonological recoding in silent reading.
Journal of Experimental Psychology: Learning, Memory and Cognition, 17, 618-632.
Delattre, M., Bonin, P. & Barry, C. (2006).
Written spelling to dictation: Sound-tospelling regularity affects both writing
latencies and durations. Journal of Experimental Psychology: Learning, Memory, and
Cognition, 32, 1330-1340.
Dennis, I., Besner, D., & Davelaar, E.
(1985). Phonology in visual word recognition: Their is more than meats the I. In D.
L’année psychologique, 2011, 111, 725-751
r Jonathan Grainger r Ludovic Ferrand
Besner, T. G. Waller, & G. E. MacKinnon
(Eds.), Reading research: Advances in theory
and practice, Vol. V. New York: Academic
Press.
Diependaele, K., Ziegler, J., & Grainger,
J. (2010). Fast phonology and the bimodal interactive activation model. European Journal of Cognitive Psychology, 22,
764-778.
Ferrand, L. (1999). 640 homophones
et
leurs
caractéristiques.
L’Année
psychologique, 99, 687-708.
Ferrand, L. (2007). Psychologie Cognitive
de la lecture. Processus de base de la
reconnaissance des mots écrits chez l’adulte.
Bruxelles : De Boeck Université.
Ferrand, L., & Grainger, J. (1992). Phonology and orthography in visual word recognition: Evidence from masked nonword
priming. Quarterly Journal of Experimental
Psychology, 45A, 353-372.
Ferrand, L., & Grainger, J. (1993). The
time course of orthographic and phonological code activation in the early phases
of visual word recognition. Bulletin of the
Psychonomic Society, 31, 119-122.
Ferrand, L., & Grainger, J. (1994). Effects
of orthography are independent of phonology in masked form priming. Quarterly
Journal of Experimental Psychology, 47A,
365-382.
Ferrand, L., & Grainger, J. (1996).
List context effects on masked phonological priming in the lexical decision
task. Psychonomic Bulletin & Review, 3,
515-519.
Ferrand, L., Grainger, J., & Segui, J.
(1994). A study of masked form priming
in picture and word naming. Memory &
Cognition, 22, 431-441.
Folk, J. R. (1999). Phonological codes are
used to access the lexicon during silent
reading. Journal of Experimental Psychology: Learning, Memory and Cognition, 25,
892-906.
Frost, R. (1998). Toward a strong phonological theory of visual word recognition:
Pseudo-homophones
True issues and false trails. Psychological
Bulletin, 123, 71-99.
Frost, R., Ahissar, M., Gotesman, R.,
& Tayeb, S. (2003). Are phonological
effects fragile? The effect of luminance and
exposure duration on form priming and
phonological priming. Journal of Memory
and Language, 48, 346-378.
Goswami, U., Ziegler, J. C., Dalton, L., &
Schneider, W. (2001). Pseudohomophone
effects and phonological recoding procedures in reading development in English
and German. Journal of Memory and Language, 45, 648-664.
Grainger, J., Diependaele, K., Spinelli,
E., Ferrand, L., & Farioli, F. (2003).
Masked repetition and phonological
priming within and across modalities.
Journal of Experimental Psychology:
Learning, Memory, and Cognition, 29,
1256-1269.
Grainger, J., & Ferrand, L. (1994).
Phonology and orthography in visual word
recognition: Effects of masked homophone
primes. Journal of Memory and Language,
33, 218-233.
Grainger, J., & Ferrand, L. (1996). Masked
orthographic and phonological priming
in visual word recognition and naming:
Cross-task comparisons. Journal of Memory
and Language, 35, 623-647.
Grainger, J., Kiyonaga, K., & Holcomb, P.J.
(2006). The time-course of orthographic
and phonological code activation. Psychological Science, 17, 1021-1026.
Grainger, J., Spinelli, E., & Ferrand, L.
(2000). Effects of baseword frequency and
orthographic neighborhood size in pseudohomophone naming. Journal of Memory
and Language, 42, 88-102.
Grainger, J. & Ziegler, J. (2007). Crosscode consistency effects in visual word
recognition. In E. L. Grigorenko & A.
Naples (Eds.) Single-word reading: Biological and behavioral perspectives (pp.
129-157). Mahwah, NJ: Lawrence Erlbaum
Associates.
749
Herdman, C. M., Lefevre, J.-A., &
Greeham, S. L. (1994). Implicating the
lexicon: Base-word frequency effects in
pseudo-homophone naming. Journal of Experimental Psychology: Human Perception
and Performance, 20, 575-590.
Herdman, C. M., Lefevre, J.-A., & Greeham, S. L. (1996). Base-word frequency
and pseudo-homophone naming. Quarterly Journal of Experimental Psychology,
49A, 1044-1061.
Jacobs, A. M., Rey, A., Ziegler, J.
C., & Grainger, J. (1998). MROMp:
An interactive activation multiple readout
model of orthographic and phonological
processes in visual word recognition. In
J. Grainger & A.M. Jacobs (Eds.). Localist
connectionist approaches to human cognition
(pp. 147-188). Mahwah, NJ, USA: Lawrence
Erlbaum Associates.
Jared, D., & Seidenberg, M. S. (1991).
Does word identification proceed from
spelling to sound to meaning? Journal
of Experimental Psychology: General, 120,
358-394.
Jared, D., Levy, B. A., & Rayner, K. (1999).
The role of phonology in the activation of
word meanings during reading: Evidence
from proofreading and eye movements.
Journal of Experimental Psychology: General,
128, 219-264.
Johnston,
R. S., & Thompson,
B.
G. (1989). Is dependence on phonological information in children’s reading a
product of instructional approach? Journal of Experimental Child Psychology, 48,
131-145.
Kwantes, P. J., & Marmurek, H. H.
(2007). Controlling lexical contributions to
the reading of pseudo-homophones. Psychonomic Bulletin & Review, 14, 373-378.
Lee, Y.-A., Binder, K. S., Kim, J.-O., Pollatsek, A., & Rayner, K. (1999). Activation of
phonological codes during eye fixations in
reading. Journal of Experimental Psychology:
Human Perception and Performance, 25,
948-964.
L’année psychologique, 2011, 111, 725-751
750
Fernand Farioli
Lesch, M. F., & Pollatsek, A. (1998). Evidence for the use of assembled phonology
in accessing the meaning of printed words.
Journal of Experimental Psychology: Learning, Memory and Cognition, 24, 573-592.
Marmurek, H. H., & Kwantes, P. J. (1996).
Reading words and wirds: Phonology and
lexical access. Quarterly Journal of Experimental Psychology, 49A, 696-714.
Martin,
R. C. (1982). The pseudohomophone effect: The role of visual
similarity in nonword decisions. Quarterly
Journal of Experimental Psychology, 34A,
395-409.
McCann, R. S., & Besner, D. (1987). Reading pseudo-homophones: Implications for
models of pronunciation assembly and the
locus of word-frequency effects in naming.
Journal of Experimental Psychology: Human
Perception and Performance, 13, 14-24.
McCann, R. S., Besner, D., & Davelaar, E. (1988). Word recognition and
identification: Do word-frequency effects
reflect lexical access? Journal of Experimental Psychology: Human Perception and
Performance, 14, 693-706.
New, B., Brysbaert, M., Veronis, J.,
& Pallier, C. (2007). The use of film
subtitles to estimate words frequencies:
Applied Psycholinguistics, 28, 661-677.
Pallier, C. (1995). Rôle de la syllabe dans
la perception de la parole: études attentionnelles. PhD thesis. Paris : École des hautes
études en sciences sociales.
Perfetti, C. A., & Bell, L. (1991). Phonemic
activation during the first 40 ms of word
identification: Evidence from backward
masking and masked priming. Journal of
Memory and Language, 30, 473-485.
Perfetti, C. A., Bell, L., & Delaney,
S. (1988). Automatic phonetic activation
in silent word reading: Evidence from
backward masking. Journal of Memory and
Language, 27, 59-70.
Perry, C., Ziegler, J. C., & Zorzi, M. (2007).
Nested incremental modelling in the development of computational theories: The
L’année psychologique, 2011, 111, 725-751
r Jonathan Grainger r Ludovic Ferrand
CDP+ model of reading aloud. Psychological Review, 114, 273-315.
Pollatsek, A., Perea, M., & Carreiras, M.
(2005). Does conalprime CANAL more than
cinal? Masked phonological priming effects
in Spanish with the lexical decision task.
Memory & Cognition, 33, 557-565.
Rastle, K., & Brysbaert, M. (2006). Masked
phonological priming effects in English:
Are they real? Do they matter? Cognitive
Psychology, 53, 97-145.
Rastle, K., Harrington, J., & Coltheart, M. (2002). 358, 534 nonwords:
the ARC nonword database. Quarterly
Journal of Experimental Psychology, 55,
1339-1362.
Rayner, K., Pollatsek, A., & Binder, K. S.
(1998). Phonological codes and eye movements in reading. Journal of Experimental
Psychology: Learning, Memory, & Cognition,
24, 476-497.
Rayner, K., Sereno, S. C., Lesch, M. F.,
& Pollatsek, A. (1995). Phonological codes
are automatically activated during reading:
Evidence from an eye movement priming
paradigm. Psychological Science, 6, 26-30.
Reynolds, M., & Besner, D. (2005).
Basic processes in reading: A critical review
of pseudo-homophone effects in reading aloud and a new computational account. Psychonomic Bulletin & Review, 12,
622-646.
Rubenstein, H., Lewis, S. S., & Rubenstein,
M. (1971). Evidence for phonemic coding
in visual word recognition. Journal of Verbal
Learning and Verbal Behavior, 10, 645-657.
Seidenberg,
M. S., Petersen,
A.,
MacDonald, M. C., & Plaut, D. C.
(1996). Pseudohomophone effects and
models of word recognition. Journal
of Experimental Psychology: Learning,
Memory, and Cognition, 22, 48-62.
Share, D. L. (2008). On the Anglocentricities of current reading research and
practice: The perils of overreliance on an
“outlier” orthography: Psychological Bulletin, 134, 584-615.
Pseudo-homophones
Stone, G. O., & Van Orden, G. C.
(1993). Strategic control of processing in
word recognition. Journal of Experimental
Psychology: Human Perception and Performance, 19, 744-774.
Taft,
M. (1982). An alternative to
grapheme-phoneme conversion rules?
Memory & Cognition, 15, 181-198.
Taft, M., & Russell, B. (1992). Pseudohomophone naming and the word frequency
effect. Quarterly Journal of Experimental
Psychology, 45A, 51-71.
Tan, L. H., & Perfetti, C. A. (1999).
Phonological and associative inhibition in
the early stages of English word identification: Evidence from backward masking.
Journal of Experimental Psychology: Human
Perception and Performance, 25, 59-69.
Transler, C., & Reitsma, P. (2005).
Phonological coding in reading of deaf children: pseudo-homophone effects in lexical
decision. British Journal of Developmental
Psychology, 23, 525-542.
Van Orden, G. C. (1987). A ROWS
is a ROSE: Spelling, sound and reading.
Memory and Cognition, 15, 181-198.
Van Orden, G. C., Pennington, B. F., &
Stone, G. O. (1990). Word identification
in reading and the promise of subsymbolic
psycholinguistics. Psychological Review, 97,
488-522.
Van Orden, G. C. (1991). Phonological
mediation is fundamental to reading. In
Besner, D., & Humphreys, G. W. (Eds.).
Basic Processes in Reading. Visual Word
Recognition (pp. 238-255). Hillsdale, NJ:
Lawrence Erlbaum.
Van Orden, G. C., Johnston, J. C., &
Hale, B. L. (1988). Word indentification in
reading proceeds from spelling to sound to
meaning. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14,
371-386.
Van Orden, G. C., & Kloos, H. (2005).
The question of phonology and reading.
751
In M.S., Snowling & C. Hulme (Eds.), The
Science of Reading: A Handbook (pp. 61-78).
London: Blackwell Publishing.
Van Orden, G. C., Stone, G. O., Garlington, K. L., Markson, L. R., Pinnt,
G. S., Simonfy, C. M., & Brichetto,
T. (1992). “Assembled“ phonology and
reading: A case study in how theoretical
perspective shapes empirical investigation.
In R. Frost & L. Katz (Eds.), Orthography,
Phonology, Morphology, and Meaning (pp.
249-292). North Holland: Elsevier Science
Publishers.
Wheat, K. L., Cornelissen, P. L., Frost, S.
J., & Hansen, P. C. (2010). During visual
word recognition, phonology is accessed
within 100 ms and may be mediated
by a speech production code: Evidence
from magnetoencephalography. Journal of
Neuroscience, 30, 5229-5233.
Xu, B., & Perfetti, C. A. (1999). Nonstrategic subjective threshold effects in phonemic
masking. Memory & Cognition, 27, 26-36.
Ziegler, J. C., Ferrand, L., Jacobs, A.
M., Rey, A., & Grainger, J. (2000). Visual
and phonological codes in letter and word
recognition: Evidence from incremental
priming. Quarterly Journal of Experimental
Psychology, 53A, 671-692.
Ziegler, J. C., & Jacobs, A. M. (1995).
Phonological information provides early
sources of constraint in the processing
of letter strings. Journal of Memory and
Language, 34, 567-593.
Ziegler, J. C., Jacobs, A. M., & Klüppel,
D. (2001). Pseudohomophone effects in
lexical decision: Still a challenge for current
word recognition models. Journal of Experimental Psychology: Human Perception and
Performance, 27, 547-559.
Ziegler, J. C., Van Orden, G. C., & Jacobs,
A. M. (1997). Phonology can help or hurt
the perception of print. Journal of Experimental Psychology: Human Perception and
Performance, 23, 845-860.
L’année psychologique, 2011, 111, 725-751