PHOM : une base de données de 14 000 pseudo
Transcription
PHOM : une base de données de 14 000 pseudo
PHOM : une base de données de 14 000 pseudo-homophones 1∗ 1∗ Fernand Farioli , Jonathan Grainger et Ludovic Ferrand2 1 CNRS et Aix-Marseille Université, Marseille 2 CNRS et Université Blaise Pascal, Clermont-Ferrand RÉSUMÉ Les pseudo-homophones (c’est-à-dire, suite de lettres qui se prononcent comme un mot réel, comme « siel » à partir de « ciel ») jouent un rôle important dans les expériences psycholinguistiques, soit parce qu’ils sont utilisés dans l’exécution de tâches de décision lexicale, ou qu’ils deviennent le principal objet d’étude, comme dans la lecture de non-mots. Nous présentons une base de données, PHOM, de plus de 14 000 pseudo-homophones du français. Nous décrivons également un générateur qui améliore les méthodes habituelles de construction. Il permet la fabrication de pseudo-homophones qui respectent les contraintes phonotactiques du français. La base de données est librement disponible sur le site web : http://sites.google.com/site/ludovicferrand/Home/data. PHOM: A database of 14,000 pseudo homophones ABSTRACT Pseudo-homophones (i.e., novel letter strings that can be pronounced like real words, i.e., “brane“ from “brain“) play an important role in psycholinguistic experiments, since they can be used to uncover basic mechanisms associated with the role of phonology in silent reading and reading aloud. We present a database of more than 14,000 French pseudo-homophones that respect the phonotactic constraints of French. We also describe our pseudo-homophone generator that can be used to generate pseudo-homophones that obey French phonotactic constraints. The database is freely available on the following website http://sites.google.com/site/ludovicferrand/Home/data. ∗ Correspondance : Fernand Farioli ou Jonathan Grainger, Laboratoire de Psychologie Cognitive, Université de Provence, CNRS-UMR 6146 Pôle 3C, Bâtiment 9, Case D, 3 Place Victor Hugo, 13331 Marseille Cedex 3. Email : [email protected] ; [email protected] Cet article a suivi la procédure habituelle d’expertise, Édouard Gentaz ayant géré entièrement la procédure (du choix des experts à la décision éditoriale finale). L’année psychologique, 2011, 111, 725-751 726 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand 1. INTRODUCTION Dans la langue française, il existe de nombreux mots homophones qui se prononcent de la même manière mais qui ne partagent pas la même orthographe ni la même signification (c’est le cas par exemple de « sot », « seau », « saut » et « sceau » ; voir en particulier Ferrand, 1999, pour une liste exhaustive des homophones du français). En psycholinguistique, on définit également les « pseudo-homophones » comme des suites de lettres nouvelles qui se prononcent comme des mots du français, mais dont la forme orthographique ne correspond pas à un mot légal en français. Par exemple, « kafé » et « caphé » se prononcent comme le mot « café », mais ne sont pas des mots du français. Les pseudo-homophones sont fréquemment utilisés en psycholinguistique pour étudier l’influence de la phonologie en lecture silencieuse (voir Ferrand, 2007 pour une synthèse) et en lecture à voix haute (voir Reynolds & Besner, 2005 pour une synthèse). Les pseudo-homophones sont également utilisés pour étudier le décours temporel de l’activation des codes phonologiques en production du langage à l’oral (Ferrand, Grainger, & Segui, 1994) et à l’écrit (Bonin, Fayol, & Peereman, 1998). Plus récemment, les pseudo-homophones ont été utilisés pour étudier les représentations lexicales de mots ayant des prononciations variables (Bürki, Alario & Frauenfelder, 2011). Il est donc indispensable de disposer d’une base de pseudo-homophones suivant les contraintes phonotactiques du français. Dans cet article, nous présentons une liste de plus de 14 000 pseudo-homophones créés à partir des règles que nous présentons en détail par la suite. Si l’homophonie est possible en français, c’est parce qu’il peut exister des graphies différentes correspondant à une même phonie (voir Catach, 1995). On conviendra d’appeler « graphie »1 un ensemble de graphèmes consécutifs (par exemple, la graphie « CHATO » est composée de quatre graphèmes « CH », « A », « T » et « O ») et « phonie » un ensemble de phonèmes consécutifs (« ZatO »). On peut également considérer qu’un pseudo-homophone se dérive à partir d’un mot existant, en utilisant une représentation graphémique différente (une autre graphie) d’une même phonie. Par exemple, à partir du mot : « sot », on peut construire le 1 Selon Catach (1995), la graphie d’une langue correspond à la manière d’écrire les sons ou les mots de cette langue, sans référence à une norme ou au système de langue (par exemple, « cognoistre, connoistre, conoistre, connoître, connètre, conètre, conaitre », etc., sont des graphies du mot « connaître » que l’on trouve effectivement dans les textes anciens). L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 727 pseudo-homophone « seaut » puisque « eau » et « o » correspondent à un même phonème. On pourrait tout aussi bien construire « saut », mais si « saut » est bien homophone de « sot », c’est également un mot du français. On appellera donc « saut » mot homophone de « sot » et « seaut » pseudo-homophone de « sot ». On pourrait également procéder à la substitution du graphème « s » par le graphème « c » : « ceaut » serait ici un pseudo-homophone à deux substitutions : seul le « t » final, d’ailleurs non prononcé, reste en commun entre le mot et le pseudo-homophone dérivé. On remarquera aussi que « seaut » et « ceaut » peuvent être considérés comme homophones de l’ensemble des mots homophones de « sot », à savoir « saut », « seau », « sceau » et leurs pluriels. Les pseudo-homophones (PHOM) présentent plusieurs avantages : - ils se prononcent comme un (ou des) mot(s) réel(s), ayant une (ou plusieurs) signification(s) : permettent-ils, perturbent-ils, voire facilitent-ils l’accès lexical au mot réel, et si oui, auquel s’il y a concurrence ? Par exemple, « seaut » va-t-il plutôt conduire, à effet de contexte égal, vers un décodage de « sot », « seau », « saut » ou « sceau » ? et qu’en serait-il de « ço » ou « çau » ? - dans une certaine mesure, la recherche des pseudo-homophones peut amener à construire un inventaire des erreurs de transcriptions orthographiques des mots du langage oral. Ainsi, on pourrait s’interroger sur la façon dont un apprenant du langage écrit parvient à transcrire la phrase entendue oralement « le garçon portait un seau trop lourd pour lui ». L’analyse des fautes respectant la prononciation peut se révéler fort instructive sur l’accès à la « bonne » transcription, correspondant à la convention orthographique fixée dans le langage écrit (voir par exemple Delattre, Bonin, & Barry, 2006). Il se pourrait que ces paradoxes soient au moins en partie, expliqués par le fait que certaines associations phonies-graphies sont plus ou moins souvent observées. On observe plus souvent le graphème « f » pour transcrire le phonème « f » que la graphie « ph ». Si donc on obtient un pseudo-homophone par substitution de « f » à « ph » (« foto ») ou « ph » à « f » (« phacteur ») on peut s’interroger sur l’effet différent que peut provoquer, dans l’accès lexical, par exemple, l’une ou l’autre substitution. L’année psychologique, 2011, 111, 725-751 728 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand L’utilisation des pseudo-homophones en psycholinguistique : un marqueur classique du codage phonologique en lecture silencieuse L’effet de pseudo-homophonie dans la tâche de décision lexicale constitue sans doute l’effet le plus ancien et le plus robuste en faveur de l’idée d’un codage phonologique automatique dans la lecture silencieuse (voir Berent & Perfetti, 1995 ; Ferrand, 2007 ; Frost, 1998 ; Grainger & Ziegler, 2007 ; Van Orden & Kloos, 2005, pour des synthèses). Cet effet reflète le fait que des pseudo-homophones sont plus difficiles à rejeter dans la tâche de décision lexicale que ne le sont des pseudo-mots contrôles (non homophones). Par exemple, les participants prennent significativement plus de temps et font plus d’erreurs pour rejeter un pseudo-homophone comme « roze » (dérivé de « rose ») que pour rejeter un pseudo-mot contrôle comme « rove ». Cet effet de pseudo-homophonie a été observé pour la première fois (en anglais) par Rubenstein, Lewis et Rubenstein (1971) et Coltheart, Davelaar, Jonasson et Besner (1977). Cet effet de pseudo-homophonie a également été utilisé comme un marqueur de l’activation phonologique dans le développement de la lecture (Goswami, Ziegler, Dalton & Schneider, 2001) y compris chez les enfants sourds (Transler & Reitsma 2005). Il a également été observé chez des enfants dans différentes langues comme l’anglais (Johnston & Thompson 1989), le hollandais (Bosman & De Groot) et l’allemand (Goswami et al., 2001). Les chercheurs en psychologie développementale suggèrent que l’activation phonologique démontrée par l’effet de pseudo-homophonie est une activation obligatoire et cela dès le début de la reconnaissance des mots écrits. De plus, Goswami et al. (2001) suggèrent que l’activation phonologique opère à des tailles d’unités différentes selon l’orthographe de la langue considérée (consistante vs. inconsistante). Cet effet de pseudo-homophonie apporte donc des contraintes majeures pour les modèles computationnels de la reconnaissance des mots écrits (voir Diependaele, Ziegler, & Grainger, 2010 ; Jacobs, Rey, Ziegler, & Grainger, 1998 ; Seidenberg, Petersen, McDonald, & Plaut, 1996 ; Ziegler, Jacobs, & Klüppel, 2001). Rubenstein et al. (1971) expliquent le ralentissement des temps de traitement pour les pseudo-homophones par un conflit de réponses : la représentation phonologique du pseudo-homophone favoriserait une réponse positive alors que sa représentation orthographique favoriserait une réponse négative. La résolution de ce conflit prendrait du temps. L’effet de pseudo-homophonie suggère que les pseudo-homophones comme « roze » seraient convertis en une représentation phonologique identique à celle du mot réel (rose). Le pseudo-homophone n’est pas identifié comme L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 729 un mot car lorsqu’une représentation lexicale est activée, un mécanisme de vérification orthographique serait déclenché. Le non-appariement orthographique du pseudo-homophone et du mot activé conduirait au rejet du pseudo-homophone comme n’étant pas un mot. Mais comme la représentation phonologique du pseudo-homophone favorise une réponse positive et sa représentation orthographique une réponse négative, cela provoque un conflit et la résolution de ce conflit prend du temps. Ceci expliquerait pourquoi les pseudo-homophones prennent plus de temps que les pseudo-mots pour être classés comme n’étant pas des mots. D’une manière générale, l’effet de pseudo-homophonie démontre une activation phonologique obligatoire même au cours de la lecture silencieuse. Bien que les travaux antérieurs aient suggéré la possibilité que l’effet de pseudo-homophonie soit dû à la similarité orthographique (par ex., Martin, 1982 ; Taft, 1982), des études plus récentes ont clairement établi la nature véritablement phonologique de l’effet de pseudo-homophonie ainsi que sa robustesse (par ex., Besner & Davelaar, 1983 ; Besner, Twilley, McCann, & Seergobin, 1990 ; Braun, Hutzler, Ziegler, Dambacher, & Jacobs, 2009 ; Briesemeister, Hofman, Tamm, Kuchinke, Braun, & Jacobs, 2009 ; Dennis, Besner & Davelaar, 1985 ; McCann, Besner, & Davelaar, 1988 ; Rastle & Brysbaert, 2006 ; Stone & Van Orden, 1993 ; Van Orden, 1991 ; Van Orden et al., 1992 ; Ziegler et al., 2001). Certains auteurs ont également montré que l’effet de pseudo-homophonie était plus fort pour des pseudo-homophones dérivés de mots de basse fréquence (par ex., Braun et al., 2009 ; Rubenstein et al., 1971 ; Ziegler et al., 2001). Des travaux récents ont examiné l’effet de pseudo-homophonie en décision lexicale à l’aide mesures électrophysiologiques (potentiels évoqués ou PEVs ; Braun et al., 2009 ; Briesemeister et al., 2009). Ces travaux montrent que l’activation phonologique issue des pseudo-homophones intervient très tôt dans le traitement. Par exemple, Braun et al. (2009) ont observé que les PEVs concernant les pseudo-homophones dérivés des mots de basse fréquence différaient aussi précocement que 150 msec (P150) après le début du stimulus par rapport aux pseudo-mots contrôles non-homophones. Les auteurs considèrent la P150 comme la réponse électrophysiologique du cerveau au conflit entre les représentations orthographique et phonologique en mémoire. Des analyses du décours temporel montrent clairement que le marqueur phonologique (l’effet de pseudo-homophonie) coexiste avec le marqueur lexical (l’effet de fréquence des mots) et que ces effets sont observés dans la même fenêtre temporelle (152-216 msec). Cela suggère que L’année psychologique, 2011, 111, 725-751 730 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand l’activation phonologique intervient suffisamment tôt pour influencer l’accès lexical. D’autres travaux ont utilisé les pseudo-homophones sur des réponses correctes ainsi que dans de nombreux paradigmes comme la tâche de catégorisation sémantique et de jugement sémantique (Coltheart et al., 1994 ; Jared & Seidenberg, 1991 ; Lesch & Pollatsek, 1998 ; Van Orden, 1987 ; Van Orden et al., 1988, 1992), la technique d’amorçage masqué combinée à l’identification perceptive (Berent & Perfetti, 1995 ; Brysbaert, 2001 ; Grainger & Ferrand, 1994, 1996 ; Perfetti et al., 1988 ; Perfetti & Bell, 1991 ; Tan & Perfetti, 1999 ; Xu & Perfetti, 1999), la décision lexicale (Ashby, Sanders & Kingston, 2009 ; Berent, 1997 ; Carreiras, Ferrand, Grainger & Perea, 2005 ; Ferrand & Grainger, 1992, 1993, 1994, 1996 ; Frost et al., 2003 ; Grainger & Ferrand, 1996 ; Grainger et al., 2003 ; Pollatsek et al., 2005 ; Rastle & Brysbaert, 2006 ; Ziegler et al., 2000), la tâche de vérification de phrases (Jared et al., 1999) ou de lecture de textes (Coltheart et al., 1988, 1991 ; Daneman & Stainton, 1991 ; Jared et al., 1999 ; Van Orden, 1991 ; Van Orden et al., 1992), la tâche de détection de lettres (Ziegler & Jacobs, 1995 ; Ziegler et al., 1997) et enfin le paradigme d’enregistrement des mouvements des yeux (Folk, 1999 ; Jared et al., 1999 ; Lee et al., 1999 ; Rayner et al., 1995, 1998). Ces nombreux travaux ont montré que la phonologie joue un rôle crucial dans la lecture silencieuse (voir Ferrand, 2007, pour une synthèse exhaustive). Ces preuves empiriques d’un codage phonologique obligatoire et automatique au cours de la lecture silencieuse sont écrasantes et ne cessent de s’accumuler. À notre connaissance, l’idée qu’une lecture silencieuse sans activation phonologique soit possible n’a pas fait l’objet de travaux probants (voir critique de Van Orden et al., 1990). Ces recherches ont changé de façon importante notre conception de la lecture (Rastle & Brysbaert, 2006 ; Van Orden & Kloos, 2005), de sorte que tout modèle actuel de la lecture silencieuse n’incorporant pas un codage phonologique automatique dans son architecture est de facto un modèle dépassé et non viable (voir Ferrand, 2007). Des travaux récents ont également examiné le décours temporel de l’activation phonologique (et orthographique) à l’aide de l’imagerie cérébrale (PEVs : Ashby, Sanders, & Kingston, 2009 ; Grainger, Kiyoniga, & Holcomb, 2006 ; MEG : Wheat, Cornelissen, Frost, & Hansen, 2010). Par exemple, Grainger et al. (2006) ont étudié le décours temporel des codes orthographique et phonologique en amorçage avec masquage. Leurs résultats montrent que le code orthographique est activé environ 50 msec avant le code phonologique, même si ces deux codes sont activés très précocement (ce qui confirme les données chronométriques de Ferrand & Grainger, 1992, 1993). En utilisant la magnéto-encéphalographie combiné L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 731 au paradigme d’amorçage phonologique masqué (la tâche des sujets était de lire silencieusement les mots cibles et de détecter la présence de noms d’animaux), Wheat et al. (2010) ont montré un effet d’amorçage pseudo-homophonique dès les premières 100 msec de traitement (voir également Ashby et al., 2009, pour une démonstration similaire en PEVs). Utilisation des pseudo-homophones dans la lecture à voix haute Les pseudo-homophones ont également été utilisés pour étudier les mécanismes impliqués dans la lecture à voix haute (voir Borowsky, Owen, & Masson, 2002 ; Grainger, Spinelli, & Ferrand, 2000 ; Herdman, Lefevre, & Greenham, 1994, 1996 ; Marmurek & Kwantes, 1996 ; McCann & Besner, 1987 ; Taft & Russell, 1992 ; voir Reynolds & Besner, 2005, et Kwantes & Marmurek, 2007, pour des synthèses). En lecture à voix haute, l’effet de pseudo-homophonie se traduit par une facilitation du traitement, de sorte que les pseudo-homophones (comme « brane ») sont prononcés significativement plus rapidement et plus correctement que des contrôles orthographiques non-homophones (comme « brate » ; par ex., McCann & Besner, 1987 ; Taft & Russell, 1992 ; voir Reynolds & Besner, 2005, pour une synthèse). Cet effet de facilitation pseudo-homophonique en lecture à voix haute montre que l’accès aux informations phonologiques lexicales améliore la lecture des pseudo-mots pseudo-homophones. Effets de fréquence des mots de base des pseudo-homophones De nombreux travaux ont également examiné l’effet de la fréquence du mot de base des pseudo-homophones (fréquence du mot dont est issu le pseudo-homophone) (voir par exemple Borowsky & Masson, 1999 ; Grainger et al., 2000). La plupart des travaux ont examiné cet effet dans la tâche de prononciation (voir Reynolds & Besner, 2005, pour une synthèse). Certains ont trouvé que les pseudo-homophones dérivés de mots de haute fréquence étaient prononcés plus rapidement que les pseudo-homophones dérivés de mots de basse fréquence (par exemple, Taft & Russell, 1992). Toutefois, lorsque les pseudo-homophones étaient mélangés avec des non-mots dans le même bloc, l’effet de fréquence des mots de base devient difficile à obtenir (par ex., Grainger et al., 2000 ; Herdman et al., 1996 ; McCann & Besner, 1987 ; McCann et al., 1988 ; Seidenberg et al., 1996). Dans la tâche de décision lexicale, certains ont trouvé des effets robustes L’année psychologique, 2011, 111, 725-751 732 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand de la fréquence des mots de base (Van Orden, 1991 ; Van Orden et al., 1992 ; mais voir McCann et al., 1988 ; Seidenberg et al., 1996). Des effets de fréquence des mots de base ont également été observés dans des tâches de catégorisation sémantique ainsi qu’en détection d’erreurs en lecture naturelle (Van Orden et al., 1992) et dans la tâche de détection de lettres (Ziegler, Van Orden, & Jacobs, 1997). Enfin, ces effets ont également été obtenus dans la tâche de décision lexicale phonologique, dans laquelle les sujets doivent décider si un non-mot se prononce comme un mot réel ou non (par ex., Grainger et al., 2000 ; Taft & Russell, 1992). L’existence d’un effet de fréquence des mots de base des pseudo-homophones a des implications théoriques importantes pour les modèles de la lecture (voir en particulier Reynolds & Besner, 2005 ; Ziegler et al., 2001, et Perry, Ziegler, & Zorzi, 2007, pour plus de détails). 2. PROBLÉMES DE CONSTRUCTION DES PSEUDO-HOMOPHONES Le travail sur les substitutions permettant la construction de pseudohomophones pose de très nombreux problèmes. Si on recherche toutes les façons de transcrire orthographiquement une unité phonétique, par exemple ici le phonème « O » fermé (le « O » de « chapeau », opposé au « o » ouvert de « aube » ou « robe »), va-t-on se limiter à l’inventaire « o » et « au », en faisant intervenir la notion de lettres d’appui non prononçables (ou non prononcées) pour exploiter « eau » « ot », « haut » ou bien, au contraire, intégrera-t-on comme représentatives de la transcription de « o », aussi bien « oc » (accroc, escroc . . .), que « ault », « haut », « aux », « os », « aud », « og » (« kilog »), « aux », etc. dont l’inventaire est plus vaste, mais réalisable et, peut-être, utile pour certains types de travaux ? Il faut donc pouvoir se donner les moyens de choisir l’une ou l’autre approche : inventaire des formes alternatives associées à des graphies dites « neutres » ou en opposition, analyse qui met en correspondance une phonie donnée à toute graphie considérant toutes les lettres comme représentatives de la phonie. Par ailleurs, certaines formes orthographiques sont fortement associées à des aspects morphologiques : une importante fonction que les conventions graphiques, au-delà de la transcription phonologique, font assurer à l’orthographe, est d’ordre grammatical au sens large : le « s » en finale joue assez régulièrement le rôle d’indicateur du pluriel, les terminaisons « ai » sont souvent verbales, comme le « ent » qui se prononce L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 733 comme le « e » muet phonétique et s’associe au pluriel troisième personne (ils partent, elles chantent). Il existe de nombreuses études comparées sur les systèmes orthographiques de différentes langues (par ex. Share, 2008). Elles montrent que la relation phonie-graphie est plus ou moins complexe, plus directe en russe, italien ou allemand qu’en français ou anglais, et ce n’est pas notre propos d’aborder ces problèmes, nous nous contenterons de relever les occurrences observables dans le français. 3. TRAVAUX PRÉALABLES À LA CONSTRUCTION DES PSEUDO-HOMOPHONES Nous avons vu précédemment que tout pseudo-homophone peut se construire à partir d’un mot du français, même si tous les mots ne s’y prêtent pas facilement : le mot « tube » par exemple, est un mauvais candidat ; au mieux pourrait-on adjoindre un « h » avant ou après le « u ». Dans un premier temps, nous avons voulu créer un outil qui permette de comptabiliser combien de fois, et avec quelle fréquence une représentation graphique est associée à une forme phonique. Toutes ces recherches statistiques sont basées sur l’utilisation de la base de données Lexique 3 (New, Brysbaert, Veronis, & Pallier, 2007 ; voir www.lexique.org). Nous avons tout d’abord établi un sous-ensemble des 138 449 mots répertoriés par Lexique 3 selon trois restrictions : 1. ne conserver que des mots ayant au minimum une fréquence de 1 par million de mots. Cette première restriction amène à ne retenir que 34 536 mots qui, cependant, présentent près de 90 % des fréquences cumulées ; 2. ne garder que des noms, adjectifs et adverbes ; 3. pour les noms et les adjectifs, ne retenir que les formes au singulier. Après ces deux dernières restrictions, il ne reste que 6 679 mots, qui servent de base à la construction des pseudo-homophones. Il est en effet difficile de demander des jugements orthographiques sur des mots rares. On ne peut pas facilement distinguer de faux mots de mots non connus : un tissu peut-il être cambractile* et coruscant ? Certains mots rares acceptent plus facilement plusieurs orthographes que les mots fréquents : des formes doubles comme « clé » ou « clef » sont assez L’année psychologique, 2011, 111, 725-751 734 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand exceptionnelles, alors que, par exemple, « esperluette » est aussi présent sous la forme « esperluète » (et même « perluette » et « perluète »). Pour ce mot, les pseudo-homophones suivant seraient othographiquement inacceptables (« hespairluaite » ou « aispérluaite »), mais, généralement, la tolérance à la variabilité orthographique est plus grande pour les mots rares. Nous avons renoncé à la prise en considération des formes verbales (malgré la forme ambiguë des adjectifs issus des participes passés : le temps « retrouvé ») car cela permet d’éviter en grande partie les inconvénients de la charge morphologique de certaines formes orthographiques. (-erai, -erons, -ez, -es, -ent . . .). C’est d’ailleurs dans les formes orthographiques de la morphologie qu’existent des exceptions à la règle de « quasi » injection entre forme graphique vers forme phonique : alors que, de façon très générale une graphie donnée correspond de façon unique à une forme phonique, quelques exceptions existent (dont l’exemple classique : les poules du couvent couvent). Alors que très souvent, il existe plusieurs formes orthographiques associées à une représentation phonique (c’est précisément ce qui nous permet de construire des pseudo-homophones). De même, éviter les pluriels limite certains problèmes en syllabe finale, et certaines disparités fréquentielles observées entre le singulier et le pluriel d’un même mot. 4. PRINCIPES DE CONSTRUCTION DES PSEUDO-HOMOPHONES Le principe de construction des pseudo-homophones est assez simple : lorsque, dans un mot nous trouvons un phonème traduit par une forme graphique, alors qu’il existe dans d’autres mots, une forme graphique différente (ou plusieurs) qui traduit le même phonème, cette substitution est réalisée. Si cette opération ne conduit pas à fabriquer un autre mot, on retient un pseudo-homophone comme résultat. Nous prendrons, par exemple, le mot « silence ». Il offre plusieurs possibilités : substitution 1 : s→c : « cilence » ; substitution 2 : i→y : « sylence » ; substitution 3 : en→an: « silance » ; substitution 4 : c→s : « silense ». Nous avons réalisé ici une seule substitution à la fois. Il est aisé de voir que, par combinatoire, à partir du mot « silence », on peut construire, L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 735 en plus des quatre pseudo-homophones à une seule substitution, six pseudo-homophones en combinant 12, 13, 14, 23, 24, 34, quatre pseudo-homophones en combinant trois substitutions (123, 124, 134, 234), et, en dernier ressort, 1234, soit quinze pseudo-homophones à partir d’un mot. Le mot « silence » est particulièrement productif. D’autres mots sont plus stériles : « par » ne peut guère qu’amener une forme pseudo-homophone comme « pard », par ajout d’une lettre neutre, « d ». (d’autres ajouts auraient donné des mots : « s » ou « t »). Mais il n’existe pas de substitution possible. Nous pensons aussi qu’il convient également de s’interroger sur l’effet fréquentiel possible d’une substitution : nous avons donc calculé les fréquences cumulées, au sein des 34 536 mots retenus, des mots où il apparaît une association phonème graphème donnée, par exemple quand un phonème « s » est représenté dans un mot par un graphème « c ». Nous pourrons alors mettre cette fréquence cumulée en regard de celle correspondant à l’association phonème « s » représenté par graphème « s ». : Dans la langue écrite, représentée avec une excellente approximation par le corpus qui sert de référence à la base Lexique 3 (New et al. 2007), pour traduire graphiquement le phonème « s », utilise-t-on plus ou moins fréquemment le graphème « c » ou le graphème « s » ? La comparaison des deux fréquences cumulées devrait donner un indice à prendre en considération lors d’une substitution homophonique en jeu dans la fabrication des pseudo-homophones. 5. INDICES ASSOCIÉS AUX SUBSTITUTIONS DE GRAPHÉMES Nous savons que la fréquence d’un mot est un des meilleurs prédicteurs des temps de réaction associés au traitement de ce mot. Mais qu’en est-il des pseudo-homophones ? On peut s’attendre à un effet fréquentiel de la substitution, comme évoqué plus haut, venant moduler, en quelque sorte, l’effet de la fréquence du mot de base. Ainsi, lorsqu’est réalisée une substitution, nous avons construit deux types d’indices : 1. Le rapport fréquence cumulée de l’association phonème-graphème du pseudo-homophone sur la fréquence cumulée de l’association phonèmegraphème orthographiquement correcte du mot de base. Ce rapport est supérieur à 1 si l’association dans le pseudo-homophone est plus fréquente que l’association dans le mot de base, et inférieure dans le cas contraire. L’année psychologique, 2011, 111, 725-751 736 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand L’intérêt de ce type d’indice permet des questionnements comme par exemple : dans une expérience avec amorçage, si on amorce la lecture de la cible « zephyr » par le pseudo-homophone « zefir », qui compte une voyelle « i », plus fréquemment associée au phonème « i » que la voyelle « y », et une réalisation de phonème « f » sous la forme « f », elle aussi plus fréquente que la graphie « ph », facilite-t-on le traitement de la cible ? Cet indice sera désigné sous le nom de quotient coût/gain, ou Q. 2. Le rapport différence sur somme des fréquences : pour des raisons de lecture, la différence sera négative, ainsi que le rapport, lorsque la substitution se fait avec une association moins fréquente, et positive lorsque la substitution se fait avec une association plus fréquente. (fréquence substitution-fréquence base) (fréquence substitution + fréquence base). (La différence est pondérée par la somme des deux fréquences pour relativiser son importance). Cet indice sera désigné sous le nom de delta coût/gain, ou delta On pourra lui préférer le rapport différence sur moyenne, (quotient utilisé : la demi somme des fréquences). On remarquera aussi que, par exemple, lorsqu’on substitue un graphème « c » à un graphème « s », l’indice Q, décrit en 1., soit x, est égal à l’inverse 1/y de l’indice obtenu lorsqu’on substitue un graphème « s » à un graphème « c » ; et, de même, lorsqu’on substitue un graphème « c » à un graphème « s », l’indice delta décrit en 2., soit z, est égal à –t, t étant l’indice obtenu lorsqu’on substitue un graphème « s » à un graphème « c ». 6. L’OUTIL DE CONSTRUCTION DES VALEURS FRÉQUENTIELLES La base de données Lexique 3 (New et al. 2007) nous a servi de référence pour tous les outils que nous avons construits. Nous avons cependant réalisé les aménagements suivants. Pour la construction de l’outil de calcul des fréquences d’association phonème-forme graphique, rappelons qu’il n’a été retenu que les mots dont la fréquence « livres » (colonne 10 de Lexique 3 : « 10_freqlivres ») est égale ou supérieure à 1. Ces 34 536 mots présentent près de 90 % des fréquences cumulées. Mise sous forme d’une feuille Excel 2007, dans cette base restreinte recopiée de Lexique 3, il a été créé deux colonnes comprenant des fonctions de recherche de la forme graphique et de la forme phonique. Quand les L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 737 deux formes sont repérées sur une même ligne (et, donc, pour un mot donné) une colonne récupère la valeur de la fréquence « livres ». Quand les deux formes que nous recherchons, et que nous documentons dans la feuille de recherche, sont repérées sur une même ligne (et, donc, pour un mot donné), une colonne récupère la valeur de la fréquence « livres ». Pour ce faire, en tête de la base restreinte (aux valeurs de fréquences > 1), on a introduit une zone de documentation, c’est-à-dire quelques lignes, et, en particulier, une ligne de paramétrage, où on indique, dans deux cellules-fenêtres, la forme phonétique (clé phon.) et la forme graphique (clé ortho.) dont on souhaite repérer les occurrences. Lorsque ces deux cellules sont renseignées, la somme des fréquences de cette association apparaît dans une autre cellule fenêtre (voir Tableau 1). Tableau 1. La zone documentation de la feuille « Fréquence des associations ». Nombre Clé de mots ortho 34 536 ô Clé Somme Occurrences Somme Somme Autres phon fréquences graphies phonies phonies O 2 524,18 128 128 5 154 5 026 7. LE CHOIX DES SUBSTITUTIONS EN JEU DANS LA CONSTRUCTION DES PSEUDO-HOMOPHONES Quelles substitutions sont possibles ? On remarquera tout d’abord que les graphèmes « b », « d », « l », « m », « n », « p », « r », « t » sont l’unique moyen de traduire un phonème correspondant, même si certains se retrouvent présents dans des graphies où ils ont un rôle phonétiquement neutre (plomb, bord, fils, fusil, muent, trop, tuer, toit . . .), le plus souvent, sinon exclusivement, en finale. Mais cette relation n’est pas complètement bijective : Le graphème « k » ne traduit jamais que le phonème « k », mais celui-ci (voir plus loin) peut être traduit par plusieurs graphèmes. Mêmes remarques pour les graphèmes « f », « v » (parfois traduit par « w ») et « z ». « f » et « z » ont souvent un rôle de neutre en finale. (clef, nez) Nous allons examiner les phonèmes qui permettent les substitutions. De nombreux problèmes se posent. Phonème s : il peut se traduire par les formes graphiques « c », « ç », « s » et « ss ». Ces formes graphiques connaissent des contraintes : le graphème L’année psychologique, 2011, 111, 725-751 738 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand « c » ne peut pas transcrire le phonème « s » placé devant « a », « o » et « u » (et les doublets « ai », « au », « ou »), puisque, dans ce cas, il transcrit le phonème « k ». Si l’on veut forcer la transcription de « s », on utilisera « ç ». « ç » ne s’emploie pas devant « e », « i » et « y ». Le graphème « s » traduit le phonème « s » lorsqu’il n’est pas immédiatement précédé d’une voyelle. Dans ce cas, il transcrit le phonème « z ». Pour forcer la transcription, il est utilisé le doublement du « s » graphique (« ss »). Phonème k : il peut se traduire principalement par les formes graphiques « c », « k », « qu ». Plus rarement, on rencontre le groupe graphémique « ch », généralement transcripteur du phonème « Z » (« cheu »), pour transcrire le phonème « k » (chaos). On a vu que le graphème « c » transcrit le phonème « k » devant les graphèmes « a », « o » et « u », et, parfois en finale de mot (avec), mais pas toujours : parfois, il est une finale neutre (tabac). Le graphème « k » est moins problématique : il transcrit toujours le phonème « k ». Le groupe graphémique « qu » traduit le phonème « k » lorsqu’il précède les graphèmes « a », « e », « i », « o ». Il n’est jamais en finale (« q », par contre, est possible (coq) et ne précède jamais une consonne). En pratique, donc, on ne pourra pas proposer un pseudo-homophone comme « qulapet » sur la base de « clapet », alors que « qualice » est acceptable). Dans quelques formes d’origine latine, « qu » traduit la phonie « kw » comme dans « quoi » (aquarium, équateur, équilatéral, mais équivalent (phonème k), quatuor (phonie « kw ») mais quintette (phonème « k »). Phonème f : trois transcriptions graphémiques : « f », « ff » et « ph ». Le double f n’a pas de raisons phonémiques particulières. On pourra donc aussi bien envisager une substitution « f » remplacé par « ph » que « ff » remplacé par « ph ». Il n’y a pas de raison particulière de substituer à « ph », « ff » plutôt que « f », que l’on préférera, sauf si l’on tient à conserver le même nombre de lettres entre le PHOM et le mot de base. Phonème z : deux transcriptions sont possibles : le graphème « z » n’a pas de contraintes particulières, même s’il est assez souvent utilisé en finale muette (nez). Le graphème « s » transcrit le phonème « z » lorsqu’il est placé entre deux voyelles (exception notable : alsace). Phonème Z : une forme peu contrainte, le graphème « j », une forme conditionnée, le graphème « g » qui transcrit le phonème « z » devant « e, é, è, i et y ». Sinon, le graphème « g » transcrit le phonème « g » (« gare »). Pour forcer la transcription « g » avec « é, è, e, i et y », on utilise la graphie « gu » (gué, guy . . .). Phonème i : Transcrit par le graphème « i » le plus généralement, mais aussi le graphème « y », moins fréquent. Quelques emprunts à l’anglais utilisent la double forme « ee ». L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 739 Phonème @ : se traduit par les groupes graphémiques « an » et « en ». Phonème 5 : (« in » dans « fin ») : trois formes graphémiques : « in », « ain », « ein », en finale ou devant une consonne. Phonème O : (dit o fermé) « vélo ». Il se traduit en graphème « o », ou en graphie « au », et la variante avec le graphème « e » (ici « muet ») : « eau » (échafaud, morçeau). Phonème o : (dit o ouvert) « forme ». Traduit également par « o » (« aphone »), ainsi que par « au » (faune). Les deux phonèmes, « o » et « O », sont traduits par les mêmes formes, mais pas avec les mêmes fréquences. Pour traduire le phonème « O » : graphème « o » = 32 396 ; groupe graphémique « au » : 24 348 ; pour traduire le phonème « o » : graphème « o » = 28 546 ; groupe graphémique « au » : 233. Plus en détail : « aum » ne traduit jamais « Om », et avec une fréquence assez basse « om » : fréquences 106, pour 27 occurrences ; on évitera donc, car très anti-naturelle dans les mots fréquents, la transcription « aum » et son allure latine, dans les pseudo-homophones. Phonème e (é fermé). Il est traduit par « é » (trouvé) ; par « ai » pratiquement jamais (4 occurrences), un peu plus par « ei » (dans des formes comme enseignant, ensoleillé) Phonème E (è ouvert). Il est traduit par « è », mais aussi par « ai » (laine) et « ei » (pleine). Il faut tenir compte que de fortes variantes régionales existent : « balai » se prononce par la phonie « bale » ou « bale » 8. LES SUBSTITUTIONS RETENUES POUR CONSTRUIRE LES PSEUDO-HOMOPHONES Sur cette base, et en fonction des considérations qui précèdent, après avoir éliminé des substitutions problématiques, nous avons construit un tableau des substitutions que nous nous proposons de mettre en jeu (voir Tableau 2). Les substitutions retenues ne devraient pas poser de problème de lecture ni de conformité homophonique. Ce tableau comporte cinq colonnes : Colonne 1 : le phonème à transcrire ; Colonne 2 : la graphie orthographiquement correcte dans le mot de base ; Colonne 3 : la graphie substituée dans le pseudo-homophone ; Colonne 4 : Le quotient coût/gain ; Colonne 5 : Le delta coût/gain. L’année psychologique, 2011, 111, 725-751 740 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand Tableau 2. Substitutions utilisées dans les pseudo-homophones. phonème graphie dans mot de base graphie dans pseudo-homophones s c s 2, 87 0,48 s c ss 0, 43 –0,40 s s c 0, 35 –0,48 s ss c 2, 31 0,40 s ç s 24, 24 0,92 s ç ss 3, 65 0,57 s s ç 0, 04 –0,92 s ss ç 0, 27 –0,57 k c k 0, 01 –0,99 k c qu 0, 49 –0,34 k k c 136, 24 0,99 k k qu 67, 07 0,97 k qu c 2, 03 0,34 k qu k 0, 01 –0,97 f f ph 0, 03 –0,94 f ph f 33, 58 0,94 z z s 20, 69 0,91 z s z 0, 05 –0,91 Z g j 1, 52 0,21 Z j g 0, 66 –0,21 i i y 0, 04 –0,92 i y i 24, 32 0,92 L’année psychologique, 2011, 111, 725-751 quotient delta Pseudo-homophones 741 Tableau 2. (Suite) phonème graphie dans mot de base graphie dans pseudo-homophones quotient delta @ an en 1, 20 0,09 @ en an 0, 83 –0,09 5 in ain 0, 39 –0,44 5 in ein 0, 08 –0,85 5 ain in 2, 58 0,44 5 ain ein 0, 22 –0,64 5 ein in 11, 95 0,85 5 ein ain 4, 63 0,64 o au o 122, 33 0,98 O o au 0, 75 –0,14 O au o 1, 33 0,14 E è ai 4, 71 0,65 E è ei 0, 25 –0,60 E ai è 0, 21 –0,65 E ai ei 0, 05 –0,90 E ei è 4, 03 0,60 E ei ai 18, 96 0,90 9. CONSTRUCTION DES PSEUDO-HOMOPHONES : PRÉPARATION DU FICHIER On a vu précédemment que le fichier extrait de Lexique 3 (New et al., 2007), après réduction aux mots de fréquence supérieure ou égale à 1/1 000 000, ramenées aux seuls noms, adjectifs et adverbes, et en excluant les formes plurielles, nous fournissait un ensemble de 6 679 mots de base. Cet ensemble de mots comprend de 1 à 5 syllabes. L’année psychologique, 2011, 111, 725-751 742 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand Il a été choisi de créer les substitutions par syllabe. Pour cela, Lexique 3 (New et al., 2007) est un excellent instrument, puisqu’il ventile en syllabes aussi bien la forme graphique que la forme phonétique du mot. Cependant, une adaptation est nécessaire : parfois, le découpage syllabique sur les graphèmes n’est pas isomorphe à celui des phonèmes, allant quelquefois jusqu’à ne pas décompter le même nombre de syllabes. Il y a sans doute d’excellentes raisons à ce découpage non strictement identique (voir Pallier, 1995), mais nous avons opté pour homogénéiser les deux découpages, en privilégiant le découpage phonétique, et corrigeant le découpage graphémique en fonction du découpage phonémique. On aurait pu, plus restrictivement, éliminer les mots à découpage hétérogène. Après cette préparation du fichier, et pour tous les mots, on applique l’ensemble des 39 substitutions décrites dans le Tableau 2, d’abord pour la première syllabe, ce qui nous fournit 39 listes (dont il est vrai, certaines sont vides) de propositions de substitution. On procède de même, ensuite, pour la deuxième syllabe (pour les mots qui ont 2 syllabes ou plus), puis la troisième, quatrième et cinquième syllabes. L’algorithme de substitution est simple : – la syllabe examinée comporte-t-elle le phonème en jeu dans une substitution ? – si oui, présente-t-elle la graphie orthographique prévue dans la substitution ? – si oui, on remplace cette graphie par la graphie prévue dans la substitution. Il restera à examiner si le candidat pseudo-homophone : - est bien prononçable à l’identique du mot de base. Pour ce faire, nous avons utilisé notre « sentiment linguistique » (au sens Chomskyen), qui le considère comme commun aux locuteurs d’une langue, mais il faudrait, plus sérieusement, utiliser des juges pour une attestation statistique moins subjective2 ; 2 Nous avons sélectionné 200 pseudo-homophones parmi les 14 000 pour les besoins d’une expérience de décision lexicale. En utilisant la méthode des juges de Gibbs et Van Orden (1998, voir note 3), nous avons testé 10 participants dont la tâche était de prononcer les items (sans pression temporelle). Les résultats sont encourageants car sur les 200 pseudohomophones, 9 juges sur 10 ont prononcé correctement 196 pseudo-homophones sur 200 (soit 98 % de bonnes réponses). L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 743 s’il n’est pas lui-même un mot. Il suffit, pour ce faire, de confronter tout candidat pseudo-homophone à la liste des 135 000 entrées de Lexique 3. Si la forme obtenue n’a pas une allure morphologique inductrice d’une forme autre que nom, adjectif, adverbe : par exemple, sentier >>> sentiai (outre que « ai » est rarement graphisme du « é » ouvert) produit un terme qui ressemble à une forme verbale. On a du, de plus, élider le « r », qui ne garantissait plus l’identification phonologique vers « s@tje », mais provoquant plutôt le décodage « s@tjiEr », qui cesse d’être homophone. Une solution consiste à utiliser une forme « aie » : « sentiaie » Cet examen ne peut être réalisé par un automatisme de façon simple. Il faut donc relire et corriger les listes au moins en partie manuellement. Si on peut s’aider efficacement d’Access ou du nouvel Excel (à partir de la version 2007, qui permet de lire plus de 65 000 lignes, contrairement aux versions plus anciennes), pour signaler si les formes produites sont des mots du français, par contre, il n’existe pas de procédé simple pour proposer une lecture d’un pseudo-homophone, autre que le « sentiment linguistique » tel que l’évoque Chomsky3 . On voit que ce procédé des substitutions automatisées laisse de côté une source non négligeable de formation de pseudo-homophones : celle qui utilise l’adjonction de lettres neutres phonétiquement. C’est particulièrement vrai (mais pas uniquement) pour les finales : à partir de la graphie « accroc », on peut engendrer « accrot », « accrod », (« accros » sera refusé parce qu’il est admis comme mot). 10. LA BASE DES 14 000 PSEUDO-HOMOPHONES Le résultat, qui vise à une certaine exhaustivité, après une première tentative utilisable mais imparfaite, nous a amené à construire un ensemble de pseudo-homophones (PHOM), sous forme d’un classeur Excel, qui permet de décrire les différentes manières de les former. Chaque fois le mot de base homophone est rappelé. D’autre part, chaque homophone présenté ne comporte qu’une et une seule substitution. 3 Gibbs et Van Orden (1998) ont proposé une méthode pour tester la validité des pseudo-homophones. Cela consiste à demander à 10 juges de prononcer les items et de déterminer le pourcentage de réponses correctes. Seuls les items prononcés correctement par 9 juges sur 10 sont considérés comme de bons pseudo-homophones. Une limitation de cette méthode est qu’elle est coûteuse en participants et il est difficile de tester les 14 000 pseudo-homophones de la présente base grâce à cette méthode. Une solution pour les expérimentations futures serait d’effectuer une première sélection de pseudo-homophones pour une expérience donnée, et de tester la validité de cette présélection. L’année psychologique, 2011, 111, 725-751 744 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand Par exemple, pour le mot « silence », seuls les pseudo-homophones « cilence », « sylence », « silance » et « silanse » seront présentés. Il appartiendra à l’utilisateur désireux de réaliser plus d’une substitution homophonique, de se référer aux principes de combinatoire tels qu’ils sont décrits. Dans chaque feuille : - la première colonne contient le mot de base ; la deuxième, la fréquence (Freq) « livres » du mot de base ; la troisième son nombre de lettres NL ; la quatrième son nombre de syllabes, NS ; la cinquième un des pseudo-homophones proposés, PHOM, sur fond de couleur différent selon le numéro de syllabe où a lieu la transformation ; la sixième, le nombre de lettres du phom, NLT ; la septième, le différentiel NLT-NL, DNL ; la huitième, le numéro de syllabe de la transformation, NST. C’est redondant avec la couleur de fond du PHOM ; la neuvième, le type de transformation, TRANS ; la dixième, le quotient associé à cette transformation, QT ; la onzième, le delta, DT. Voici l’exemple (Tableau 3) de lignes Excel et de l’en tête d’une feuille de la base des pseudo-homophones. Ici, les lignes du tableau sont classées ordre alphabétique des mots. Mais on peut évidemment les classer en fonction de n’importe quelle colonne. 11. ÉVALUATION CRITIQUE ET LIMITES DE LA BASE DES PSEUDO-HOMOPHONES Il est à prévoir qu’à l’usage, un lecteur détectera des propositions de transformation peu acceptables. Aussi est-il prévu des révisions régulières. Dans l’état actuel, on en est à la révision 4.0 (intégration de la fréquence du lemme le plus fréquent du mot de base), après des réalisations 1.0 et 1.1, (formes brutes, plus une 1.2 non aboutie) et 2.2, puis 3.0 (mots issus du latin en « um ») L’année psychologique, 2011, 111, 725-751 ambulance foie silence silence silence silence Mot de base 9, 26 76, 49 313, 24 313, 24 313, 24 313, 24 Freq 9 4 7 7 7 7 NL 3 1 2 2 2 2 NS ambulence phoie cilence sylence silance silense PHOM 9 5 7 7 7 7 NLT 0 1 0 0 0 0 DNL 5 1 1 1 2 2 NST an/en f/ph s/c i/y en/an c/s TRANS Tableau 3. Exemple de la base des pseudo-homophones 1, 205 0, 03 0, 35 0, 04 0, 83 2, 87 QT 0, 09 −0, 92 −0, 48 −0, 92 −0, 09 0, 48 DT Pseudo-homophones 745 L’année psychologique, 2011, 111, 725-751 746 Fernand Farioli r Jonathan Grainger r Ludovic Ferrand La combinaison de plusieurs transformations n’y figure pas. Cela aurait fortement alourdi la taille du dictionnaire, et on peut facilement le réaliser par la suite. On peut se demander si les choix qui limitent à 6 679 mots de base génériques des pseudo-homophones ne sont pas trop restrictifs, ou, au contraire, si on ne devrait pas se cantonner aux seuls noms au singulier. Cependant, grâce à la forme paramétrable des outils de construction, on peut faire évoluer la base vers d’autres formes, et d’autres investigations. Les calculs de fréquence reposent sur les fréquences « livres » de Lexique 3 (New et al. 2007). Nous avons réalisé il y a peu une liste de mots dont la fréquence « livres » ou « films » n’est pas trop différente. Ce sont peut être des mots équilibrés de la sorte qui pourraient servir de base à ce dictionnaire. Par ailleurs, et pour des besoins spécifiques, nous avons deux logiciels qui permettent de tester et de calculer les paramètres d’occurrence, de fréquence « livres », de fréquence « films » dans Lexique 3 (New et al. 2007) et qui permettent de travailler sur l’association de deux graphies à une phonie et deux phonies à une graphie (plus rare). Nous avions songé, en un temps, à réaliser un outil qui, pour un mot donné, permette de trouver tous ses homophones4 . Mais la plupart des utilisateurs potentiels de pseudo-homophones ont besoin de constituer des listes, et il est plus aisé d’aller chercher dans la base, convenablement réarrangé par les tris rendus possibles dans sa forme Excel, le matériel correspondant aux critères recherchés. Nous allons également essayer de concevoir, dans un futur proche, un outil qui permette de créer facilement des pseudo-homophones comportant plus d’une substitution. On peut déjà repérer les mots de base génériques, présents en plusieurs exemplaires dans le dictionnaire, et qui, donc, permettent plusieurs substitutions. Mais le problème du systématisme est complexe : il y a, en effet, des substitutions concurrentes ou combinables : (sylence, cilence, cylence) dans une même syllabe, et des substitutions combinables en utilisant plusieurs syllabes. (sy lan se). D’autre part, comment, alors, faudrait-il combiner les indices Q et delta ? pour Q, on pourrait imaginer effectuer par exemple le produit des Q associés à chaque substitution, pour delta, effectuer le quotient de la somme des numérateurs (différence des fréquences) par la somme des dénominateurs (somme des fréquences). 4 C’est l’approche adoptée par Rastle, Harrington et Coltheart (2002) pour la création de non-mots, donnant au final pas moins de 358 534 non-mots monosyllabiques et 48 534 pseudo-homophones monosyllabiques ! L’année psychologique, 2011, 111, 725-751 Pseudo-homophones 747 La présente base de pseudo-homophones (PHOM) constitue une première version qui sera amenée à évoluer. La forme papier occupe 235 pages. La forme la plus manipulable est sous la forme d’une feuille de tableur. La base de pseudo-homophones (PHOM) est accessible gratuitement à l’adresse suivante : http://sites.google.com/site/ludovicferrand/Home/data. Reçu le 17 octobre 2010. Révision acceptée le 17 février 2011. BIBLIOGRAPHIE Ashby, J., Sanders, L. D., & Kingston, J. (2009). Skilled readers begin processing of sub-phonemic features by 80 ms during visual word recognition: Evidence from ERPs. Biological Psychology, 80, 84-94. Berent, I. (1997). Phonological priming in the lexical decision task: Regularity effects are not necessary evidence for assembly. Journal of Experimental Psychology: Human Perception and Performance, 23, 1727-1742. Berent, I., & Perfetti, C. A. (1995). A Rose is a REEZ: The two-cycles model of phonology assembly in reading English. Psychological Review, 102, 146-184. Besner, D., & Davelaar, E. (1983). Suedohomofoan effects in visual word recognition: Evidence for phonological processing. Canadian Journal of Psychology, 37, 300-305. Besner, D., Twilley, L., McCann, R. S., & Seergobin, K. (1990). On the association between connectionism and data: Are a few words necessary? Psychological Review, 97, 432-446. Bonin, P., Fayol, M., & Peereman, R. (1998). Masked form priming in writing words from pictures: Evidence for direct retrieval of orthographic codes. Acta Psychologica, 99, 311-328. Borowsky, R., & Masson, M. E. J. (1999). Frequency effects and lexical access: On the interpretation of null pseudo-homophone base-word frequency effects. Journal of Experimental Psychology: Human Perception & Performance, 25, 270-275. Borowsky, R., Owen, W. J., & Masson, M. E. J. (2002). Diagnostics of phonological lexical processing: Pseudohomophone naming advantages, disadvantages, and base-word frequency effects. Memory & Cognition, 30, 969-987. Bosman, A. M. T., & De Groot, A. M. B. (1996). Phonologic mediation is fundamental to reading: Evidence from beginning readers. Quarterly Journal of Experimental Psychology, 49A, 715-744. Braun, M., Hutzler, F., Ziegler, J. C., Dambacher, M., & Jacobs, A. J. (2009). Pseudohomophone effects provide evidence of early lexico-phonological processing in visual word recognition. Human Brain Mapping, 30, 1977-1989. Briesemeister, B. B., Hofmann, M. J., Tamm, S., Kuchinke, L., Braun, M., & Jacobs, A. M. (2009). The pseudo-homophone effect: Evidence for an orthography-phonology conflict. Neuroscience Letters, 455, 124-128. Brysbaert, M. (2001). Prelexical phonological coding of visual words in Dutch: Automatic after all. Memory & Cognition, 29, 765-773. Bürki, A., Alario, F. X., & Frauenfelder, U. H. (2011). Lexical representation of L’année psychologique, 2011, 111, 725-751 748 Fernand Farioli phonological variants: Evidence from pseudo-homophone effects in different regiolects. Journal of Memory and Language, 64, 424-442. Carreiras, M., Ferrand, L., Grainger, J., & Perea, M. (2005). Sequential effects of phonological priming in visual word recognition. Psychological Science, 16, 585-589. Catach, N. (1995). L’orthographe Française. Paris : Nathan Université. Coltheart, M., Davelaar, E., Jonasson, J. T., & Besner, D. (1977). Access to the internal lexicon. In S. Dornic (Ed.), Attention and Performance VI (pp. 535-555). London: Academic Press. Coltheart, M., Rastle, K., Perry, C., Langdon, R., & Ziegler, J. (2001). DRC: A Dual Route Cascaded model of visual word recognition and reading aloud. Psychological Review, 108, 204-256. Coltheart, V., Laxon, V., Rickard, M., & Elton, C. (1988). Phonological recoding in reading for meaning by adults and children. Journal of Experimental Psychology: Learning, Memory and Cognition, 14, 387-397. Coltheart, V., Avons, S. E., Masterson, J., & Laxon, V. J. (1991). The role of assembled phonology in reading comprehension. Memory and Cognition, 19, 387-400. Coltheart, V., Patterson, K., & Leahy, J. (1994). When a ROWS is a ROSE: Phonological effects in written word comprehension. Quarterly Journal of Experimental Psychology, 47A, 917-955. Daneman, M., & Stainton, M. (1991). Phonological recoding in silent reading. Journal of Experimental Psychology: Learning, Memory and Cognition, 17, 618-632. Delattre, M., Bonin, P. & Barry, C. (2006). Written spelling to dictation: Sound-tospelling regularity affects both writing latencies and durations. Journal of Experimental Psychology: Learning, Memory, and Cognition, 32, 1330-1340. Dennis, I., Besner, D., & Davelaar, E. (1985). Phonology in visual word recognition: Their is more than meats the I. In D. L’année psychologique, 2011, 111, 725-751 r Jonathan Grainger r Ludovic Ferrand Besner, T. G. Waller, & G. E. MacKinnon (Eds.), Reading research: Advances in theory and practice, Vol. V. New York: Academic Press. Diependaele, K., Ziegler, J., & Grainger, J. (2010). Fast phonology and the bimodal interactive activation model. European Journal of Cognitive Psychology, 22, 764-778. Ferrand, L. (1999). 640 homophones et leurs caractéristiques. L’Année psychologique, 99, 687-708. Ferrand, L. (2007). Psychologie Cognitive de la lecture. Processus de base de la reconnaissance des mots écrits chez l’adulte. Bruxelles : De Boeck Université. Ferrand, L., & Grainger, J. (1992). Phonology and orthography in visual word recognition: Evidence from masked nonword priming. Quarterly Journal of Experimental Psychology, 45A, 353-372. Ferrand, L., & Grainger, J. (1993). The time course of orthographic and phonological code activation in the early phases of visual word recognition. Bulletin of the Psychonomic Society, 31, 119-122. Ferrand, L., & Grainger, J. (1994). Effects of orthography are independent of phonology in masked form priming. Quarterly Journal of Experimental Psychology, 47A, 365-382. Ferrand, L., & Grainger, J. (1996). List context effects on masked phonological priming in the lexical decision task. Psychonomic Bulletin & Review, 3, 515-519. Ferrand, L., Grainger, J., & Segui, J. (1994). A study of masked form priming in picture and word naming. Memory & Cognition, 22, 431-441. Folk, J. R. (1999). Phonological codes are used to access the lexicon during silent reading. Journal of Experimental Psychology: Learning, Memory and Cognition, 25, 892-906. Frost, R. (1998). Toward a strong phonological theory of visual word recognition: Pseudo-homophones True issues and false trails. Psychological Bulletin, 123, 71-99. Frost, R., Ahissar, M., Gotesman, R., & Tayeb, S. (2003). Are phonological effects fragile? The effect of luminance and exposure duration on form priming and phonological priming. Journal of Memory and Language, 48, 346-378. Goswami, U., Ziegler, J. C., Dalton, L., & Schneider, W. (2001). Pseudohomophone effects and phonological recoding procedures in reading development in English and German. Journal of Memory and Language, 45, 648-664. Grainger, J., Diependaele, K., Spinelli, E., Ferrand, L., & Farioli, F. (2003). Masked repetition and phonological priming within and across modalities. Journal of Experimental Psychology: Learning, Memory, and Cognition, 29, 1256-1269. Grainger, J., & Ferrand, L. (1994). Phonology and orthography in visual word recognition: Effects of masked homophone primes. Journal of Memory and Language, 33, 218-233. Grainger, J., & Ferrand, L. (1996). Masked orthographic and phonological priming in visual word recognition and naming: Cross-task comparisons. Journal of Memory and Language, 35, 623-647. Grainger, J., Kiyonaga, K., & Holcomb, P.J. (2006). The time-course of orthographic and phonological code activation. Psychological Science, 17, 1021-1026. Grainger, J., Spinelli, E., & Ferrand, L. (2000). Effects of baseword frequency and orthographic neighborhood size in pseudohomophone naming. Journal of Memory and Language, 42, 88-102. Grainger, J. & Ziegler, J. (2007). Crosscode consistency effects in visual word recognition. In E. L. Grigorenko & A. Naples (Eds.) Single-word reading: Biological and behavioral perspectives (pp. 129-157). Mahwah, NJ: Lawrence Erlbaum Associates. 749 Herdman, C. M., Lefevre, J.-A., & Greeham, S. L. (1994). Implicating the lexicon: Base-word frequency effects in pseudo-homophone naming. Journal of Experimental Psychology: Human Perception and Performance, 20, 575-590. Herdman, C. M., Lefevre, J.-A., & Greeham, S. L. (1996). Base-word frequency and pseudo-homophone naming. Quarterly Journal of Experimental Psychology, 49A, 1044-1061. Jacobs, A. M., Rey, A., Ziegler, J. C., & Grainger, J. (1998). MROMp: An interactive activation multiple readout model of orthographic and phonological processes in visual word recognition. In J. Grainger & A.M. Jacobs (Eds.). Localist connectionist approaches to human cognition (pp. 147-188). Mahwah, NJ, USA: Lawrence Erlbaum Associates. Jared, D., & Seidenberg, M. S. (1991). Does word identification proceed from spelling to sound to meaning? Journal of Experimental Psychology: General, 120, 358-394. Jared, D., Levy, B. A., & Rayner, K. (1999). The role of phonology in the activation of word meanings during reading: Evidence from proofreading and eye movements. Journal of Experimental Psychology: General, 128, 219-264. Johnston, R. S., & Thompson, B. G. (1989). Is dependence on phonological information in children’s reading a product of instructional approach? Journal of Experimental Child Psychology, 48, 131-145. Kwantes, P. J., & Marmurek, H. H. (2007). Controlling lexical contributions to the reading of pseudo-homophones. Psychonomic Bulletin & Review, 14, 373-378. Lee, Y.-A., Binder, K. S., Kim, J.-O., Pollatsek, A., & Rayner, K. (1999). Activation of phonological codes during eye fixations in reading. Journal of Experimental Psychology: Human Perception and Performance, 25, 948-964. L’année psychologique, 2011, 111, 725-751 750 Fernand Farioli Lesch, M. F., & Pollatsek, A. (1998). Evidence for the use of assembled phonology in accessing the meaning of printed words. Journal of Experimental Psychology: Learning, Memory and Cognition, 24, 573-592. Marmurek, H. H., & Kwantes, P. J. (1996). Reading words and wirds: Phonology and lexical access. Quarterly Journal of Experimental Psychology, 49A, 696-714. Martin, R. C. (1982). The pseudohomophone effect: The role of visual similarity in nonword decisions. Quarterly Journal of Experimental Psychology, 34A, 395-409. McCann, R. S., & Besner, D. (1987). Reading pseudo-homophones: Implications for models of pronunciation assembly and the locus of word-frequency effects in naming. Journal of Experimental Psychology: Human Perception and Performance, 13, 14-24. McCann, R. S., Besner, D., & Davelaar, E. (1988). Word recognition and identification: Do word-frequency effects reflect lexical access? Journal of Experimental Psychology: Human Perception and Performance, 14, 693-706. New, B., Brysbaert, M., Veronis, J., & Pallier, C. (2007). The use of film subtitles to estimate words frequencies: Applied Psycholinguistics, 28, 661-677. Pallier, C. (1995). Rôle de la syllabe dans la perception de la parole: études attentionnelles. PhD thesis. Paris : École des hautes études en sciences sociales. Perfetti, C. A., & Bell, L. (1991). Phonemic activation during the first 40 ms of word identification: Evidence from backward masking and masked priming. Journal of Memory and Language, 30, 473-485. Perfetti, C. A., Bell, L., & Delaney, S. (1988). Automatic phonetic activation in silent word reading: Evidence from backward masking. Journal of Memory and Language, 27, 59-70. Perry, C., Ziegler, J. C., & Zorzi, M. (2007). Nested incremental modelling in the development of computational theories: The L’année psychologique, 2011, 111, 725-751 r Jonathan Grainger r Ludovic Ferrand CDP+ model of reading aloud. Psychological Review, 114, 273-315. Pollatsek, A., Perea, M., & Carreiras, M. (2005). Does conalprime CANAL more than cinal? Masked phonological priming effects in Spanish with the lexical decision task. Memory & Cognition, 33, 557-565. Rastle, K., & Brysbaert, M. (2006). Masked phonological priming effects in English: Are they real? Do they matter? Cognitive Psychology, 53, 97-145. Rastle, K., Harrington, J., & Coltheart, M. (2002). 358, 534 nonwords: the ARC nonword database. Quarterly Journal of Experimental Psychology, 55, 1339-1362. Rayner, K., Pollatsek, A., & Binder, K. S. (1998). Phonological codes and eye movements in reading. Journal of Experimental Psychology: Learning, Memory, & Cognition, 24, 476-497. Rayner, K., Sereno, S. C., Lesch, M. F., & Pollatsek, A. (1995). Phonological codes are automatically activated during reading: Evidence from an eye movement priming paradigm. Psychological Science, 6, 26-30. Reynolds, M., & Besner, D. (2005). Basic processes in reading: A critical review of pseudo-homophone effects in reading aloud and a new computational account. Psychonomic Bulletin & Review, 12, 622-646. Rubenstein, H., Lewis, S. S., & Rubenstein, M. (1971). Evidence for phonemic coding in visual word recognition. Journal of Verbal Learning and Verbal Behavior, 10, 645-657. Seidenberg, M. S., Petersen, A., MacDonald, M. C., & Plaut, D. C. (1996). Pseudohomophone effects and models of word recognition. Journal of Experimental Psychology: Learning, Memory, and Cognition, 22, 48-62. Share, D. L. (2008). On the Anglocentricities of current reading research and practice: The perils of overreliance on an “outlier” orthography: Psychological Bulletin, 134, 584-615. Pseudo-homophones Stone, G. O., & Van Orden, G. C. (1993). Strategic control of processing in word recognition. Journal of Experimental Psychology: Human Perception and Performance, 19, 744-774. Taft, M. (1982). An alternative to grapheme-phoneme conversion rules? Memory & Cognition, 15, 181-198. Taft, M., & Russell, B. (1992). Pseudohomophone naming and the word frequency effect. Quarterly Journal of Experimental Psychology, 45A, 51-71. Tan, L. H., & Perfetti, C. A. (1999). Phonological and associative inhibition in the early stages of English word identification: Evidence from backward masking. Journal of Experimental Psychology: Human Perception and Performance, 25, 59-69. Transler, C., & Reitsma, P. (2005). Phonological coding in reading of deaf children: pseudo-homophone effects in lexical decision. British Journal of Developmental Psychology, 23, 525-542. Van Orden, G. C. (1987). A ROWS is a ROSE: Spelling, sound and reading. Memory and Cognition, 15, 181-198. Van Orden, G. C., Pennington, B. F., & Stone, G. O. (1990). Word identification in reading and the promise of subsymbolic psycholinguistics. Psychological Review, 97, 488-522. Van Orden, G. C. (1991). Phonological mediation is fundamental to reading. In Besner, D., & Humphreys, G. W. (Eds.). Basic Processes in Reading. Visual Word Recognition (pp. 238-255). Hillsdale, NJ: Lawrence Erlbaum. Van Orden, G. C., Johnston, J. C., & Hale, B. L. (1988). Word indentification in reading proceeds from spelling to sound to meaning. Journal of Experimental Psychology: Learning, Memory, and Cognition, 14, 371-386. Van Orden, G. C., & Kloos, H. (2005). The question of phonology and reading. 751 In M.S., Snowling & C. Hulme (Eds.), The Science of Reading: A Handbook (pp. 61-78). London: Blackwell Publishing. Van Orden, G. C., Stone, G. O., Garlington, K. L., Markson, L. R., Pinnt, G. S., Simonfy, C. M., & Brichetto, T. (1992). “Assembled“ phonology and reading: A case study in how theoretical perspective shapes empirical investigation. In R. Frost & L. Katz (Eds.), Orthography, Phonology, Morphology, and Meaning (pp. 249-292). North Holland: Elsevier Science Publishers. Wheat, K. L., Cornelissen, P. L., Frost, S. J., & Hansen, P. C. (2010). During visual word recognition, phonology is accessed within 100 ms and may be mediated by a speech production code: Evidence from magnetoencephalography. Journal of Neuroscience, 30, 5229-5233. Xu, B., & Perfetti, C. A. (1999). Nonstrategic subjective threshold effects in phonemic masking. Memory & Cognition, 27, 26-36. Ziegler, J. C., Ferrand, L., Jacobs, A. M., Rey, A., & Grainger, J. (2000). Visual and phonological codes in letter and word recognition: Evidence from incremental priming. Quarterly Journal of Experimental Psychology, 53A, 671-692. Ziegler, J. C., & Jacobs, A. M. (1995). Phonological information provides early sources of constraint in the processing of letter strings. Journal of Memory and Language, 34, 567-593. Ziegler, J. C., Jacobs, A. M., & Klüppel, D. (2001). Pseudohomophone effects in lexical decision: Still a challenge for current word recognition models. Journal of Experimental Psychology: Human Perception and Performance, 27, 547-559. Ziegler, J. C., Van Orden, G. C., & Jacobs, A. M. (1997). Phonology can help or hurt the perception of print. Journal of Experimental Psychology: Human Perception and Performance, 23, 845-860. L’année psychologique, 2011, 111, 725-751