"duboisbuyse" (254Ko)
Transcription
"duboisbuyse" (254Ko)
Université Lumière Lyon 2 ISPEF Licence de sciences de l'éducation Cours 3PA16820 : Didactique des mathématiques, de la statistique et des disciplines scientifiques Jean-Claude Régnier Titre du dossier : L'échelle Dubois-Buyse ou de la mesure d'acquisition lexicale à la transposition didactique Nom : DELEUZE Prénom : Jean-Marc N° d'étudiant : 8202589 Année universitaire 1999/2000 SOMMAIRE 1) Introduction page 3 2) Etat des lieux : a) La banalisation de l'échelle Dubois-Buyse b) Son principe et son histoire c) Les limites, les dérives d'une utilisation abusive de l'outil statistique d) A propos des statistiques page 5 e) Une problématique à poser 3) A la recherche de dispositifs de transposition didactique : page 6 a) Liaison avec les tableaux de l'Alphabet Phonétique International b) Recherches sur Internet page 7 4) Pour une échelle rénovée et interactive au service de l'étude de l'orthographe lexicale page 8 5) Elaboration d'un outil didactique : a) Saisie de l'échelle (mots et échelons) sous forme de base de données sous Excel b) Calcul des fréquences d'apparition des mots à partir d'un corpus de 100 000 mots page 9 c) Ajout de nouveaux mots au vu des fréquences d'apparition observées d) Transfert de la base de données sous FileMaker page 10 e) Ajout des phonèmes, graphèmes, correspondances graphophonétiques et "rentabilités" f) Mise au point de fonctions interactives g) Exemples d'utilisations possibles 6) La linguistique quantitative : page 12 a) Un texte de référence b) Analyse du texte page 13 7) Difficultés rencontrées page 15 8) Résumé - Conclusion 9) Bibliographie page 16 10) Annexes : a) Références à l'échelle Dubois-Buyse dans les manuels : le BLED de CM1 page 17 b) Tableaux de l'Alphabet Phonétique International page 18 c) Base de données page 26 d) ACQUISDB.xls (acquisitions par âge et par échelon) page 27 e) occurrences étude.xls (comptage général du corpus de 100000 mots) page 28 f) occurrences nom communs tri par fréquence.xls (loi de Zipf) page 29 g) Texte à décoder page 31 2 1) Introduction : L'échelle Dubois-Buyse regroupe 3787 mots d'usage courant testés auprès d'enfants et adolescents. Ces mots sont classés par échelon. Chaque échelon correspond à un pourcentage étalonné de réussite (mots écrits justes sous la dictée) pour chaque âge. Il s'agit donc d'un outil élaboré sur des bases statistiques. Cette échelle est citée de moins en moins souvent dans les Instructions Officielles, mais son utilisation est toujours très fréquente sans qu'elle soit pour autant explicite. C'est ainsi que quantité de manuels s'y réfèrent lorsqu'ils proposent, au fil de leurs pages, des listes de mots "à apprendre". Pour ces deux raisons (bases statistiques et utilisations ou références tendant à être non-explicites), il me semble judicieux et légitime, dans un dossier consacré conjointement à la statistique et à la didactique, de se pencher sur cet outil, à travers son histoire, les limites de sa validité, ses non-dits, ses usages et réactualisations possibles. La préoccupation didactique de l'enseignement me semble d'autre part encourager à en proposer une transposition didactique, dans les limites de temps et de compétences qui sont les miennes. 2) Etat des lieux : a) La banalisation de l'échelle Dubois-Buyse : i) Dans les Instructions Officielles : Les Programmes de 1995 (page 101) reprennent intégralement ceux de 1985 (page 85) dans la "Production d'écrits, Cycles 2 et 3" : "L'élève doit pouvoir (…) orthographier correctement (…) les mots d'usage courant donnés, par exemple, par les échelles de fréquence." Dans le livret "La maîtrise de la langue à l'école", on trouve un passage plus explicite encore : "En ce qui concerne l'orthographe lexicale, les tables de fréquence et de difficultés en usage sont un excellent guide pour graduer les exigences à chaque niveau de l'apprentissage, mais ne doivent en aucun cas être considérées comme des programmes d'enseignement". ii) Dans les manuels : Dans les manuels de français, notamment ceux traitant de l'orthographe, on trouve parfois des listes de mots à apprendre à orthographier. Des "spécialistes" de cette méthode sont les fameux ORTH et BLED, ce dernier proposant en fin d'ouvrage un "répertoire" à compléter organisé par phonèmes. La référence, dans ces deux cas, à l'échelle Dubois-Buyse, bien que réelle, n'est pas explicitée (voir Annexe "BLED CM1"). iii) Dans la littérature de jeunesse : La référence, dans ce cas, qui touche aussi bien la littérature de loisir que celle destinée à l'école, n'est jamais faite alors que les éditeurs utilisent quantité d'échelles pour adapter leur vocabulaire à celui du public ciblé. 3 iv) Qu'en penser ? On peut s'interroger sur les dangers d'une utilisation prolongée et de moins en moins explicite de cette échelle sans questionnement autour des limites de sa validité et de son utilisation. b) Son principe et son histoire : L'échelle Dubois-Buyse est née en 1940 du travail de sept années de ses deux auteurs. Elle a été réactualisée en 1947 par A. Pirenne et J. Lambert. Même si les auteurs s'en défendent, on peut rapprocher leur travail des préoccupations d'A. Binet : la volonté de mesurer une acquisition y fait clairement référence, et l'échelle est parue en 1952 dans le Bulletin de la Société Alfred Binet. Le point de départ de la recherche est l'enquête sur le vocabulaire fondamental du français écrit mené par le Dr Aristizabal du Laboratoire de Didactique expérimentale de l'Université de Louvain sur la base de 1400 lettres d'adultes et de 4100 rédactions spontanées d'élèves des deux sexes qui a permis d'aboutir à une liste de 4329 mots. Sur ceux-ci, 3724 mots ont été dictés, en fin d'année scolaire, à 59469 élèves d'école primaire (ce qui est peu : 595 enfants pour chacune des dix tranches d'âge étudiées). L'interprétation statistique de ces résultats a permis de classer tous les mots en 43 groupes ou "échelons". Chacun de ces groupes contient des mots de difficulté équivalente et représente dans son ensemble une difficulté moyenne également distante de celle des deux échelons voisins. Les 43 groupes étant ainsi séparés par des distances égales, leur ensemble constitue une "échelle" permettant une mesure précise de la capacité orthographique. L'échelle a été amenée à 3787 mots par la suppression de l'échelon 40 (y a-t-il encore équidistance entre les échelons 39 et 41 ?) et l'apport des "mots-outils" non-étalonnés. c) Les limites, les dérives d'une utilisation abusive de l'outil statistique : Les enquêtes successives ont porté sur un corpus de texte arbitrairement défini, et donc discutable, et sur un échantillon d'enfants francophones scolarisés tout aussi arbitraire. Si les différents auteurs et les éditions répétées ont régulièrement pris la précaution de tester l'échelle sur quelques établissements, on ne peut que regretter qu'aucune enquête de grande envergure n'ait été faite dans les dernières décennies. L'échelle Dubois-Buyse est censée mesurer les acquisitions réalisées sans apprentissage systématique préalable. L'utiliser en tant que corpus de référence / objectif pour l'apprentissage revient donc à viser une progression qui se ferait naturellement ou, dans le meilleur des cas, à détecter d'éventuels retards chez des enfants, ce qui n'est pas sans rappeler la parenté d'esprit avec les tests Binet. Le gros écueil de cette mesure est évidemment de détacher le mot de sa phrase, ce qui oblige à dicter celui-ci après avoir dit une phrase le présentant et lui donnant sens. Du fait de son isolement artificiel et pour ne pas interférer avec les règles grammaticales, les mots sont à écrire sous leur forme neutre (singulier pour les noms et adjectifs, masculin pour les adjectifs, infinitif pour les verbes). Ainsi, pour un verbe, le radical parfois très variable dans la conjugaison ne sera pas nécessairement maîtrisé par l'acquisition de la graphie infinitive, alors que le verbe aura peut4 être été choisi pour sa grande fréquence d'apparition dans les textes sous forme conjuguée. C'est ainsi que le verbe "aller" sera classé à l'échelon 13 ("facile"), alors qu'il compte trois radicaux (all-, ir-, v-). d) A propos des statistiques : Le cas de l'échelle Dubois-Buyse me semble constituer un exemple de l'apport et de l'influence des statistiques, notamment dans des situations complexes telles que les apprentissages. Comme chacun, je suis à la fois séduit par des "chiffres", ce qui signifie aussi un oubli réflexe et fatal de l'ignorance des modalités de leur extraction, et méfiant vis-à-vis des réductions des situations, indispensables à leur obtention. Il me semble qu'il faudrait mettre avant tout insister sur l'impossibilité de transfert de leurs résultats, ce qui obligerait à se renseigner sur les conditions de recueil et de traitement des données, deux étapes pendant lesquelles des décisions sont prises, limitant les situations et les éclairages. Ainsi, il m'est arrivé souvent de proposer des situations-jeux telles que : - parier sur les résultats de la somme de deux dés lancés simultanément en m'attribuant le gain pour les sommes 5, 6, 7, 8 et 9. L'autre joueur gagnant pour les sommes 2, 3, 4, 10, 11 et 12, il lui semblait devoir gagner plus souvent. Je mettais ainsi en évidence l'influence "traîtresse" du calcul combinatoire sur des événements équiprobables. - démonter la magie de mécanismes telles que la multiplication sur les doigts, la stratégie gagnante du jeu de Nim (passer la main avec une somme binaire nulle) ou le carré magique. - analyser les résultats d'élections et mettre en évidence le problème des bulletins blancs et le caractère douteux des interprétations de transfert des voix entre les deux tours. e) Une problématique à poser : L'échelle Dubois-Buyse est à rénover pour les raisons suivantes : - l'informatique s'est grandement développée depuis le travail de messieurs Dubois et Buyse, pour ne pas dire qu'elle est née… Les possibilités de calcul et de traitement d'aujourd'hui permettent de prendre en compte des quantités d'informations beaucoup plus importantes. Le corpus de texte notamment, utilisé pour calculer les fréquences d'apparition des mots, pourrait être nettement plus conséquent. - les modalités de dictées gagneraient à être explicitées (quelle phrase de présentation pour chaque mot ?) et l'aspect culturel des mots ("chantre" à l'échelon 12 !) pris en compte (quel pays francophone pour le corpus de textes, quelle nationalité pour l'élève ?). - les échelons devraient être recalculés et le principe de l'équidistance entre eux vérifié. - l'échelle mesurant le degré d'acquisition de l'orthographe lexicale, il conviendrait de prendre en compte l'existence et les modalités d'apprentissage préalable de celle-ci dans les résultats des dictées. 5 - dans sa forme actuelle, l'échelle ne fait que mesurer. On pourrait l'utiliser, puisqu'elle fournit des corpus de mots adaptés à chaque âge, pour un travail d'étude des correspondances graphophonétiques en intégrant celles-ci pour chaque mot. - en plus du problème des homophones ("cou" et "coup" dont la distinction se fait, lors de la dictée, par la phrase de présentation), de nombreux mots peuvent prendre des fonctions différentes. Ainsi, "avoir" est considéré comme correspondant à deux mots différents selon qu'il est nom (échelon 14) ou verbe (mot-outil). Il conviendrait au moins de préciser pour chaque mot ses fonctions possibles, voire de l'étalonner par fonctions. - l'échelle n'étant censée que mesurer un degré d'acquisition, on ne tient aucun compte de la fréquence d'apparition des mots, alors que celle-ci, couplée avec l'échelon, pourrait apporter une notion de "rentabilité" (fréquence/échelon = "à quel point ce mot vaut-il le coup d'être su ?"). - la forme papier, seule disponible aux moments de la création et des réactualisations de l'échelle, n'est pas la forme idéale pour effectuer des tris (rechercher les mots finissant en [waR] entre les échelons x et y). Une base de données interactive serait plus appropriée à ces tris et à une utilisation par les élèves eux-mêmes. Ainsi, pour ces raisons à la fois techniques et didactiques, on pourrait ainsi obtenir un outil plus fiable et qui dépasserait la simple mesure de type QI, sans l'abandonner pour autant, pour devenir un outil qui aiderait à rendre l'apprentissage de l'orthographe lexicale moins mécanique. 3) A la recherche de dispositifs de transposition didactique : La transposition didactique est le processus de transposition de savoirs savants en savoirs à enseigner. Il est clair que l'orthographe lexicale n'apparaît pas comme un enseignement gratifiant s'il s'agit simplement de faire acquérir un stock de graphies parfaitement arbitraires. En recherchant une progression fiable et en utilisant l'échelle Dubois-Buyse qui peut sembler adaptée, l'enseignant se borne à organiser un enseignement programmé. Ayant moi-même beaucoup utilisé l'échelle Dubois-Buyse, faute de mieux, dans l'enseignement spécialisé (Section d'Education Spécialisée) puis en CE2 et CM2, j'ai eu l'occasion d'essayer de trouver des moyens de rendre l'apprentissage de l'orthographe lexicale moins mécanique, notamment en reliant cet outil aux tableaux de l'Alphabet Phonétique International. a) Liaison avec les tableaux de l'Alphabet Phonétique International : On trouvera en annexes ces tableaux retravaillés avec des élèves de Cycle 3 en décloisonnement. J'avais fait le choix de ne pas utiliser les symboles phonétiques mais de leur substituer des "mots-clés" ("rat" pour [a]). Dans les graphies du son [a] ("rat") qui se rencontre dans 1109 des 3787 mots de l'échelle, on trouve pour la graphie "a" un mot exemple ("papa") et les fréquences d'apparition de cette correspondance graphophonétique selon qu'elle se situe en début (240 : "amour"), en fin (11 : "la") ou entre ces deux extrémités du mot (807 : "tabac"). 6 Les graphies en italique indiquent, hors échelle Dubois-Buyse, une déclinaison dûe à la conjugaison ("ient" dans [i]), celles qui sont soulignées le doivent aux marques de pluriel ("aps" dans [a]). Une fois ce travail de repérage et de comptage fait par les élèves, l'étude des résultats apporta quelques révélations surprenantes : - le son [e] ("mère") s'écrit le plus souvent "e" (59+536) et non "è" (90) ou "ê" (2+26) ! - le son [e] ("dé") s'écrit parfois "ê" (14/1307) : pêcher, mêler,… - le son [s] ("se") s'écrit essentiellement "s" (248+229+7) ou "se" (10+1+9) à 504 souvent "c" (44+117) ou "ce" (6+7+80) à 254 rarement "ss" (134) ou "sse" (34) à 168 moins encore "ç" (1+9) mais sans tenir compte de la conjugaison à Les règles du "ss" et du "c" devant s'entendre [s] sont-elles si indispensables à la survie ? Nous avions également recherché les fréquences des phonèmes ainsi que celles des lettres, ce dernier travail ayant ensuite été utilisé pour venir à bout de messages codés (par lettres). b) Recherches sur Internet : Preuve que l'échelle Dubois-Buyse n'est pas morte, on la trouve même sur Internet ! C'est ainsi que j'ai trouvé, en utilisant le logiciel métamoteur "Copernic 99" avec les mots-clés "Dubois Buyse" 83 références dont : i) Des listes de "vocabulaire" : Il s'agit d'utilisations classiques de l'échelle pour bâtir des répertoires de mots ou des progressions par niveaux de classes. ii) ELMO : Rappelons la popularité de ce logiciel de l'Association Française pour la Lecture qui, sorti à l'époque de la "valise éducative" des MO5 et TO7, contrastait avec les autres logiciels qui n'étaient souvent que des "QCM animés". ELMO se réfère donc aussi à l'échelle Dubois-Buyse dont elle utilise les mots échelonnés pour construire des exercices concernant l'élargissement du champ utile lors d'une fixation de l'œil, l'empan visuel, la discrimination, la rapidité d'exploration et les comportements d'anticipation. iii) ECHELLIA : C'est un logiciel proposant 5 exercices permettant de mémoriser l'orthographe des mots de l'échelle Dubois-Buyse, améliorer la vitesse de lecture, entraîner l'œil à une grande mobilité et améliorer la vitesse de frappe au clavier. Ces deux logiciels, que j'ai téléchargé dans le cas d'ELMO ou commandé et reçu (ECHELLIA), puis testés, permettent de paramétrer la difficulté, notamment avec la durée de l'affichage, et d'éditer de nouveaux exercices. 7 4) Pour une échelle rénovée et interactive au service de l'étude de l'orthographe lexicale : Il me paraît difficile d'étudier un outil aussi utilisé et "abusé" que l'échelle Dubois-Buyse sans en proposer une version plus orientée vers la transposition didactique en orthographe lexicale que vers la simple mesure du degré d'acquisition de celle-ci, mesure qui en est l'objectif initial mais que notre nature humaine nous pousse à pervertir pour en faire un outil didactique d'apprentissage. Ce serait d'autant plus dommage que j'avais déjà entrepris un travail sur l'échelle Dubois-Buyse (voir point 3-a) qui avait nécessité la saisie de l'échelle sous Excel en y incorporant les correspondances graphophonétiques. Pour aller jusqu'au terme de ce que j'estimerais "didactiquement correct", il me faudrait mener un travail qui dépasserait largement mon temps et, plus encore, mon budget. L'outil que j'envisage donc de mettre au point dans les pages qui suivent aura donc d'importantes limites : les mots ne seront pas ré-étalonnés, le calcul des fréquences d'apparition se basera sur un corpus relativement réduit, l'outil interactif final ne comportera pas toutes les fonctions souhaitables. Mais l'ensemble devrait, je l'espère, ressembler à une pré-maquette de ce qui pourrait être réalisé et permettre déjà des recherches intéressantes pour les élèves. 5) Elaboration d'un outil didactique multimédia : a) Saisie informatique de l'échelle sous forme de base de données sous Excel : On trouvera en annexe une page de cette base de données. Chaque fiche comporte les champs : - Mot. - Echelon : le "0" correspondait aux mots-outils. - Fait : le "O" correspondait aux mots déjà appris, ce qui permettait de faire un apprentissage systématique tout en "tirant" les mots à apprendre en fonction des lectures, des notions abordées en grammaire ou en orthographe. - Fonction : certains mots en remplissent plusieurs ("acide"), on peut effectuer des tris par noms, adjectifs, adverbes, verbes, prépositions. - Phonétique : les sons sont codés par mots-clés ([a]=rat), on utilise la parenthèse d'ouverture, le tiret et la parenthèse de fermeture pour pouvoir trier les mots selon la position d'un son ( "*-dé)" signifie [e] en fin de mot, "*-dé-*" signifie [e] en milieu de mot). - Transcription : on associe là le graphème au phonème, on peut ainsi rechercher les sons [e] s'écrivant "et" en fin de mot avec le critère de tri "*- mère=et)". Le codage des sons était familier aux élèves et repris dans les tableaux de l'Alphabet Phonétique International" ainsi que sur des jeux de cartes (une par son avec toutes les graphies possibles pour dicter, construire ou écrire des mots) que j'avais fabriqués. Ici s'arrête le travail fait avant la réalisation du présent dossier. 8 b) Calcul des fréquences d'apparition des mots à partir d'un corpus de 100 000 mots : Je me limiterai à un corpus de 100000 mots pour des raisons pratiques (je n'ai pas de logiciel de comptage d'occurrences). Ce corpus est extrait d'un hebdomadaire "les Clés de l'Actualité" des années 1980 qui s'adressait à des adolescents de 15-16 ans pour les raisons suivantes : - ce périodique contenait différents types de textes (informatifs, prescriptifs, narratifs), - il s'adressait au public correspondant aux plus hauts échelons de l'échelle, ce qui peut donner un corpus qui serait un objectif d'apprentissage lexical à terme, - le choix de la période couverte (années 80) est censé mettre en évidence les biais dûs aux événements de l'actualité d'alors sur les fréquences d'apparition des mots, - j'ai un stock de ces périodiques suffisamment conséquent pour pouvoir choisir les articles de mon échantillon selon une procédure aléatoire (numéro, page, colonne, rang), - j'ai déjà saisi ce corpus dans le début des années 1990 (à la main !) mais je n'avais pas eu le courage d'effectuer le comptage… c'est l'occasion ! On arrive à un total de 124429 "mots" : symboles, nombres, noms propres, etc… le "dépassement" des 100000 mots étant dû notamment aux articles "apostrophés" (l'). Sur ces 124429 "mots", on trouve (voir Annexe "occurrences étude.xls") : Ponctuations et Signes = Nombres, dates, heures... = Mots = dont Noms propres, étrangers... et Mots "ordinaires" = 18318 2386 103725 5496 98228 TOTAL = 124429 Echelle DUBOIS-BUYSE = soient 79549 79% des mots "ordinaires" Seuls, les "mots ordinaires" seront désormais pris en compte. On remarque au passage que : - l'échelle Dubois-Buyse couvre assez bien le corpus (79%), - le corpus ne constitue pas un échantillon, même si on peut noter 5536 apparitions de l'occurrence "de", il faudrait donc un corpus de 1 à 10 millions de mots… c) Ajout de nouveaux mots au vu des fréquences d'apparition observées : Le parti est pris de : - ne pas supprimer de mots pré-existants dans l'échelle Dubois-Buyse même s'ils n'apparaissent pas dans le corpus, - ajouter 213 nouveaux mots (pour aboutir à une échelle de 4000 mots) par ordre décroissant de leurs fréquences d'apparition. 9 d) Transfert informatique de la base de données Excel sous FileMaker : Ce choix de logiciel est dicté uniquement par une meilleure maîtrise. "Access" aurait été peut-être préférable car plus répandu. e) Ajout des phonèmes, graphèmes, correspondances graphophonétiques et "rentabilités" : L'ajout des phonèmes, graphèmes et correspondances graphophonétiques ne concerne que les 213 nouveaux mots. La "rentabilité" est égale au rapport de la fréquence par l'échelon. Sa valeur maximale est de "311,23" pour le mot "pour" qui a une fréquence de "934" et qui est à l'échelon 3. Les mots nouveaux sont fixés arbitrairement à l'échelon 100 pour ne pas obtenir de valeurs "faussement parlantes" en rentabilité (valeur maximale de "3,21" pour le mot "procès" qui est le mot nouveau le plus fréquent dans le corpus, tous les autres mots nouveaux ayant une rentabilité inférieure à 1), les mots-outils sont rassemblés dans un échelon 0 pour obtenir "?" en rentabilité. f) Mise au point de fonctions interactives : i) Sécurité : Deux niveaux d'utilisation sont prévues : - édition : pour ceci, il faut saisir le mot de passe "0558" à l'ouverture et qui permet de modifier la base (données, interfaces), - élèves : sans le mot de passe, les élèves peuvent manipuler la base sans danger pour les données et les interfaces (FileMaker enregistre en permanence, d'où danger…). ii) Interfaces : - un écran d'accueil qui oriente directement vers l'écran de recherche, celui de présentation des résultats de la recherche précédente, une présentation des principes et du fonctionnement d'ensemble de la base, - un écran de présentation, imprimable, qui explique l'échelle Dubois-Buyse, les notions de fréquence et de rentabilité, les différents champs, le codage des phonèmes en "mots-clés" qu'il est possible d'entendre, le mot de passe pour éditer la base, un bouton vers l'écran d'accueil, - un écran de recherche, comportant tous les champs, avec menus déroulants pour les rubriques "Niveau", "Echelon" et "Fonction", des boutons vers les autres interfaces, les repères (la syntaxe) pour définir les critères de recherche, des boutons pour afficher les fiches précédentes et suivantes des résultats de recherche, un bouton de réinitialisation du tri, un bouton vers l'écran de présentation des résultats, le cumul des fréquences d'apparition observées, - un écran de présentation des résultats de la recherche, imprimable, affichant toutes les fiches répondant aux critères de tri, le cumul des fréquences d'apparition observées et des boutons renvoyant vers les autres écrans. g) Exemples d'utilisations possibles : La syntaxe typique des bases de données doit faire l'objet d'un apprentissage tutoré ; on aurait pu créer des fonctions d'édition de critères de tri. 10 Néanmoins, de nombreuses recherches peuvent être faites et donner lieu à des présentations graphiques sur des tableurs. Quelques exemples : i) Recherche de graphies d'un son : Graphies du son [s] en "t" ("- tion") pour les mots des échelons du CE1 : Saisies dans les champs Niveau = " CE1 " Résultats Transcription = " ==*-se=t-* " nation, salutation ii) Recherche sur les fonctions : Mots faisant fonction de noms et de verbes : Saisies dans les champs Fonction = " NOM/VER " Résultats iii) boucher, conseiller, coucher, déjeuner, dîner, officier, souper Recherche croisée sur les mots-outils et les fonctions : Mots-outils faisant fonction de préposition : Saisies dans les champs Fonction = " PRE " Résultats iv) Niveau = " Outil " à, aux, d', de Recherche croisée sur les fins de mots et les fonctions : Adjectifs finissant en -er : Saisies dans les champs Mot = " ==*e r " Résultats Fonction = " ADJ " amer, cher, entier, familier, fier, forestier, fruitier, grossier, laitier, léger, ménager, particulier, printanier, singulier, régulier, financier v) Recherche sur les familles de mots : Mots comportant le segment "porte" : Saisies dans les champs Mot = " ==*porte* " Résultats apporter, emporter, importer, porte, portée, portefeuille, porte-plume, porter, porteur, rapporter, remporter, reporter, supporter, transporter vi) Recherche sur les préfixes : Verbes commençant en "pré" : Saisies dans les champs Mot = " ==pré* " Résultats Fonction = " VER " précéder, précipiter, préférer, préoccuper, préparer, présenter, préserver, prétendre, prévenir, prévoir 11 6) La linguistique quantitative : a) Un texte de référence : Pour terminer ce dossier consacré à un outil statistique de mesure d'acquisition d'orthographe lexicale, j'ai lu un article au titre de circonstance et qui ouvre des perspectives de didactique linguistique : Linguistique et statistique in Linguistique quantitative in LINGUISTIQUE, (Encyclopedia Universalis, 1973, page 1056) : "Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les cryptographes et les sténographes. Les cryptographes ont dû établir des tables de fréquences des lettres ; et c'est au sténographe Baptiste Estoup que l'on doit les premières observations connues sur les fréquences relatives des mots dans un texte. Ces observations, reprises et développées ultérieurement, en particulier par Georges K. Zipf, consistent en ceci : si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est constant (…). Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés linguistiques. Cette constatation (…) est souvent désignée sous le nom de loi de Zipf ; elle n'est pas isolée, mais n'est que la première de toute une série d'autres que l'on peut résumer ainsi : - La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions, prépositions) représentent 50% de n'importe quel texte, l'autre moitié étant constituée par les mots pleins (substantifs, verbes, adjectifs, adverbes). (…) - La fréquence des mots d'une langue dans le discours est liée à leur structure phonétique ; en particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court (c'est-à-dire moins son "coût de production" est élevé). (…) Dans le domaine de la pédagogie des langues, la statistique lexicale permet d'établir des lexiques de base qui représentent la part la plus fondamentale du vocabulaire d'une langue et qui doivent, par conséquent, faire l'objet d'un enseignement particulier (français fondamental, etc.). Au niveau de l'alphabet ou de la phonologie, l'étude statistique peut fournir d'importants renseignements de tous ordres. Par exemple, en sténographie, on aura naturellement intérêt à attribuer les signes les plus simples aux lettres les plus fréquentes en vertu de la recherche de l'économie du coût ; on se souvient d'autre part comment William Legrand, le héros du Scarabée d'or d'Edgar Poe, parvient à décrypter le message codé en utilisant les caractères statistiques des lettres de l'orthographe anglaise. (…) La liste des services rendus par la statistique dans le domaine linguistique pourrait être fort longue." 12 b) Analyse du texte : i) Loi de Zipf : Un calcul sur le corpus de "mots ordinaires" (voir Annexe "occurrences noms communs tri par fréquence.xls") donne une constante théorique de 9596. 77% des mots du corpus se situent dans une fourchette de 20% de part et d'autre de cette valeur. Cette loi est donc plutôt respectée, d'autant que le corpus a une taille statistiquement trop réduite par rapport aux fréquences d'apparition observées (80% des mots font moins de 5 apparitions dans le corpus). Rang x Fréquence 18000 16000 14000 12000 10000 8000 6000 4000 2000 0 2179 1937 1695 1453 1211 969 727 485 243 1 Rang x Fréquence ii) La part des mots outils : Dans le corpus étudié, sur les 97110 occurrences, 41263 concernent les mots outils, soient 42%. iii) Le nombre de phonèmes et le rang : Phonèmes 13 Mots 2 Occurrences 18 12 11 10 4 11 52 97 115 350 9 8 7 112 241 439 922 1957 3604 6 688 5142 5 895 7865 4 3 2 1 813 492 206 38 9554 13441 18437 24779 Le rang étant inversement proportionnel au nombre d'occurrences, on remarque que le nombre d'occurrences d'un mot décroît exponentiellement par rapport à son nombre de phonèmes. 25000 20000 15000 Phonèmes Occurrences 10000 5000 0 1 2 3 4 5 6 7 8 13 9 10 11 12 13 iv) La longueur des mots et le rang : Nombre de lettres 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Occurrences 2257 26904 11213 10233 9827 6521 6742 5914 3151 2063 781 556 213 60 6 Mis à part les mots d'une lettre ("à" et "y"), on voit bien les occurrences décroître avec l'augmentation du nombre de lettres des mots. 30000 Occurrences 25000 20000 Nombre de lettres 15000 Occurrences 10000 5000 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Nombre de lettres v) Les fréquences des lettres : Sur les 626192 signes du corpus de 100000 mots étudiés, on trouve 494858 lettres de l'alphabet, accentuées ou non, réparties comme ci-dessous : Lettres e s a n i r t u l o d c p Fréquence x 1000 173 85 79 75 72 70 69 58 56 55 40 35 30 Lettres Fréquence x 1000 m v f g 27 13 12 11 q 9 b 9 h 8 x 5 j 4 y 3 k 1 z w 1 0 On trouvera en annexe une démarche de résolution du problème de décodage utilisant les fréquences d'apparition des lettres et celles de leurs combinaisons. vi) D'autres recherches possibles : D'autres recherches de linguistique quantitative (Peyrard, 1972, page 199) démontrent que le nombre de syllabes d'un mot est égal au logarithme de la probabilité d'emploi de celui-ci. De même, Georges K. Zipf a montré que le nombre de significations d'un mot est proportionnel à la racine carrée de sa fréquence. Il est sans doute difficile d'envisager de pointer de tels détails avec des élèves de l'enseignement primaire. On pourra cependant faire constater que les mots les plus fréquents sont les plus courts, que ce sont ceux qui ont un champ sémantique parfois si large qu'on en évite l'usage (faire) à l'écrit, ou qu'ils ont un sens précis mais très usité (TGV) ou une forte charge émotive ; c'est ainsi que, parmi les expressions devenues abréviations puis mots écrits en lettres minuscules, le mot "sida" est un "cas record" par la vitesse de ses transformations successives. 14 7) Difficultés rencontrées : Il est toujours très frustrant d'être déçu avant même de finir un travail. Les occasions ont été nombreuses : - Un corpus de 100000 mots s'est révélé très insuffisant. Même si je ne peux pas le multiplier par 10 ou 100, l'outil fabriqué et les notions de fréquence et de rentabilité se révèlent d'une fiabilité douteuse. - Investir un gros travail solitaire sur les bases peu sûres d'échelons très probablement dépassés sans avoir les moyens de les mettre à l'épreuve n'a pas été très gratifiant. - Un stock de 4000 mots est très insuffisant pour se livrer à des recherches lexicales. Cependant, compte-tenu des impératifs de production, l'outil, en tant que maquette de projet, permet déjà des recherches intéressantes, à condition de se garder de transférer ce qui ne peut l'être, la statistique... Il est également difficile d'être parfaitement rigoureux ; ainsi, j'ai hésité souvent entre les termes "fréquence" et "occurrences" et j'ai finalement choisi d'opter presque systématiquement pour le premier mot, même lorsqu'il s'agit de comptages car c'est bien la notion de fréquence qui est sous-jacente. 8) Résumé - Conclusion : A partir d'un outil de mesure, on peut donc, en introduisant d'autres données, en lui donnant un fonctionnement plus souple, et en le croisant avec d'autres outils, aborder une didactique de l'orthographe lexicale et de la linguistique qui mette les élèves dans des situations de recherches qui les intéressent. On pourrait estimer que les quelques exemples d'activités linguistiques donnés ici, non explicitées dans leurs procédures du fait des contraintes de taille du dossier mais très accessibles à des enfants de l'école primaire, ne les concernent pas. A cette opinion, je répondrai d'une part que, pour avoir pratiqué des activités d'un niveau ambitieux avec des élèves en grande difficulté, j'ai pu constater à chaque fois que le défi mobilise et révèle très bien des ressources insoupçonnables, parce qu'inutilisées, dans d'autres situations, et d'autre part que les activités portant sur les champs sémantiques, en vocabulaire, tout comme des situations de décodage sont très courantes et sollicitent pourtant des compétences et des attitudes qu'on oublie trop souvent d'expliciter. Le présent dossier est à considérer comme formant un tout avec les fichiers informatiques joints et élaborés pour cette ébauche de recherche, parmi lesquels la base de données interactive "Scale.fp3" représente l'outil didactique mis au point à cette occasion. 15 9) Bibliographie : TERS F., MAYER G., REICHENBACH D., 1975, L'échelle Dubois-Buyse d'orthographe usuelle française, 3ème édition revue et corrigée, OCDL Paris BONNET J., GUIBERT P., GASTINEAU T., 1981, Orthographe et principe d'analogie, Catalogue orthographique pour l'école élémentaire, Editions de l'Ecole, Paris BABIN N., PIERRE M., 1991, Programmes, Instructions, Conseils pour l'école élémentaire, Collection L'école au quotidien, Hachette Ecoles Programmes de l'école primaire, 1995, CNDP La maîtrise de la langue à l'école, 1992, CNDP BLED E., BLED O., BERLION D., 1992, 1er en orthographe, CM1, Collection BLED, Hachette GUION J., 1985, Apprendre l'orthographe, SERMAP-HATIER Logiciel "Echellia", http://dlp.ipl.com Logiciel "ELMO", http://www.lecture.org/logiciel/elmo/elmo.htm PEYTARD J., GENOUVRIER E, 1972, Linguistique et enseignement du français, Larousse Conférences "2000 en France" du Conservatoire National des Arts et Métiers (archivées au format Real Audio sur http://www.telerama.fr ), Cycle "Les signes et le sens" : - CERQUIGLINI B., Renouveau et perspectives sur la langue française, - DANLOS L., Linguistique et informatique, - BENVENISTE C. B., La linguistique descriptive au 20ème siècle, - DUCROT O., Le sens LEBART L., Statistique Textuelle, (avec A. Salem), Dunod, Paris, 1994, 344 p. Logiciel "HYPERBASE" 16 Référence à l'échelle Dubois-Buyse dans les manuels BLED CM1 Page 7 (leçon 1) : mots échelons sentier 19 chemin 8 localité 19 vallée 18 géographie 17 sommet 22 plaine 17 terre 2 transport 19 végétation 28 ECHELON MOYEN = 16,9 Page 43 (leçon 13) : mots échelons parure 19 reverdir 19 dominer 19 beauté 19 haie 17 ruisseau 19 printemps 19 temps 18 buisson 19 feuillage 19 feuille 13 approcher 17 ECHELON MOYEN = 18,1 Page 82 (leçon 26) : mots échelons étage 16 avenue 16 ville 11 musée 16 monument 18 région 17 habitation 17 habiter 23 endroit 18 environ 18 ECHELON MOYEN = 17 MOYENNE GENERALE DES ECHELONS = 17,4 l'échelon 17 ayant un taux de réussite de 81% en CM1 17 18 19 20 21 22 23 24 25 26 27 28 29 30 TEXTE A DECODER C E S S E R A I T I L S U F F I S A I T C O N N A I T R E D M E R V E I L L E U X L E S A P P A R I T I O N P O U R D E F R E Q U E N C E S D E S L E T T R E S P O U V O I R D E C O D E R U N I L D I S P O S E R T E X T E M A I S U N F A U T C O R P U S D S U F F I S A M ME N T I MP O R T A N T P O U R R E S U L T A T S S T A T I S T I Q U E S S O I E N T Q U E L E S A P P L I C A B L E S TOTAL DU TEXTE = 200 lettres. Fréquences d'apparition des lettres dans le corpus de 100000 mots : Lettres e s a n i r t u l o d c p Fréquence théorique x 1000 173 85 79 75 72 70 69 58 56 55 40 35 30 Lettres Fréquence x 1000 m v f g 27 13 12 11 31 q 9 b 9 h 8 x 5 j 4 y 3 k 1 z w 1 0 1) Le codage du "E" est vite résolu par sa très haute fréquence d'apparition : Fréquences d'apparition des lettres dans le texte à décoder : C E M 5 P 10 L O 10 11 K T 18 V F 6 C 2 R 14 6 S E R A I T E S 0 E I L I J 18 0 U 13 N D X S 7 E 26 H 9 2 Y 0 Z 22 B 0 1 W 0 G 0 Q 0 A 2 13 M E R V E I L L E U X E E S U F F I S A I T E D E E C O N N A I T R E E D L E S F R E Q U E N C E S E A P P A R I T I O N E D E S E L E T T R E S E P O U R P O U V O I R E E E D E C O D E R E U N E T E X T E E E M A I S I L F A U T D I S P O S E R E U N C O R P U S S U F F I S A M M E N T E I M P O R T A N T P O U R Q U E E R E S U L T A T S L E S E S T A T I S T I Q U E S E E S O I E N T A P P L I C A B L E S E E 32 D 2) Le codage du "S" est trouvé grâce à sa haute fréquence d'apparition associée à sa position de fin de mot sur plusieurs mots qui se suivent : C E S E R A I T E S S M E R V E I L L E U X E I L E S U F F I S A I T S S D E E L E S E E A P P A R I T I O N F R E Q U E N C E S S E D E S E P O U R E S C O N N A I T R E D E P O U V O I R E E L E T T R E S S E E D E C O D E R E U N E T E X T E E E M A I S I L F A U T D I S P O S E R S U N S C O R P U S S I M P O R T A N T S S E S S S O I E N T S E P O U R E Q U E E R E S U L T A T S D S U F F I S A M M E N T S L E S E S S T A T I S T I Q U E S S S E A P P L I C A B L E S E E 33 S S S S 3) Départager les autres lettres : Les lettres suivantes à décoder ont essentiellement des caractéristiques de combinaisons entre elles : Tableaux des caractéristiques combinatoires des lettres dans le corpus de 100000 mots : "E devant" pour A : occurrences de la chaîne "EA" "E derrière" pour A : occurrences de la chaîne "AE" "doublée" pour A : occurrences de la chaîne "AA" "finale" pour A : occurrences de A en fin de mot E devant rang E devant E derrière rang E derrière A 671 13 B 187 18 C 2339 8 A 44 23 B 527 17 C D 3759 11113 9 1 A B C 364 10 10 16 E 1425 3 F 630 8 C 528 11 D E 464 25813 12 1 F 141 17 D doublée rang doublée 23 12 finale rang finale A 6702 5 E devant rang E devant N 9784 2 82 22 P 1050 10 Q 156 19 N 4878 5 O 105 20 P 2270 12 Q N 1279 4 O doublée rang doublée 53 11 P 486 9 finale rang finale N 6753 4 O 198 14 P 164 15 E derrière rang E derrière 9 D 483 16 17 B 24 24 O E 1425 9 E F 534 15 G 616 14 27 24 I 439 17 J 135 21 F G 742 1719 15 13 H 1347 14 I 4211 8 J 551 16 G H 23 12 23 G H 77 19 R S T 7035 14739 5000 3 1 4 R 0 10147 25 3 S T 4581 6842 6 4 Q S 2024 2 0 23 Q 57 22 H R 736 7 T 937 6 R S T 5392 18784 10364 6 2 3 I 0 J 19 14 P L O K I J U N 2 T V 6 F R C 5 D 2 S 11 34 L M 2429 3043 7 6 K L M 71 10162 4506 22 2 7 K 1 23 20 J K L M 2235 1016 1 5 64 21 I 2015 8 6 26 65 20 U 3504 5 V 872 11 W 14 26 X 704 12 41 23 U 3683 10 V 2640 11 W 22 24 X 193 19 Y 229 18 W X Y U V 2 1 1 19 20 20 U 2800 7 V W 32 23 8 25 H Y B G Z W Q A 3 finale E X 5 1 22 25 0 Mêmes caractéristiques relevées dans le texte à décoder : M K L 1501 9 Y 4 M 161 16 Z 139 20 Z 73 21 Z 0 18 23 17 15 X 1194 10 Y 273 13 Z 132 18 M P L O K I J 1 T V F R 1 4 M 2 P T V O F 1 M 1 P 2 V 1 L D 1 K I 5 2 T C R C 4 L O D 2 K N 1 3 E devant E X S 1 8 J 1 U U N 3 E derrière E X S 4 I Y B G Z W Q A 1 H Y B G Z W Q A H Y B G Z W Q A 2 J U N 1 F 2 H 1 R C D double E X S Le T est trouvé par l'association de sa grande fréquence d'apparition et de sa position en fin de mot. Le R se caractérise aussi par sa grande fréquence d'apparition et par l'égalité des occurrences des chaînes RE et ER. Ayant identifié les lettres E, S, T et R, on trouve fatalement des mots quasi-complets et les connaissances lexicales suffisent ensuite pour achever le décodage du message. 35