"duboisbuyse" (254Ko)

Transcription

"duboisbuyse" (254Ko)
Université Lumière Lyon 2
ISPEF
Licence de sciences de l'éducation
Cours 3PA16820 :
Didactique des mathématiques, de la
statistique et des disciplines
scientifiques
Jean-Claude Régnier
Titre du dossier :
L'échelle Dubois-Buyse
ou
de la mesure d'acquisition lexicale
à la transposition didactique
Nom : DELEUZE
Prénom : Jean-Marc
N° d'étudiant : 8202589
Année universitaire 1999/2000
SOMMAIRE
1) Introduction
page 3
2) Etat des lieux :
a) La banalisation de l'échelle Dubois-Buyse
b) Son principe et son histoire
c) Les limites, les dérives d'une utilisation abusive de l'outil statistique
d) A propos des statistiques
page 5
e) Une problématique à poser
3) A la recherche de dispositifs de transposition didactique :
page 6
a) Liaison avec les tableaux de l'Alphabet Phonétique International
b) Recherches sur Internet
page 7
4) Pour une échelle rénovée et interactive au service de l'étude de l'orthographe lexicale
page 8
5) Elaboration d'un outil didactique :
a) Saisie de l'échelle (mots et échelons) sous forme de base de données sous Excel
b) Calcul des fréquences d'apparition des mots à partir d'un corpus de 100 000 mots
page 9
c) Ajout de nouveaux mots au vu des fréquences d'apparition observées
d) Transfert de la base de données sous FileMaker
page 10
e) Ajout des phonèmes, graphèmes, correspondances graphophonétiques et "rentabilités"
f) Mise au point de fonctions interactives
g) Exemples d'utilisations possibles
6) La linguistique quantitative :
page 12
a) Un texte de référence
b) Analyse du texte
page 13
7) Difficultés rencontrées
page 15
8) Résumé - Conclusion
9) Bibliographie
page 16
10) Annexes :
a) Références à l'échelle Dubois-Buyse dans les manuels : le BLED de CM1
page 17
b) Tableaux de l'Alphabet Phonétique International
page 18
c) Base de données
page 26
d) ACQUISDB.xls (acquisitions par âge et par échelon)
page 27
e) occurrences étude.xls (comptage général du corpus de 100000 mots)
page 28
f) occurrences nom communs tri par fréquence.xls (loi de Zipf)
page 29
g) Texte à décoder
page 31
2
1) Introduction :
L'échelle Dubois-Buyse regroupe 3787 mots d'usage courant testés auprès d'enfants et adolescents. Ces
mots sont classés par échelon. Chaque échelon correspond à un pourcentage étalonné de réussite (mots
écrits justes sous la dictée) pour chaque âge.
Il s'agit donc d'un outil élaboré sur des bases statistiques.
Cette échelle est citée de moins en moins souvent dans les Instructions Officielles, mais son utilisation est
toujours très fréquente sans qu'elle soit pour autant explicite. C'est ainsi que quantité de manuels s'y
réfèrent lorsqu'ils proposent, au fil de leurs pages, des listes de mots "à apprendre".
Pour ces deux raisons (bases statistiques et utilisations ou références tendant à être non-explicites), il me
semble judicieux et légitime, dans un dossier consacré conjointement à la statistique et à la didactique, de
se pencher sur cet outil, à travers son histoire, les limites de sa validité, ses non-dits, ses usages et
réactualisations possibles.
La préoccupation didactique de l'enseignement me semble d'autre part encourager à en proposer une
transposition didactique, dans les limites de temps et de compétences qui sont les miennes.
2) Etat des lieux :
a) La banalisation de l'échelle Dubois-Buyse :
i) Dans les Instructions Officielles :
Les Programmes de 1995 (page 101) reprennent intégralement ceux de 1985 (page 85) dans la
"Production d'écrits, Cycles 2 et 3" : "L'élève doit pouvoir (…) orthographier correctement (…)
les mots d'usage courant donnés, par exemple, par les échelles de fréquence."
Dans le livret "La maîtrise de la langue à l'école", on trouve un passage plus explicite encore : "En
ce qui concerne l'orthographe lexicale, les tables de fréquence et de difficultés en usage sont un
excellent guide pour graduer les exigences à chaque niveau de l'apprentissage, mais ne doivent en
aucun cas être considérées comme des programmes d'enseignement".
ii) Dans les manuels :
Dans les manuels de français, notamment ceux traitant de l'orthographe, on trouve parfois des
listes de mots à apprendre à orthographier. Des "spécialistes" de cette méthode sont les fameux
ORTH et BLED, ce dernier proposant en fin d'ouvrage un "répertoire" à compléter organisé par
phonèmes. La référence, dans ces deux cas, à l'échelle Dubois-Buyse, bien que réelle, n'est pas
explicitée (voir Annexe "BLED CM1").
iii) Dans la littérature de jeunesse :
La référence, dans ce cas, qui touche aussi bien la littérature de loisir que celle destinée à l'école,
n'est jamais faite alors que les éditeurs utilisent quantité d'échelles pour adapter leur vocabulaire à
celui du public ciblé.
3
iv) Qu'en penser ?
On peut s'interroger sur les dangers d'une utilisation prolongée et de moins en moins explicite de
cette échelle sans questionnement autour des limites de sa validité et de son utilisation.
b) Son principe et son histoire :
L'échelle Dubois-Buyse est née en 1940 du travail de sept années de ses deux auteurs. Elle a été
réactualisée en 1947 par A. Pirenne et J. Lambert. Même si les auteurs s'en défendent, on peut
rapprocher leur travail des préoccupations d'A. Binet : la volonté de mesurer une acquisition y fait
clairement référence, et l'échelle est parue en 1952 dans le Bulletin de la Société Alfred Binet.
Le point de départ de la recherche est l'enquête sur le vocabulaire fondamental du français écrit mené
par le Dr Aristizabal du Laboratoire de Didactique expérimentale de l'Université de Louvain sur la
base de 1400 lettres d'adultes et de 4100 rédactions spontanées d'élèves des deux sexes qui a permis
d'aboutir à une liste de 4329 mots. Sur ceux-ci, 3724 mots ont été dictés, en fin d'année scolaire, à
59469 élèves d'école primaire (ce qui est peu : 595 enfants pour chacune des dix tranches d'âge
étudiées). L'interprétation statistique de ces résultats a permis de classer tous les mots en 43 groupes
ou "échelons". Chacun de ces groupes contient des mots de difficulté équivalente et représente dans
son ensemble une difficulté moyenne également distante de celle des deux échelons voisins. Les 43
groupes étant ainsi séparés par des distances égales, leur ensemble constitue une "échelle" permettant
une mesure précise de la capacité orthographique. L'échelle a été amenée à 3787 mots par la
suppression de l'échelon 40 (y a-t-il encore équidistance entre les échelons 39 et 41 ?) et l'apport des
"mots-outils" non-étalonnés.
c) Les limites, les dérives d'une utilisation abusive de l'outil statistique :
Les enquêtes successives ont porté sur un corpus de texte arbitrairement défini, et donc discutable, et
sur un échantillon d'enfants francophones scolarisés tout aussi arbitraire. Si les différents auteurs et les
éditions répétées ont régulièrement pris la précaution de tester l'échelle sur quelques établissements,
on ne peut que regretter qu'aucune enquête de grande envergure n'ait été faite dans les dernières
décennies.
L'échelle Dubois-Buyse est censée mesurer les acquisitions réalisées sans apprentissage systématique
préalable. L'utiliser en tant que corpus de référence / objectif pour l'apprentissage revient donc à viser
une progression qui se ferait naturellement ou, dans le meilleur des cas, à détecter d'éventuels retards
chez des enfants, ce qui n'est pas sans rappeler la parenté d'esprit avec les tests Binet.
Le gros écueil de cette mesure est évidemment de détacher le mot de sa phrase, ce qui oblige à dicter
celui-ci après avoir dit une phrase le présentant et lui donnant sens.
Du fait de son isolement artificiel et pour ne pas interférer avec les règles grammaticales, les mots
sont à écrire sous leur forme neutre (singulier pour les noms et adjectifs, masculin pour les adjectifs,
infinitif pour les verbes). Ainsi, pour un verbe, le radical parfois très variable dans la conjugaison ne
sera pas nécessairement maîtrisé par l'acquisition de la graphie infinitive, alors que le verbe aura peut4
être été choisi pour sa grande fréquence d'apparition dans les textes sous forme conjuguée. C'est ainsi
que le verbe "aller" sera classé à l'échelon 13 ("facile"), alors qu'il compte trois radicaux (all-, ir-, v-).
d) A propos des statistiques :
Le cas de l'échelle Dubois-Buyse me semble constituer un exemple de l'apport et de l'influence des
statistiques, notamment dans des situations complexes telles que les apprentissages.
Comme chacun, je suis à la fois séduit par des "chiffres", ce qui signifie aussi un oubli réflexe et fatal
de l'ignorance des modalités de leur extraction, et méfiant vis-à-vis des réductions des situations,
indispensables à leur obtention.
Il me semble qu'il faudrait mettre avant tout insister sur l'impossibilité de transfert de leurs résultats,
ce qui obligerait à se renseigner sur les conditions de recueil et de traitement des données, deux étapes
pendant lesquelles des décisions sont prises, limitant les situations et les éclairages.
Ainsi, il m'est arrivé souvent de proposer des situations-jeux telles que :
-
parier sur les résultats de la somme de deux dés lancés simultanément en m'attribuant le gain pour
les sommes 5, 6, 7, 8 et 9. L'autre joueur gagnant pour les sommes 2, 3, 4, 10, 11 et 12, il lui
semblait devoir gagner plus souvent. Je mettais ainsi en évidence l'influence "traîtresse" du calcul
combinatoire sur des événements équiprobables.
-
démonter la magie de mécanismes telles que la multiplication sur les doigts, la stratégie gagnante
du jeu de Nim (passer la main avec une somme binaire nulle) ou le carré magique.
-
analyser les résultats d'élections et mettre en évidence le problème des bulletins blancs et le
caractère douteux des interprétations de transfert des voix entre les deux tours.
e) Une problématique à poser :
L'échelle Dubois-Buyse est à rénover pour les raisons suivantes :
-
l'informatique s'est grandement développée depuis le travail de messieurs Dubois et Buyse, pour
ne pas dire qu'elle est née… Les possibilités de calcul et de traitement d'aujourd'hui permettent de
prendre en compte des quantités d'informations beaucoup plus importantes. Le corpus de texte
notamment, utilisé pour calculer les fréquences d'apparition des mots, pourrait être nettement plus
conséquent.
-
les modalités de dictées gagneraient à être explicitées (quelle phrase de présentation pour chaque
mot ?) et l'aspect culturel des mots ("chantre" à l'échelon 12 !) pris en compte (quel pays
francophone pour le corpus de textes, quelle nationalité pour l'élève ?).
-
les échelons devraient être recalculés et le principe de l'équidistance entre eux vérifié.
-
l'échelle mesurant le degré d'acquisition de l'orthographe lexicale, il conviendrait de prendre en
compte l'existence et les modalités d'apprentissage préalable de celle-ci dans les résultats des
dictées.
5
-
dans sa forme actuelle, l'échelle ne fait que mesurer. On pourrait l'utiliser, puisqu'elle fournit des
corpus de mots adaptés à chaque âge, pour un travail d'étude des correspondances
graphophonétiques en intégrant celles-ci pour chaque mot.
-
en plus du problème des homophones ("cou" et "coup" dont la distinction se fait, lors de la dictée,
par la phrase de présentation), de nombreux mots peuvent prendre des fonctions différentes. Ainsi,
"avoir" est considéré comme correspondant à deux mots différents selon qu'il est nom (échelon
14) ou verbe (mot-outil). Il conviendrait au moins de préciser pour chaque mot ses fonctions
possibles, voire de l'étalonner par fonctions.
-
l'échelle n'étant censée que mesurer un degré d'acquisition, on ne tient aucun compte de la
fréquence d'apparition des mots, alors que celle-ci, couplée avec l'échelon, pourrait apporter une
notion de "rentabilité" (fréquence/échelon = "à quel point ce mot vaut-il le coup d'être su ?").
-
la forme papier, seule disponible aux moments de la création et des réactualisations de l'échelle,
n'est pas la forme idéale pour effectuer des tris (rechercher les mots finissant en [waR] entre les
échelons x et y). Une base de données interactive serait plus appropriée à ces tris et à une
utilisation par les élèves eux-mêmes.
Ainsi, pour ces raisons à la fois techniques et didactiques, on pourrait ainsi obtenir un outil plus fiable
et qui dépasserait la simple mesure de type QI, sans l'abandonner pour autant, pour devenir un outil
qui aiderait à rendre l'apprentissage de l'orthographe lexicale moins mécanique.
3) A la recherche de dispositifs de transposition didactique :
La transposition didactique est le processus de transposition de savoirs savants en savoirs à enseigner.
Il est clair que l'orthographe lexicale n'apparaît pas comme un enseignement gratifiant s'il s'agit
simplement de faire acquérir un stock de graphies parfaitement arbitraires. En recherchant une
progression fiable et en utilisant l'échelle Dubois-Buyse qui peut sembler adaptée, l'enseignant se borne à
organiser un enseignement programmé. Ayant moi-même beaucoup utilisé l'échelle Dubois-Buyse, faute
de mieux, dans l'enseignement spécialisé (Section d'Education Spécialisée) puis en CE2 et CM2, j'ai eu
l'occasion d'essayer de trouver des moyens de rendre l'apprentissage de l'orthographe lexicale moins
mécanique, notamment en reliant cet outil aux tableaux de l'Alphabet Phonétique International.
a) Liaison avec les tableaux de l'Alphabet Phonétique International :
On trouvera en annexes ces tableaux retravaillés avec des élèves de Cycle 3 en décloisonnement.
J'avais fait le choix de ne pas utiliser les symboles phonétiques mais de leur substituer des "mots-clés"
("rat" pour [a]). Dans les graphies du son [a] ("rat") qui se rencontre dans 1109 des 3787 mots de
l'échelle, on trouve pour la graphie "a" un mot exemple ("papa") et les fréquences d'apparition de cette
correspondance graphophonétique selon qu'elle se situe en début (240 : "amour"), en fin (11 : "la") ou
entre ces deux extrémités du mot (807 : "tabac").
6
Les graphies en italique indiquent, hors échelle Dubois-Buyse, une déclinaison dûe à la conjugaison
("ient" dans [i]), celles qui sont soulignées le doivent aux marques de pluriel ("aps" dans [a]).
Une fois ce travail de repérage et de comptage fait par les élèves, l'étude des résultats apporta
quelques révélations surprenantes :
-
le son [e] ("mère") s'écrit le plus souvent "e" (59+536) et non "è" (90) ou "ê" (2+26) !
-
le son [e] ("dé") s'écrit parfois "ê" (14/1307) : pêcher, mêler,…
-
le son [s] ("se") s'écrit
essentiellement "s" (248+229+7) ou "se" (10+1+9) à 504
souvent "c" (44+117) ou "ce" (6+7+80) à 254
rarement "ss" (134) ou "sse" (34) à 168
moins encore "ç" (1+9) mais sans tenir compte de la conjugaison
à Les règles du "ss" et du "c" devant s'entendre [s] sont-elles si indispensables à la survie ?
Nous avions également recherché les fréquences des phonèmes ainsi que celles des lettres, ce dernier
travail ayant ensuite été utilisé pour venir à bout de messages codés (par lettres).
b) Recherches sur Internet :
Preuve que l'échelle Dubois-Buyse n'est pas morte, on la trouve même sur Internet !
C'est ainsi que j'ai trouvé, en utilisant le logiciel métamoteur "Copernic 99" avec les mots-clés
"Dubois Buyse" 83 références dont :
i) Des listes de "vocabulaire" :
Il s'agit d'utilisations classiques de l'échelle pour bâtir des répertoires de mots ou des progressions
par niveaux de classes.
ii) ELMO :
Rappelons la popularité de ce logiciel de l'Association Française pour la Lecture qui, sorti à
l'époque de la "valise éducative" des MO5 et TO7, contrastait avec les autres logiciels qui n'étaient
souvent que des "QCM animés". ELMO se réfère donc aussi à l'échelle Dubois-Buyse dont elle
utilise les mots échelonnés pour construire des exercices concernant l'élargissement du champ
utile lors d'une fixation de l'œil, l'empan visuel, la discrimination, la rapidité d'exploration et les
comportements d'anticipation.
iii) ECHELLIA :
C'est un logiciel proposant 5 exercices permettant de mémoriser l'orthographe des mots de
l'échelle Dubois-Buyse, améliorer la vitesse de lecture, entraîner l'œil à une grande mobilité et
améliorer la vitesse de frappe au clavier. Ces deux logiciels, que j'ai téléchargé dans le cas
d'ELMO ou commandé et reçu (ECHELLIA), puis testés, permettent de paramétrer la difficulté,
notamment avec la durée de l'affichage, et d'éditer de nouveaux exercices.
7
4) Pour une échelle rénovée et interactive au service de l'étude de l'orthographe lexicale :
Il me paraît difficile d'étudier un outil aussi utilisé et "abusé" que l'échelle Dubois-Buyse sans en proposer
une version plus orientée vers la transposition didactique en orthographe lexicale que vers la simple
mesure du degré d'acquisition de celle-ci, mesure qui en est l'objectif initial mais que notre nature
humaine nous pousse à pervertir pour en faire un outil didactique d'apprentissage.
Ce serait d'autant plus dommage que j'avais déjà entrepris un travail sur l'échelle Dubois-Buyse (voir
point 3-a) qui avait nécessité la saisie de l'échelle sous Excel en y incorporant les correspondances
graphophonétiques.
Pour aller jusqu'au terme de ce que j'estimerais "didactiquement correct", il me faudrait mener un travail
qui dépasserait largement mon temps et, plus encore, mon budget. L'outil que j'envisage donc de mettre
au point dans les pages qui suivent aura donc d'importantes limites : les mots ne seront pas ré-étalonnés,
le calcul des fréquences d'apparition se basera sur un corpus relativement réduit, l'outil interactif final ne
comportera pas toutes les fonctions souhaitables. Mais l'ensemble devrait, je l'espère, ressembler à une
pré-maquette de ce qui pourrait être réalisé et permettre déjà des recherches intéressantes pour les élèves.
5) Elaboration d'un outil didactique multimédia :
a) Saisie informatique de l'échelle sous forme de base de données sous Excel :
On trouvera en annexe une page de cette base de données. Chaque fiche comporte les champs :
-
Mot.
-
Echelon : le "0" correspondait aux mots-outils.
-
Fait : le "O" correspondait aux mots déjà appris, ce qui permettait de faire un apprentissage
systématique tout en "tirant" les mots à apprendre en fonction des lectures, des notions abordées
en grammaire ou en orthographe.
-
Fonction : certains mots en remplissent plusieurs ("acide"), on peut effectuer des tris par noms,
adjectifs, adverbes, verbes, prépositions.
-
Phonétique : les sons sont codés par mots-clés ([a]=rat), on utilise la parenthèse d'ouverture, le
tiret et la parenthèse de fermeture pour pouvoir trier les mots selon la position d'un son ( "*-dé)"
signifie [e] en fin de mot, "*-dé-*" signifie [e] en milieu de mot).
-
Transcription : on associe là le graphème au phonème, on peut ainsi rechercher les sons [e]
s'écrivant "et" en fin de mot avec le critère de tri "*- mère=et)".
Le codage des sons était familier aux élèves et repris dans les tableaux de l'Alphabet Phonétique
International" ainsi que sur des jeux de cartes (une par son avec toutes les graphies possibles pour
dicter, construire ou écrire des mots) que j'avais fabriqués.
Ici s'arrête le travail fait avant la réalisation du présent dossier.
8
b) Calcul des fréquences d'apparition des mots à partir d'un corpus de 100 000 mots :
Je me limiterai à un corpus de 100000 mots pour des raisons pratiques (je n'ai pas de logiciel de
comptage d'occurrences). Ce corpus est extrait d'un hebdomadaire "les Clés de l'Actualité" des années
1980 qui s'adressait à des adolescents de 15-16 ans pour les raisons suivantes :
-
ce périodique contenait différents types de textes (informatifs, prescriptifs, narratifs),
-
il s'adressait au public correspondant aux plus hauts échelons de l'échelle, ce qui peut donner un
corpus qui serait un objectif d'apprentissage lexical à terme,
-
le choix de la période couverte (années 80) est censé mettre en évidence les biais dûs aux
événements de l'actualité d'alors sur les fréquences d'apparition des mots,
-
j'ai un stock de ces périodiques suffisamment conséquent pour pouvoir choisir les articles de mon
échantillon selon une procédure aléatoire (numéro, page, colonne, rang),
-
j'ai déjà saisi ce corpus dans le début des années 1990 (à la main !) mais je n'avais pas eu le
courage d'effectuer le comptage… c'est l'occasion !
On arrive à un total de 124429 "mots" : symboles, nombres, noms propres, etc… le "dépassement"
des 100000 mots étant dû notamment aux articles "apostrophés" (l').
Sur ces 124429 "mots", on trouve (voir Annexe "occurrences étude.xls") :
Ponctuations et Signes =
Nombres, dates, heures... =
Mots =
dont Noms propres, étrangers...
et Mots "ordinaires" =
18318
2386
103725
5496
98228
TOTAL =
124429
Echelle DUBOIS-BUYSE =
soient
79549
79%
des mots "ordinaires"
Seuls, les "mots ordinaires" seront désormais pris en compte.
On remarque au passage que :
-
l'échelle Dubois-Buyse couvre assez bien le corpus (79%),
-
le corpus ne constitue pas un échantillon, même si on peut noter 5536 apparitions de l'occurrence
"de", il faudrait donc un corpus de 1 à 10 millions de mots…
c) Ajout de nouveaux mots au vu des fréquences d'apparition observées :
Le parti est pris de :
-
ne pas supprimer de mots pré-existants dans l'échelle Dubois-Buyse même s'ils n'apparaissent pas
dans le corpus,
-
ajouter 213 nouveaux mots (pour aboutir à une échelle de 4000 mots) par ordre décroissant de
leurs fréquences d'apparition.
9
d) Transfert informatique de la base de données Excel sous FileMaker :
Ce choix de logiciel est dicté uniquement par une meilleure maîtrise. "Access" aurait été peut-être
préférable car plus répandu.
e) Ajout des phonèmes, graphèmes, correspondances graphophonétiques et "rentabilités" :
L'ajout des phonèmes, graphèmes et correspondances graphophonétiques ne concerne que les 213
nouveaux mots. La "rentabilité" est égale au rapport de la fréquence par l'échelon. Sa valeur maximale
est de "311,23" pour le mot "pour" qui a une fréquence de "934" et qui est à l'échelon 3.
Les mots nouveaux sont fixés arbitrairement à l'échelon 100 pour ne pas obtenir de valeurs
"faussement parlantes" en rentabilité (valeur maximale de "3,21" pour le mot "procès" qui est le mot
nouveau le plus fréquent dans le corpus, tous les autres mots nouveaux ayant une rentabilité inférieure
à 1), les mots-outils sont rassemblés dans un échelon 0 pour obtenir "?" en rentabilité.
f) Mise au point de fonctions interactives :
i) Sécurité :
Deux niveaux d'utilisation sont prévues :
-
édition : pour ceci, il faut saisir le mot de passe "0558" à l'ouverture et qui permet de modifier
la base (données, interfaces),
-
élèves : sans le mot de passe, les élèves peuvent manipuler la base sans danger pour les
données et les interfaces (FileMaker enregistre en permanence, d'où danger…).
ii) Interfaces :
-
un écran d'accueil qui oriente directement vers l'écran de recherche, celui de présentation des
résultats de la recherche précédente, une présentation des principes et du fonctionnement
d'ensemble de la base,
-
un écran de présentation, imprimable, qui explique l'échelle Dubois-Buyse, les notions de
fréquence et de rentabilité, les différents champs, le codage des phonèmes en "mots-clés" qu'il
est possible d'entendre, le mot de passe pour éditer la base, un bouton vers l'écran d'accueil,
-
un écran de recherche, comportant tous les champs, avec menus déroulants pour les rubriques
"Niveau", "Echelon" et "Fonction", des boutons vers les autres interfaces, les repères (la
syntaxe) pour définir les critères de recherche, des boutons pour afficher les fiches précédentes
et suivantes des résultats de recherche, un bouton de réinitialisation du tri, un bouton vers
l'écran de présentation des résultats, le cumul des fréquences d'apparition observées,
-
un écran de présentation des résultats de la recherche, imprimable, affichant toutes les fiches
répondant aux critères de tri, le cumul des fréquences d'apparition observées et des boutons
renvoyant vers les autres écrans.
g) Exemples d'utilisations possibles :
La syntaxe typique des bases de données doit faire l'objet d'un apprentissage tutoré ; on aurait pu créer
des fonctions d'édition de critères de tri.
10
Néanmoins, de nombreuses recherches peuvent être faites et donner lieu à des présentations
graphiques sur des tableurs.
Quelques exemples :
i) Recherche de graphies d'un son :
Graphies du son [s] en "t" ("- tion") pour les mots des échelons du CE1 :
Saisies dans les champs Niveau = " CE1 "
Résultats
Transcription = " ==*-se=t-* "
nation, salutation
ii) Recherche sur les fonctions :
Mots faisant fonction de noms et de verbes :
Saisies dans les champs Fonction = " NOM/VER "
Résultats
iii)
boucher, conseiller, coucher, déjeuner, dîner, officier, souper
Recherche croisée sur les mots-outils et les fonctions :
Mots-outils faisant fonction de préposition :
Saisies dans les champs Fonction = " PRE "
Résultats
iv)
Niveau = " Outil "
à, aux, d', de
Recherche croisée sur les fins de mots et les fonctions :
Adjectifs finissant en -er :
Saisies dans les champs Mot = " ==*e r "
Résultats
Fonction = " ADJ "
amer, cher, entier, familier, fier, forestier, fruitier, grossier, laitier,
léger, ménager, particulier, printanier, singulier, régulier, financier
v)
Recherche sur les familles de mots :
Mots comportant le segment "porte" :
Saisies dans les champs Mot = " ==*porte* "
Résultats
apporter, emporter, importer, porte, portée, portefeuille, porte-plume,
porter, porteur, rapporter, remporter, reporter, supporter, transporter
vi)
Recherche sur les préfixes :
Verbes commençant en "pré" :
Saisies dans les champs Mot = " ==pré* "
Résultats
Fonction = " VER "
précéder, précipiter, préférer, préoccuper, préparer, présenter,
préserver, prétendre, prévenir, prévoir
11
6) La linguistique quantitative :
a) Un texte de référence :
Pour terminer ce dossier consacré à un outil statistique de mesure d'acquisition d'orthographe lexicale, j'ai
lu un article au titre de circonstance et qui ouvre des perspectives de didactique linguistique :
Linguistique et statistique in Linguistique quantitative in LINGUISTIQUE, (Encyclopedia
Universalis, 1973, page 1056) :
"Historiquement, les premiers à avoir abordé les aspects quantitatifs du langage sont sans doute les
cryptographes et les sténographes. Les cryptographes ont dû établir des tables de fréquences des lettres ;
et c'est au sténographe Baptiste Estoup que l'on doit les premières observations connues sur les
fréquences relatives des mots dans un texte.
Ces observations, reprises et développées ultérieurement, en particulier par Georges K. Zipf, consistent en
ceci : si l'on dresse une table de l'ensemble des mots différents d'un texte quelconque, classés par ordre de
fréquences décroissantes, on constate que la fréquence d'un mot est inversement proportionnelle à son
rang dans la liste, ou, autrement dit, que le produit de la fréquence de n'importe quel mot par son rang est
constant (…). Cette égalité, qui n'est vraie qu'en approximation, est indépendante des locuteurs, des types
de textes et des langues. Il semble ainsi qu'il s'agisse véritablement d'un trait général des énoncés
linguistiques. Cette constatation (…) est souvent désignée sous le nom de loi de Zipf ; elle n'est pas isolée,
mais n'est que la première de toute une série d'autres que l'on peut résumer ainsi :
-
La fréquence relative des catégories grammaticales, bien que variant d'un individu ou d'un texte à
l'autre, est stable. C'est ainsi qu'en français les mots outils (articles, pronoms, conjonctions,
prépositions) représentent 50% de n'importe quel texte, l'autre moitié étant constituée par les mots
pleins (substantifs, verbes, adjectifs, adverbes). (…)
-
La fréquence des mots d'une langue dans le discours est liée à leur structure phonétique ; en
particulier, le nombre de phonèmes d'un mot dépend de son rang. On peut ainsi observer une
tendance générale de toutes les langues, selon laquelle plus un mot est fréquent, plus il est court
(c'est-à-dire moins son "coût de production" est élevé). (…)
Dans le domaine de la pédagogie des langues, la statistique lexicale permet d'établir des lexiques de
base qui représentent la part la plus fondamentale du vocabulaire d'une langue et qui doivent, par
conséquent, faire l'objet d'un enseignement particulier (français fondamental, etc.).
Au niveau de l'alphabet ou de la phonologie, l'étude statistique peut fournir d'importants
renseignements de tous ordres. Par exemple, en sténographie, on aura naturellement intérêt à attribuer
les signes les plus simples aux lettres les plus fréquentes en vertu de la recherche de l'économie du
coût ; on se souvient d'autre part comment William Legrand, le héros du Scarabée d'or d'Edgar Poe,
parvient à décrypter le message codé en utilisant les caractères statistiques des lettres de l'orthographe
anglaise. (…)
La liste des services rendus par la statistique dans le domaine linguistique pourrait être fort longue."
12
b) Analyse du texte :
i) Loi de Zipf :
Un calcul sur le corpus de "mots ordinaires" (voir Annexe "occurrences noms communs tri par
fréquence.xls") donne une constante théorique de 9596. 77% des mots du corpus se situent dans
une fourchette de 20% de part et d'autre de cette valeur. Cette loi est donc plutôt respectée,
d'autant que le corpus a une taille statistiquement trop réduite par rapport aux fréquences
d'apparition observées (80% des mots font moins de 5 apparitions dans le corpus).
Rang x Fréquence
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
2179
1937
1695
1453
1211
969
727
485
243
1
Rang x Fréquence
ii) La part des mots outils :
Dans le corpus étudié, sur les 97110 occurrences, 41263 concernent les mots outils, soient 42%.
iii) Le nombre de phonèmes et le rang :
Phonèmes 13
Mots 2
Occurrences 18
12 11 10
4 11 52
97 115 350
9
8
7
112 241 439
922 1957 3604
6
688
5142
5
895
7865
4
3
2
1
813
492
206
38
9554 13441 18437 24779
Le rang étant inversement proportionnel au nombre d'occurrences, on remarque que le nombre
d'occurrences d'un mot décroît exponentiellement par rapport à son nombre de phonèmes.
25000
20000
15000
Phonèmes
Occurrences
10000
5000
0
1
2
3
4
5
6
7
8
13
9
10
11
12
13
iv) La longueur des mots et le rang :
Nombre de lettres
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15
Occurrences 2257 26904 11213 10233 9827 6521 6742 5914 3151 2063 781 556 213 60 6
Mis à part les mots d'une lettre ("à" et "y"), on voit bien les occurrences décroître avec
l'augmentation du nombre de lettres des mots.
30000
Occurrences
25000
20000
Nombre de lettres
15000
Occurrences
10000
5000
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Nombre de lettres
v) Les fréquences des lettres :
Sur les 626192 signes du corpus de 100000 mots étudiés, on trouve 494858 lettres de l'alphabet,
accentuées ou non, réparties comme ci-dessous :
Lettres
e s a n
i
r t u l o d c p
Fréquence x 1000 173 85 79 75 72 70 69 58 56 55 40 35 30
Lettres
Fréquence x 1000
m v f g
27 13 12 11
q
9
b
9
h
8
x
5
j
4
y
3
k
1
z w
1 0
On trouvera en annexe une démarche de résolution du problème de décodage utilisant les
fréquences d'apparition des lettres et celles de leurs combinaisons.
vi) D'autres recherches possibles :
D'autres recherches de linguistique quantitative (Peyrard, 1972, page 199) démontrent que le
nombre de syllabes d'un mot est égal au logarithme de la probabilité d'emploi de celui-ci. De
même, Georges K. Zipf a montré que le nombre de significations d'un mot est proportionnel à la
racine carrée de sa fréquence.
Il est sans doute difficile d'envisager de pointer de tels détails avec des élèves de l'enseignement
primaire. On pourra cependant faire constater que les mots les plus fréquents sont les plus courts,
que ce sont ceux qui ont un champ sémantique parfois si large qu'on en évite l'usage (faire) à
l'écrit, ou qu'ils ont un sens précis mais très usité (TGV) ou une forte charge émotive ; c'est ainsi
que, parmi les expressions devenues abréviations puis mots écrits en lettres minuscules, le mot
"sida" est un "cas record" par la vitesse de ses transformations successives.
14
7) Difficultés rencontrées :
Il est toujours très frustrant d'être déçu avant même de finir un travail. Les occasions ont été nombreuses :
-
Un corpus de 100000 mots s'est révélé très insuffisant. Même si je ne peux pas le multiplier par 10 ou
100, l'outil fabriqué et les notions de fréquence et de rentabilité se révèlent d'une fiabilité douteuse.
-
Investir un gros travail solitaire sur les bases peu sûres d'échelons très probablement dépassés sans
avoir les moyens de les mettre à l'épreuve n'a pas été très gratifiant.
-
Un stock de 4000 mots est très insuffisant pour se livrer à des recherches lexicales.
Cependant, compte-tenu des impératifs de production, l'outil, en tant que maquette de projet, permet déjà
des recherches intéressantes, à condition de se garder de transférer ce qui ne peut l'être, la statistique...
Il est également difficile d'être parfaitement rigoureux ; ainsi, j'ai hésité souvent entre les termes
"fréquence" et "occurrences" et j'ai finalement choisi d'opter presque systématiquement pour le premier
mot, même lorsqu'il s'agit de comptages car c'est bien la notion de fréquence qui est sous-jacente.
8) Résumé - Conclusion :
A partir d'un outil de mesure, on peut donc, en introduisant d'autres données, en lui donnant un
fonctionnement plus souple, et en le croisant avec d'autres outils, aborder une didactique de l'orthographe
lexicale et de la linguistique qui mette les élèves dans des situations de recherches qui les intéressent.
On pourrait estimer que les quelques exemples d'activités linguistiques donnés ici, non explicitées dans
leurs procédures du fait des contraintes de taille du dossier mais très accessibles à des enfants de l'école
primaire, ne les concernent pas. A cette opinion, je répondrai d'une part que, pour avoir pratiqué des
activités d'un niveau ambitieux avec des élèves en grande difficulté, j'ai pu constater à chaque fois que le
défi mobilise et révèle très bien des ressources insoupçonnables, parce qu'inutilisées, dans d'autres
situations, et d'autre part que les activités portant sur les champs sémantiques, en vocabulaire, tout comme
des situations de décodage sont très courantes et sollicitent pourtant des compétences et des attitudes
qu'on oublie trop souvent d'expliciter.
Le présent dossier est à considérer comme formant un tout avec les fichiers informatiques joints et
élaborés pour cette ébauche de recherche, parmi lesquels la base de données interactive "Scale.fp3"
représente l'outil didactique mis au point à cette occasion.
15
9) Bibliographie :
TERS F., MAYER G., REICHENBACH D., 1975, L'échelle Dubois-Buyse d'orthographe usuelle
française, 3ème édition revue et corrigée, OCDL Paris
BONNET J., GUIBERT P., GASTINEAU T., 1981, Orthographe et principe d'analogie, Catalogue
orthographique pour l'école élémentaire, Editions de l'Ecole, Paris
BABIN N., PIERRE M., 1991, Programmes, Instructions, Conseils pour l'école élémentaire, Collection
L'école au quotidien, Hachette Ecoles
Programmes de l'école primaire, 1995, CNDP
La maîtrise de la langue à l'école, 1992, CNDP
BLED E., BLED O., BERLION D., 1992, 1er en orthographe, CM1, Collection BLED, Hachette
GUION J., 1985, Apprendre l'orthographe, SERMAP-HATIER
Logiciel "Echellia", http://dlp.ipl.com
Logiciel "ELMO", http://www.lecture.org/logiciel/elmo/elmo.htm
PEYTARD J., GENOUVRIER E, 1972, Linguistique et enseignement du français, Larousse
Conférences "2000 en France" du Conservatoire National des Arts et Métiers (archivées au format Real
Audio sur http://www.telerama.fr ), Cycle "Les signes et le sens" :
-
CERQUIGLINI B., Renouveau et perspectives sur la langue française,
- DANLOS L., Linguistique et informatique,
- BENVENISTE C. B., La linguistique descriptive au 20ème siècle,
- DUCROT O., Le sens
LEBART L., Statistique Textuelle, (avec A. Salem), Dunod, Paris, 1994, 344 p.
Logiciel "HYPERBASE"
16
Référence à l'échelle Dubois-Buyse dans les manuels
BLED CM1
Page 7 (leçon 1) :
mots
échelons
sentier
19
chemin
8
localité
19
vallée
18
géographie
17
sommet
22
plaine
17
terre
2
transport
19
végétation
28
ECHELON MOYEN =
16,9
Page 43 (leçon 13) :
mots
échelons
parure
19
reverdir
19
dominer
19
beauté
19
haie
17
ruisseau
19
printemps
19
temps
18
buisson
19
feuillage
19
feuille
13
approcher
17
ECHELON MOYEN =
18,1
Page 82 (leçon 26) :
mots
échelons
étage
16
avenue
16
ville
11
musée
16
monument
18
région
17
habitation
17
habiter
23
endroit
18
environ
18
ECHELON MOYEN =
17
MOYENNE GENERALE DES ECHELONS =
17,4
l'échelon 17 ayant un taux de réussite de 81% en CM1
17
18
19
20
21
22
23
24
25
26
27
28
29
30
TEXTE A DECODER
C E
S
S E R A I T
I L
S U F F I S A I T
C O N N A I T R E
D
M E R V E I L L E U X
L E S
A P P A R I T I O N
P O U R
D E
F R E Q U E N C E S
D E S
L E T T R E S
P O U V O I R
D E C O D E R
U N
I L
D I S P O S E R
T E X T E
M A I S
U N
F A U T
C O R P U S
D
S U F F I S A M ME N T
I MP O R T A N T
P O U R
R E S U L T A T S
S T A T I S T I Q U E S
S O I E N T
Q U E
L E S
A P P L I C A B L E S
TOTAL DU TEXTE = 200 lettres.
Fréquences d'apparition des lettres dans le corpus de 100000 mots :
Lettres
e s a n
i
r t u l o d c p
Fréquence théorique x 1000 173 85 79 75 72 70 69 58 56 55 40 35 30
Lettres
Fréquence x 1000
m v f g
27 13 12 11
31
q
9
b
9
h
8
x
5
j
4
y
3
k
1
z w
1 0
1) Le codage du "E" est vite résolu par sa très haute fréquence d'apparition :
Fréquences d'apparition des lettres dans le texte à décoder :
C E
M
5
P
10
L
O
10
11
K
T
18
V
F
6
C
2
R
14
6
S E R A I T
E
S
0
E
I L
I
J
18
0
U
13
N
D
X
S
7
E
26
H
9
2
Y
0
Z
22
B
0
1
W
0
G
0
Q
0
A
2
13
M E R V E I L L E U X
E
E
S U F F I S A I T
E
D E
E
C O N N A I T R E
E
D
L E S
F R E Q U E N C E S
E
A P P A R I T I O N
E
D E S
E
L E T T R E S
E
P O U R
P O U V O I R
E
E
E
D E C O D E R
E
U N
E
T E X T E
E
E
M A I S
I L
F A U T
D I S P O S E R
E
U N
C O R P U S
S U F F I S A M M E N T
E
I M P O R T A N T
P O U R
Q U E
E
R E S U L T A T S
L E S
E
S T A T I S T I Q U E S
E
E
S O I E N T
A P P L I C A B L E S
E
E
32
D
2) Le codage du "S" est trouvé grâce à sa haute fréquence d'apparition associée à sa
position de fin de mot sur plusieurs mots qui se suivent :
C E
S E R A I T
E
S
S
M E R V E I L L E U X
E
I L
E
S U F F I S A I T
S
S
D E
E
L E S
E
E
A P P A R I T I O N
F R E Q U E N C E S
S
E
D E S
E
P O U R
E
S
C O N N A I T R E
D
E
P O U V O I R
E
E
L E T T R E S
S
E
E
D E C O D E R
E
U N
E
T E X T E
E
E
M A I S
I L
F A U T
D I S P O S E R
S
U N
S
C O R P U S
S
I M P O R T A N T
S
S
E
S
S
S O I E N T
S
E
P O U R
E
Q U E
E
R E S U L T A T S
D
S U F F I S A M M E N T
S
L E S
E
S
S T A T I S T I Q U E S
S
S
E
A P P L I C A B L E S
E
E
33
S
S
S
S
3) Départager les autres lettres :
Les lettres suivantes à décoder ont essentiellement des caractéristiques de combinaisons
entre elles :
Tableaux des caractéristiques combinatoires des lettres dans le corpus de
100000 mots :
"E devant" pour A : occurrences de la chaîne "EA"
"E derrière" pour A : occurrences de la chaîne "AE"
"doublée" pour A : occurrences de la chaîne "AA"
"finale" pour A : occurrences de A en fin de mot
E devant
rang E devant
E derrière
rang E
derrière
A
671
13
B
187
18
C
2339
8
A
44
23
B
527
17
C
D
3759 11113
9
1
A
B
C
364
10
10
16
E
1425
3
F
630
8
C
528
11
D
E
464 25813
12
1
F
141
17
D
doublée
rang doublée
23
12
finale
rang finale
A
6702
5
E devant
rang E devant
N
9784
2
82
22
P
1050
10
Q
156
19
N
4878
5
O
105
20
P
2270
12
Q
N
1279
4
O
doublée
rang doublée
53
11
P
486
9
finale
rang finale
N
6753
4
O
198
14
P
164
15
E derrière
rang E
derrière
9
D
483
16
17
B
24
24
O
E
1425
9
E
F
534
15
G
616
14
27
24
I
439
17
J
135
21
F
G
742 1719
15
13
H
1347
14
I
4211
8
J
551
16
G
H
23
12
23
G
H
77
19
R
S
T
7035 14739 5000
3
1
4
R
0 10147
25
3
S
T
4581 6842
6
4
Q
S
2024
2
0
23
Q
57
22
H
R
736
7
T
937
6
R
S
T
5392 18784 10364
6
2
3
I
0
J
19
14
P
L
O
K
I
J
U
N
2
T
V
6
F
R
C
5
D
2
S
11
34
L
M
2429 3043
7
6
K
L
M
71 10162 4506
22
2
7
K
1
23
20
J
K
L
M
2235 1016
1
5
64
21
I
2015
8
6
26
65
20
U
3504
5
V
872
11
W
14
26
X
704
12
41
23
U
3683
10
V
2640
11
W
22
24
X
193
19
Y
229
18
W
X
Y
U
V
2
1
1
19
20
20
U
2800
7
V
W
32
23
8
25
H
Y
B
G
Z
W
Q
A
3
finale
E
X
5
1
22
25
0
Mêmes caractéristiques relevées dans le texte à décoder :
M
K
L
1501
9
Y
4
M
161
16
Z
139
20
Z
73
21
Z
0
18
23
17
15
X
1194
10
Y
273
13
Z
132
18
M
P
L
O
K
I
J
1
T
V
F
R
1
4
M
2
P
T
V
O
F
1
M
1
P
2
V
1
L
D
1
K
I
5
2
T
C
R
C
4
L
O
D
2
K
N
1
3
E devant
E
X
S
1
8
J
1
U
U
N
3
E derrière
E
X
S
4
I
Y
B
G
Z
W
Q
A
1
H
Y
B
G
Z
W
Q
A
H
Y
B
G
Z
W
Q
A
2
J
U
N
1
F
2
H
1
R
C
D
double
E
X
S
Le T est trouvé par l'association de sa grande fréquence d'apparition et de sa
position en fin de mot.
Le R se caractérise aussi par sa grande fréquence d'apparition et par l'égalité des
occurrences des chaînes RE et ER.
Ayant identifié les lettres E, S, T et R, on trouve fatalement des mots quasi-complets
et les connaissances lexicales suffisent ensuite pour achever le décodage du message.
35