Construction collaborative d`un lexique français

Transcription

Construction collaborative d`un lexique français
CONSTRUCTION COLLABORATIVE D’UN LEXIQUE FRANÇAIS-ANGLAIS
TECHNIQUE DANS ITOLDU : CONTRIBUER POUR APPRENDRE
1
Valérie Bellynck1/2, Christian Boitet2, John Kenwright1
EFPG et cellule TICE, Institut national polytechnique de Grenoble
BP 53, 385, rue de la Bibliothèque, 38041 Grenoble CEDEX 9
[email protected]
[email protected]
2
Geta-Clips-Imag, Université Joseph Fourier
BP 53, 385, rue de la Bibliothèque, 38041 Grenoble CEDEX 9
[email protected]
[email protected]
Résumé : La construction collaborative de ressources lexicales libres de droit se heurte à l’impossibilité d’obtenir
beaucoup de petites contributions gratuites et volontaires. IToldU est un service web léger qui, lors de sa première
année d’utilisation pour l’enseignement de l’anglais technique dans des écoles d’ingénieurs, a permis d’obtenir un
peu plus de 17 000 termes anglais dans une vingtaine de domaines, accompagnés de leur traduction en français,
correcte à 95 %, et d’exemples d’usage en français, corrects à 85 % environ. IToldU est facile à étendre à d’autres
couples de langues. Il reste à trouver comment synchroniser IToldU avec Papillon, une base lexicale multilingue
beaucoup plus ambitieuse (http://www.papillon-dictionary.org), et à quels autres contextes on pourrait l’étendre pour
obtenir de la même façon d’autres types d’informations, comme les fonctions lexicosémantiques.
Mots-clés : ressources lexicales, ressources contextuelles, exemples d’usage, construction collaborative, EAO de
l’anglais technique
INTRODUCTION
La construction collaborative de ressources lexicales libres de droit se heurte à l’impossibilité d’obtenir
beaucoup de petites contributions gratuites et volontaires. IToldU (Interactive Technical On-Line
Dictionary for Universities) est un site web pour la construction collaborative d’un lexique bilingue par
une petite communauté (par exemple, une promotion d’étudiants) dans un contexte d’apprentissage d’une
langue spécialisée sur des domaines techniques. Les contributions sont alors gratuites mais contraintes, car
une partie de la note d’anglais est calculée par le site lui-même.
Pour les deux premiers auteurs, l’objectif initial de la réalisation de ce site était de récupérer les
lexiques produits, de façon à « abonder » la base de données lexicales multilingue (BDLM) multi-usage
Papillon, en cours de construction. Pour le troisième auteur, enseignant d’anglais et fortement impliqué
dans les TICE (Technologies de l’Information et de la Communication pour l’Éducation) à l’INPG
(Institut Polytechnique de Grenoble), l’objectif était d’améliorer l’enseignement du vocabulaire anglais
technique à des élèves-ingénieurs français.
Dans son état actuel, IToldU répond bien au second objectif, et pas encore au premier. Mais son usage
a fait apparaître un troisième axe intéressant, celui de l’enseignement de la structure des phrases simples
de l’anglais et de ce qu’est un « exemple d’usage », car il se trouve que les étudiants ne se contentent pas
de copier et coller des phrases contenant les termes qu’ils traduisent, ils préfèrent « forger » des exemples.
Dans ce bref article, nous ne parlerons pas plus du projet Papillon et de la BDLM associée, et
renvoyons à http://www.papillon-dictionary.org/ et aux documents disponibles sur ce site pour plus de
détails. Dans les trois sections qui suivent, nous présenterons le système IToldU, dirons comment il a été
utilisé et ressenti par les étudiants et enseignants, et évaluerons les résultats dictionnairiques quantitatifs et
qualitatifs obtenus au terme de la première année complète d’utilisation.
1/9
1. LE SERVICE WEB ITOLDU
Les enseignants et les étudiants ne voient dans le site IToldU que les fonctionnalités qui leur sont
utiles : les étudiants et visiteurs peuvent rechercher, proposer et mémoriser des traductions d’expressions
issues de l’anglais technique (ou thématique), les enseignants peuvent obtenir des statistiques, contrôler les
productions des étudiants et animer le site par des chasses aux mots. Seul l’enseignant coordinateur peut
gérer le site (liste des enseignants, des étudiants, des groupes d’étudiants…).
L’objectif de collecte de données lexicales n’est pas présenté aux étudiants et aux enseignants, qui ne
sont conscients que des objectifs affichés par l’enseignant coordinateur :
-
Motiver les étudiants à faire du travail « lexical » en dehors des cours ;
-
Minimiser la charge de travail supplémentaire des enseignants.
Le résultat est un environnement paramétrable par l’enseignant coordinateur, utilisable par les étudiants
pour rentrer les résultats de leur travail lexical et par les enseignants pour diriger puis suivre ce travail.
1.2. Utilisation par les étudiants
Les étudiants doivent rechercher des expressions techniques en anglais, et en proposer des traductions
en français. De plus, pour chaque terme, ils doivent proposer (par citation ou forgeage) un exemple
d’usage, avec le cas échéant la source (web ou bibliographique) d’où est issu cet exemple. Chaque
étudiant a son propre dictionnaire et peut voir tout le dictionnaire de sa promotion.
Le principe utilisé pour motiver les étudiants et autoréguler leurs contributions est simple : l’étudiant
commence par rechercher si le terme qu’il veut traiter a déjà été traité par quelqu’un de sa promotion avant
de l’introduire. Si oui, et si la traduction et l’exemple lui conviennent, il peut (mais ne doit pas) se
l’approprier en l’incorporant dans son dictionnaire personnel. Il peut aussi créer une nouvelle proposition.
Dans les deux cas, IToldU lui donne des points. De plus, chaque « appropriation » est considérée
comme un « vote » pour l’étudiant dont la proposition a été adoptée, qui gagne des points. Enfin, la
publication des meilleurs scores motive les étudiants à participer.
Figure 1 : formulaire d’entrée d’un terme dans ItoldU
2/9
1.2. Utilisation par les enseignants
L’enseignant responsable d’un groupe peut évaluer la participation de ses étudiants à travers des
statistiques : a priori, plus un étudiant a obtenu de votes, meilleure est sa contribution. Une surveillance
minimale sur la qualité des contributions lui permet de détecter toute dérive d’usage du site et donc d’y
remédier rapidement.
De plus, tout enseignant peut inciter les étudiants de ses groupes à contribuer un peu plus, de façon un
peu ludique, en leur proposant une « chasse aux mots » (word hunt).
Un élément important est la prise en compte du fait que les enseignants ont très peu de temps pour
suivre les étudiants en dehors des cours, et que l’usage de IToldU ne doit pas augmenter leur temps de
travail, mais si possible le diminuer. Concrètement, un enseignant a seulement 1 à 2 minutes par cours et
par étudiant.
C’est pourquoi, dans la version actuelle, l’enseignant peut marquer une entrée comme fausse, mais ne
peut même pas la corriger. C’est à l’étudiant de le faire, et les points afférents lui sont retirés par le
système s’il n’a pas corrigé avant un certain délai. On incite bien sûr les étudiants à revoir leur dictionnaire
complet, même si, et ils le savent, leurs enseignants n’ont pas le temps de regarder toutes les entrées, et
procèdent par échantillonnage.
Erreur : l’enseignant va
barrer cet exemple
Exemple inventé (forgé)
Figure 2 : fragment du dictionnaire d’un groupe d’étudiants
1.3. Implémentation
Du point de vue technique, IToldU repose sur une base de données Mysql (une par promotion),
contenant le dictionnaire courant, ainsi que les utilisateurs avec leurs divers droits d’accès. C’est un service
web développé en HTML/SQL/PHP, et installé chez un fournisseur gratuit (laposte.net, puis grenet.fr). Il
n’y a donc pas de problèmes pour y accéder depuis chez soi, 24 heures sur 24.
3/9
Ce système est facile à cloner, à installer sur d’autres sites, et à adapter à d’autres langues, car tous les
messages et items de menus sont contenus dans des ressources textuelles éditables sans connaissance
informatique particulière.
2. ÉVALUATION DE LA PREMIÈRE ANNÉE D’UTILISATION
2.1. Aspect pédagogique
La version courante du site IToldU (http://opus.grenet.fr/itoldu/ITOLDU) a été utilisée en grandeur
réelle pour la première fois en 2004-2005 par tous les élèves de l’EFPG, une école d’ingénieurs de
l’INPG, avec un impact pédagogique positif sensible. Il y avait au total 250 étudiants, répartis sur trois
années d’école d’ingénieurs et une de licence professionnelle. Pour l’enseignement de l’anglais, il y avait
17 groupes, 6 enseignants, et 1 enseignant-coordinateur (le 3e auteur).
IToldU répond déjà assez bien au besoin ressenti par l’enseignant coordinateur de disposer d’un outil
informatique améliorant tant l’organisation de l’enseignement que le travail des enseignants et
l’apprentissage par les étudiants du vocabulaire technique anglais de spécialité.
Voici par exemple un écran de « chasse aux mots », fonction bien appréciée par les enseignants et par
les étudiants. Le premier à trouver un équivalent gagne un point !
Figure 3 : chasse aux mots (word hunt) préparée par un enseignant
L’utilisation d’IToldU a modifié dans le bon sens le comportement des étudiants pendant les cours : ils
s’intéressent plus à la prise de notes, et utilisent IToldU en dehors des cours comme un support pour leur
apprentissage du vocabulaire anglais.
Leur point de vue est maintenant à plus long terme qu’avant, car ils savent qu’ils pourront emporter
dans leur vie professionnelle une copie active (installable sur un site web et modifiable) de leur
dictionnaire personnel et, s’ils le souhaitent, de tout le dictionnaire constitué par leur promotion.
4/9
Il faut cependant noter que les enseignants n’ont pas tous été également convaincus de l’utilité de cette
forme de travail, ce qui se reflète dans l’inégalité des contributions des groupes d’étudiants (voir Figure 5
au-dessous).
nombre d'entrées par groupe
nbentrées
1600
1400
1200
1000
800
600
400
200
ur
se
p2
es
of
Pr
LP
gr
ou
p1
6
ou
LP
gr
gp
p5
PG
EF
3g
p4
EF
PG
3g
p3
EF
PG
3g
p2
EF
PG
3g
p1
EF
PG
3g
p4
EF
PG
2g
p3
EF
PG
2g
p2
EF
PG
2g
p1
EF
PG
2g
p5
EF
PG
1g
p4
EF
PG
1g
p3
EF
PG
1g
p2
PG
1g
EF
PG
EF
EF
PG
1g
p1
0
Figure 4 : nombre de contributions par groupes au premier semestre
2.1. Aspect contributif
Le problème de trouver comment motiver les étudiants à contribuer et comment autoréguler le
processus global de contribution est un cas particulier d’un problème général reconnu comme très difficile,
celui de susciter des contributions volontaires et gratuites pour « abonder » des bases de connaissances.
Ce problème est difficile, car il n’y a que très peu de spécialistes d’un certain type de connaissances qui
acceptent de donner sans contrepartie les connaissances qu’ils ont collectées. Au-delà de quelques
contributions de cette nature, qui, même si elles sont individuellement importantes, ne représentent au total
qu’une faible fraction des connaissances désirées, il faut faire appel à des non-spécialistes, en grand
nombre, contribuant chacun un peu, voire de façon fragmentaire.
Mais, dans les faits, on n’arrive jamais à obtenir des membres d’une communauté d’intérêt des
contributions volontaires et gratuites.
Si elles sont volontaires, c’est que les contributeurs «gagnent» quelque chose à le faire, et donc elles ne
sont pas gratuites stricto sensu. Par exemple, les traducteurs utilisant le site http://www.yakushite.net/ de
Oki Electric mettent des mots dans les dictionnaires car ils utilisent gratuitement des outils d’aide à la
traduction dans lesquels les mots ajoutés deviennent quasi instantanément actifs.
Si par contre les contributions sont vraiment gratuites, c’est qu’elles sont « contraintes » d’une certaine
manière, la plus discrète et conviviale possible bien sûr. C’est le cas de IToldU, que presque tous les
utilisateurs sont « invités fermement » à utiliser, qu’il s’agisse des enseignants ou des étudiants (qui
gagnent des points en contribuant).
La méthode retenue dans IToldU ne joue pas seulement sur la contrainte, par l’intermédiaire du calcul
d’une partie de la note en fonction de l’utilisation (correcte) du site. Elle permet aussi d’établir un esprit de
coopération et d’émulation entre les étudiants. D’une part, comme nous l’avons vu, les étudiants coopèrent
en « votant » pour ceux dont ils adoptent des entrées. D’autre part, le système présente un « tableau
d’honneur » des étudiants qui ont le plus contribué. Enfin, les «chasses aux mots» donnent lieu à une saine
et ludique émulation.
5/9
3. ÉVALUATION DICTIONNAIRIQUE DE LA 1 RE ANNÉE DE CONTRIBUTION
3.1. Aspect quantitatif
En un semestre, environ 12 000 entrées anglais-français ont été mises par les étudiants dans IToldU,
avec environ 8 000 « contextes d’usage ».
À la fin de l’année universitaire, IToldU contenait 17 062 entrées anglais-français, et presque autant de
contextes d’usage (16 905, seuls 157 articles n’en avaient pas).
nb entrées
12000
10000
8000
6000
4000
2000
16/01/2001
09/01/2001
02/01/2001
26/12/2000
19/12/2000
12/12/2000
05/12/2000
28/11/2000
21/11/2000
14/11/2000
07/11/2000
31/10/2000
24/10/2000
17/10/2000
0
Figure 5 : évolution du nombre d’entrées au premier semestre
3.2. Aspect qualitatif
Le 2e auteur a revu rapidement l’ensemble des contributions, et 10 % environ en détail, en les
corrigeant. Si on met à part les erreurs venant de problèmes de saisie des diacritiques sur le web, on peut
dire que les traductions françaises des termes anglais sont presque toutes correctes. Par contre, 15 à 20 %
des contextes d’usage ne sont pas des exemples d’usage. Voici quelques détails sur ces deux types de
contribution :
3.2.1. Traductions
95 % des traductions nous semblent correctes. Un point intéressant est qu’environ 30 % seulement des
termes anglais choisis par les étudiants concernent un champ lexical technique « pur », c’est-à-dire (ici) un
des champs liés à leurs études (fabrication de pâte à papier, de papier, de carton, traitement des couleurs,
encres, rhéologie…), alors que 70 % concernent des champs « paratechniques » (pour eux), tels que les
affaires, la recherche d’emploi… et aussi l’anglais général.
3.2.2. Des « contextes d’usage » vers les « exemples d’usage »
Ce qui concerne les « contextes » mérite quelques commentaires. Dans l’esprit des enseignants, il
devait s’agir de citations de phrases dans lesquelles les termes anglais avaient été rencontrés. Mais
plusieurs choses inattendues se sont produites.
Certains étudiants ont compris qu’il s’agissait d’un raffinement du « domaine » choisi dans la liste
fermée proposée par IToldU. On trouve ainsi :
6/9
5024
opportunity
5025
to put up
5026
to fulfill
5027
fulfilling
15009
gas-fired
possibilité, débouché
ériger, construire
accomplir, réaliser
profondément, satisfaisant
chauffé au gaz
society
society
society
society
used in paper mill
D’autres ont compris qu’on leur demandait des définitions. On trouve ainsi :
15049
a wind mill
une éolienne
an energy-producing facility
15065
a light bulb
une ampoule électrique
energy-related equipment
TCF (totally
4632
sans chlore
stade de blanchiment
chlorine free)
Le coordinateur a alors dit qu’il demandait en fait des « exemples d’usage », et en a créé lui-même en
indiquant comme source dans le champ prévu « invented ». Les étudiants ont alors compris qu’ils
pouvaient eux aussi inventer des exemples, et l’ont fait. Au niveau du contenu, trois cas se sont produits :
- Certains ont créé ou adapté des phrases contenant les termes anglais en question, sans qu’il
s’agisse de vrais « exemples d’usage », permettant de discriminer le sens en question. On trouve ainsi :
16070
collude
s’associer
they colluded last year
16990
telematics
télématique
It’s telematics
16998
darts
fléchettes
he throws the darts
17003
potoling
spéléologie
the potoling is dangerous
17006
chiarioscuro
clair-obscur
the is a chiarioscuro effect
17026
heir
héritier
you heir to your mother
- En poussant cela à la limite, d’autres ont pris de longues phrases, et les ont utilisées comme
exemples pour les mots ou termes de ces phrases. On trouve ainsi :
12956
Falsification
Falsification
12957
service vouchers Tickets de prestation
12958
security label
Étiquettes sécurisées
Some various documents to be
certificates of
protected from counterfeiting and
12959
Certificats d’authenticité
authenticity
falsification like service vouchers,
antisecurity label and certificates of
12960
counterfeiting
Éléments anti-contrefaçon
authenticity have special features.
features
anti-falsification
12961
Éléments anti-falsification
feature
- Beaucoup de propositions sont des exemples « honnêtes », mais dans un anglais incorrect. On
trouve ainsi :
6619 carriageway
chaussée
the carriageway is destroy by the cars
7073 union
syndicat
an union for help employees
this joke are very pythonesque with his
7098 pythonesque
humour absurde
very absurd humour
insulating materials can be very usefull in
9183 (to) insulate
isoler
electronic
Ce « phénomène naturel » nous conduit à envisager d’étendre les fonctionnalités d’IToldU pour
l’utiliser non seulement pour l’apprentissage du vocabulaire, mais aussi pour celui de la langue.
- On peut aussi mentionner un (très faible) pourcentage d’étudiants, qui se « défoulent » en mettant
n’importe quoi dans leurs exemples.
7/9
Au total, 15 % des exemples nous semblent incorrects du point de vue du contenu, et bien plus du point
de vue de la langue, de la grammaire et de l’orthographe.
4. CONCLUSION ET PERSPECTIVES
La construction collaborative de ressources lexicales libres de droit se heurte à l’impossibilité d’obtenir
beaucoup de petites contributions gratuites et volontaires. IToldU est un service web léger qui, lors de sa
première année d’utilisation pour l’enseignement de l’anglais technique dans des écoles d’ingénieurs, a
permis d’obtenir un peu plus de 17 000 termes anglais dans une vingtaine de domaines, accompagnés de
leur traduction en français, correcte à 95 %, et d’exemples d’usage en français, corrects à 85 % environ.
IToldU est facile à étendre à d’autres couples de langues. Il reste à trouver comment synchroniser IToldU
avec Papillon, une base lexicale multilingue beaucoup plus ambitieuse (http://www.papillondictionary.org), et à quels autres contextes on pourrait l’étendre pour obtenir de la même façon d’autres
types d’informations, comme les fonctions lexicosémantiques.
8/9
Bibliographie
Bellynck (V.), Boitet (C.) & Kenwright (J.), 2004 : « Resource pooling for technical English learning via lexical access » dans Proceedings
Papillon-04 seminar, UJF, Grenoble, 30 Aug.-2 Sept. 2004, 5 p.
Bellynck (V.), Boitet (C.) & Kenwright (J.), 2005 : « ITOLDU, a Web Service to Pool Technical Lexical Terms in a Learning Environment and
Contribute to Multilingual Lexical Databases » dans Computational Linguistics and Intelligent Text Processing (Proc. CICLING-2005),
A. Gelbukh, d., Springer (LNCS 3406), p. 319 – 327.
Bellynck (V.), 2002 : « Bases lexicales multilingues et objets pédagogiques interactifs : Sensillon pour Papillon » dans Proceedings of Papillon
2002 Seminar, NII, 13 p., Tokyo, July 2002.
Fafiotte (G.), Boitet (C.), Seligman (M.) & Zong (C.Q.), 2004 : « Collecting Bilingual Dialogues using a Web-Based Platform for the Study of
Interpretation » dans Proc. LREC-04 (Language Resources and Evaluation Conference), Lisbonne, 24-28/5/04, 9 p.
Mangeot-Lerebours (M.), 2001 : Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue, PhD in
Computer Science, Université Joseph Fourier, Grenoble I, 280 p., Grenoble, France.
Mangeot-Lerebours (M.), Sérasset (G.) & Lafourcade (M.), 2003 : « Construction collaborative d’une base lexicale multilingue, le projet
Papillon » dans TAL, 44/2, p. 151-176.
Murata (T.), Kitamura (M.), Fukui (T.) & Sukehiro (T.), 2003 : « Implementation of Collaborative Translation Environment Yakushite Net »,
dans Proceedings of MT Summit VIII, New Orleans.
Tokuda (N.) & Chen (L.), 2001 : An Online Tutoring System for Language Translation, IEEE Transactions on Multimedia, vol. 8, n° 3, p. 46-55,
July-September 2001.
9/9