Construction collaborative d`un lexique français
Transcription
Construction collaborative d`un lexique français
CONSTRUCTION COLLABORATIVE D’UN LEXIQUE FRANÇAIS-ANGLAIS TECHNIQUE DANS ITOLDU : CONTRIBUER POUR APPRENDRE 1 Valérie Bellynck1/2, Christian Boitet2, John Kenwright1 EFPG et cellule TICE, Institut national polytechnique de Grenoble BP 53, 385, rue de la Bibliothèque, 38041 Grenoble CEDEX 9 [email protected] [email protected] 2 Geta-Clips-Imag, Université Joseph Fourier BP 53, 385, rue de la Bibliothèque, 38041 Grenoble CEDEX 9 [email protected] [email protected] Résumé : La construction collaborative de ressources lexicales libres de droit se heurte à l’impossibilité d’obtenir beaucoup de petites contributions gratuites et volontaires. IToldU est un service web léger qui, lors de sa première année d’utilisation pour l’enseignement de l’anglais technique dans des écoles d’ingénieurs, a permis d’obtenir un peu plus de 17 000 termes anglais dans une vingtaine de domaines, accompagnés de leur traduction en français, correcte à 95 %, et d’exemples d’usage en français, corrects à 85 % environ. IToldU est facile à étendre à d’autres couples de langues. Il reste à trouver comment synchroniser IToldU avec Papillon, une base lexicale multilingue beaucoup plus ambitieuse (http://www.papillon-dictionary.org), et à quels autres contextes on pourrait l’étendre pour obtenir de la même façon d’autres types d’informations, comme les fonctions lexicosémantiques. Mots-clés : ressources lexicales, ressources contextuelles, exemples d’usage, construction collaborative, EAO de l’anglais technique INTRODUCTION La construction collaborative de ressources lexicales libres de droit se heurte à l’impossibilité d’obtenir beaucoup de petites contributions gratuites et volontaires. IToldU (Interactive Technical On-Line Dictionary for Universities) est un site web pour la construction collaborative d’un lexique bilingue par une petite communauté (par exemple, une promotion d’étudiants) dans un contexte d’apprentissage d’une langue spécialisée sur des domaines techniques. Les contributions sont alors gratuites mais contraintes, car une partie de la note d’anglais est calculée par le site lui-même. Pour les deux premiers auteurs, l’objectif initial de la réalisation de ce site était de récupérer les lexiques produits, de façon à « abonder » la base de données lexicales multilingue (BDLM) multi-usage Papillon, en cours de construction. Pour le troisième auteur, enseignant d’anglais et fortement impliqué dans les TICE (Technologies de l’Information et de la Communication pour l’Éducation) à l’INPG (Institut Polytechnique de Grenoble), l’objectif était d’améliorer l’enseignement du vocabulaire anglais technique à des élèves-ingénieurs français. Dans son état actuel, IToldU répond bien au second objectif, et pas encore au premier. Mais son usage a fait apparaître un troisième axe intéressant, celui de l’enseignement de la structure des phrases simples de l’anglais et de ce qu’est un « exemple d’usage », car il se trouve que les étudiants ne se contentent pas de copier et coller des phrases contenant les termes qu’ils traduisent, ils préfèrent « forger » des exemples. Dans ce bref article, nous ne parlerons pas plus du projet Papillon et de la BDLM associée, et renvoyons à http://www.papillon-dictionary.org/ et aux documents disponibles sur ce site pour plus de détails. Dans les trois sections qui suivent, nous présenterons le système IToldU, dirons comment il a été utilisé et ressenti par les étudiants et enseignants, et évaluerons les résultats dictionnairiques quantitatifs et qualitatifs obtenus au terme de la première année complète d’utilisation. 1/9 1. LE SERVICE WEB ITOLDU Les enseignants et les étudiants ne voient dans le site IToldU que les fonctionnalités qui leur sont utiles : les étudiants et visiteurs peuvent rechercher, proposer et mémoriser des traductions d’expressions issues de l’anglais technique (ou thématique), les enseignants peuvent obtenir des statistiques, contrôler les productions des étudiants et animer le site par des chasses aux mots. Seul l’enseignant coordinateur peut gérer le site (liste des enseignants, des étudiants, des groupes d’étudiants…). L’objectif de collecte de données lexicales n’est pas présenté aux étudiants et aux enseignants, qui ne sont conscients que des objectifs affichés par l’enseignant coordinateur : - Motiver les étudiants à faire du travail « lexical » en dehors des cours ; - Minimiser la charge de travail supplémentaire des enseignants. Le résultat est un environnement paramétrable par l’enseignant coordinateur, utilisable par les étudiants pour rentrer les résultats de leur travail lexical et par les enseignants pour diriger puis suivre ce travail. 1.2. Utilisation par les étudiants Les étudiants doivent rechercher des expressions techniques en anglais, et en proposer des traductions en français. De plus, pour chaque terme, ils doivent proposer (par citation ou forgeage) un exemple d’usage, avec le cas échéant la source (web ou bibliographique) d’où est issu cet exemple. Chaque étudiant a son propre dictionnaire et peut voir tout le dictionnaire de sa promotion. Le principe utilisé pour motiver les étudiants et autoréguler leurs contributions est simple : l’étudiant commence par rechercher si le terme qu’il veut traiter a déjà été traité par quelqu’un de sa promotion avant de l’introduire. Si oui, et si la traduction et l’exemple lui conviennent, il peut (mais ne doit pas) se l’approprier en l’incorporant dans son dictionnaire personnel. Il peut aussi créer une nouvelle proposition. Dans les deux cas, IToldU lui donne des points. De plus, chaque « appropriation » est considérée comme un « vote » pour l’étudiant dont la proposition a été adoptée, qui gagne des points. Enfin, la publication des meilleurs scores motive les étudiants à participer. Figure 1 : formulaire d’entrée d’un terme dans ItoldU 2/9 1.2. Utilisation par les enseignants L’enseignant responsable d’un groupe peut évaluer la participation de ses étudiants à travers des statistiques : a priori, plus un étudiant a obtenu de votes, meilleure est sa contribution. Une surveillance minimale sur la qualité des contributions lui permet de détecter toute dérive d’usage du site et donc d’y remédier rapidement. De plus, tout enseignant peut inciter les étudiants de ses groupes à contribuer un peu plus, de façon un peu ludique, en leur proposant une « chasse aux mots » (word hunt). Un élément important est la prise en compte du fait que les enseignants ont très peu de temps pour suivre les étudiants en dehors des cours, et que l’usage de IToldU ne doit pas augmenter leur temps de travail, mais si possible le diminuer. Concrètement, un enseignant a seulement 1 à 2 minutes par cours et par étudiant. C’est pourquoi, dans la version actuelle, l’enseignant peut marquer une entrée comme fausse, mais ne peut même pas la corriger. C’est à l’étudiant de le faire, et les points afférents lui sont retirés par le système s’il n’a pas corrigé avant un certain délai. On incite bien sûr les étudiants à revoir leur dictionnaire complet, même si, et ils le savent, leurs enseignants n’ont pas le temps de regarder toutes les entrées, et procèdent par échantillonnage. Erreur : l’enseignant va barrer cet exemple Exemple inventé (forgé) Figure 2 : fragment du dictionnaire d’un groupe d’étudiants 1.3. Implémentation Du point de vue technique, IToldU repose sur une base de données Mysql (une par promotion), contenant le dictionnaire courant, ainsi que les utilisateurs avec leurs divers droits d’accès. C’est un service web développé en HTML/SQL/PHP, et installé chez un fournisseur gratuit (laposte.net, puis grenet.fr). Il n’y a donc pas de problèmes pour y accéder depuis chez soi, 24 heures sur 24. 3/9 Ce système est facile à cloner, à installer sur d’autres sites, et à adapter à d’autres langues, car tous les messages et items de menus sont contenus dans des ressources textuelles éditables sans connaissance informatique particulière. 2. ÉVALUATION DE LA PREMIÈRE ANNÉE D’UTILISATION 2.1. Aspect pédagogique La version courante du site IToldU (http://opus.grenet.fr/itoldu/ITOLDU) a été utilisée en grandeur réelle pour la première fois en 2004-2005 par tous les élèves de l’EFPG, une école d’ingénieurs de l’INPG, avec un impact pédagogique positif sensible. Il y avait au total 250 étudiants, répartis sur trois années d’école d’ingénieurs et une de licence professionnelle. Pour l’enseignement de l’anglais, il y avait 17 groupes, 6 enseignants, et 1 enseignant-coordinateur (le 3e auteur). IToldU répond déjà assez bien au besoin ressenti par l’enseignant coordinateur de disposer d’un outil informatique améliorant tant l’organisation de l’enseignement que le travail des enseignants et l’apprentissage par les étudiants du vocabulaire technique anglais de spécialité. Voici par exemple un écran de « chasse aux mots », fonction bien appréciée par les enseignants et par les étudiants. Le premier à trouver un équivalent gagne un point ! Figure 3 : chasse aux mots (word hunt) préparée par un enseignant L’utilisation d’IToldU a modifié dans le bon sens le comportement des étudiants pendant les cours : ils s’intéressent plus à la prise de notes, et utilisent IToldU en dehors des cours comme un support pour leur apprentissage du vocabulaire anglais. Leur point de vue est maintenant à plus long terme qu’avant, car ils savent qu’ils pourront emporter dans leur vie professionnelle une copie active (installable sur un site web et modifiable) de leur dictionnaire personnel et, s’ils le souhaitent, de tout le dictionnaire constitué par leur promotion. 4/9 Il faut cependant noter que les enseignants n’ont pas tous été également convaincus de l’utilité de cette forme de travail, ce qui se reflète dans l’inégalité des contributions des groupes d’étudiants (voir Figure 5 au-dessous). nombre d'entrées par groupe nbentrées 1600 1400 1200 1000 800 600 400 200 ur se p2 es of Pr LP gr ou p1 6 ou LP gr gp p5 PG EF 3g p4 EF PG 3g p3 EF PG 3g p2 EF PG 3g p1 EF PG 3g p4 EF PG 2g p3 EF PG 2g p2 EF PG 2g p1 EF PG 2g p5 EF PG 1g p4 EF PG 1g p3 EF PG 1g p2 PG 1g EF PG EF EF PG 1g p1 0 Figure 4 : nombre de contributions par groupes au premier semestre 2.1. Aspect contributif Le problème de trouver comment motiver les étudiants à contribuer et comment autoréguler le processus global de contribution est un cas particulier d’un problème général reconnu comme très difficile, celui de susciter des contributions volontaires et gratuites pour « abonder » des bases de connaissances. Ce problème est difficile, car il n’y a que très peu de spécialistes d’un certain type de connaissances qui acceptent de donner sans contrepartie les connaissances qu’ils ont collectées. Au-delà de quelques contributions de cette nature, qui, même si elles sont individuellement importantes, ne représentent au total qu’une faible fraction des connaissances désirées, il faut faire appel à des non-spécialistes, en grand nombre, contribuant chacun un peu, voire de façon fragmentaire. Mais, dans les faits, on n’arrive jamais à obtenir des membres d’une communauté d’intérêt des contributions volontaires et gratuites. Si elles sont volontaires, c’est que les contributeurs «gagnent» quelque chose à le faire, et donc elles ne sont pas gratuites stricto sensu. Par exemple, les traducteurs utilisant le site http://www.yakushite.net/ de Oki Electric mettent des mots dans les dictionnaires car ils utilisent gratuitement des outils d’aide à la traduction dans lesquels les mots ajoutés deviennent quasi instantanément actifs. Si par contre les contributions sont vraiment gratuites, c’est qu’elles sont « contraintes » d’une certaine manière, la plus discrète et conviviale possible bien sûr. C’est le cas de IToldU, que presque tous les utilisateurs sont « invités fermement » à utiliser, qu’il s’agisse des enseignants ou des étudiants (qui gagnent des points en contribuant). La méthode retenue dans IToldU ne joue pas seulement sur la contrainte, par l’intermédiaire du calcul d’une partie de la note en fonction de l’utilisation (correcte) du site. Elle permet aussi d’établir un esprit de coopération et d’émulation entre les étudiants. D’une part, comme nous l’avons vu, les étudiants coopèrent en « votant » pour ceux dont ils adoptent des entrées. D’autre part, le système présente un « tableau d’honneur » des étudiants qui ont le plus contribué. Enfin, les «chasses aux mots» donnent lieu à une saine et ludique émulation. 5/9 3. ÉVALUATION DICTIONNAIRIQUE DE LA 1 RE ANNÉE DE CONTRIBUTION 3.1. Aspect quantitatif En un semestre, environ 12 000 entrées anglais-français ont été mises par les étudiants dans IToldU, avec environ 8 000 « contextes d’usage ». À la fin de l’année universitaire, IToldU contenait 17 062 entrées anglais-français, et presque autant de contextes d’usage (16 905, seuls 157 articles n’en avaient pas). nb entrées 12000 10000 8000 6000 4000 2000 16/01/2001 09/01/2001 02/01/2001 26/12/2000 19/12/2000 12/12/2000 05/12/2000 28/11/2000 21/11/2000 14/11/2000 07/11/2000 31/10/2000 24/10/2000 17/10/2000 0 Figure 5 : évolution du nombre d’entrées au premier semestre 3.2. Aspect qualitatif Le 2e auteur a revu rapidement l’ensemble des contributions, et 10 % environ en détail, en les corrigeant. Si on met à part les erreurs venant de problèmes de saisie des diacritiques sur le web, on peut dire que les traductions françaises des termes anglais sont presque toutes correctes. Par contre, 15 à 20 % des contextes d’usage ne sont pas des exemples d’usage. Voici quelques détails sur ces deux types de contribution : 3.2.1. Traductions 95 % des traductions nous semblent correctes. Un point intéressant est qu’environ 30 % seulement des termes anglais choisis par les étudiants concernent un champ lexical technique « pur », c’est-à-dire (ici) un des champs liés à leurs études (fabrication de pâte à papier, de papier, de carton, traitement des couleurs, encres, rhéologie…), alors que 70 % concernent des champs « paratechniques » (pour eux), tels que les affaires, la recherche d’emploi… et aussi l’anglais général. 3.2.2. Des « contextes d’usage » vers les « exemples d’usage » Ce qui concerne les « contextes » mérite quelques commentaires. Dans l’esprit des enseignants, il devait s’agir de citations de phrases dans lesquelles les termes anglais avaient été rencontrés. Mais plusieurs choses inattendues se sont produites. Certains étudiants ont compris qu’il s’agissait d’un raffinement du « domaine » choisi dans la liste fermée proposée par IToldU. On trouve ainsi : 6/9 5024 opportunity 5025 to put up 5026 to fulfill 5027 fulfilling 15009 gas-fired possibilité, débouché ériger, construire accomplir, réaliser profondément, satisfaisant chauffé au gaz society society society society used in paper mill D’autres ont compris qu’on leur demandait des définitions. On trouve ainsi : 15049 a wind mill une éolienne an energy-producing facility 15065 a light bulb une ampoule électrique energy-related equipment TCF (totally 4632 sans chlore stade de blanchiment chlorine free) Le coordinateur a alors dit qu’il demandait en fait des « exemples d’usage », et en a créé lui-même en indiquant comme source dans le champ prévu « invented ». Les étudiants ont alors compris qu’ils pouvaient eux aussi inventer des exemples, et l’ont fait. Au niveau du contenu, trois cas se sont produits : - Certains ont créé ou adapté des phrases contenant les termes anglais en question, sans qu’il s’agisse de vrais « exemples d’usage », permettant de discriminer le sens en question. On trouve ainsi : 16070 collude s’associer they colluded last year 16990 telematics télématique It’s telematics 16998 darts fléchettes he throws the darts 17003 potoling spéléologie the potoling is dangerous 17006 chiarioscuro clair-obscur the is a chiarioscuro effect 17026 heir héritier you heir to your mother - En poussant cela à la limite, d’autres ont pris de longues phrases, et les ont utilisées comme exemples pour les mots ou termes de ces phrases. On trouve ainsi : 12956 Falsification Falsification 12957 service vouchers Tickets de prestation 12958 security label Étiquettes sécurisées Some various documents to be certificates of protected from counterfeiting and 12959 Certificats d’authenticité authenticity falsification like service vouchers, antisecurity label and certificates of 12960 counterfeiting Éléments anti-contrefaçon authenticity have special features. features anti-falsification 12961 Éléments anti-falsification feature - Beaucoup de propositions sont des exemples « honnêtes », mais dans un anglais incorrect. On trouve ainsi : 6619 carriageway chaussée the carriageway is destroy by the cars 7073 union syndicat an union for help employees this joke are very pythonesque with his 7098 pythonesque humour absurde very absurd humour insulating materials can be very usefull in 9183 (to) insulate isoler electronic Ce « phénomène naturel » nous conduit à envisager d’étendre les fonctionnalités d’IToldU pour l’utiliser non seulement pour l’apprentissage du vocabulaire, mais aussi pour celui de la langue. - On peut aussi mentionner un (très faible) pourcentage d’étudiants, qui se « défoulent » en mettant n’importe quoi dans leurs exemples. 7/9 Au total, 15 % des exemples nous semblent incorrects du point de vue du contenu, et bien plus du point de vue de la langue, de la grammaire et de l’orthographe. 4. CONCLUSION ET PERSPECTIVES La construction collaborative de ressources lexicales libres de droit se heurte à l’impossibilité d’obtenir beaucoup de petites contributions gratuites et volontaires. IToldU est un service web léger qui, lors de sa première année d’utilisation pour l’enseignement de l’anglais technique dans des écoles d’ingénieurs, a permis d’obtenir un peu plus de 17 000 termes anglais dans une vingtaine de domaines, accompagnés de leur traduction en français, correcte à 95 %, et d’exemples d’usage en français, corrects à 85 % environ. IToldU est facile à étendre à d’autres couples de langues. Il reste à trouver comment synchroniser IToldU avec Papillon, une base lexicale multilingue beaucoup plus ambitieuse (http://www.papillondictionary.org), et à quels autres contextes on pourrait l’étendre pour obtenir de la même façon d’autres types d’informations, comme les fonctions lexicosémantiques. 8/9 Bibliographie Bellynck (V.), Boitet (C.) & Kenwright (J.), 2004 : « Resource pooling for technical English learning via lexical access » dans Proceedings Papillon-04 seminar, UJF, Grenoble, 30 Aug.-2 Sept. 2004, 5 p. Bellynck (V.), Boitet (C.) & Kenwright (J.), 2005 : « ITOLDU, a Web Service to Pool Technical Lexical Terms in a Learning Environment and Contribute to Multilingual Lexical Databases » dans Computational Linguistics and Intelligent Text Processing (Proc. CICLING-2005), A. Gelbukh, d., Springer (LNCS 3406), p. 319 – 327. Bellynck (V.), 2002 : « Bases lexicales multilingues et objets pédagogiques interactifs : Sensillon pour Papillon » dans Proceedings of Papillon 2002 Seminar, NII, 13 p., Tokyo, July 2002. Fafiotte (G.), Boitet (C.), Seligman (M.) & Zong (C.Q.), 2004 : « Collecting Bilingual Dialogues using a Web-Based Platform for the Study of Interpretation » dans Proc. LREC-04 (Language Resources and Evaluation Conference), Lisbonne, 24-28/5/04, 9 p. Mangeot-Lerebours (M.), 2001 : Environnements centralisés et distribués pour lexicographes et lexicologues en contexte multilingue, PhD in Computer Science, Université Joseph Fourier, Grenoble I, 280 p., Grenoble, France. Mangeot-Lerebours (M.), Sérasset (G.) & Lafourcade (M.), 2003 : « Construction collaborative d’une base lexicale multilingue, le projet Papillon » dans TAL, 44/2, p. 151-176. Murata (T.), Kitamura (M.), Fukui (T.) & Sukehiro (T.), 2003 : « Implementation of Collaborative Translation Environment Yakushite Net », dans Proceedings of MT Summit VIII, New Orleans. Tokuda (N.) & Chen (L.), 2001 : An Online Tutoring System for Language Translation, IEEE Transactions on Multimedia, vol. 8, n° 3, p. 46-55, July-September 2001. 9/9