Building an Electronic Dictionary of Computer Science Terminology
Transcription
Building an Electronic Dictionary of Computer Science Terminology
Building an Electronic Dictionary of Computer Science Terminology for NOOJ Farida AOUGHLIS Université de Tizi ouzou Email:[email protected] PLAN • Introduction. • Extraction manuelle de terminologie. • Extraction automatique de terminologie. • Dictionnaire des termes de l’informatique: INFO_COMP. • Conclusion et perspectives. Extraction de terminologie • Extraction automatique à l’aide d’outils • Extraction manuelle Extraction automatique de termes • Approches linguistiques ou syntaxiques ex: LEXTER • Approches statistiques ou numériques ex: ANA • Approches mixtes ou hybrides ex: ACABIT Extraction manuelle de termes Collecte à partir - de journaux - d’ouvrages - de dictionnaires Les étapes 1) Lecture 2) Extraction 3) Acquisition (ajouter entrée) Dictionnaire de l’informatique INFO_COMP Codification d’une entrée Pour le terme : mémoire paginée mémoire paginée,N+NA+info+FLX=TableRonde • • • • Le terme mémoire paginée catégorie: N+NA Info: informatique (classe sémantique) FLX: flexion ,TableRonde étant le nom du modèle de flexion pour ce terme Extrait du dictionnaire INFO_COMP Flexion des composés • Voir la catégorie du terme (NA,NN,VN…) à partir de ses composants • le genre est celui du 1er terme (en général) • voir s’il y a aussi le masculin ou le féminin • voir le ou les pluriels Modèle de flexion Mémoire centrale magnétique • MemCentrMagn = <E>/f+s + s<P>s<PW><PW>s/f+p; • f+s => Mémoire centrale magnétique • f+p => Mémoires centrales magnétiques Description des flexions Reconnaissance de termes avec coordination Analyse de texte utilisant INFO_COMP Acquisition automatique de termes : méthode linguistique • Patrons syntaxiques • Le terminologue valide ou rejette les candidats termes trouvés • Codification manuelle des entrées retenues • Les termes sont rajoutés comme entrées du dictionnaire Acquisition de terminologie avec NOOJ Conclusion & Perspectives • Plus de 10000 termes dans le dictionnaire • 30 000 termes sont recensés et seront rajoutés • L’acquisition automatique avec NOOJ nécessite l’étape de validation et de codification des entrées • Difficultés pour trouver des corpus • Comparer la méthode linguistique avec les méthodes statistique et mixte (voir ANA et ACABIT) • Compléter la mise en place des grammaires • Penser à construire un module NOOJ interactif qui permette de codifier une entrée et de la rajouter