Building an Electronic Dictionary of Computer Science Terminology

Transcription

Building an Electronic Dictionary of Computer Science Terminology
Building an Electronic Dictionary
of Computer Science
Terminology for NOOJ
Farida AOUGHLIS
Université de Tizi ouzou
Email:[email protected]
PLAN
• Introduction.
• Extraction manuelle de terminologie.
• Extraction automatique de terminologie.
• Dictionnaire des termes de l’informatique:
INFO_COMP.
• Conclusion et perspectives.
Extraction de terminologie
• Extraction automatique à l’aide d’outils
• Extraction manuelle
Extraction automatique de
termes
• Approches linguistiques ou syntaxiques
ex: LEXTER
• Approches statistiques ou numériques
ex: ANA
• Approches mixtes ou hybrides
ex: ACABIT
Extraction manuelle de termes
Collecte à partir
- de journaux
- d’ouvrages
- de dictionnaires
Les étapes
1) Lecture
2) Extraction
3) Acquisition (ajouter entrée)
Dictionnaire de l’informatique
INFO_COMP
Codification d’une entrée
Pour le terme : mémoire paginée
mémoire paginée,N+NA+info+FLX=TableRonde
•
•
•
•
Le terme mémoire paginée
catégorie: N+NA
Info: informatique (classe sémantique)
FLX: flexion ,TableRonde étant le nom du modèle de
flexion pour ce terme
Extrait du dictionnaire INFO_COMP
Flexion des composés
• Voir la catégorie du terme (NA,NN,VN…) à partir
de ses composants
• le genre est celui du 1er terme (en général)
• voir s’il y a aussi le masculin ou le féminin
• voir le ou les pluriels
Modèle de flexion
Mémoire centrale magnétique
• MemCentrMagn =
<E>/f+s + s<P>s<PW><PW>s/f+p;
• f+s => Mémoire centrale magnétique
• f+p => Mémoires centrales magnétiques
Description des flexions
Reconnaissance de termes avec coordination
Analyse de texte utilisant INFO_COMP
Acquisition automatique
de termes : méthode linguistique
• Patrons syntaxiques
• Le terminologue valide ou rejette les
candidats termes trouvés
• Codification manuelle des entrées
retenues
• Les termes sont rajoutés comme entrées
du dictionnaire
Acquisition de terminologie avec NOOJ
Conclusion & Perspectives
• Plus de 10000 termes dans le dictionnaire
• 30 000 termes sont recensés et seront
rajoutés
• L’acquisition automatique avec NOOJ
nécessite l’étape de validation et de
codification des entrées
• Difficultés pour trouver des corpus
• Comparer la méthode linguistique avec les
méthodes statistique et mixte (voir ANA et
ACABIT)
• Compléter la mise en place des
grammaires
• Penser à construire un module NOOJ
interactif qui permette de codifier une
entrée et de la rajouter

Documents pareils