Télécharger
Transcription
Télécharger
Communications Filtact© : un automate d’extraction des termes complexes Filtact est un prototype en développement d’automate d’extraction de termes complexes. La version présentée à cette table ronde est fonctionnelle, tout en comportant un certain nombre de problèmes en voie de solution pour son optimisation. Le prototype a été conçu dans le cadre du Ciral ( Centre international de recherche en aménagement linguistique ) et de notre projet CRSH 1994-1997 ( Conseil de recherche en sciences humaines ) de description lexicale des textes de LSP. La structure générale de l’algorithme d’extraction a été conçue par Alain Auger, Patrick Drouin et Pierre Auger et le programme a été écrit par Patrick Drouin sous Delphi ( langage de programmation orienté objet qui dérive de Pascal ). C’est à ce dernier également que revient le crédit de l’interfaçage pour Windows 3.1/3.11/95. Le prototype fonctionne sous tout PC évolué ( processeur 386 et +, 4 Mo de mémoire vive ). Termes-clés : Filtact ; base de données textuelles ; unité terminologique complexe ; segment. 48 L’ algorithme de Filtact est bâti autour de l’hypothèse que les termes complexes peuvent être repérés en isolant, puis en filtrant les segments complexes ( 2 à 9 mots ) répétitifs d’une base de données textuelles. Pour réaliser cet objectif, les textes de LSP sous format Ascii sont indexés par le programme makbas.exe de l’analyseur textuel Tact ( versions 1.2/2.1 ), le résultat de ce premier traitement est la production d’une base de données textuelles indexée ( fichier *.tdb ). Dans un deuxième temps, le fichier *.tdb est traité par un programme auxiliaire de Tact, le générateur de collocations collgen.exe qui isole tous les segments complexes ( 2 à 9 mots ) répétitifs apparaissant dans la base de données textuelles. Le programme collgen.exe produit un fichier Ascii suffixé en *.col où les « collocants » en ordre alphabétique sont accompagnés des segments où ils apparaissent avec l’indice de fréquence pour chaque segment. Le fichier *.col généré par le programme collgen.exe est repris par Filtact qui va filtrer ( i.e. inclure ou exclure ) les segments isolés lors de l’établissement des collocations. Pour ce faire, Filtact va, dans un premier temps, catégoriser par parties du discours toutes les unités lexicales simples qui commencent et terminent chacun des segments des collocations. Cette catégorisation est effectuée en appliquant les dictionnaires grammaticaux de Sato. Toutes les formes ambiguës ( i.e. non reconnues par les dictionnaires ) sont marquées de la valeur NIL lors de cette première étape. Dans un second temps, Filtact va reconnaître toutes les formes complexes selon les valeurs grammaticales sélectionnées préalablement. En réalité, Filtact procède par la négative en écartant les patrons syntagmatiques qui ne sont pas possibles ( ou peu probables ) pour un TC. Ces patrons sont définis par le terminologue préalablement au filtrage. Par exemple, le logiciel exclut tous les segments qui commencent ou se terminent par un article, une préposition, etc. Ce filtrage s’effectue par exclusion, donc à partir de catégories fermées ( prép., conj., etc. ) plutôt que par inclusion à partir de catégories ouvertes et ambiguës comme celles du nom, du participe passé, etc. À titre d’exemples, seront retenus les segments : – Commençant par un NOM et se terminant par un NOM pour repérer les syntagmes du type N + j0 + N ; N + jp + N et N + jp + préd + N et N + jp + V + N ; – Commençant par un NOM et se terminant par un ADJECTIF ( et inversement ) pour repérer les syntagmes des types ADJ + NOM et NOM + ADJ ; – Commençant par un NOM et se terminant par un verbe à l’infinitif pour repérer les syntagmes de forme N + jp + V. La sélection de ces modèles est effectuée en choississant comme paramètres de filtrage les catégories : NOM, ADJ, V_INF ( + NIL ). L’ajout de la valeur NIL pour retracer les segments ambigus peut causer toutefois du bruit dans la liste des segments retenus. Les unités complexes filtrées sont enfin enregistrées dans un fichier suffixé en Communications *.flt, les unités exclues le sont dans un fichier suffixé en *.xlt. Filtact permet en fait de sélectionner parmi une liste de 39 catégories ( valeurs grammaticales) : abréviation nombre adj nomc adj_inter nomp adv p_dém art p_indéf artdéf p_pers artgén p_poss artind p_relatif artpart ponctuation aux ppassé conjonction pprésent délim prép détdéf pronom réfléchi détdém résidu détindéf singulier détnum transitif détposs v_conj dentificateur v_inf interj virgule nil Cette flexibilité constitue un atout intéressant pour Filtact, car elle permet de repérer en sus des syntagmes terminologiques complexes tous les modèles de phraséologie qu’on est susceptible de rencontrer dans les textes de LSP. Ainsi, par exemple, les modèles : ( NOM + ADJ ), NOM + VERBE, VERBE + NOM, VERBE + ADV, ADV + ADJ ( et NOM + PRÉP + NOM ). Cette caractéristique s’avérait très intéressante pour notre projet d’atelier de description lexicale complète des textes de LSP. Pour parler maintenant de l’efficacité de Filtact à reconnaître les unités terminologiques complexes dans un texte de LSP, nous avons pris comme base d’analyse un volume de la collection Que-sais-je ? intitulé : Hypertexte et hypermédia ( P.U.F., 199 ?, 13 ? p. ). Voici quelques données quantitatives concernant ce texte et son traitement: – Le fichier de départ Ascii a une taille de 237 ko ; – Le fichier des collocations généré par collgen.exe fait 335 ko ; – Le filtrage par Filtact du fichier des collocations avec les filtres « nom commun, adj., verbe infinitif, participe passé et nil» a été effectué en 3 minutes environ ( machine avec processeur 486 et vitesse d’horloge de 25 Mhz ) : 13 466 segments ont été traités, 534 ont été retenus ( 12 932 exclus ) et de ce nombre 203 ont été sélectionnés manuellement comme candidats de termes complexes. Le rendement global tourne donc aux environs de 40 % pour l’instant. Il faut ici signaler deux problèmes qui apparaissent inhérents à l’algorithme que nous avons défini. Le premier problème touche l’exhaustivité des prélèvements effectués sur la base du repérage des seuls segments répétitifs. Les segments uniques étant exclus, le problème augmente avec le traitement de corpus de petite taille et inversement décroît en traitant des corpus de grande taille pour un domaine spécifique. Le second problème est celui du bruit causé par l’absence de désambiguïsation en cours de traitement, par l’attribution de la catégorie NIL à un nombre trop important de lexèmes constitutifs de segments, phénomène normal en raison du caractère d’étrangeté des termes en regard des dictionnaires utilisés qui eux sont plutôt généraux. Ce dernier problème pourra être solutionné en enrichissant constamment les dictionnaires sur le plan terminologique. Filtact en mode « gestion des résultats » permet de nettoyer commodément la liste des termes filtrés directement à l’écran, en déplaçant d’une fenêtre à l’autre les termes non confirmés. Le choix final des TC peut être confirmé sous Tact en les soumettant à l’épreuve du score d’association (Z score ). On utilisera par la suite la liste «nettoyées » des segments filtrés pour interroger la base de données textuelles sous Tact et repérer en contexte les termes complexes confirmés – concordances/ contextes accompagnées des références topologiques – ce qui va constituer après exportation des données dans un SGBD comme FileMaker Pro, une base de fiches terminologiques. Les termes simples, quant à eux, sont sélectionnés directement sous Tact en utilisant conjointement les indices de fréquence absolue et des antidictionnaires pour isoler certaines strates lexicales. Nous l’avons rappelé en introduction à notre propos, Filtact est encore à l’état de prototype et devra subir encore plusieurs retouches pour améliorer l’efficacité des filtres et réduire le bruit. Nous prévoyons également, dans un avenir rapproché, travailler en étroite collaboration avec l’équipe de Jacques Ladouceur, également rattachée au Ciral, pour la mise au point d’un outil de repérage commun alliant les approches linguistique et statistique. Pierre Auger, Centre international de recherche en aménagement linguistique, Université Laval, Québec. Patrick Drouin, Université de Montréal, Québec. Alain Auger, Université Laval, Université de Neuchâtel, Suisse. 49 Communications ANNEXE I Méthodes d’extraction automatique des TC I. APPROCHE LINGUISTIQUE • • CATÉGORISATION GRAMMATICALES ET/OU SYNTAXIQUE DES UNITÉS APPLICATIONS DE PATRONS DE FOUILLE II. APPROCHE STATISTIQUE • • FRÉQUENCE D’APPARITION DES SEGMENTS CALCUL DE L’ATTRACTION ENTRE LES LEXIES (SCORE D’ASSOCIATION ) III. APPROCHE LINGUISTICO-STATISTIQUE • • • • CONFORMITÉ STRICTE À DES RÈGLES STRUCTURELLES SYNTAXIQUES FRÉQUENCE D’APPARITION DES SEGMENTS COEFFICIENT DE VRAISEMBLANCE MESURE DE DISTANCE ANNEXE II Exemple de fichier de collocations généré par collgen.exe (Tact) humain 2 esprit -2 l’esprit -2 de l’esprit -hypercard 2 et -hyperdocument 5 -- électronique 2 -- est 2 -- et 2 -- 1 10 l’-2 l’-- est 2 l’-- et 2 même -8 un -2 un -- électronique 6 d’un -2 d’un -- électronique 6 de l’-- 50 2 création d’un -2 la création d’un -2 dans la création d’un -hyperdocumentation 4 l’-hyperdocuments 2 -- accessibles 7 d’-4 des -2 création d’-2 la création d’-hypermedia 2 -- systems 2 -- systems communications 2 -- systems communications of 2 -- systems communications of the 2 -- systems communications of the acm 2 designing -2 hypertext -- 2 of -2 of -- systems 2 of -- systems communications 2 of -- systems communications of 2 of -- systems communications of the 2 of -- systems communications of the acm 2 eds designing -2 generation of -2 generation of -- systems 2 generation of -- systems communications 2 generation of -- systems communications of 2 generation of -- systems communications of the 2 generation of -- systems communications of the acm 2 mandl eds designing -2 next generation of -- Communications ANNEXE III Exemple de fichier des TC reconnus généré par Filtact * Fichier analysé : C :\LOGI\LING\FILTACT\HYPER. COL * Fichier des segments retenus : C :\LOGI\LING\FILTACT\HYPER. FLT * Fichier des segments exclus : C :\LOGI\LING\FILTACT\HYPER. XCL * Catégories retenues : * adj nomc ppassé v_inf * Catégories exclues : * abréviation adj_inter adv art artdéf artgén artind artpart * aux conjonction délim détdéf détdém détindéf détnum * détposs identificateur interj nil nombre nomp * p_dém p_indéf p_pers p_poss p_relatif ponctuation pprésent * prép pronom réfléchi résidu singulier transitif * v_conj virgule * Voir la fin de ce fichier pour les statistiques… contrainte spécifique contraintes techniques conversion automatique conversion automatique du texte conversion automatique du texte en hypertexte conversion d’un texte conversion d’un texte en hypertexte courrier personnalisé croiser l’information création d’hyperdocuments création d’un hyperdocument créer des nœuds * Segments traités : 13466 * Segments retenus : 534 * Segments exclus : 12932 51