Télécharger

Transcription

Télécharger
Communications
Filtact© :
un automate d’extraction des termes complexes
Filtact est un prototype en
développement d’automate
d’extraction de termes complexes. La
version présentée à cette table ronde
est fonctionnelle, tout en comportant
un certain nombre de problèmes en
voie de solution pour son
optimisation. Le prototype a été
conçu dans le cadre du Ciral ( Centre
international de recherche en
aménagement linguistique ) et de
notre projet CRSH 1994-1997
( Conseil de recherche en sciences
humaines ) de description lexicale des
textes de LSP. La structure générale de
l’algorithme d’extraction a été conçue
par Alain Auger, Patrick Drouin et
Pierre Auger et le programme a été
écrit par Patrick Drouin sous Delphi
( langage de programmation orienté
objet qui dérive de Pascal ). C’est à ce
dernier également que revient le
crédit de l’interfaçage pour Windows
3.1/3.11/95. Le prototype fonctionne
sous tout PC évolué ( processeur 386
et +, 4 Mo de mémoire vive ).
Termes-clés :
Filtact ; base de données
textuelles ; unité terminologique
complexe ; segment.
48
L’
algorithme de Filtact
est bâti autour de
l’hypothèse que les
termes complexes
peuvent être repérés
en isolant, puis en
filtrant les segments complexes ( 2 à
9 mots ) répétitifs d’une base de
données textuelles. Pour réaliser cet
objectif, les textes de LSP sous format
Ascii sont indexés par le programme
makbas.exe de l’analyseur textuel Tact
( versions 1.2/2.1 ), le résultat de ce
premier traitement est la production
d’une base de données textuelles
indexée ( fichier *.tdb ).
Dans un deuxième temps, le fichier
*.tdb est traité par un programme
auxiliaire de Tact, le générateur de
collocations collgen.exe qui isole tous
les segments complexes ( 2 à 9 mots )
répétitifs apparaissant dans la base de
données textuelles. Le programme
collgen.exe produit un fichier Ascii
suffixé en *.col où les « collocants » en
ordre alphabétique sont accompagnés
des segments où ils apparaissent avec
l’indice de fréquence pour chaque
segment.
Le fichier *.col généré par le
programme collgen.exe est repris par
Filtact qui va filtrer ( i.e. inclure ou
exclure ) les segments isolés lors de
l’établissement des collocations. Pour
ce faire, Filtact va, dans un premier
temps, catégoriser par parties du
discours toutes les unités lexicales
simples qui commencent et terminent
chacun des segments des collocations.
Cette catégorisation est effectuée en
appliquant les dictionnaires
grammaticaux de Sato. Toutes les
formes ambiguës ( i.e. non reconnues
par les dictionnaires ) sont marquées
de la valeur NIL lors de cette
première étape. Dans un second
temps, Filtact va reconnaître toutes
les formes complexes selon les valeurs
grammaticales sélectionnées
préalablement. En réalité, Filtact
procède par la négative en écartant les
patrons syntagmatiques qui ne sont
pas possibles ( ou peu probables ) pour
un TC. Ces patrons sont définis par
le terminologue préalablement au
filtrage. Par exemple, le logiciel exclut
tous les segments qui commencent ou
se terminent par un article, une
préposition, etc. Ce filtrage s’effectue
par exclusion, donc à partir de
catégories fermées ( prép., conj., etc. )
plutôt que par inclusion à partir de
catégories ouvertes et ambiguës
comme celles du nom, du participe
passé, etc. À titre d’exemples, seront
retenus les segments :
– Commençant par un NOM et se
terminant par un NOM pour repérer
les syntagmes du type N + j0 + N ;
N + jp + N et N + jp + préd + N et
N + jp + V + N ;
– Commençant par un NOM et se
terminant par un ADJECTIF ( et
inversement ) pour repérer les
syntagmes des types ADJ + NOM et
NOM + ADJ ;
– Commençant par un NOM et se
terminant par un verbe à l’infinitif
pour repérer les syntagmes de forme
N + jp + V.
La sélection de ces modèles est
effectuée en choississant comme
paramètres de filtrage les catégories :
NOM, ADJ, V_INF ( + NIL ).
L’ajout de la valeur NIL pour retracer
les segments ambigus peut causer
toutefois du bruit dans la liste des
segments retenus. Les unités
complexes filtrées sont enfin
enregistrées dans un fichier suffixé en
Communications
*.flt, les unités exclues le sont dans un
fichier suffixé en *.xlt.
Filtact permet en fait de
sélectionner parmi une liste de 39
catégories ( valeurs grammaticales) :
abréviation
nombre
adj
nomc
adj_inter
nomp
adv
p_dém
art
p_indéf
artdéf
p_pers
artgén
p_poss
artind
p_relatif
artpart
ponctuation
aux
ppassé
conjonction
pprésent
délim
prép
détdéf
pronom réfléchi
détdém
résidu
détindéf
singulier
détnum
transitif
détposs
v_conj
dentificateur
v_inf
interj
virgule
nil
Cette flexibilité constitue un
atout intéressant pour Filtact, car elle
permet de repérer en sus des
syntagmes terminologiques complexes
tous les modèles de phraséologie
qu’on est susceptible de rencontrer
dans les textes de LSP. Ainsi, par
exemple, les modèles :
( NOM + ADJ ), NOM + VERBE,
VERBE + NOM, VERBE + ADV,
ADV + ADJ ( et
NOM + PRÉP + NOM ). Cette
caractéristique s’avérait très
intéressante pour notre projet d’atelier
de description lexicale complète des
textes de LSP.
Pour parler maintenant de
l’efficacité de Filtact à reconnaître les
unités terminologiques complexes
dans un texte de LSP, nous avons pris
comme base d’analyse un volume de
la collection Que-sais-je ? intitulé :
Hypertexte et hypermédia ( P.U.F.,
199 ?, 13 ? p. ). Voici quelques
données quantitatives concernant ce
texte et son traitement:
– Le fichier de départ Ascii a une
taille de 237 ko ;
– Le fichier des collocations généré
par collgen.exe fait 335 ko ;
– Le filtrage par Filtact du fichier des
collocations avec les filtres « nom
commun, adj., verbe infinitif,
participe passé et nil» a été effectué
en 3 minutes environ ( machine avec
processeur 486 et vitesse d’horloge de
25 Mhz ) : 13 466 segments ont été
traités, 534 ont été retenus
( 12 932 exclus ) et de ce nombre
203 ont été sélectionnés
manuellement comme candidats de
termes complexes. Le rendement
global tourne donc aux environs de
40 % pour l’instant.
Il faut ici signaler deux
problèmes qui apparaissent inhérents
à l’algorithme que nous avons défini.
Le premier problème touche
l’exhaustivité des prélèvements
effectués sur la base du repérage des
seuls segments répétitifs. Les segments
uniques étant exclus, le problème
augmente avec le traitement de
corpus de petite taille et inversement
décroît en traitant des corpus de
grande taille pour un domaine
spécifique. Le second problème est
celui du bruit causé par l’absence de
désambiguïsation en cours de
traitement, par l’attribution de la
catégorie NIL à un nombre trop
important de lexèmes constitutifs de
segments, phénomène normal en
raison du caractère d’étrangeté des
termes en regard des dictionnaires
utilisés qui eux sont plutôt généraux.
Ce dernier problème pourra être
solutionné en enrichissant
constamment les dictionnaires sur le
plan terminologique.
Filtact en mode « gestion des
résultats » permet de nettoyer
commodément la liste des termes
filtrés directement à l’écran, en
déplaçant d’une fenêtre à l’autre les
termes non confirmés. Le choix final
des TC peut être confirmé sous Tact
en les soumettant à l’épreuve du score
d’association (Z score ). On utilisera
par la suite la liste «nettoyées » des
segments filtrés pour interroger la
base de données textuelles sous Tact
et repérer en contexte les termes
complexes confirmés – concordances/
contextes accompagnées des
références topologiques – ce qui va
constituer après exportation des
données dans un SGBD comme
FileMaker Pro, une base de fiches
terminologiques. Les termes simples,
quant à eux, sont sélectionnés
directement sous Tact en utilisant
conjointement les indices de
fréquence absolue et des
antidictionnaires pour isoler certaines
strates lexicales.
Nous l’avons rappelé en
introduction à notre propos, Filtact
est encore à l’état de prototype et
devra subir encore plusieurs retouches
pour améliorer l’efficacité des filtres et
réduire le bruit. Nous prévoyons
également, dans un avenir rapproché,
travailler en étroite collaboration avec
l’équipe de Jacques Ladouceur,
également rattachée au Ciral, pour la
mise au point d’un outil de repérage
commun alliant les approches
linguistique et statistique.
Pierre Auger,
Centre international de recherche en
aménagement linguistique,
Université Laval,
Québec.
Patrick Drouin,
Université de Montréal,
Québec.
Alain Auger,
Université Laval,
Université de Neuchâtel,
Suisse.
49
Communications
ANNEXE I
Méthodes d’extraction automatique des TC
I.
APPROCHE LINGUISTIQUE
•
•
CATÉGORISATION GRAMMATICALES ET/OU SYNTAXIQUE DES UNITÉS
APPLICATIONS DE PATRONS DE FOUILLE
II. APPROCHE STATISTIQUE
•
•
FRÉQUENCE D’APPARITION DES SEGMENTS
CALCUL DE L’ATTRACTION ENTRE LES LEXIES (SCORE D’ASSOCIATION )
III. APPROCHE LINGUISTICO-STATISTIQUE
•
•
•
•
CONFORMITÉ STRICTE À DES RÈGLES STRUCTURELLES SYNTAXIQUES
FRÉQUENCE D’APPARITION DES SEGMENTS
COEFFICIENT DE VRAISEMBLANCE
MESURE DE DISTANCE
ANNEXE II
Exemple de fichier de collocations généré par collgen.exe (Tact)
humain
2 esprit -2 l’esprit -2 de l’esprit -hypercard
2 et -hyperdocument
5 -- électronique
2 -- est
2 -- et
2 -- 1
10 l’-2 l’-- est
2 l’-- et
2 même -8 un -2 un -- électronique
6 d’un -2 d’un -- électronique
6 de l’--
50
2 création d’un -2 la création d’un -2 dans la création d’un -hyperdocumentation
4 l’-hyperdocuments
2 -- accessibles
7 d’-4 des -2 création d’-2 la création d’-hypermedia
2 -- systems
2 -- systems communications
2 -- systems communications of
2 -- systems communications of the
2 -- systems communications of the
acm
2 designing -2 hypertext --
2 of -2 of -- systems
2 of -- systems communications
2 of -- systems communications of
2 of -- systems communications of the
2 of -- systems communications of the
acm
2 eds designing -2 generation of -2 generation of -- systems
2 generation of -- systems
communications
2 generation of -- systems
communications of
2 generation of -- systems
communications of the
2 generation of -- systems
communications of the acm
2 mandl eds designing -2 next generation of --
Communications
ANNEXE III
Exemple de fichier des TC reconnus généré par Filtact
* Fichier analysé : C :\LOGI\LING\FILTACT\HYPER. COL
* Fichier des segments retenus : C :\LOGI\LING\FILTACT\HYPER. FLT
* Fichier des segments exclus : C :\LOGI\LING\FILTACT\HYPER. XCL
* Catégories retenues :
* adj nomc ppassé v_inf
* Catégories exclues :
* abréviation adj_inter adv art artdéf artgén artind artpart
* aux conjonction délim détdéf détdém détindéf détnum
* détposs identificateur interj nil nombre nomp
* p_dém p_indéf p_pers p_poss p_relatif ponctuation pprésent
* prép pronom réfléchi résidu singulier transitif
* v_conj virgule
* Voir la fin de ce fichier pour les statistiques…
contrainte spécifique
contraintes techniques
conversion automatique
conversion automatique du texte
conversion automatique du texte en hypertexte
conversion d’un texte
conversion d’un texte en hypertexte
courrier personnalisé
croiser l’information
création d’hyperdocuments
création d’un hyperdocument
créer des nœuds
* Segments traités : 13466
* Segments retenus : 534
* Segments exclus : 12932
51