INDEXATION HUMAINE ET INDEXATION

Transcription

INDEXATION HUMAINE ET INDEXATION
INDEXATION HUMAINE ET INDEXATION AUTOMATISÉE :
LA PLACE DU TERME ET DE SON ENVIRONNEMENT
Mustafa El Hadi Widad
UFR IDIST/CERSATES, UMR 8529
Lille 3
France
Résumé : dans cet article, nous examinerons l’apport de la terminologie en accès à l’information. Nous ferons
tout d’abord un bref rappel de la problématique de l’indexation et de la recherche d’information et
soulignerons ensuite l’apport de la terminologie dans ces deux processus interdépendants. Nous retracerons
l’évolution des techniques en acquisition de ressources terminologiques et leur apport spécifique à
l’indexation humaine et automatique ainsi qu’à la construction de langages documentaires tels que les
thesaurus.
Mots-clés : indexation, extraction de termes et de relations sémantiques, thesaurus, accès à l’information.
1. INTRODUCTION
Toute activité dans les sociétés industrialisées produit et consomme de l’information. Comme
celle-ci se cristallise, en particulier en vue ou à l’occasion des échanges, dans des vocabulaires
spécialisés, l’un des enjeux majeurs de cette maîtrise de l’information est de pouvoir repérer et
manipuler les concepts désignés grâce aux vocabulaires spécialisés. Cette question a été l’une des
préoccupations centrales de la documentation, notamment lorsque celle-ci s’est informatisée. Dans
la mesure, en effet, où le mode de représentation le plus courant des contenus était le descripteur
(voir la définition des termes descripteur et mot-clé en 3.3.1), la question s’est vite posée de trouver
les moyens d’automatiser son repérage par des moyens mécaniques. Dans un deuxième temps,
l’émergence de la linguistique comme discipline dominante pour l’étude des phénomènes
d’expression suscite l’espoir de pouvoir – à travers l’étude des structures de surface
(morphologiques et syntaxiques) – dégager les concepts porteurs de sens. Dès lors, commence une
troisième phase qui voit la terminologie se pencher sur ce problème, confrontée, en effet, à la
nécessité de trouver des méthodes de repérage de « mot-clé » ou descripteur qui prennent en charge
l’environnement du mot-clé.
2. TERMINOLOGIE ET ACCÈS À L’INFORMATION
La terminologie est perçue comme une représentation du contenu de documents et comme une
clé de l’accès à leur contenu. La création des ressources terminologiques nécessaires à ce double
processus implique le recours à une vaste documentation. Aussi, dès l’apparition de la terminologie
en tant que discipline autonome, le lien qu’elle avait avec la documentation a-t-il été vu comme
essentiel. La diversité des contextes dans lesquels le travail terminologique est réalisé, la diversité
des points de vue selon lesquels elle est employée et la variété des sujets de la terminologie, qu’il
s’agisse des thèmes qu’elle traite ou des finalités qu’elle poursuit donnent lieu à un large éventail
d’approches et d’applications qui se situent dans le champ des sciences de l’information et de la
communication (Mustafa El Hadi 2004).
Selon les positions théoriques de la conception historique, la spécificité de la terminologie ne
peut se définir que dans le modèle de communication. L’activité terminologique dès les débuts visait
non seulement à normaliser le vocabulaire employé dans un domaine bien défini, mais aussi à
faciliter la communication en élaborant des outils de référence pour des domaines spécialisés (Cabré
1998). La terminologie intervient ainsi dans l’élaboration de vocabulaires de référence pour des
applications de plus en plus diversifiées en accès à l’information : thesaurus pour les systèmes
d’indexation automatique, index structurés pour la documentation technique hypertextuelle,
référentiels terminologiques pour les systèmes de gestion de données techniques, ontologies pour les
mémoires d’entreprise, terminologies pour les systèmes d’aide à la décision ou pour les systèmes
d’extraction d’informations.
Le traitement et la représentation des documents doivent se baser sur une analyse adéquate du
contenu textuel. Cela permet aux usagers des systèmes d’information de se faire une idée exacte des
connaissances disponibles dans une source donnée et donc de l’utilité potentielle de cette dernière
pour leurs besoins. Le défi actuel posé aux spécialistes de l’information, consiste précisément à
trouver les meilleurs moyens d’extraire et de représenter ce contenu textuel.
3. L’INDEXATION
3.1. Indexation : définitions et historique
Pomart et alii (1997 : 284-287) définissent l’indexation comme étant une opération ayant « pour
but de faciliter l’accès au contenu de documents ou d’un ensemble de documents à partir d’un sujet
ou d’une combinaison de sujets (ou toutes autres entrées utiles à la recherche). Cela s’applique aussi
bien à l’élaboration d’index situés généralement en fin d’ouvrage qu’à l’usage des langages
documentaires pour analyser le contenu d’une collection de documents et permettre par la suite,
grâce aux fichiers où à la banque de données ainsi alimentée, la recherche des informations
répondant à une préoccupation particulière. Ainsi la notion d’indexation se trouve-t-elle au cœur de
la pratique documentaire : elle constitue l’opération centrale du traitement des documents au sein de
la chaîne documentaire classique (repérage, et acquisition des documents ; traitement et
exploitation ; recherche et diffusion) ».
L’utilisation des index remonterait d’après Nie (2003) au XVe siècle peu après l’invention de
l’imprimerie. Les index (ou termes d’indexation) jouent un rôle important dans la recherche
d’information dans la mesure où ils déterminent avec quels mots on peut retrouver un document. Le
problème du choix des éléments de l’index s’est vite posé. Chez les praticiens et chercheurs de cette
spécialité, la dialectique du choix entre une indexation manuelle ou automatisée, un vocabulaire
libre ou vocabulaire contrôlé, ou encore la détermination d’un anti-dictionnaire (stoplist) polarisent
encore les débats et les interrogations.
L’indexation est une forme de reformulation : indexer, c’est reformuler le contenu d’un
document ou d’une inscription dans une forme plus adaptée à son contexte d’exploitation dans une
application donnée. On indexe donc en vue d’une application. On ne parle plus seulement
d’indexation mais également d’enrichissement, d’annotation, de marquage et de méta-données
(Menon 2004).
3.2. Les techniques d’indexation
L’indexation se situe dans un contexte plus global, qui est celui de l’analyse du contenu. Cette
opération est un préalable indispensable à toute recherche d’information sur le contenu et à d’autres
types de traitement des informations. Il est donc difficile de parler de recherche d’information sans
parler d’indexation, au sens procédural du terme. Indexation et recherche d’information sont de ce
fait deux processus fortement liés. On indexe les documents dans le but de les retrouver. Le
processus d’indexation est plus ou moins complexe suivant la représentation des unités
documentaires ou de contenu que l’on cherche à atteindre, la disponibilité de ressources, comme les
référentiels terminologiques (liste contrôlée de termes, thesaurus, classifications, ontologies de
domaines) et l’application visée.
3.2.1. L’indexation manuelle
L’indexation manuelle est une opération qui consiste à recenser les concepts dont traite un
document et à les représenter à l’aide d’un langage documentaire (classificatoire ou combinatoire)
souvent par plusieurs indicateurs sémantiques : indice de classification, descripteurs libres, termes
autorisés, descripteurs ou mots-clés d’un thesaurus (Maniez 2002), (Lefèvre 2000).
L’indexation manuelle fait recours à des outils d’indexation censés réduire la subjectivité des
indexeurs, c’est-à-dire des « langages documentaires » (voir la définition en 3.3.1.). Ces outils
servent à maintenir la cohérence et l’homogénéité. Ce type d’indexation repose habituellement sur
un jugement de signification plus ou moins intuitif, toujours lié à l’indexeur. Le travail à réaliser
pour la mise au point d’une indexation est assez important : connaissance du contenu de
l’information, choix des concepts à représenter et traduction de ces concepts en descripteurs. De
plus, les mêmes notions peuvent être exprimées de manières très diverses.
On a donc assez vite pensé à avoir recours à l’ordinateur :
-
pour limiter les choix parfois subjectifs de l’indexeur ;
-
pour alléger le travail requis par une indexation manuelle ;
-
pour éviter les incohérences résultant des interprétations différentes entre plusieurs indexeurs ;
-
et pour réaliser une recherche exhaustive des sujets traités dans l’information analysée.
Malgré ses limites, cette indexation « humaine » reste le seul type d’indexation intellectuelle
(faisant appel à des connaissances sémantiques). Néanmoins, l’utilisateur est absent de cette
indexation qui se fait en amont (les listes de concepts et des mots-clés sont constitués en amont
donc, indépendamment des documents à indexer). Par ailleurs, les listes de concepts ou de mots-clés
peuvent être mis à jour en fonction de l’évolution des connaissances mais dans la pratique cette mise
à jour représente une lourde tâche qui n’est pas souvent effectuée en temps réel. Ceci laisse peu de
place à l’évolution du vocabulaire de l’indexation en fonction de celle des documents indexés pris
isolément. En raison de ces divers problèmes, des méthodes d’indexation automatique sont donc
apparues.
3.2.2. L’indexation automatique
L’indexation automatique est l’opération qui consiste à faire reconnaître par l’ordinateur des
termes figurant dans le titre, le résumé, le texte complet (s’il est enregistré avec la notice
documentaire) et à employer ces termes, soit tels quels soit après conversion en d’autres termes
équivalents ou conceptuellement voisins, pour en faire des critères incorporés dans le fichier de
recherche et utilisables pour retrouver le document. La première génération des systèmes
d’indexation automatique sur le texte intégral était fondée sur la création d’index (fichiers inversés)
permettant de localiser un terme ou un ensemble de termes au sein d’une collection de documents.
La première approche d’indexation automatique KWIC (Key-Word In Context) a été introduite
par Luhn (1957). Il a été question ensuite de pondérer les index. Aux débuts de la recherche
d’information, les méthodes statistiques ont été fondées sur la fréquence de termes dans le
document. Plus tard, cette mesure a été étendue pour tenir compte de la spécificité d’un terme pour
le document. À cette fin, d’autres méthodes ont été exploitées, telles que 2-Poisson (Nie, 2003).
L’indexation automatique a comme base :
-
des méthodes statistiques et probabilistes, qui, pour sélectionner des termes d’index, combinent
critères distributionnels (fréquence, cooccurrence de mots), positionnels (la partie du document
dans laquelle un mot apparaît : titre, corps du texte, sommaire) et surtout quantitatif (longueur du
texte considéré) ;
-
des méthodes linguistiques : lexicographiques et morphosyntaxiques. Ce sont les techniques
employées dans le traitement automatique des langues naturelles ;
-
des méthodes informatiques (telles que : algorithmes de recherche, langages évolués
spécifiques, etc.) utilisées aussi bien dans le traitement automatique des langues qu’en
documentation automatique.
Les systèmes statistiques considèrent les documents comme de simples chaînes de caractères et
de ce fait indexent les mots isolés. La nature linguistique des textes n’est pas prise en compte,
néanmoins, diverses expériences ont montré que l’amélioration de la performance des systèmes
d’indexation passe par l’intégration d’au moins deux modèles – linguistique et statistique.
3.3. Place de la terminologie
Le terme, objet d’étude de la terminologie, est le fondement même des activités documentaires et
informationnelles classiques comme l’indexation, la construction de thesaurus, la recherche
d’information, ou plus récemment la veille, la gestion de contenu et la gestion de connaissances. La
pratique terminologique peut être abordée à travers ses réalisations concrètes (index, thesaurus,
ontologies, réseaux sémantiques…) comme un dispositif de médiation des savoirs et des
connaissances. Le terme constitue ainsi un objet d’étude à part entière pour la terminologie mais
aussi pour la documentation à travers l’étude des langages documentaires (voir la définition en
3.3.1). Le lien entre terminologie et documentation se vérifie ainsi à travers les langages
d’indexation fondés sur les thesaurus dont la construction fait appel aux ressources terminologiques.
L’organisation des connaissances a longtemps été réalisée par les grands systèmes
classificatoires et les encyclopédies. L’accès à l’information a nécessité le recours à d’autres types
d’outils tels que les listes d’autorité, les thesaurus, les index structurés et les taxonomies. De nos
jours et dans le cadre de la recherche d’information sur le Web, d’autres dispositifs terminologiques
viennent compléter ce panorama d’outils. Il s’agit de réseaux sémantiques, de cartographie
conceptuelle et d’ontologies qui sont issus des développements en intelligence artificielle et plus
récemment en ingénierie des connaissances. Ce sont des structures d’organisation et de
représentation des connaissances innovantes qui font appel aux technologies du Web. Conçues sur
la base de la modélisation conceptuelle d’un domaine de connaissance, ces structures sont de plus en
plus utilisées dans des applications de gestion des connaissances, de veille technologique,
d’indexation et de recherche d’information. C’est surtout dans les fonctions d’indexation et de
recherche d’information que les systèmes d’organisation des connaissances classiques et innovants
convergent vers des points communs.
Thesaurus, cartes conceptuelles et ontologie, partagent des caractéristiques communes, du fait
que tous les trois sont des référentiels terminologiques conçus sous forme de réseau sémantique et
sont utilisés en représentation du contenu de documents et en accès à l’information.
3.3.1. Le descripteur, élément central en indexation
L’indexation d’un document consiste en la caractérisation de son contenu à l’aide de descripteurs
afin de pouvoir retrouver aussi facilement que possible dans l’ensemble de la masse documentaire
les informations pertinentes qu’il contient. Pour définir le descripteur on pourra dire qu’il y a
identité entre cet élément et le terme. Ce dernier est l’élément commun à la terminologie et aux
systèmes d’information. Le descripteur est l’unité de représentation d’un contenu qui est de nature
conceptuelle. Il est considéré comme clé d’accès aux documents dont il synthétise le contenu. Cette
définition correspond à l’approche normative qui met l’accent sur une symétrie entre indexation et
recherche d’information, comme le souligne Amar (2000). Les termes descripteurs et mots-clés
appartiennent plutôt au domaine de l’indexation. Dans le cadre de l’indexation automatique, un
descripteur est par exemple un syntagme nominal pondéré que l’on juge apte à caractériser le
contenu d’un texte. En indexation manuelle, il est un élément de thesaurus. Il dispose dans ce
dernier cas de relations conceptuelles propres au thesaurus (générique, spécifique, associé,
synonymique). Un mot-clé, souvent employé dans le cadre de l’indexation manuelle, est un élément
du lexique, il appartient donc à une liste non structurée de vocabulaire d’indexation. Les descripteurs
provenant du thesaurus et les mots-clés issus d’un lexique sont employés dans le cadre de
l’indexation manuelle. En revanche, un terme au sens terminologique est une unité textuelle qui
renvoie à des notions dans un domaine de connaissance déterminé. De ce fait, le terme relève de la
nomenclature établie d’un domaine. Un terme, comme nous l’avons déjà évoqué, peut être un
descripteur s’il est retenu par un procédé automatique de pondération ou s’il provient d’un thesaurus
ou d’un lexique.
Les descripteurs peuvent appartenir à deux types de langages : le langage libre ou le langage
contrôlé. Un langage documentaire est une liste contrôlée de termes d’indexation ayant fait l’objet
d’une validation humaine (Jacquemin 1997).
Le langage libre est un langage évolutif, proche de la langue naturelle. Son vocabulaire,
l’ensemble des éléments qui composent le langage, est choisi a posteriori dans les textes à indexer,
et n’est donc pas limité par un contrôle extérieur au système de recherche d’information. Dans ce
cas précis, les éléments du langage sont principalement des mots du texte et non des termes.
Le langage contrôlé est équivalent au langage documentaire. Il est formé d’un vocabulaire
préétabli et d’une série de règles traduisant différentes relations possibles entre ses éléments.
Construit a priori, ce langage doit être connu avant d’indexer les documents. En général, les
langages contrôlés sont composés des termes décrits dans un thesaurus ou un lexique (Roussy et alii
1999). L’étude de la sélection des unités est partiellement prise en charge par la terminologie.
4. L’ÉVOLUTION DES TECHNIQUES EN ACQUISITION DE RESSOURCES
TERMINOLOGIQUES ET SON IMPACT SUR LA REPRÉSENTATION DU
CONTENU DE DOCUMENTS
L’extraction terminologique suppose deux activités essentielles : l’acquisition terminologique
(dans un domaine précis, par exemple) qui implique la découverte de nouveaux termes, et
l’indexation. Le but de l’acquisition terminologique est la constitution de ressources
terminologiques telles que les vocabulaires contrôlés (thesaurus), index structurés, ontologies. Les
thesaurus sont utilisés pour assister le processus de recherche d’information lors de la phase
d’expansion de la requête pour la recherche d’information interlinguale ou pour l’interrogation de
bases de données. La constitution automatique de thesaurus est une tradition déjà ancienne et les
différentes études menées dans ce domaine concernaient soit la découverte de nouveaux termes ou
l’établissement de relations sémantiques (cf. Jacquemin 1997 pour de plus amples détails). Les
outils d’extraction terminologique bilingues (Dagan et alii 1994), fondés sur une analyse des parties
du discours et des technologies d’alignement visant à extraire des termes candidats et leurs
traductions peuvent être utilisés pour ces deux tâches. Les composants monolingues de ce type de
systèmes peuvent être utilisés pour l’indexation et pour l’extraction terminologique alors que les
composants bilingues sont utilisés pour la traduction ainsi que pour la recherche d’information dans
des bases documentaires multilingues (ibid.). Bien que ce type de système ait été conçu initialement
pour l’extraction et la traduction de termes, il a été ensuite utilisé également et adapté pour
l’indexation, comme l’expliquent Landauer et alii (1990), cité par Dagan et alii (1994).
Les deux facteurs les plus décisifs qui ont eu un impact réel sur l’usage de la terminologie et son
insertion dans les processus d’indexation et de recherche d’information sont la mise à disposition de
grande quantité de textes et la prise en compte de la dimension de l’usage. Concernant ce dernier
facteur, de nombreux auteurs soulignent l’importance du fonctionnement réel du terme au sein du
discours et insistent sur la prise en charge de la dimension de l’usage. La question de l’usage est au
cœur de la problématique d’indexation et de recherche d’information.
Les autres unités dans l’environnement du terme et leur fonction
Les textes spécialisés ne contiennent pas que des termes. On peut y trouver aussi des mots. Il est
nécessaire d’examiner le statut de ces unités. Comme nous l’avons déjà signalé dans nos travaux
antérieurs (1992) et récents (2004), les mots de la langue ne sont pas « aptes » à dénoter directement
l’univers de référence. Autrement dit, le lexique donne le sens du « mot », indépendamment de la
référence, la terminologie s’occupe du « mot » dans un référentiel donné. Il convient de signaler que
les besoins actuels ont amené les terminologues à s’intéresser aux autres unités qu’on appelait
« mots de la langue ». Les unités qui intéressent les terminologues pour des applications de
traduction et de rédaction techniques sont essentiellement de deux catégories : les verbes et les
adjectifs. L’Homme (2001) a signalé l’importance de prendre en considération la présence de verbes
chargés d’informations terminologiques. De nombreux chercheurs s’intéressent à l’environnement
du terme et construisent des outils ayant comme objectif l’extraction de collocations verbales et
adjectivales, unités nécessaires en rédaction et en traduction humaine et/ou automatique. La collecte
des données sur les termes a été facilitée par les concordanciers qui extraient rapidement des
contextes associés à un terme donné à la demande d’un utilisateur (L’Homme, ibid.). De nouveaux
outils qui permettent d’isoler des contextes spécifiques ou d’exploiter l’information qui se trouve de
part et d’autre des termes préalablement recherchés ont fait leur apparition.
D’autres chercheurs vont plus loin et proposent ce que L’Homme (ibid.) appelle une « Nouvelle
génération de dictionnaires spécialisés ». D’après elle, les dictionnaires classiques décrivent les
termes de nature nominale dans des fichiers ou des articles monoconceptuels et retiennent les
rubriques suivantes : des vedettes dans une ou plusieurs langues, une définition, des contextes et des
marques d’usage. On assiste de plus en plus à des changements qui touchent la nature des données :
les supports de données terminologiques tentent d’intégrer des éléments descriptifs différents et plus
riches que ce que l’on trouve dans les dictionnaires terminologiques élaborés selon les règles de
l’art. Ils tiennent compte de la polysémie des unités appartenant à des catégories différentes de celles
du nom et peuvent retenir des rubriques comme les co-occurrents ou les termes apparentés
morphologiquement à l’unité terminologique (voir comme exemple de ce type de dictionnaire le
Dictionnaire d’apprentissage du français des affaires (DFA), (Binon et alii 2000, cité par L’Homme,
ibid.) comme étant le dictionnaire le plus riche sur le plan linguistique).
Pour sa part, Dancette (2005) signale l’apport similaire que constituent les outils d’interrogation
(dictionnaires), qui ne portent plus principalement sur les termes, mais aussi sur leurs contextes
(phraséologies, collocations) et sur les concepts. L’utilité de cette approche pour la recherche
documentaire et terminologique paraît importante. Cette « révolution dictionnairique », précise
l’auteur, résulte d’une convergence des disciplines : lexicologie, terminologie et traductologie.
L’auteur et son équipe, à l’Université de Montréal, proposent un modèle de relations lexicosémantiques (RLS) permettant, à l’intérieur d’un domaine de spécialité (en l’occurrence le domaine
commercial), de présenter le vocabulaire, en mettant en évidence ce qui relie un terme à un
ensemble d’autres termes du même champ sémantique. L’idée s’inspire de plusieurs courants : la
lexicologie explicative et combinatoire, les ontologies utilisées en terminologie et les recherches sur
les collocations dans les domaines spécialisés. Les liens que cette démarche cherche à formaliser
sont conceptuels (cause, instrument, but, agent, etc.), ou ontologiques (hiérarchie, partie-tout,
synonymes, antonymes, etc.). Ils interviennent sur des plans différents : paradigmatique,
syntagmatique et dérivationnel.
On voit apparaître de plus en de plus de technologies qui ont pour but l’amélioration de
l’environnement terminologique et de la qualité de l’extraction. Des études relativement récentes
dans ce domaine concernent essentiellement les collocations et les verbes de spécialité.
Pour améliorer la qualité et la pertinence de l’extraction, tout particulièrement dans le domaine
de l’indexation, la rédaction technique et la traduction, l’identification et la recherche de ces
éléments est devenu un objet d’intérêt primordial pour les spécialistes du TAL appliqué à la
terminologie et à l’extraction terminologique (cf. L’Homme 2001, 2002 ; Fabre et alii 2002 ; Daille
2001). Concernant les adjectifs relationnels inclus dans les noms composés, une étude intéressante a
été menée par Daille (ibid.). Cette étude montre comment les adjectifs peuvent être utilisés dans
différents types d’applications du TAL. Dans le contexte des ressources terminologiques pour la
recherche d’information, la méthode suggérée par cet auteur a pour but de regrouper les formes
synonymes renvoyant à un concept unique. Cette méthode est utilisée pour la mise à jour des
thesauri. C’est d’ailleurs dans cet objectif de mise à jour que des logiciels développés pour
l’extraction automatique de termes étaient destinés à enrichir les thesaurus. Lexter, par exemple, a
été créé pour extraire les nouveaux termes ou termes émergents dans le domaine électrique à mettre
dans l’index d’EDF-GDF (cf. Bourigault 1992).
De plus, l’extraction de collocations fait apparaître des affinités entre des termes et d’autres mots,
des collocations ou d’autres co-occurrents. Ces derniers peuvent servir d’indice pour dégager des
« familles conceptuelles », (Dancette 2005 ; L’Homme 2001). Dans certains programmes, les
cooccurrents servent d’indicateurs sur la parenté conceptuelle des termes et sont utilisés pour
regrouper des ensembles de termes sous forme de classes. On se fonde sur le fait que si des termes
ont les mêmes cooccurrents, ils partagent des caractéristiques sémantiques communes ou
appartiennent à la même classe. Ce fait constitue un réel intérêt dans les contextes d’indexation et de
recherche d’information.
5. CONCLUSION
Pour conclure, de nombreux travaux (L’Homme 2001, 2002 ; Dancette 2005 ; Bourigault et alii
2002 ; Daille 2001) entre autres, montrent que désormais le terminologue a accès à toutes sortes de
techniques pour repérer et extraire des informations présentes sous différentes formes dans les textes
spécialisés : extraction de termes complexes, termes simples, de relations sémantiques ; repérage de
collocations et de contextes ciblés ; établissement de liens conceptuels entre termes ou construction
de classes. Tous ces éléments représentent un apport essentiel dans nos pratiques informationnelles
telles que la représentation du contenu de documents et la construction de référentiels
terminologiques pour l’accès à l’information.
Bibliographie
Amar (M.), 2000 : Les fondements théoriques de l’indexation : une approche linguistique, ADBS, Paris.
Bourigault (D.), 1992 : « Lexter, vers un outil linguistique d’aide à l’acquisition des connaissances », dans Actes des 3es Journées
d’acquisition des connaissances, Dourdan, avril 1992.
Bourigault (D.), Lame (G.), 2002 : « Analyse distributionnelle et structuration de terminologie : application à la construction d’une
ontologie documentaire du droit », dans Nazarenko (A.) et Hamon (Th.), 2002 Structuration de terminologie ; TAL, vol. 43 –
n° 1/2002, Hermès, Paris 2002, p. 128-150.
Cabré Castellvi (M.-T.), 1998 : La terminologie — Théorie, méthode et applications, traduit du catalan, adapté et mis à jour par M.-C.
Cormier et J. Humbley, Paris/Montréal, Armand Colin/Les Presses de l’Université de Montréal, 322 p.
Condamines (A.), Gilles-Aussenac (N.) (éds), 2003 : « ASSTICCOT, Rapport Action Spécifique STIC « Corpus et Terminologie » (AS
34), Rapport Interne, n° IRIT/2003-23-R.
Dagan (I.), Church (K.), 1994 : « Termight : Identifying and Translating Technical Terminology », dans Proceedings of 4 th Applied
NLP Conference, p. 34-40.
Daille (B.), 2001 : « Qualitative Terminology Extraction : Identifying Relational Adjectives », dans Recent Advances in Computational
Terminology, Bourigault (D.), Jacquemin (C.), L‘Homme (M.-C.), éds, Amsterdam, John Benjamins, p. 149-166.
Dancette (J.), 2005 : « Les représentations lexico-sémantiques ; moyen de structuration de connaissances dans les domaines
spécialisés », dans Actes du Quatrième Congrès d’ISKO-France, L’organisation des connaissances : approches conceptuelles,
Grenoble, 3-4 juillet 2003, publication L’Harmattan, coll. La Librairie des Humanités, 2005, p. 83-93.
Fabre (C.), Frérot (C.), 2002 : « Groupes prépositionnels arguments ou circonstants : vers un repérage en corpus », dans Actes du
colloque TALN 2002, Nancy, I, p. 215-224.
Jacquemin (C.), 1997 : Variation terminologique : Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus,
Mémoire d’habilitation à diriger des recherches en informatique fondamentale, Université de Nantes.
Lefèvre (P.), 2000 : La recherche d’information, du texte intégral au thésaurus, Paris, Hermès, 253 p.
L’Homme (M.-C.), 2001 : « Nouvelles technologies et recherche terminologique : techniques d’extraction des données terminologiques
et leur impact sur le travail du terminographe » dans Actes du colloque intitulé L’impact des nouvelles technologies sur la gestion
terminologique tenu au collège universitaire Glendon de l’Université York à Toronto le 18 août 2001
(www.onterm.gov.on.ca/onterm/iso/proceedings.html).
L’Homme (M.-C.), 2002 : « Fonctions lexicales pour représenter les relations sémantiques entre termes », Nazarenko (A.), Hamon (T.),
(sous la dir.), TAL, vol. 43, n° 1, Structuration de terminologie, Paris, Hermès, p. 19-41.
Luhn (H.-P.), 1957 : « A Statistical Approach to Mechanized Encoding and Searching of Literary Information », dans IBM Journal of
Research and Development, vol. 52, n° 12, p. 309-317.
Maniez (J.), 2002 : Actualité des langages documentaires ; Fondements théoriques de la recherche d’information, ABDS, Paris, 2002.
Menon, (B.), 2004 : « L’indexation à l’heure du numérique », Journée d’étude ADBS, dans Documentaliste – Sciences de l’information,
2004, vol. 41, n° 6.
Mustafa El Hadi (W.), 1992 : « La contribution de la terminologie à la conception théorique des langages documentaires et à
l’indexation de documents », dans Met, 37 (3), Montréal, 1992, p. 465-473.
Mustafa El Hadi (W.), 2004 : Terminologie et accès à l’Information : Les nouveaux besoins et leur impact sur l’évolution des deux
disciplines, mémoire d’habilitation à diriger les recherches en Science de l’Information et de la Communication, Université de Lille
3, novembre 2004.
Nie (J-Y.), 2003 : « Introduction. Le domaine de la recherche d’information, survol d’une longue histoire » dans Gaussier (E.), Stefanini
(M-H.). (dir.) (2003), Assistance intelligente à la recherche d’information, Collection Traité des sciences et techniques de
l’information, Paris, Lavoisier, p. 19-28.
Pomart (P.D.), Sutter (E), 1997 : « Indexation », article du Dictionnaire encyclopédique de l’information et de la documentation,
Cacaly (S.), le Coadic (Y.-F.), Melot (M.), Pomart (P.-D.), Sutter (E.), Paris, Nathan, p. 284-287.
Roussy (C.), Calabretto (S.), Pinon (J.-M.), 1999 : « État de l’art en indexation et recherche d’information », dans Dupoirier (G.), Ermine
(J.-L.), (éds) (1999) : Gestion des documents et gestion des connaissances, Document numérique, vol. 3, n° 3-4.