INDEXATION HUMAINE ET INDEXATION
Transcription
INDEXATION HUMAINE ET INDEXATION
INDEXATION HUMAINE ET INDEXATION AUTOMATISÉE : LA PLACE DU TERME ET DE SON ENVIRONNEMENT Mustafa El Hadi Widad UFR IDIST/CERSATES, UMR 8529 Lille 3 France Résumé : dans cet article, nous examinerons l’apport de la terminologie en accès à l’information. Nous ferons tout d’abord un bref rappel de la problématique de l’indexation et de la recherche d’information et soulignerons ensuite l’apport de la terminologie dans ces deux processus interdépendants. Nous retracerons l’évolution des techniques en acquisition de ressources terminologiques et leur apport spécifique à l’indexation humaine et automatique ainsi qu’à la construction de langages documentaires tels que les thesaurus. Mots-clés : indexation, extraction de termes et de relations sémantiques, thesaurus, accès à l’information. 1. INTRODUCTION Toute activité dans les sociétés industrialisées produit et consomme de l’information. Comme celle-ci se cristallise, en particulier en vue ou à l’occasion des échanges, dans des vocabulaires spécialisés, l’un des enjeux majeurs de cette maîtrise de l’information est de pouvoir repérer et manipuler les concepts désignés grâce aux vocabulaires spécialisés. Cette question a été l’une des préoccupations centrales de la documentation, notamment lorsque celle-ci s’est informatisée. Dans la mesure, en effet, où le mode de représentation le plus courant des contenus était le descripteur (voir la définition des termes descripteur et mot-clé en 3.3.1), la question s’est vite posée de trouver les moyens d’automatiser son repérage par des moyens mécaniques. Dans un deuxième temps, l’émergence de la linguistique comme discipline dominante pour l’étude des phénomènes d’expression suscite l’espoir de pouvoir – à travers l’étude des structures de surface (morphologiques et syntaxiques) – dégager les concepts porteurs de sens. Dès lors, commence une troisième phase qui voit la terminologie se pencher sur ce problème, confrontée, en effet, à la nécessité de trouver des méthodes de repérage de « mot-clé » ou descripteur qui prennent en charge l’environnement du mot-clé. 2. TERMINOLOGIE ET ACCÈS À L’INFORMATION La terminologie est perçue comme une représentation du contenu de documents et comme une clé de l’accès à leur contenu. La création des ressources terminologiques nécessaires à ce double processus implique le recours à une vaste documentation. Aussi, dès l’apparition de la terminologie en tant que discipline autonome, le lien qu’elle avait avec la documentation a-t-il été vu comme essentiel. La diversité des contextes dans lesquels le travail terminologique est réalisé, la diversité des points de vue selon lesquels elle est employée et la variété des sujets de la terminologie, qu’il s’agisse des thèmes qu’elle traite ou des finalités qu’elle poursuit donnent lieu à un large éventail d’approches et d’applications qui se situent dans le champ des sciences de l’information et de la communication (Mustafa El Hadi 2004). Selon les positions théoriques de la conception historique, la spécificité de la terminologie ne peut se définir que dans le modèle de communication. L’activité terminologique dès les débuts visait non seulement à normaliser le vocabulaire employé dans un domaine bien défini, mais aussi à faciliter la communication en élaborant des outils de référence pour des domaines spécialisés (Cabré 1998). La terminologie intervient ainsi dans l’élaboration de vocabulaires de référence pour des applications de plus en plus diversifiées en accès à l’information : thesaurus pour les systèmes d’indexation automatique, index structurés pour la documentation technique hypertextuelle, référentiels terminologiques pour les systèmes de gestion de données techniques, ontologies pour les mémoires d’entreprise, terminologies pour les systèmes d’aide à la décision ou pour les systèmes d’extraction d’informations. Le traitement et la représentation des documents doivent se baser sur une analyse adéquate du contenu textuel. Cela permet aux usagers des systèmes d’information de se faire une idée exacte des connaissances disponibles dans une source donnée et donc de l’utilité potentielle de cette dernière pour leurs besoins. Le défi actuel posé aux spécialistes de l’information, consiste précisément à trouver les meilleurs moyens d’extraire et de représenter ce contenu textuel. 3. L’INDEXATION 3.1. Indexation : définitions et historique Pomart et alii (1997 : 284-287) définissent l’indexation comme étant une opération ayant « pour but de faciliter l’accès au contenu de documents ou d’un ensemble de documents à partir d’un sujet ou d’une combinaison de sujets (ou toutes autres entrées utiles à la recherche). Cela s’applique aussi bien à l’élaboration d’index situés généralement en fin d’ouvrage qu’à l’usage des langages documentaires pour analyser le contenu d’une collection de documents et permettre par la suite, grâce aux fichiers où à la banque de données ainsi alimentée, la recherche des informations répondant à une préoccupation particulière. Ainsi la notion d’indexation se trouve-t-elle au cœur de la pratique documentaire : elle constitue l’opération centrale du traitement des documents au sein de la chaîne documentaire classique (repérage, et acquisition des documents ; traitement et exploitation ; recherche et diffusion) ». L’utilisation des index remonterait d’après Nie (2003) au XVe siècle peu après l’invention de l’imprimerie. Les index (ou termes d’indexation) jouent un rôle important dans la recherche d’information dans la mesure où ils déterminent avec quels mots on peut retrouver un document. Le problème du choix des éléments de l’index s’est vite posé. Chez les praticiens et chercheurs de cette spécialité, la dialectique du choix entre une indexation manuelle ou automatisée, un vocabulaire libre ou vocabulaire contrôlé, ou encore la détermination d’un anti-dictionnaire (stoplist) polarisent encore les débats et les interrogations. L’indexation est une forme de reformulation : indexer, c’est reformuler le contenu d’un document ou d’une inscription dans une forme plus adaptée à son contexte d’exploitation dans une application donnée. On indexe donc en vue d’une application. On ne parle plus seulement d’indexation mais également d’enrichissement, d’annotation, de marquage et de méta-données (Menon 2004). 3.2. Les techniques d’indexation L’indexation se situe dans un contexte plus global, qui est celui de l’analyse du contenu. Cette opération est un préalable indispensable à toute recherche d’information sur le contenu et à d’autres types de traitement des informations. Il est donc difficile de parler de recherche d’information sans parler d’indexation, au sens procédural du terme. Indexation et recherche d’information sont de ce fait deux processus fortement liés. On indexe les documents dans le but de les retrouver. Le processus d’indexation est plus ou moins complexe suivant la représentation des unités documentaires ou de contenu que l’on cherche à atteindre, la disponibilité de ressources, comme les référentiels terminologiques (liste contrôlée de termes, thesaurus, classifications, ontologies de domaines) et l’application visée. 3.2.1. L’indexation manuelle L’indexation manuelle est une opération qui consiste à recenser les concepts dont traite un document et à les représenter à l’aide d’un langage documentaire (classificatoire ou combinatoire) souvent par plusieurs indicateurs sémantiques : indice de classification, descripteurs libres, termes autorisés, descripteurs ou mots-clés d’un thesaurus (Maniez 2002), (Lefèvre 2000). L’indexation manuelle fait recours à des outils d’indexation censés réduire la subjectivité des indexeurs, c’est-à-dire des « langages documentaires » (voir la définition en 3.3.1.). Ces outils servent à maintenir la cohérence et l’homogénéité. Ce type d’indexation repose habituellement sur un jugement de signification plus ou moins intuitif, toujours lié à l’indexeur. Le travail à réaliser pour la mise au point d’une indexation est assez important : connaissance du contenu de l’information, choix des concepts à représenter et traduction de ces concepts en descripteurs. De plus, les mêmes notions peuvent être exprimées de manières très diverses. On a donc assez vite pensé à avoir recours à l’ordinateur : - pour limiter les choix parfois subjectifs de l’indexeur ; - pour alléger le travail requis par une indexation manuelle ; - pour éviter les incohérences résultant des interprétations différentes entre plusieurs indexeurs ; - et pour réaliser une recherche exhaustive des sujets traités dans l’information analysée. Malgré ses limites, cette indexation « humaine » reste le seul type d’indexation intellectuelle (faisant appel à des connaissances sémantiques). Néanmoins, l’utilisateur est absent de cette indexation qui se fait en amont (les listes de concepts et des mots-clés sont constitués en amont donc, indépendamment des documents à indexer). Par ailleurs, les listes de concepts ou de mots-clés peuvent être mis à jour en fonction de l’évolution des connaissances mais dans la pratique cette mise à jour représente une lourde tâche qui n’est pas souvent effectuée en temps réel. Ceci laisse peu de place à l’évolution du vocabulaire de l’indexation en fonction de celle des documents indexés pris isolément. En raison de ces divers problèmes, des méthodes d’indexation automatique sont donc apparues. 3.2.2. L’indexation automatique L’indexation automatique est l’opération qui consiste à faire reconnaître par l’ordinateur des termes figurant dans le titre, le résumé, le texte complet (s’il est enregistré avec la notice documentaire) et à employer ces termes, soit tels quels soit après conversion en d’autres termes équivalents ou conceptuellement voisins, pour en faire des critères incorporés dans le fichier de recherche et utilisables pour retrouver le document. La première génération des systèmes d’indexation automatique sur le texte intégral était fondée sur la création d’index (fichiers inversés) permettant de localiser un terme ou un ensemble de termes au sein d’une collection de documents. La première approche d’indexation automatique KWIC (Key-Word In Context) a été introduite par Luhn (1957). Il a été question ensuite de pondérer les index. Aux débuts de la recherche d’information, les méthodes statistiques ont été fondées sur la fréquence de termes dans le document. Plus tard, cette mesure a été étendue pour tenir compte de la spécificité d’un terme pour le document. À cette fin, d’autres méthodes ont été exploitées, telles que 2-Poisson (Nie, 2003). L’indexation automatique a comme base : - des méthodes statistiques et probabilistes, qui, pour sélectionner des termes d’index, combinent critères distributionnels (fréquence, cooccurrence de mots), positionnels (la partie du document dans laquelle un mot apparaît : titre, corps du texte, sommaire) et surtout quantitatif (longueur du texte considéré) ; - des méthodes linguistiques : lexicographiques et morphosyntaxiques. Ce sont les techniques employées dans le traitement automatique des langues naturelles ; - des méthodes informatiques (telles que : algorithmes de recherche, langages évolués spécifiques, etc.) utilisées aussi bien dans le traitement automatique des langues qu’en documentation automatique. Les systèmes statistiques considèrent les documents comme de simples chaînes de caractères et de ce fait indexent les mots isolés. La nature linguistique des textes n’est pas prise en compte, néanmoins, diverses expériences ont montré que l’amélioration de la performance des systèmes d’indexation passe par l’intégration d’au moins deux modèles – linguistique et statistique. 3.3. Place de la terminologie Le terme, objet d’étude de la terminologie, est le fondement même des activités documentaires et informationnelles classiques comme l’indexation, la construction de thesaurus, la recherche d’information, ou plus récemment la veille, la gestion de contenu et la gestion de connaissances. La pratique terminologique peut être abordée à travers ses réalisations concrètes (index, thesaurus, ontologies, réseaux sémantiques…) comme un dispositif de médiation des savoirs et des connaissances. Le terme constitue ainsi un objet d’étude à part entière pour la terminologie mais aussi pour la documentation à travers l’étude des langages documentaires (voir la définition en 3.3.1). Le lien entre terminologie et documentation se vérifie ainsi à travers les langages d’indexation fondés sur les thesaurus dont la construction fait appel aux ressources terminologiques. L’organisation des connaissances a longtemps été réalisée par les grands systèmes classificatoires et les encyclopédies. L’accès à l’information a nécessité le recours à d’autres types d’outils tels que les listes d’autorité, les thesaurus, les index structurés et les taxonomies. De nos jours et dans le cadre de la recherche d’information sur le Web, d’autres dispositifs terminologiques viennent compléter ce panorama d’outils. Il s’agit de réseaux sémantiques, de cartographie conceptuelle et d’ontologies qui sont issus des développements en intelligence artificielle et plus récemment en ingénierie des connaissances. Ce sont des structures d’organisation et de représentation des connaissances innovantes qui font appel aux technologies du Web. Conçues sur la base de la modélisation conceptuelle d’un domaine de connaissance, ces structures sont de plus en plus utilisées dans des applications de gestion des connaissances, de veille technologique, d’indexation et de recherche d’information. C’est surtout dans les fonctions d’indexation et de recherche d’information que les systèmes d’organisation des connaissances classiques et innovants convergent vers des points communs. Thesaurus, cartes conceptuelles et ontologie, partagent des caractéristiques communes, du fait que tous les trois sont des référentiels terminologiques conçus sous forme de réseau sémantique et sont utilisés en représentation du contenu de documents et en accès à l’information. 3.3.1. Le descripteur, élément central en indexation L’indexation d’un document consiste en la caractérisation de son contenu à l’aide de descripteurs afin de pouvoir retrouver aussi facilement que possible dans l’ensemble de la masse documentaire les informations pertinentes qu’il contient. Pour définir le descripteur on pourra dire qu’il y a identité entre cet élément et le terme. Ce dernier est l’élément commun à la terminologie et aux systèmes d’information. Le descripteur est l’unité de représentation d’un contenu qui est de nature conceptuelle. Il est considéré comme clé d’accès aux documents dont il synthétise le contenu. Cette définition correspond à l’approche normative qui met l’accent sur une symétrie entre indexation et recherche d’information, comme le souligne Amar (2000). Les termes descripteurs et mots-clés appartiennent plutôt au domaine de l’indexation. Dans le cadre de l’indexation automatique, un descripteur est par exemple un syntagme nominal pondéré que l’on juge apte à caractériser le contenu d’un texte. En indexation manuelle, il est un élément de thesaurus. Il dispose dans ce dernier cas de relations conceptuelles propres au thesaurus (générique, spécifique, associé, synonymique). Un mot-clé, souvent employé dans le cadre de l’indexation manuelle, est un élément du lexique, il appartient donc à une liste non structurée de vocabulaire d’indexation. Les descripteurs provenant du thesaurus et les mots-clés issus d’un lexique sont employés dans le cadre de l’indexation manuelle. En revanche, un terme au sens terminologique est une unité textuelle qui renvoie à des notions dans un domaine de connaissance déterminé. De ce fait, le terme relève de la nomenclature établie d’un domaine. Un terme, comme nous l’avons déjà évoqué, peut être un descripteur s’il est retenu par un procédé automatique de pondération ou s’il provient d’un thesaurus ou d’un lexique. Les descripteurs peuvent appartenir à deux types de langages : le langage libre ou le langage contrôlé. Un langage documentaire est une liste contrôlée de termes d’indexation ayant fait l’objet d’une validation humaine (Jacquemin 1997). Le langage libre est un langage évolutif, proche de la langue naturelle. Son vocabulaire, l’ensemble des éléments qui composent le langage, est choisi a posteriori dans les textes à indexer, et n’est donc pas limité par un contrôle extérieur au système de recherche d’information. Dans ce cas précis, les éléments du langage sont principalement des mots du texte et non des termes. Le langage contrôlé est équivalent au langage documentaire. Il est formé d’un vocabulaire préétabli et d’une série de règles traduisant différentes relations possibles entre ses éléments. Construit a priori, ce langage doit être connu avant d’indexer les documents. En général, les langages contrôlés sont composés des termes décrits dans un thesaurus ou un lexique (Roussy et alii 1999). L’étude de la sélection des unités est partiellement prise en charge par la terminologie. 4. L’ÉVOLUTION DES TECHNIQUES EN ACQUISITION DE RESSOURCES TERMINOLOGIQUES ET SON IMPACT SUR LA REPRÉSENTATION DU CONTENU DE DOCUMENTS L’extraction terminologique suppose deux activités essentielles : l’acquisition terminologique (dans un domaine précis, par exemple) qui implique la découverte de nouveaux termes, et l’indexation. Le but de l’acquisition terminologique est la constitution de ressources terminologiques telles que les vocabulaires contrôlés (thesaurus), index structurés, ontologies. Les thesaurus sont utilisés pour assister le processus de recherche d’information lors de la phase d’expansion de la requête pour la recherche d’information interlinguale ou pour l’interrogation de bases de données. La constitution automatique de thesaurus est une tradition déjà ancienne et les différentes études menées dans ce domaine concernaient soit la découverte de nouveaux termes ou l’établissement de relations sémantiques (cf. Jacquemin 1997 pour de plus amples détails). Les outils d’extraction terminologique bilingues (Dagan et alii 1994), fondés sur une analyse des parties du discours et des technologies d’alignement visant à extraire des termes candidats et leurs traductions peuvent être utilisés pour ces deux tâches. Les composants monolingues de ce type de systèmes peuvent être utilisés pour l’indexation et pour l’extraction terminologique alors que les composants bilingues sont utilisés pour la traduction ainsi que pour la recherche d’information dans des bases documentaires multilingues (ibid.). Bien que ce type de système ait été conçu initialement pour l’extraction et la traduction de termes, il a été ensuite utilisé également et adapté pour l’indexation, comme l’expliquent Landauer et alii (1990), cité par Dagan et alii (1994). Les deux facteurs les plus décisifs qui ont eu un impact réel sur l’usage de la terminologie et son insertion dans les processus d’indexation et de recherche d’information sont la mise à disposition de grande quantité de textes et la prise en compte de la dimension de l’usage. Concernant ce dernier facteur, de nombreux auteurs soulignent l’importance du fonctionnement réel du terme au sein du discours et insistent sur la prise en charge de la dimension de l’usage. La question de l’usage est au cœur de la problématique d’indexation et de recherche d’information. Les autres unités dans l’environnement du terme et leur fonction Les textes spécialisés ne contiennent pas que des termes. On peut y trouver aussi des mots. Il est nécessaire d’examiner le statut de ces unités. Comme nous l’avons déjà signalé dans nos travaux antérieurs (1992) et récents (2004), les mots de la langue ne sont pas « aptes » à dénoter directement l’univers de référence. Autrement dit, le lexique donne le sens du « mot », indépendamment de la référence, la terminologie s’occupe du « mot » dans un référentiel donné. Il convient de signaler que les besoins actuels ont amené les terminologues à s’intéresser aux autres unités qu’on appelait « mots de la langue ». Les unités qui intéressent les terminologues pour des applications de traduction et de rédaction techniques sont essentiellement de deux catégories : les verbes et les adjectifs. L’Homme (2001) a signalé l’importance de prendre en considération la présence de verbes chargés d’informations terminologiques. De nombreux chercheurs s’intéressent à l’environnement du terme et construisent des outils ayant comme objectif l’extraction de collocations verbales et adjectivales, unités nécessaires en rédaction et en traduction humaine et/ou automatique. La collecte des données sur les termes a été facilitée par les concordanciers qui extraient rapidement des contextes associés à un terme donné à la demande d’un utilisateur (L’Homme, ibid.). De nouveaux outils qui permettent d’isoler des contextes spécifiques ou d’exploiter l’information qui se trouve de part et d’autre des termes préalablement recherchés ont fait leur apparition. D’autres chercheurs vont plus loin et proposent ce que L’Homme (ibid.) appelle une « Nouvelle génération de dictionnaires spécialisés ». D’après elle, les dictionnaires classiques décrivent les termes de nature nominale dans des fichiers ou des articles monoconceptuels et retiennent les rubriques suivantes : des vedettes dans une ou plusieurs langues, une définition, des contextes et des marques d’usage. On assiste de plus en plus à des changements qui touchent la nature des données : les supports de données terminologiques tentent d’intégrer des éléments descriptifs différents et plus riches que ce que l’on trouve dans les dictionnaires terminologiques élaborés selon les règles de l’art. Ils tiennent compte de la polysémie des unités appartenant à des catégories différentes de celles du nom et peuvent retenir des rubriques comme les co-occurrents ou les termes apparentés morphologiquement à l’unité terminologique (voir comme exemple de ce type de dictionnaire le Dictionnaire d’apprentissage du français des affaires (DFA), (Binon et alii 2000, cité par L’Homme, ibid.) comme étant le dictionnaire le plus riche sur le plan linguistique). Pour sa part, Dancette (2005) signale l’apport similaire que constituent les outils d’interrogation (dictionnaires), qui ne portent plus principalement sur les termes, mais aussi sur leurs contextes (phraséologies, collocations) et sur les concepts. L’utilité de cette approche pour la recherche documentaire et terminologique paraît importante. Cette « révolution dictionnairique », précise l’auteur, résulte d’une convergence des disciplines : lexicologie, terminologie et traductologie. L’auteur et son équipe, à l’Université de Montréal, proposent un modèle de relations lexicosémantiques (RLS) permettant, à l’intérieur d’un domaine de spécialité (en l’occurrence le domaine commercial), de présenter le vocabulaire, en mettant en évidence ce qui relie un terme à un ensemble d’autres termes du même champ sémantique. L’idée s’inspire de plusieurs courants : la lexicologie explicative et combinatoire, les ontologies utilisées en terminologie et les recherches sur les collocations dans les domaines spécialisés. Les liens que cette démarche cherche à formaliser sont conceptuels (cause, instrument, but, agent, etc.), ou ontologiques (hiérarchie, partie-tout, synonymes, antonymes, etc.). Ils interviennent sur des plans différents : paradigmatique, syntagmatique et dérivationnel. On voit apparaître de plus en de plus de technologies qui ont pour but l’amélioration de l’environnement terminologique et de la qualité de l’extraction. Des études relativement récentes dans ce domaine concernent essentiellement les collocations et les verbes de spécialité. Pour améliorer la qualité et la pertinence de l’extraction, tout particulièrement dans le domaine de l’indexation, la rédaction technique et la traduction, l’identification et la recherche de ces éléments est devenu un objet d’intérêt primordial pour les spécialistes du TAL appliqué à la terminologie et à l’extraction terminologique (cf. L’Homme 2001, 2002 ; Fabre et alii 2002 ; Daille 2001). Concernant les adjectifs relationnels inclus dans les noms composés, une étude intéressante a été menée par Daille (ibid.). Cette étude montre comment les adjectifs peuvent être utilisés dans différents types d’applications du TAL. Dans le contexte des ressources terminologiques pour la recherche d’information, la méthode suggérée par cet auteur a pour but de regrouper les formes synonymes renvoyant à un concept unique. Cette méthode est utilisée pour la mise à jour des thesauri. C’est d’ailleurs dans cet objectif de mise à jour que des logiciels développés pour l’extraction automatique de termes étaient destinés à enrichir les thesaurus. Lexter, par exemple, a été créé pour extraire les nouveaux termes ou termes émergents dans le domaine électrique à mettre dans l’index d’EDF-GDF (cf. Bourigault 1992). De plus, l’extraction de collocations fait apparaître des affinités entre des termes et d’autres mots, des collocations ou d’autres co-occurrents. Ces derniers peuvent servir d’indice pour dégager des « familles conceptuelles », (Dancette 2005 ; L’Homme 2001). Dans certains programmes, les cooccurrents servent d’indicateurs sur la parenté conceptuelle des termes et sont utilisés pour regrouper des ensembles de termes sous forme de classes. On se fonde sur le fait que si des termes ont les mêmes cooccurrents, ils partagent des caractéristiques sémantiques communes ou appartiennent à la même classe. Ce fait constitue un réel intérêt dans les contextes d’indexation et de recherche d’information. 5. CONCLUSION Pour conclure, de nombreux travaux (L’Homme 2001, 2002 ; Dancette 2005 ; Bourigault et alii 2002 ; Daille 2001) entre autres, montrent que désormais le terminologue a accès à toutes sortes de techniques pour repérer et extraire des informations présentes sous différentes formes dans les textes spécialisés : extraction de termes complexes, termes simples, de relations sémantiques ; repérage de collocations et de contextes ciblés ; établissement de liens conceptuels entre termes ou construction de classes. Tous ces éléments représentent un apport essentiel dans nos pratiques informationnelles telles que la représentation du contenu de documents et la construction de référentiels terminologiques pour l’accès à l’information. Bibliographie Amar (M.), 2000 : Les fondements théoriques de l’indexation : une approche linguistique, ADBS, Paris. Bourigault (D.), 1992 : « Lexter, vers un outil linguistique d’aide à l’acquisition des connaissances », dans Actes des 3es Journées d’acquisition des connaissances, Dourdan, avril 1992. Bourigault (D.), Lame (G.), 2002 : « Analyse distributionnelle et structuration de terminologie : application à la construction d’une ontologie documentaire du droit », dans Nazarenko (A.) et Hamon (Th.), 2002 Structuration de terminologie ; TAL, vol. 43 – n° 1/2002, Hermès, Paris 2002, p. 128-150. Cabré Castellvi (M.-T.), 1998 : La terminologie — Théorie, méthode et applications, traduit du catalan, adapté et mis à jour par M.-C. Cormier et J. Humbley, Paris/Montréal, Armand Colin/Les Presses de l’Université de Montréal, 322 p. Condamines (A.), Gilles-Aussenac (N.) (éds), 2003 : « ASSTICCOT, Rapport Action Spécifique STIC « Corpus et Terminologie » (AS 34), Rapport Interne, n° IRIT/2003-23-R. Dagan (I.), Church (K.), 1994 : « Termight : Identifying and Translating Technical Terminology », dans Proceedings of 4 th Applied NLP Conference, p. 34-40. Daille (B.), 2001 : « Qualitative Terminology Extraction : Identifying Relational Adjectives », dans Recent Advances in Computational Terminology, Bourigault (D.), Jacquemin (C.), L‘Homme (M.-C.), éds, Amsterdam, John Benjamins, p. 149-166. Dancette (J.), 2005 : « Les représentations lexico-sémantiques ; moyen de structuration de connaissances dans les domaines spécialisés », dans Actes du Quatrième Congrès d’ISKO-France, L’organisation des connaissances : approches conceptuelles, Grenoble, 3-4 juillet 2003, publication L’Harmattan, coll. La Librairie des Humanités, 2005, p. 83-93. Fabre (C.), Frérot (C.), 2002 : « Groupes prépositionnels arguments ou circonstants : vers un repérage en corpus », dans Actes du colloque TALN 2002, Nancy, I, p. 215-224. Jacquemin (C.), 1997 : Variation terminologique : Reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d’habilitation à diriger des recherches en informatique fondamentale, Université de Nantes. Lefèvre (P.), 2000 : La recherche d’information, du texte intégral au thésaurus, Paris, Hermès, 253 p. L’Homme (M.-C.), 2001 : « Nouvelles technologies et recherche terminologique : techniques d’extraction des données terminologiques et leur impact sur le travail du terminographe » dans Actes du colloque intitulé L’impact des nouvelles technologies sur la gestion terminologique tenu au collège universitaire Glendon de l’Université York à Toronto le 18 août 2001 (www.onterm.gov.on.ca/onterm/iso/proceedings.html). L’Homme (M.-C.), 2002 : « Fonctions lexicales pour représenter les relations sémantiques entre termes », Nazarenko (A.), Hamon (T.), (sous la dir.), TAL, vol. 43, n° 1, Structuration de terminologie, Paris, Hermès, p. 19-41. Luhn (H.-P.), 1957 : « A Statistical Approach to Mechanized Encoding and Searching of Literary Information », dans IBM Journal of Research and Development, vol. 52, n° 12, p. 309-317. Maniez (J.), 2002 : Actualité des langages documentaires ; Fondements théoriques de la recherche d’information, ABDS, Paris, 2002. Menon, (B.), 2004 : « L’indexation à l’heure du numérique », Journée d’étude ADBS, dans Documentaliste – Sciences de l’information, 2004, vol. 41, n° 6. Mustafa El Hadi (W.), 1992 : « La contribution de la terminologie à la conception théorique des langages documentaires et à l’indexation de documents », dans Met, 37 (3), Montréal, 1992, p. 465-473. Mustafa El Hadi (W.), 2004 : Terminologie et accès à l’Information : Les nouveaux besoins et leur impact sur l’évolution des deux disciplines, mémoire d’habilitation à diriger les recherches en Science de l’Information et de la Communication, Université de Lille 3, novembre 2004. Nie (J-Y.), 2003 : « Introduction. Le domaine de la recherche d’information, survol d’une longue histoire » dans Gaussier (E.), Stefanini (M-H.). (dir.) (2003), Assistance intelligente à la recherche d’information, Collection Traité des sciences et techniques de l’information, Paris, Lavoisier, p. 19-28. Pomart (P.D.), Sutter (E), 1997 : « Indexation », article du Dictionnaire encyclopédique de l’information et de la documentation, Cacaly (S.), le Coadic (Y.-F.), Melot (M.), Pomart (P.-D.), Sutter (E.), Paris, Nathan, p. 284-287. Roussy (C.), Calabretto (S.), Pinon (J.-M.), 1999 : « État de l’art en indexation et recherche d’information », dans Dupoirier (G.), Ermine (J.-L.), (éds) (1999) : Gestion des documents et gestion des connaissances, Document numérique, vol. 3, n° 3-4.