Une nouvelle méthode de recherche des tendances
Transcription
Une nouvelle méthode de recherche des tendances
Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques IBEKWE-SANJUAN Fidelia SANJUAN Eric IUTA Université de Nancy 2 2ter, bld Charlemagne - 54000 Nancy E-mail : [email protected] Laboratoire de mathématiques discrètes Université Claude Bernard, Lyon 1 43, bld du 11 Novembre 1918 - 69622 Villeurbanne E-mail : [email protected] Résumé. Nous présentons une nouvelle méthode d’identification des thèmes de recherche à partir des textes. Cette méthode, la Classification by Preferential Clustered Link (CPCL) s’appuie sur des relations linguistiques - variations terminologique - pour effectuer la classification automatique d’unités textuelles pertinentes, ici les termes. Fondée sur la théorie des graphes, la méthode CPCL ne fixe a priori ni la taille des classes ni leur nombre. Elle repose sur les seules informations intrinsèques à un corpus terminologique sans nécessiter des données complémentaires telles que une table de distances. Les classes proposées représentent des thématiques caractérisables par leurs activités de variation interne et externe. L’étude chronologique des réseaux de thématiques permet de mettre en évidence les transformations qu’ils subissent à travers le temps. Mots-clés : Recherche des tendances thématiques, Analyse linguistique, Termes, Variations terminologiques, Classification automatique par lien préférentiel, Veille scientifique et technologique Introduction Cette étude décrit une nouvelle méthode de classification automatique de données textuelles fondée sur un réseau de variations terminologiques. L’application visée est la surveillance des tendances thématiques dans un corpus de textes. Il s’agit alors, pour un domaine donné, de fournir des vues de synthèse permettant d’appréhender l’état de l’art des thèmes de recherche. La particularité de la méthode présentée, la Classification by Preferential Clustered Link (CPCL) est qu’elle prend en entrée des unités textuelles pertinentes, ici des termes, extraits par une analyse morpho-syntaxique de textes. La méthode s’appuie ensuite sur des relations syntaxiques de variations identifiées entre ces termes. La classification se fonde ainsi sur des relations linguistiques et non sur des critères statistiques d’occurrence ou de cooccurrence comme c’est habituellement le cas. L’exploitation optimale des relations de variations permet de proposer une classification des données initiales en classes de thématiques partageant des liens de proximité d’intensités diverses, sans pour autant nécessiter la définition préalable d’une distance entre les unités d’étude. Fondée sur d’usuelles structures de la théorie des graphes et des relations binaires, la méthode CPCL ne requiert pas de fixer a priori ni le nombre de classes à obtenir, ni la taille de celles-ci. La présente communication résume le travail de thèse développé dans [Ibekwe-SanJuan 1997]. Une première implantation de cette méthode a été réalisée en langage Awk sur une station Sun. La section §1 définit les caractéristiques des termes et des relations de variations utilisées pour la classification. La section §2 présente la méthode de classification et le protocole d’interprétation des résultats. La section §3 illustre son application à un corpus de textes scientifiques courts en anglais. 1. Unités textuelles pertinentes Notre corpus d’études était composé de textes courts en anglais de 29000 mots, faits de titres et résumés issus d’une base de données bibliographique (la base CAB). Il s’agissait de l’indexation faite des publications dans le domaine de la biotechnologie végétale. Le corpus a été constitué en 1993 et devait répondre à un besoin de surveillance des thèmes de recherche de quatre auteurs les plus productifs du domaine. Il couvrait la période allant de 1981 à 1993. De ces textes, nous avons choisi de nous intéresser aux termes et à certaines relations de variations entre eux. 1.1 Termes L’importance des termes pour dénommer des concepts dans un domaine donné n’est plus à démontrer. Les termes sont des signes linguistiques concrètes qui représentent des concepts. A ce titre, ils accompagnent l’émergence de nouveaux concepts et participent au processus de normalisation des nomenclatures dans des domaines de spécialités. A titre d’exemple, high fertility droughtmaster cattle renvoie à un concept ou à un objet unique dans le domaine de l’agriculture. De même, New York stock exchange market et système de gestion de base de données (SGBD) sont dénués d’ambiguï tés dans leurs domaines respectifs. De récentes études ont montré que la composition morphologique des termes était relativement restreinte. Le terme est une unité textuelle réalisée souvent sous forme d’un syntagme nominal (SN). Il est composé de noms, d’adjectifs et d’un nombre limité de prépositions. Pour l’anglais, on cite essentiellement les prépositions of [Katz et Justeson 1995] et rarement les prépositions from, by, with, for [Jacquemin, 1995]. Pour le français, on trouve souvent les prépositions de, par, sur, exemple liaison par satellite [Bourigault 1994, Daille 1994]. Le terme a donc une obligation : celle de référencer hors contexte, un concept ou un objet d’un domaine de connaissance donné. Ces différents éléments de définition nous ont permis d’élaborer des heuristiques d’extraction d’unités textuelles susceptibles de correspondre à des termes. Ces heuristiques développées dans [IbekweSanJuan 1997 et 1998(a)] ne seront pas présentées ici. 1.2 Relations de variations syntaxiques Les termes sont sujets à des variations. Celles-ci sont des transformations morphologiques, syntaxiques ou sémantiques qui en altèrent la forme et la structure. Ces transformations témoignent d’une évolution dans le vocabulaire du domaine, évolution qui peut accompagner l’émergence de nouveaux concepts ou la condensation d’un terme (cas de l’abréviation). Ainsi, une variation produit un SN proche du terme initial. C’est par exemple la relation entre "nodule enzyme" et "nodule cytoplasmic ureide synthesizing enzyme" ou encore la relation entre "development stage" et "defined stage of nodule development". Dans le premier exemple, le terme initial apparaît sous forme d’une variante à laquelle de nouveaux mots ont été ajoutés. Dans le deuxième exemple, cet ajout s’accompagne d’une transformation structurelle impliquant un élément pivot, la préposition (of). Nous nous sommes attachés aux phénomènes de variations syntaxiques impliquant trois opérations : ajout (expansion), substitution et permutation. Les deux premières types de variations sont ensuite subdivisées selon la catégorie grammaticale affectée par l’opération de variation : centre ou modifieur. Le centre est l’élément qui porte l’emphase dans un syntagme nominal (SN), le sujet du discours. En anglais, le centre peut être en position terminale si le terme apparaît dans une structure composée, par exemple "cattle" dans "high fertility droughtmaster cattle". Le centre apparaît avant la première préposition dans une structure syntagmatique, "activity" dans "nitrogenase activity of soyabean". Tous les autres éléments du terme sont alors ses modifieurs. L’intérêt de détecter ces variantes et de les mettre en relation est manifeste : il peut s’agir de concepts associés qui empruntent les mêmes vocabulaires ou d’une même famille de concepts Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 2 ayant des propriétés différentes (lorsque la variation porte sur l’élément modifieur). Dans ce qui suit, tous les exemples de variations seront donnés dans leur structure composée (SN formé d’une suite d’éléments nominaux sans préposition). Nous avons distingué, dans les différents types de variations étudiés, les cas de variation de centre des cas de variation de modifieur. En effet, ces deux cas n’ont pas la même signification ni sur le plan conceptuel, ni pour la classification automatique. • Expansion Elle désigne trois opérations élémentaires d’ajout de mots dans un terme existant. Le nombre d’éléments ajoutés n’est pas déterminé mais leur place l’est : l’ajout doit être à une position unique et les éléments ajoutés adjacents. Si l’ajout a lieu à gauche d’un terme, on parlera d’une expansion gauche (Exp-g). L’ajout à droite donne lieu à une expansion droite (Exp-d). Cet ajout peut intervenir au milieu d’un terme, auquel cas nous parlerons d’insertion (Ins). Nous avons également considéré le cas d’expansion gauche-droite (Exp-gd). 1. Exp-g : bragg nodule → functional cv. bragg nodule. 2. Exp-d : blue light → blue light induction experiment. 3. Ins : conserved domain → conserved protein domain. 4. Exp-gd : a. thaliana → diverse a. thaliana race • Substitution La substitution concerne le remplacement d’un élément centre (substitution de centre, Sub-c) ou modifieur (substitution de modifieur, Sub-m) dans un terme existant par un autre élément dans un autre terme. Elle est subdivisée en deux types selon qu’elle porte sur l’élément centre ou modifieur. Seul un élément peut être substitué à la fois pour permettre une comparaison pertinente des termes. 5. Sub-c : infection thread development → infection thread formation 6. Sub-m : high pregnancy rate → low pregnancy rate • Permutation La permutation marque la transformation structurelle d’un terme, d'une structure syntagmatique vers une structure composée. Pour opérer cette transformation, la permutation nécessite un élément pivot qui est la préposition. Celle-ci permet de permuter la position des éléments modifieurs autour de l’élément centre et elle disparaît lors du passage à la structure composée. Le(s) élément(s) modifieur(s) sont alors antéposé(s) à l'élément centre. 7. Perm : avirulent strain of pseudomonas syringae → avirulent pseudomonas syringae strain La permutation permet de reconnaître une variante structurelle d’un même terme. A ce titre, elle est une relation triviale et la classification se réalise modulo cette relation. C’est-à-dire que les variantes de ce type d’un même terme sont confondues. Cette relation est par contre à la base de nos règles d’identification des variantes (voir Ibekwe-SanJuan 1997). Les tableaux 1 et 2 ci-après donnent quelques exemples de variantes ainsi identifiées et mises en relation dans notre corpus. 1.3 Caractérisation des relations de variations Les relations de variation que nous avons identifiées sont caractérisées selon deux axes : axe grammatical et axe formel. Ces deux axes vont jouer des rôles précis dans notre méthode de classification (voir §2 infra). Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques Expansion gauche (Exp-g) Self-licking refractory self-licking stereotypic self-licking Expansion droite (Exp-d) blue light blue light induction blue light-induced expression blue light induction experiment bragg nodule cv. bragg nodule functional cv. bragg nodule underdeveloped bragg nodule soyabean cv. bragg nodule signal transduction pathway distinct signal transduction pathway independent signal transduction pathway bradyrhizobium japonicum bradyrhizobium japonicum mutant strain bradyrhizobium japonicum usda bradyrhizobium japonicum strain usda bradyrhizobium japonicum strain usda110 bradyrhizobium japonicum strain cb1809 3 Insertion (Ins) conserved domain conserved central domain conserved protein domain dna analysis dna blot analysis dna sequence analysis low line low fertility line low fertility droughtmaster line nodule enzyme nodule cytoplasmic enzyme nodule cytoplasmic ureide synthesizing enzyme Tableau 1. Exemples de variantes d’expansion Substitution de modifieur (Sub-m) alfalfa root hair curled root hair deformed root hair lucerne root hair conventional dna fingerprinting complex dna fingerprinting characteristic dna fingerprinting Substitution de centre (Sub-c) nodule development regulation nodule development arrest nodule development consequence infection thread development infection thread formation infection thread initiation Tableau 2. Exemples de variantes de substitution • L’axe grammatical Il permet de faire une distinction entre les variations affectant les éléments modifieurs dans un terme (Exp-g, Ins, Sub-m) de celles affectant l’élément centre (Exp-d, Exp-gd, Sub-c). En effet, ces deux types n’ont pas la même signification vis-à-vis de l’objectif de la classification, à savoir la recherche des tendances thématiques. Les relations de variations affectant les éléments modifieurs sont secondaires à l’objectif de la classification. Elles permettent de former des paradigmes de termes ayant le même mot centre (concept), par exemple "deformed root hair, curled root hair, lucerne root hair,… " Inversement les relations de variation affectant l’élément centre sont de première importance pour l’objectif de la classification : elles affectent le concept élémentaire dans un terme et permettent donc de suivre le déplacement des thématiques, par exemple "nodule development regulation, nodule development arrest, nodule development consequence". Avant l’étape de classification, un partage des relations en deux catégories est opéré en fonction de l’importance que l’utilisateur leur accorde. Cela permet de disposer d’une première catégorie de relations, notée COMP qui sert à former les composantes connexes (ici les relations affectant les éléments modifieurs) et d’une deuxième catégorie notée CLAS qui sert à former des classes à partir des composantes connexes (les relations affectant l’élément centre dans un terme). Les relations de CLAS permettront de d’agglomérer les paradigmes (concepts) associés. Ce partage des relations est le seul paramètre nécessaire à l’algorithme de classification (voir §2.1 infra). Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 4 • L’axe formel Le deuxième axe qui caractérise nos relations de variations est celui de la modification ou non de la longueur d’un terme. Les variations qui impliquent l’ajout de nouveaux mots dans un terme existant génèrent, sur le plan formel, une relation antisymétrique entre les deux termes. Il s’agit des relations de variation regroupées sous le nom d’expansion. Ainsi, on notera nitrogen fixation π nitrogen fixation gene. A l’inverse les variations qui n’impliquent pas une modification de longueur génèrent une relation symétrique entre les variantes. Ainsi alfalfa root hair σ lucerne root hair. Il s’agit des relations de variation regroupées sous le nom de substitution. Cet ensemble de relations est représenté sous forme d’un graphe VAR dont les sommets sont les termes et les arêtes les différentes relations de variation. Les arêtes orientées correspondent aux relations antisymétriques. Les relations symétriques entre termes de même longueur, avec changement de mots à la même position génèrent des sous-graphes complets (voir figure 1 ciaprès). De ce fait, les arêtes issues des relations symétriques sont sur-représentées dans le graphe par rapport aux arêtes antisymétriques (voir figure 2). • Coefficient de différenciation d’arêtes Afin d’atténuer cet effet de sur-génération d’arêtes symétriques qui pourrait noyer l’information apportée par les relations antisymétriques, nous avons défini un coefficient de différenciation d’arêtes qui affecte une valeur par défaut à la catégorie d’arêtes minoritaires (ici les antisymétriques). Cette valeur est habituellement normalisée à 1. La valeur des arêtes majoritaires est tout simplement le ratio des arêtes minoritaires vis-à-vis des arêtes majoritaires : Exp/Sub où Exp est nombre d’arêtes antisymétriques dans le graphe et Sub, le nombre d’arêtes symétriques. Sc dna fingerprinting dna clone dna analysis dna fragment dna polymerase dna polymorphism dna sequence dna homology Figure 1. Graphe complet engendré par la relation Sub-c avec dna en position de modifieur. nitrogen fixation gene activation nitrogen fixation gene nitrogen fixation gene expression nitrogen fixation gene expression trigger nitrogen fixation gene regulation nitrogen fixation nitrogen fixation analysis nitrogen fixation research Figure 2. Sous-graphe obtenu par la relation Exp-d avec nitrogen fixation en position modifieur. Pour une description formelle du corpus des termes ainsi que des relations de variation, nous renvoyons le lecteur à [Ibekwe-SanJuan & SanJuan, 1999]. Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 5 2. La méthode de Classification par lien préférentiel (CPCL) 2.1 L’algorithme de classification Il comporte deux étapes distinctes : la recherche des composantes connexes à partir d’un sousensemble de relations et l’agglomération des composantes en classes à partir d’un deuxième sousensemble de relations. Nous avons déjà justifié l’intérêt de faire ce partage en deux catégories de relations (§1.3 : axe grammatical). Il s’agit à ce stade pour l’utilisateur d’indiquer aux programmes les deux sous-ensembles de relations ainsi que leur rôle respectif. • Etape 1. Recherche des composantes connexes avec les relations de COMP Cette première étape est une application des algorithmes usuels de recherche de composantes connexes. Partant du sous-ensemble COMP de relations (Exp-g, Ins, Sub-m), l’algorithme va générer des composantes connexes du graphe initial VAR, qui sont des ensembles maximaux de sommets tels qu’entre deux sommets, il existe un chemin dans COMP permettant de les relier. Cette étape ne fait pas intervenir le coefficient de différenciation d’arêtes défini précédemment. La taille des composantes obtenues est très variable. Elle dépend de l’importance de chaque paradigme dans le corpus. Dans notre corpus, la taille des composantes variait entre 2 et 69 termes. aerated culture agitated culture agitated liquid culture agitated culture of rhizobium strain anu289 arabidopsis tissue culture cell culture cell suspension culture legume cell suspension culture shaken liquid culture tissue culture of soyabean stationary liquid culture tissue culture Figure 3. Composante formée autour du mot centre "culture". • Etape 2. Agglomération des composantes connexes en classes avec les relations de CLAS Les composantes connexes générées à l’étape précédente seront agglomérées en classes à l’aide des relations dans CLAS (Exp-d, Exp-gd, Sub-c). Le principe de l’agglomération est le suivant : deux composantes sont agglomérées si la valeur du lien qui les unit est plus fort que la valeur du lien qui unit l’une d’entre elles à tout autre composante. La valeur de ce lien entre deux composantes est déterminée par le nombre et le type des relations transversales dans CLAS. Les ensembles ainsi obtenus sont appelés classes. A chaque itération, l’algorithme va rechercher une composante à l’extérieur d’une classe qui partage le lien le plus fort avec une composante de cette classe. La procédure est réitérée autant de fois que l’utilisateur le désire ou jusqu’à ce que la partition du graphe initial aboutisse à la fermeture transitive de celui-ci. Cette deuxième étape de notre algorithme de classification peut être comparée à la méthode de classification ascendante hiérarchique par saut minimal. Cependant, la méthode CPCL n’emploie pas de mesure de distance (chi-2, variance, etc.). Elle peut en outre disposer de plusieurs points de départ, à savoir que des couples de composantes différents peuvent être agglomérées. Ainsi l’image obtenue n’est pas celle d’un arbre à racine unique (voir figure 3 ci-après). La classification est effectuée non pas sur les unités atomiques (ici les termes) mais sur des groupes de termes (ici les composantes connexes). On peut représenter le fonctionnement de cet algorithme sous la forme du dendro- Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 6 gramme suivant. Sn S3 C3 S2 C12 C3 S1 c1 C3 C2 C1 c2 c3 c4 c5 c6 c7 c8 C4 c9 c10 c11 c12 Figure 3. Dendrogramme illustrant la procédure d’agglomération des composantes connexes Dans la figure ci-dessus, c1,...,cn représente les composantes connexes, S1-Sn les itérations successives de l’algorithme. A la première exécution, quatre classes sont formées : C1 (c1, c2); C2 (c3, c4) ; C3 (c7, c8, c9); C4 (c11, c12). A S2 itération, les deux classes C1 et C2 se fusionnent, on la notera C12. La composante c6 intègre la classe C3, la classe C4 reste stable. Elle n’est liée à aucune autre composante ou classe. A S3 itération, la composante c5 intègre la classe C3. Les partitions du graphe sont alors stables. La composante c10 reste isolée. Plus formellement, notre algorithme de classification peut être décrit ainsi: Soit G(V,E) un graphe (i.e. un ensemble V non vide de sommets et une collection E de paires de sommets dans V appelées arêtes), soit {COMP, CLAS} une partition (les couleurs) de E et soit p une fonction de E dans un ensemble fini de rationnels. De ce graphe nous dérivons un autre graphe dG(dV, dE) tel que : dV est l’ensemble de toutes les composantes connexes de G(V, COMP) et dE est l’ensemble de paires de composantes {X, Y} pour lesquelles il existe une arête {x,y} dans CLAS avec x dans X et y dans Y. Nous définissons aussi une fonction dp sur dE par : dp(X,Y) = Σ{p({x,y}): {x,y}∈CLAS, x∈X, y∈Y} Nous appelons classe toute partie C de dV qui ait au moins deux éléments et telle que pour tout X dans C on ait max{dp(X,Y) : Y dans C} > max{dp(X,Y) : Y non dans C}. Nous appelons classification toute partition de dV en classes et en singletons, et nous appelons suite complète de classifications une suite minimale ordonnée par inclusion de classifications S1, ... , Sn telle que S1 soit l’identité sur dV, Sn soit la fermeture transitive de dG(dV, dE), et pour toute classe C de dV il existe une partition Si contenant C parmi ses classes. 2.2 Protocole d’interprétation : les propriété des classes Les classes obtenues par la méthode CPCL sont caractérisées à l’aide de cinq propriétés : taille, centralité, étiquette, indices de variation (interne et externe) et indice de transformation. Les deux premières propriétés permettent d’appréhender l’importance d’un thème (représenté par une classe) dans le corpus. 1. Taille : Une des spécificités de la méthode CPCL est qu'elle n'impose pas de taille maximale aux classes. Elle évite ainsi l'écueil d'une coupure artificielle des classes. De ce fait, les classes que nous obtenons sont de tailles très variables, ce qui préfigure l’importance d’un thème dans le corpus. Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 7 2. Centralité : Cette notion a ici la même acceptation que dans la méthode des mots-associés [Callon et al. 1991]. La centralité donne une indication de la position d’une classe vis-à-vis des autres classes. Elle reflète l’organisation des thèmes du corpus et permet de désigner comme thèmes centraux, les classes ayant une valeur élevée de liens externes et comme thèmes périphérique ou isolés, les classes à valeur faible (ou nulle) de liens externes. Nous considérons comme centrales les classes ayant au moins trois liens externes. 3. Etiquette : Elle permet une première prise de conscience grossière du contenu d’une classe. Pour ce faire, nous indexons les classes par des segments répétés. Ce sont des suites de mots adjacents et peu fréquents dans une classe. L'idée est de choisir les unités peu fréquentes dans la classe par opposition aux unités trop courantes. Les segments peu fréquents reflètent ce qui est spécifique dans la classe par opposition à ce qui est générique. Ils sont plus intéressants du point de vue de la surveillance des tendances thématiques. A cette fin, un indice a été élaboré, appelé Segment frequency index (SF), il permet de sélectionner de tels segments répétés. Il est défini comme suit : 1 SFij = fij x cfi où SFij est la spécificité du segment i dans la classe j fij est la fréquence du segment i dans la classe j cfi est le nombre de classes contenant i En considérant l'inverse de chaque paramètre : fréquence d'un segment dans une classe et le nombre de classes dans lesquelles il apparaît, on pénalise des segments fréquents dans une classe et qui apparaissent dans beaucoup de classes. Inversement, on privilégie les segments de faible fréquence apparaissant dans une seule classe. 4. Les classes sont ensuite caractérisées par leurs activités de variation interne et externe. • L'indice de variation interne, Intj donne une indication de la force d'activité interne de variation à l’intérieur d'une classe. C'est le rapport entre la somme des liens de variations dans une classe et le nombre total de termes dans la classe. Il est formulé ainsi : Rj Intj = Tj où Intj = indice de variation interne de la classe j Rj est la somme des liens de variation interne à j Tj est le nombre total de termes dans j Plus Intj est élevé, plus la classe connaît une forte activité de variation. Moins Intj est élevé, moins est importante l'activité de variation dans cette classe. Il pourrait s'agir d'une thématique consolidée et plutôt stable (statique) du point de vue interne. • L'indice de variation externe, Extj indique le degré d’activité de variation entre une classe et les autres classes. Il peut conforter l’information donnée par la centralité. Il est formulé ainsi : Ext i = T -i Ti x T+i T où Extj est l'indice de variation externe de la classe j T i est le nombre de termes de la classe i en relation avec des termes à l'extérieur de celle-ci Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 8 Ti est le nombre total de termes dans la classe i + T i est le nombre de termes à l'extérieur de la classe i en relation avec un terme dans celle-ci. T est le nombre total des termes considérés. Un Extj élevé désignerait souvent des classes centrales participant à la structuration des autres thématiques du domaine du point de vue terminologique et donc conceptuel. Il s'agirait de thématiques solidement ancrées dans le réseau des thématiques constitué. Un Extj faible désignerait des classes qui représentent des thématiques périphériques ou des classes qui bien que centrales dispersent leurs liens (liens de faible intensité). Une valeur faible de Extj peut aussi être une conséquence de la constitution du corpus, à savoir que les termes considérés ne constituaient pas le sujet central de la recherche documentaire. Une classe ayant un Intj et un Extj élevés peut désigner une thématique à la fois structurée (plutôt stable) et centrale. 5. Indice de transformation Il mesure le degré de transformation d’une classe sur deux périodes différentes. Il sert à suivre l’évolution des thématiques dans le temps. Il est calculé par couple de périodes et s’appuie sur deux paramètres : le nombre de termes communs et l’intensité des relations de variations entre deux classes de deux périodes différentes. Cet indice sera d’autant plus élevé que deux classes i et j à deux périodes différentes Pi et Pi+1 ne possèdent pas de terme commun mais partagent beaucoup de liens de variations. Il est formulé ainsi : Vij TRANSij = N2ij + 1 où TRANSij est l’indice de transformation de la classe i vers la classe j Vij est la somme des liens de variation entre la classe i et la classe j Nij est le nombre de termes communs entre la classe i et la classe j Remarquez que si Nij = 0, alors TRANSi est équivalent à Vij si Vij = 0, alors TRANSi = 0 Avec ces notations, le degré de transformation TRANSi de la classe i pour les périodes Pk et Pk+1 est la moyenne des degrés de transformations TRANSij par rapport aux classes j de Pk+1 auxquelles i est liées. 3. Application à un corpus de textes scientifique Cette section illustre l’application de la méthode CPCL au corpus de textes scientifiques en anglais présenté en §1. Nous nous attacherons ici à l’aspect évolutif de la recherche des tendances thématiques. Pour ce faire, nous avons fait une partition du corpus de termes variants en périodes. Pour une étude globale sur l’ensemble du corpus, nous renvoyons le lecteur à Ibekwe-SanJuan 1997 ou 1998(a). 3.1 Analyse chronologique des tendances Cette analyse a pour but de déterminer l’influence de la variable chronologique sur l’évolution des thèmes. Nous avons extrait 3159 termes de notre corpus. Une partition du corpus en p périodes a été effectuée avec pour souci d’obtenir un nombre comparable de termes pour chaque période. Ce qui a donné les trois périodes : P1 (1981-87), P2 (1988-90) et P3 (1991-93). Chaque période contient environ 1150 termes. Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 9 Les sous-ensembles de relations servant à former des composantes connexes (COMP) et à agglomérer les composantes connexes en classes (CLAS) demeurent inchangés (cf. §2.1). Nous considérons les classes obtenues après deux itérations (niveau 2 du dendrogramme). Le réseau des classes est en effet suffisamment condensé, et donc lisible dès ce niveau. Ces informations sont résumées dans le tableau 3 ci-dessous. Nb. composantes Nb. classes Nb. termes inclus P1 (81-87) 117 12 527 P2 (88-90) P3 (91-93) 129 85 10 11 523 363 Tableau 3. Composantes, classes et termes obtenus pour chaque période à S2 classifications. Dans ce qui suit, nous décrivons le réseau de thématiques associées obtenu pour chaque période. Les classes de chaque période seront examinées au regard des propriétés décrites précédemment, à savoir la taille, la centralité et les indices de variation. Une classe sera identifiée par sa période, notée Pi et par un numéro séquentiel. Ainsi la première classe de la période P1 sera notée "P1-1". • Période P1 (1981-87). Réseau R1 de thématiques associées Le tableau ci-dessous dresse une première vue des classes obtenues pour cette période. Il indique pour chaque classe, son numéro, le nombre de composantes qu’elle contient (noté comp.), la centralité, le nombre de termes et enfin quelques unes des étiquettes retenues pour cette classe. Classe P1-1 P1-2 P1-3 P1-4 P1-5 P1-6 P1-7 P1-8 P1-9 P1-10 P1-11 P1-12 Comp. Termes Centralité Etiquettes 5 47 10 (3.5) nifa gene, nodd3 mutant, tn5 mutant, rhizobium meliloti characterization, symbiotic mutant, nitrogenase gene 3 9 0 (0) fertility droughtmaster line foundation cow, high fertility droughtmaster line, pregnancy rate, fertility line 2 4 1 (0.1) japonicum strain cb1809, bradyrhizobium japonicum 2 17 3 (2) alfalfa nodulation 2 5 0 (0) dna sequence, sequence analysis 7 36 3 (1.5) nodule formation, infection thread, root hair curling, nodule type, effective alfalfa 4 13 0 (0) k. pneumoniae, symbiotic nitrogen fixation, pneumoniae nifb gene 7 32 2 (0.3) m. atropurpureum, glutamine synthetase activity, nitrogenase activity derepression 3 18 1 (0.1) parasponia rhizobium strain anu289 2 4 0 (0) bragg nodule, cv. bragg 2 10 2 (0.2) plant host genetic, plant host, nodulation plant 2 6 1 (0.1) tumefacien Tableau 4. Les classes obtenues pour la période P1 (1981 - 87) La colonne "centralité" donne le nombre de liens externes ainsi que l’intensité de ces liens (chiffre entre parenthèses). Les classes les plus importantes par leur taille sont P1-1, P1-6 et P1-8. Trois classes sont centrales : P1-1, P1-6 et P1-4. La classe la plus centrale, P1-1 réunit des thèmes centraux : "gene, rhizobium meliloti, mutant,...". Bien que cette classe possède 10 liens vers d’autres classe, ils sont de faible intensité. Cette idée apparaîtra plus nettement dans la représentation graphique des liens externes (voir figure 4 ci-après). Le tableau 5 ci-dessous donne les indices de variation interne (Intj) et externe (Extj) des classes de cette période. Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 10 Les indices de variation externe sont globalement très faibles car les liens les plus forts sont concentrés à l’intérieur des classes (Intj). Les premières classes par l'indice de variation interne sont celles catégorisées "périphériques" (P1-9, P1-7, P1-2). Il s’agirait des thématiques se structurant du point de vue interne mais isolées des autres classes du réseau. Indices de variation interne et externe Classe Intj Extj P1-9 1,15 0,02 P1-7 1,05 0,00 P1-2 0,92 0,00 P1-1 0,89 0,14 P1-8 0,83 0,08 P1-6 0,79 0,11 P1-4 0,64 0,12 P1-3 0,55 0,02 P1-11 0,48 0,03 P1-12 0,40 0,01 P1-10 0,30 0,00 P1-5 0,28 0,00 Tableau 5. Indices de variation interne (Intj) et externe (Extj) pour la période P1 (81-87). Nulle surprise à ce que les trois classes centrales (P1-1, P1-4, P1-6) aient les indices de variation externe les plus élevés. Ce sont des classes qui structurent le réseau obtenu pour cette période. Deux des classes isolées par l’indice de variation externe figurent en tête de la liste par l’indice de variation interne (P1-7, P1-2). Il s’agirait de thématiques bien consolidées du point de vue interne mais en marge du réseau des thématiques associées. Les classes P1-5 et P1-10 sont à la fois faiblement structurées et isolées du réseau. Ceci apparaît nettement dans la figure 4 ci-dessous. Seuls les termes à l’origine des relations de variation sont affichés dans chaque classe. P1-8 P1-3 P1-9 nitrogenase activity rhizobium japonicum nodule activity P1-5 dna sequence sequence analysis 0,1 0,1 rhizobium strain 0,1 0,2 P1-12 P1-6 nodule formation nodule type P1-1 nitrogenase gene 1 wild-type 0,1 tn5 mutation rhizobium meliloti tn5 cluster wild-type r. meliloti P1-11 common nodulation gene nif gene nodulation gene symbiotic mutant symbiotic cluster alfalfa nodule alfalfa root effective nodule 0,1 nodulation plant 0,1 0,3 P1-7 k. pneumoniae symbiotic nitrogen fixation pneumoniae nifb gene P1-2 1,6 P1-4 common nodulation nif phenotype nodulation phenotype effective phenotype symbiotic nodulation symbiotic phenotype alfalfa nodulation fertility droughtmaster line foundation cow high fertility droughtmaster line pregnancy rate fertility line low fertility droughtmaster line Légende lien >= 1 lien < 1 classes isolées P1-10 bragg nodule cv. bragg Figure 4. Réseau R1 de thématiques associées. Période P1 (1981-87). La Figure 4 confirme le rôle fédérateur joué par la classe P1-1, formée autour des thèmes de "gene", de "rhizobium meliloti", de "mutant"... On peut dire qu’il s’agissait d’une classe au coeur Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 11 des problèmes de recherche de cette période. Les liens sont de type “ centre unique vers périphérie ”. • Période P2 (1988-90). Réseau R2 de thématiques associées Le tableau ci-après donne le détail des classes obtenues pour cette période. Classe P2-1 Comp. Termes Centralité 0 (0) 2 5 P2-2 P2-3 P2-4 P2-5 2 3 4 2 7 7 16 33 1 (0.1) 2 (0.6) 0 (0) 5 (0.9) P2-6 2 23 3 (0.7) P2-7 P2-8 P2-9 P2-10 2 3 2 4 4 10 5 12 1 (0.1) 2 (0.6) 1 (0.2) 1 (0.2) Libellés b. japonicum, bradyrhizobium japonicum strain usda, japonicum strain usda110 nucleotide sequence, sequence analysis root hair curling, hair deformation soyabean cv. bragg, bragg nodule, bragg plant nitrate metabolism, regulatory gene, avirulence gene, nif gene, gene regulation nodulating soybean mutant, soyabean mutant, supernodulating mutant constitutive nitrate reductase activity regulation biological root cell division r. meliloti culture, free living microaerobic, nifh promoter Tableau 6. Détail des classes obtenues pour la période P2 (88-90). Nulle surprise à ce que P2-5 et P2-6 soient les classes les plus centrales. Ces deux classes étaient réunies en une seule lors de la première période (P1-1) et elles formaient déjà la classe la plus centrale. Ceci confirme le fait que sur une période assez longue (1981-90), la thématqiue de gene est restée au coeur des problèmes de recherche dans le domaine de la biotechnologie végétale. La thématique de mutant qui avait été associé à gene au cours de la première période apparaît désormais dans une classe à part (classe P2-6). Ces classes (P2-5, P2-6) seront sans doute liées comme le montrera le diagramme des liens externes (voir Figure 5 ci-après). Il est à remarquer que la classe P2-10 qui correspond au thème de rhizobium meliloti, jadis lié à celui de gene dans la première période (P1-1), apparaît ici comme périphérique. En effet, pour cette deuxième période (88-90), les termes qui expriment cette thématique sont peu en relation de variation avec ceux utilisés pour exprimer la thématique de gene dans la classe P2-5. La classe P2-1 est isolée alors qu’elle était périphérique dans la première période (classe P1-3). De même les classes P2-2 et P1-5 demeurent périphériques dans les deux périodes P1 et P2. Leurs étiquettes laissent supposer qu’il s’agit de thématiques très proches (dna sequence, sequence analysis pour P1-5 et nucleotide sequence, sequence analysis pour P2-2). Le tableau ci-dessous donne les indices de variation interne et externe. Indices de variation interne et externe Classe Intj Extj P2-3 1,04 0,04 P2-7 0,78 0,01 P2-5 0,76 0,24 P2-10 0,73 0,02 P2-8 0,73 0,04 P2-4 0,69 0,03 P2-1 0,66 0,00 P2-6 0,66 0,13 P2-9 0,44 0,02 P2-2 0,37 0,06 Tableau 7. Indices de variation interne (Intj) et externe (Extj) pour la période P2 (88-90). Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 12 La classe P2-5 qui est la plus centrale pour cette période est également bien structurée du point de vue interne (Intj). Les classes en tête de l’indice de variation interne ont par contre des indices de variation externe faibles (peu de liens externes). La figure 5 permet d’appréhender l’organisation spatiale du réseau des thématiques durant cette deuxième période. P2-2 P2-5 P2-9 plant cell bacterial cell 0,1 plant gene bacterial gene 0,2 genetic analysis bacterial nitrate metabolism genetic regulation 0,1 nif gene nif regulation P2-7 P2-4 soyabean cv. bragg bragg nodule bragg plant P2-10 0,2 nif promoter bacterial nitrate reductase P2-1 nts gene nod gene nodh gene b. japonicum bradyrhizobium japonicum strain usda japonicum strain usda110 P2-8 0,3 root extract root exudate P2-6 nts mutant nod mutant nodh mutant 0,2 0,4 root nodulation P2-3 0,2 root hair root deformation Figure 5. Réseau R2 de thématiques associées. Période P2 (1988-90). La thématique de gene continue à jouer un rôle fédérateur (classe P2-5) comme ce fut le cas en période P1 (classe P1-1). Nous avons toujours un centre unique mais un sous-réseau se dégage de ce réseau global, celui formé des liens entre les classes P2-6, P2-8 et P3-3. Ce sous-réseau traduit probablement l’entrée de nouveaux problèmes de recherche autour de gene : celle des propriétés "nts, nodh, nod" partagées avec "mutant". La classe P1-5 isolée en P1 apparaît ici comme périphérique (P2-2). La classe P2-4 reste isolée comme elle l’était en période P1 (P1-10). • Période P3 (1991-93). Réseau R3 de thématiques associées Classe P3-1 P3-2 P3-3 P3-4 P3-5 P3-6 P3-7 P3-8 Comp. Termes Centralité 2 4 0 (0) 2 8 0 (0) 2 5 0 (0) 3 8 0 (0) 3 19 2 (0.3) 2 5 1 (0.2) 2 12 3 (0.3) 3 39 2 (0.6) P3-9 4 26 2 (0.6) P3-10 P3-11 4 5 17 20 1 (0.2) 1 (0.1) Etiquettes ga1 3 genome lox1 mrna, mrna level glycine max root tip, m. sativa, lateral root linkage analysis, blot analysis, sequence information pa 132, rflp marker cv. bragg pseudomonas syringae pv tomato strain, avirulent pseudomonas syringae, nodulation gene non nodulating, supernodulating soybean mutant, non nodulation phenotype, supernodulating mutant dna amplification, total s., uberis dna meliloti nodd, nifa inactivation, r. meliloti, meliloti nodd gene, higher plant, host plant Tableau 8. Détail des classes obtenues pour la période P3 : 91-93. A cette période, une seule classe apparaît comme centrale (P3-7). Son contenu tend à montrer qu’il s’agissait d’une classe isolée au cours des périodes précédentes (P1-10, P2-4). Elle s’est Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 13 donc intégrée au coeur d’un réseau de thèmes de recherche durant la dernière période. La thématique de gene qui apparaît d’ailleurs dans deux classes (P3-8 et P3-11) n’est plus centrale ici. Il est à remarquer que cette thématique est la plus importante par sa taille pour les trois périodes. Le tableau ci-dessous nous donne les indices de variation interne et externe pour les classes de cette période. Indices de variation interne et externe Classe Intj Extj P3-1 1,00 0,01 P3-3 0,82 0,01 P3-6 0,80 0,01 P3-9 0,70 0,06 P3-10 0,70 0,03 P3-8 0,68 0,11 P3-11 0,65 0,01 P3-4 0,55 0,01 P3-5 0,55 0,08 P3-7 0,55 0,02 P3-2 0,36 0,00 Tableau 9. Indices de variation interne (Intj) et externe (Extj) pour la période P3 (91-93). La figure 6 ci-après donne la vision externe du réseau formé par les classes de cette période. P3-7 0,1 mature nodule P3-8 0,1 younger region P3-3a P3-11 mature plant glycine max younger nodule spontaneous nodule 0,1 nodh gene P3-4 P3-9 nodh strain 0,2 spontaneous nodulation nodulation gene 0,1 arabidopsis gene arabidopsis thaliana root tip m. sativa lateral root nodh mutant 0,2 nodulation phenotype arabidopsis mutant P3-1 ga1-1 genome P3-5 P3-10 0,2 dna analysis dna sequence dna fragment P3-6 0,1 rflp marker rflp analysis P3-2 lox1 mrna mrna level Figure 6. Réseau R3 de thématiques associées. Période P3 (1991-93). A travers cette figure, on aperçoit nettement les changements intervenus dans l’organisation des thèmes de recherche depuis la période P2. Nous n’avons plus un centre unique vers lequel convergent tous les liens comme ce fut le cas pour les périodes P1 et P2 (Figures 4 et 5 cidessus). Deux sous-réseaux se dégagent de ce réseau global : le réseau formé des liens entre les classes P3-7, P3-9, P3-11 et P3-8 et celui formé des liens entre les classes P3-5, P3-10 et P3-6. Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 14 L’évolution de la classe P3-7 vers une position centrale apparaît nettement ici alors qu’elle avait été isolée jusqu’alors. Le thème de gene n’est plus fédérateur (central) durant cette dernière période. Dans le sous-réseau formé des classes P3-5, P3-10 et P3-6, on voit apparaître plus nettement la thématique de dna (dna analysis, dna sequence analysis et dna sequence information). La classe P3-5 joue un rôle central ici alors qu’elle avait été isolée en période P1 (P1-5) et périphérique en période P2 (P2-2). Parmi les classes périphériques ou isolées, on voit apparaître des thématiques jusqu’alors absentes : mrna level (P3-2), glycine max (P3-3) ou encore ga1-3 genome (P3-1) qui possède l’Intj le plus élevé, signe d’une forte cohésion interne. 3.2 Transformations des réseaux de thématiques Cette section a pour but de mesurer le degré de transformation subi par les thèmes des trois réseaux. Pour ce faire, nous ferons appel à l’indice de transformation, défini dans la section §2.2. • L’indice de transformation des classes. Périodes P1, P2 et P3 Comme défini précédemment, cet indice mesure le degré de transformation d’une classe d’une période à une autre. Le tableau 10 ci-dessous montre l’indice de transformation (Transi) des classes de P1 à la période P2, le tableau 11 celui des classes de P1 à la période P3 et enfin le tableau 12 l’indice de transformation des classes de P2 à la période P3. P1 P1-10 P1-11 P1-12 P1-1 P1-1 P1-1 P1-2 P1-3 P1-4 P1-5 P1-6 P1-6 P1-6 P1-7 P1-8 P1-8 P1-9 Transformation des classes de P1 à la période P2 (88-90) P2 Nij Vij Classes de P1 Transi Moyenne P2-4 P2-4 P2-5 P2-6 P2-10 P2-1 P2-6 P2-2 P2-4 P2-3 P2-8 P2-4 P2-7 P2-10 1 1 4 2 3 1 1 0 0 2 0 1 0 0 6,15 1,6 17 8,4 11,02 3,3 0,5 4,6 0,6 8,8 1,2 9,8 0,1 0,1 P1-10 P1-11 P1-12 P1-1 P1-1 P1-1 P1-2 P1-3 P1-4 P1-5 P1-6 P1-6 P1-6 P1-7 P1-8 P1-8 P1-9 3,08 0,45 0 1,00 1,68 1,10 0 1,65 0,25 4,60 0,6 1,75 1,2 0 4,88 0,1 0,1 1,26 1,18 2,49 Tableau 10. Le degré de transformation des classes de P1 à la période P2 Nous avons souligné le fait que l’indice de transformation privilégie les classes partageant beaucoup de liens de variation mais peu de termes communs. Rappelons que si une classe de période Pi est liée à plusieurs classes d’une période Pi+1, l’indice retenu est la moyenne des indices de transformation avec les classes de Pi+1. Ainsi, l’indice de transformation de la classe P1-1 à la période P2 est la moyenne de ces trois indices de transformation vers les classes de P2 auxquelles elle est liée, à savoir P2-5, P2-6 et P2-10. Plus une classe disperse ses liens, moins son indice de transformation sera élevé. En P2, c’est la classe P1-5 qui possède l’indice le plus élevé (4,60). Nous avons déjà souligné l’évolution remarquable de cette classe en section §3.1. Isolée en P1, elle s’est intégrée au réseau de thèmes associés en période P2 (P2-2) avant de se placer au coeur d’une sous-réseau de thèmes associés en période P3 (P3-5). Les classes à Transi nul étaient déjà Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 15 périphériques ou isolées au départ (voir figure 4). Les liens entre les classes P1-10 et P2-4 deviennent manifestes à travers ce tableau. Il s’agit d’une thématique périphérique au départ mais qui va se maintenir à travers le temps (Transi 3.08). Transformation des classes de P1 à la période P3 (91-93) P1 P3 Nij Vij Classes de P1 Transi P1-10 P1-11 P1-12 P1-1 P1-1 P1-1 P1-2 P1-3 P1-4 P1-5 P1-5 P1-6 P1-7 P1-8 P1-9 P1-9 P3-7 P3-1 P3-1 P3-11 P3-9 P3-8 P3-9 P3-5 P3-10 P3-4 P3-8 P3-11 1 2 0 2 0 1 4 2 0 1 0 0 3,15 2,4 1 15 3 10,15 2,9 4,1 0,1 0,1 1,8 0,1 P1-10 P1-11 P1-12 P1-1 P1-1 P1-1 P1-2 P1-3 P1-4 P1-5 P1-5 P1-6 P1-7 P1-8 P1-9 P1-9 1,58 0,48 1,00 3,00 3,00 5,08 0 0 0,17 0,82 0,10 0,05 0 0 1,80 0,10 Moyenne 3,69 0,46 0,95 Tableau 11. Le degré de Transformation des classes de P1 à la période P3 Dans le tableau 11, on observe que la classe P1-1 (thématique de gene) continue à connaître une forte activité de variation au cours de la dernière période comme le témoigne son indice moyen de transformation élevé (3,69). P2 P2-10 P2-1 P2-2 P2-3 P2-4 P2-4 P2-5 P2-6 P2-7 P2-8 P2-9 Transformation des classes de P2 à la période P3 (91-93) Classes de P2 Transi Moyenne P3 Nij Vij P3-5 P3-4 P3-11 P3-7 P3-8 P3-9 P3-4 - - 2 0 0 1 3 7 0 - 3,2 0,1 1,8 4,65 7,55 16,4 0,1 - P2-10 P2-1 P2-2 P2-3 P2-4 P2-4 P2-5 P2-6 P2-7 P2-8 P2-9 0 0 0,64 0,10 1,80 2,33 0,76 0,33 0 0,10 0 2,06 Tableau 12. Le degré de transformation des classes de P2 à la période P3. La classe P2-4, isolée en P2 (figure 5) a l’indice de transformation le plus élevé en P3. Elle entretient des liens forts avec les classes P3-7 (par ailleurs centrale) et P3-11. Les graphiques ci-dessous permettront de rendre plus visible les transformations des thèmes d’une période à une autre. Quatre types de comportement permettent de décrire ces transformations : scission, mutation, apparition et disparition. La trajectoire de la thématique de gene au cours des trois périodes P1, P2 et P3 est marquée essentiellement par des scissions accompagnées de quelques mutations (voir figure 7). Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques P1: 1981-87 P2: 1988-90 16 P3: 1991-93 P2-8 biological root P3-4 root tip P1-6 nodule formation P1-10 bragg nodule P1-8 glutamine synthetase activity P1-11 plant host genetic P2-3 root hair curling P2-4 soyabean cv. bragg P3-7 cv. bragg P2-7 constitutive nitrate reductase activity regulation P2-10 r. meliloti culture P3-11 meliloti nodd P1-1 nifa gene P3-8 pseudomonas syringae pv tomato strain P1-9 parasponia rhizobium strain anu289 P2-5 regulatory gene P1-4 alfalfa nodulation P3-9 supernodulating soybean mutant P2-6 nodulating soybean mutant Figure 7. Transformation des thèmes de 1981-93. Réseau dense. Le graphique 8 ci-dessous montre d’autres sous-réseaux de thématiques associées dans le temps. On observe que le thème de agrobacterium tumefacien (P1-12) disparaît en période P2. Il réapparaîtra en P3 (classe P3-1) avec une nette évolution : il est associé à un nouveau thème, celui de ga1-3 genome. L’association entre ga1-3 genome et agrobacterium tumefacien exprimait la problématique de recherche qui consistait à injecter une maladie à une plante pour lui insérer un gène. Il importe de souligner que cette association n’est apparue qu’en fin de période (91-93) et que l’analyse des transformations a permis de la détecter. Rappelons également que cette classe avait l’indice de variation interne le plus élevé (Tableau 9). Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques P1: 1981-87 P2: 1988-90 17 P3: 1991-93 P2-2 nucleotide sequence P1-5 dna sequence P3-5 sequence information P3-10 dna amplification P3-1 agrobacterium tumefacien mediated transformation ga1-3 genome ga1-3 ga1-3 genome P1-12 a. tumefacien agrobacterium tumefacien P1-3 japonicum strain cb1809 P2-1 bradyrhizobium japonicum strain usda110 P2-9 P1-7 P3-2 P3-3 P1-2 P3-6 Figure 8. Transformation des thèmes de 1981-93. Réseaux épars. 4. Discussion La méthode CPCL que nous avons développée a permis, sur un corpus d’essai, de retrouver ses principaux thèmes de recherche et de suivre leurs transformations dans le temps. Il est remarquable de souligner que ces thèmes ont été identifié à partir d’un sous-ensemble de termes du corpus (à peu près 50%). Ainsi, l’image des classes que nous avons retenue a permis d’obtenir des résultats cohérents. Pour cerner l’organisation complète des thèmes du corpus, il est néanmoins nécessaire d’étudier les liens pouvant exister entre les classes et les composantes nonagglomérées. Ces liens peuvent préfigurer l’évolution future des thèmes. Du fait qu’elle se fonde sur des relations linguistiques (variations terminologiques) entre des unités textuelles pertinentes (termes), la méthode CPCL permet de mettre en évidence l’évolution terminologique dans un domaine donné. Or, la terminologie constitue l’outil essentiel de la diffusion des recherches scientifiques et techniques. Soulignons néanmoins que la méthode CPCL ne peut pas mettre ensemble des thèmes qui bien qu’associés du point de vue sémantique, apparaissent sous des formes lexicales totalement disjointes (termes n’ayant aucune relation de variation). Cela exclue donc actuellement, l’identification de variantes sémantiques (type synonymes). D’un point de vue théorique et technique, la méthode CPCL allie les avantages du modèle de Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques 18 graphe à savoir une représentation plus aisée des relations entre unités textuelles, et ceux de la technique d’agglomération dite “ classification ascendante hiérarchique ” tout en évitant les écueils habituels de celle-ci. En effet, il n’est pas nécessaire de fixer a priori, ni la taille des classes ni leur nombre ou encore d’employer une mesure de distance extérieure aux objets d’étude. Dans l’avenir, nos efforts de recherche porteront sur l’application de la méthode CPCL à d’autres corpus afin de tester sa robustesse. Nous travaillerons également à une implantation informatique optimale des programmes de recherche de variations ainsi que de classification. La recherche d’outils appropriés de visualisation graphique permettra une meilleure exploitation des résultats qui pour le moment reste manuelle. Tout ceci devra faciliter la comparaison des résultats obtenus avec la méthode CPCL à d’autres méthodes visant une application similaire. Bibliographie 1. Bourigault D. (1994). LEXTER, un Logiciel d'Extraction Terminologique. Application à l'acquisition des connaissances à partir de textes. Doctorat, Ecoles des Hautes Etudes en Sciences Sociales, Paris, 352p. 2. Callon M., Courtial J-P., Turner W. (1991). La méthode Leximappe : un outil pour l'analyse stratégique du développement scientifique et technique. In "Gestion de la recherche : nouveaux problèmes, nouveaux outils", dir. by VINCK Boeck, Bruxelles, 207-277. 3. Daille B. (1994). Study and implementation of combined techniques for automatic extraction of terminology. The Balancing Act : Combining Symbolic and Statistical Approaches to Language, Workshop of the 32nd Annual Meeting of the ACL, Las Cruces, New Mexico, USA, 9p. 4. Ibekwe-SanJuan F. (1997). Recherche des tendances thématiques dans les publications scientifiques. Définition d’une méthodologie fondée sur la linguistique. Doctorat, Université de Grenoble 3, 376p. 5. Ibekwe-SanJuan F. (1998a). Terminological variation, a means of identifying research topics from texts, Joint International Conference on Computational Linguistics (COLING-ACL’98), Montréal Québec, 10-14, août 1998, 564-570. 6. Ibekwe-SanJuan F. (1998b). A linguistic and mathematical method for mapping thematic trends from texts, 13th European Conference on Artificial Intelligence (ECAI’98), Brighton UK, 23-28 août 1998, 170-174. 7. Ibekwe-SanJuan F., SanJuan E. (1999). Analyse formelle de corpus terminologiques. A paraître dans Troisième rencontre de la Société Francophone de Classification (SFC’99), Nancy, 15-17 sept. 1999, 8p. 8. Jacquemin C. (1995). A symbolic and surgical acquisition of terms through variation,. Workshop "New approaches to learning for NLP", 14th International Joint Conference on Artificial Intelligence (IJCAI'95), Montréal, 8p. 9. Katz S.M. Justeson T.S. (1995). Technical terminology : some linguistic properties and an algorithm for identification in text. Journal of Natural Language Engineering, 1(1), 19p. 10. Lebart L., Salem A. (1994). Statistique textuelle, Ed. Dunod, 342p.