Une nouvelle méthode de recherche des tendances

Transcription

Une nouvelle méthode de recherche des tendances thématiques
fondée sur un réseau de variations terminologiques
IBEKWE-SANJUAN Fidelia
SANJUAN Eric
IUTA
Université de Nancy 2
2ter, bld Charlemagne - 54000 Nancy
E-mail : [email protected]
Laboratoire de mathématiques discrètes
Université Claude Bernard, Lyon 1
43, bld du 11 Novembre 1918 - 69622 Villeurbanne
E-mail : [email protected]
Résumé.
Nous présentons une nouvelle méthode d’identification des thèmes de recherche à partir des textes.
Cette méthode, la Classification by Preferential Clustered Link (CPCL) s’appuie sur des relations
linguistiques - variations terminologique - pour effectuer la classification automatique d’unités
textuelles pertinentes, ici les termes. Fondée sur la théorie des graphes, la méthode CPCL ne fixe a
priori ni la taille des classes ni leur nombre. Elle repose sur les seules informations intrinsèques à un
corpus terminologique sans nécessiter des données complémentaires telles que une table de distances.
Les classes proposées représentent des thématiques caractérisables par leurs activités de variation
interne et externe. L’étude chronologique des réseaux de thématiques permet de mettre en évidence
les transformations qu’ils subissent à travers le temps.
Mots-clés : Recherche des tendances thématiques, Analyse linguistique, Termes, Variations
terminologiques, Classification automatique par lien préférentiel, Veille scientifique et technologique
Introduction
Cette étude décrit une nouvelle méthode de classification automatique de données textuelles
fondée sur un réseau de variations terminologiques. L’application visée est la surveillance des
tendances thématiques dans un corpus de textes. Il s’agit alors, pour un domaine donné, de
fournir des vues de synthèse permettant d’appréhender l’état de l’art des thèmes de recherche.
La particularité de la méthode présentée, la Classification by Preferential Clustered Link (CPCL)
est qu’elle prend en entrée des unités textuelles pertinentes, ici des termes, extraits par une analyse
morpho-syntaxique de textes. La méthode s’appuie ensuite sur des relations syntaxiques de
variations identifiées entre ces termes. La classification se fonde ainsi sur des relations
linguistiques et non sur des critères statistiques d’occurrence ou de cooccurrence comme c’est
habituellement le cas. L’exploitation optimale des relations de variations permet de proposer une
classification des données initiales en classes de thématiques partageant des liens de proximité
d’intensités diverses, sans pour autant nécessiter la définition préalable d’une distance entre les
unités d’étude. Fondée sur d’usuelles structures de la théorie des graphes et des relations binaires,
la méthode CPCL ne requiert pas de fixer a priori ni le nombre de classes à obtenir, ni la taille de
celles-ci.
La présente communication résume le travail de thèse développé dans [Ibekwe-SanJuan 1997].
Une première implantation de cette méthode a été réalisée en langage Awk sur une station Sun.
La section §1 définit les caractéristiques des termes et des relations de variations utilisées pour la
classification. La section §2 présente la méthode de classification et le protocole d’interprétation
des résultats. La section §3 illustre son application à un corpus de textes scientifiques courts en
anglais.
1. Unités textuelles pertinentes
Notre corpus d’études était composé de textes courts en anglais de 29000 mots, faits de titres
et résumés issus d’une base de données bibliographique (la base CAB). Il s’agissait de l’indexation
faite des publications dans le domaine de la biotechnologie végétale. Le corpus a été constitué en
1993 et devait répondre à un besoin de surveillance des thèmes de recherche de quatre auteurs les
plus productifs du domaine. Il couvrait la période allant de 1981 à 1993. De ces textes, nous
avons choisi de nous intéresser aux termes et à certaines relations de variations entre eux.
1.1 Termes
L’importance des termes pour dénommer des concepts dans un domaine donné n’est plus à
démontrer. Les termes sont des signes linguistiques concrètes qui représentent des concepts. A ce
titre, ils accompagnent l’émergence de nouveaux concepts et participent au processus de
normalisation des nomenclatures dans des domaines de spécialités. A titre d’exemple, high
fertility droughtmaster cattle renvoie à un concept ou à un objet unique dans le domaine de
l’agriculture. De même, New York stock exchange market et système de gestion de base de
données (SGBD) sont dénués d’ambiguï tés dans leurs domaines respectifs. De récentes études
ont montré que la composition morphologique des termes était relativement restreinte. Le terme
est une unité textuelle réalisée souvent sous forme d’un syntagme nominal (SN). Il est composé
de noms, d’adjectifs et d’un nombre limité de prépositions. Pour l’anglais, on cite essentiellement
les prépositions of [Katz et Justeson 1995] et rarement les prépositions from, by, with, for
[Jacquemin, 1995]. Pour le français, on trouve souvent les prépositions de, par, sur, exemple
liaison par satellite [Bourigault 1994, Daille 1994]. Le terme a donc une obligation : celle de
référencer hors contexte, un concept ou un objet d’un domaine de connaissance donné. Ces
différents éléments de définition nous ont permis d’élaborer des heuristiques d’extraction d’unités
textuelles susceptibles de correspondre à des termes. Ces heuristiques développées dans [IbekweSanJuan 1997 et 1998(a)] ne seront pas présentées ici.
1.2 Relations de variations syntaxiques
Les termes sont sujets à des variations. Celles-ci sont des transformations morphologiques,
syntaxiques ou sémantiques qui en altèrent la forme et la structure. Ces transformations
témoignent d’une évolution dans le vocabulaire du domaine, évolution qui peut accompagner
l’émergence de nouveaux concepts ou la condensation d’un terme (cas de l’abréviation). Ainsi,
une variation produit un SN proche du terme initial. C’est par exemple la relation entre "nodule
enzyme" et "nodule cytoplasmic ureide synthesizing enzyme" ou encore la relation entre
"development stage" et "defined stage of nodule development". Dans le premier exemple, le
terme initial apparaît sous forme d’une variante à laquelle de nouveaux mots ont été ajoutés. Dans
le deuxième exemple, cet ajout s’accompagne d’une transformation structurelle impliquant un
élément pivot, la préposition (of).
Nous nous sommes attachés aux phénomènes de variations syntaxiques impliquant trois
opérations : ajout (expansion), substitution et permutation. Les deux premières types de variations
sont ensuite subdivisées selon la catégorie grammaticale affectée par l’opération de variation :
centre ou modifieur. Le centre est l’élément qui porte l’emphase dans un syntagme nominal (SN),
le sujet du discours. En anglais, le centre peut être en position terminale si le terme apparaît dans
une structure composée, par exemple "cattle" dans "high fertility droughtmaster cattle". Le
centre apparaît avant la première préposition dans une structure syntagmatique, "activity" dans
"nitrogenase activity of soyabean". Tous les autres éléments du terme sont alors ses modifieurs.
L’intérêt de détecter ces variantes et de les mettre en relation est manifeste : il peut s’agir de
concepts associés qui empruntent les mêmes vocabulaires ou d’une même famille de concepts
Une nouvelle méthode de recherche des tendances thématiques fondée sur un réseau de variations terminologiques
2
ayant des propriétés différentes (lorsque la variation porte sur l’élément modifieur). Dans ce qui
suit, tous les exemples de variations seront donnés dans leur structure composée (SN formé d’une
suite d’éléments nominaux sans préposition). Nous avons distingué, dans les différents types de
variations étudiés, les cas de variation de centre des cas de variation de modifieur. En effet, ces
deux cas n’ont pas la même signification ni sur le plan conceptuel, ni pour la classification
automatique.
• Expansion
Elle désigne trois opérations élémentaires d’ajout de mots dans un terme existant. Le nombre
d’éléments ajoutés n’est pas déterminé mais leur place l’est : l’ajout doit être à une position
unique et les éléments ajoutés adjacents. Si l’ajout a lieu à gauche d’un terme, on parlera d’une
expansion gauche (Exp-g). L’ajout à droite donne lieu à une expansion droite (Exp-d). Cet ajout
peut intervenir au milieu d’un terme, auquel cas nous parlerons d’insertion (Ins). Nous avons
également considéré le cas d’expansion gauche-droite (Exp-gd).
1. Exp-g : bragg nodule → functional cv. bragg nodule.
2. Exp-d : blue light → blue light induction experiment.
3. Ins : conserved domain → conserved protein domain.
4. Exp-gd : a. thaliana → diverse a. thaliana race
• Substitution
La substitution concerne le remplacement d’un élément centre (substitution de centre, Sub-c) ou
modifieur (substitution de modifieur, Sub-m) dans un terme existant par un autre élément dans un
autre terme. Elle est subdivisée en deux types selon qu’elle porte sur l’élément centre ou
modifieur. Seul un élément peut être substitué à la fois pour permettre une comparaison pertinente
des termes.
5. Sub-c : infection thread development → infection thread formation
6. Sub-m : high pregnancy rate → low pregnancy rate
• Permutation
La permutation marque la transformation structurelle d’un terme, d'une structure syntagmatique
vers une structure composée. Pour opérer cette transformation, la permutation nécessite un
élément pivot qui est la préposition. Celle-ci permet de permuter la position des éléments
modifieurs autour de l’élément centre et elle disparaît lors du passage à la structure composée.
Le(s) élément(s) modifieur(s) sont alors antéposé(s) à l'élément centre.
7. Perm : avirulent strain of pseudomonas syringae → avirulent pseudomonas syringae strain
La permutation permet de reconnaître une variante structurelle d’un même terme. A ce titre, elle
est une relation triviale et la classification se réalise modulo cette relation. C’est-à-dire que les
variantes de ce type d’un même terme sont confondues. Cette relation est par contre à la base de
nos règles d’identification des variantes (voir Ibekwe-SanJuan 1997).
Les tableaux 1 et 2 ci-après donnent quelques exemples de variantes ainsi identifiées et mises en
relation dans notre corpus.
1.3 Caractérisation des relations de variations
Les relations de variation que nous avons identifiées sont caractérisées selon deux axes : axe
grammatical et axe formel. Ces deux axes vont jouer des rôles précis dans notre méthode de
classification (voir §2 infra).
Expansion gauche (Exp-g)
Self-licking
refractory self-licking
stereotypic self-licking
Expansion droite (Exp-d)
blue light
blue light induction
blue light-induced expression
blue light induction experiment
bragg nodule
cv. bragg nodule
functional cv. bragg nodule
underdeveloped bragg nodule
soyabean cv. bragg nodule
signal transduction pathway
distinct signal transduction
pathway
independent signal transduction
pathway
bradyrhizobium japonicum
bradyrhizobium japonicum mutant
strain
bradyrhizobium japonicum usda
bradyrhizobium japonicum strain
usda
usda110
cb1809
3
Insertion (Ins)
conserved domain
conserved central domain
conserved protein domain
dna analysis
dna blot analysis
dna sequence analysis
low line
low fertility line
low fertility droughtmaster line
nodule enzyme
nodule cytoplasmic enzyme
nodule cytoplasmic ureide
synthesizing enzyme
Tableau 1. Exemples de variantes d’expansion
Substitution de modifieur (Sub-m)
alfalfa root hair
curled root hair
deformed root hair
lucerne root hair
conventional dna fingerprinting
complex dna fingerprinting
characteristic dna fingerprinting
Substitution de centre (Sub-c)
nodule development regulation
nodule development arrest
nodule development consequence
infection thread development
infection thread formation
infection thread initiation
Tableau 2. Exemples de variantes de substitution
• L’axe grammatical
Il permet de faire une distinction entre les variations affectant les éléments modifieurs dans un
terme (Exp-g, Ins, Sub-m) de celles affectant l’élément centre (Exp-d, Exp-gd, Sub-c). En effet,
ces deux types n’ont pas la même signification vis-à-vis de l’objectif de la classification, à savoir la
recherche des tendances thématiques. Les relations de variations affectant les éléments modifieurs
sont secondaires à l’objectif de la classification. Elles permettent de former des paradigmes de
termes ayant le même mot centre (concept), par exemple "deformed root hair, curled root hair,
lucerne root hair,… " Inversement les relations de variation affectant l’élément centre sont de
première importance pour l’objectif de la classification : elles affectent le concept élémentaire dans
un terme et permettent donc de suivre le déplacement des thématiques, par exemple "nodule
development regulation, nodule development arrest, nodule development consequence". Avant
l’étape de classification, un partage des relations en deux catégories est opéré en fonction de
l’importance que l’utilisateur leur accorde. Cela permet de disposer d’une première catégorie de
relations, notée COMP qui sert à former les composantes connexes (ici les relations affectant les
éléments modifieurs) et d’une deuxième catégorie notée CLAS qui sert à former des classes à
partir des composantes connexes (les relations affectant l’élément centre dans un terme). Les
relations de CLAS permettront de d’agglomérer les paradigmes (concepts) associés. Ce partage
des relations est le seul paramètre nécessaire à l’algorithme de classification (voir §2.1 infra).
4
• L’axe formel
Le deuxième axe qui caractérise nos relations de variations est celui de la modification ou non de
la longueur d’un terme. Les variations qui impliquent l’ajout de nouveaux mots dans un terme
existant génèrent, sur le plan formel, une relation antisymétrique entre les deux termes. Il s’agit
des relations de variation regroupées sous le nom d’expansion. Ainsi, on notera nitrogen fixation
π nitrogen fixation gene. A l’inverse les variations qui n’impliquent pas une modification de
longueur génèrent une relation symétrique entre les variantes. Ainsi alfalfa root hair σ lucerne
root hair. Il s’agit des relations de variation regroupées sous le nom de substitution.
Cet ensemble de relations est représenté sous forme d’un graphe VAR dont les sommets sont les
termes et les arêtes les différentes relations de variation. Les arêtes orientées correspondent aux
relations antisymétriques. Les relations symétriques entre termes de même longueur, avec
changement de mots à la même position génèrent des sous-graphes complets (voir figure 1 ciaprès). De ce fait, les arêtes issues des relations symétriques sont sur-représentées dans le graphe
par rapport aux arêtes antisymétriques (voir figure 2).
• Coefficient de différenciation d’arêtes
Afin d’atténuer cet effet de sur-génération d’arêtes symétriques qui pourrait noyer l’information
apportée par les relations antisymétriques, nous avons défini un coefficient de différenciation
d’arêtes qui affecte une valeur par défaut à la catégorie d’arêtes minoritaires (ici les
antisymétriques). Cette valeur est habituellement normalisée à 1. La valeur des arêtes majoritaires
est tout simplement le ratio des arêtes minoritaires vis-à-vis des arêtes majoritaires : Exp/Sub où
Exp est nombre d’arêtes antisymétriques dans le graphe et Sub, le nombre d’arêtes symétriques.
Sc
dna fingerprinting
dna clone
dna analysis
dna fragment
dna polymerase
dna polymorphism
dna sequence
dna homology
Figure 1. Graphe complet engendré par la relation Sub-c avec dna en position de modifieur.
nitrogen fixation gene activation
nitrogen fixation gene
nitrogen fixation gene expression
nitrogen fixation gene expression trigger
nitrogen fixation gene regulation
nitrogen fixation
nitrogen fixation analysis
nitrogen fixation research
Figure 2. Sous-graphe obtenu par la relation Exp-d avec nitrogen fixation en position modifieur.
Pour une description formelle du corpus des termes ainsi que des relations de variation, nous
renvoyons le lecteur à [Ibekwe-SanJuan & SanJuan, 1999].
5
2. La méthode de Classification par lien préférentiel (CPCL)
2.1 L’algorithme de classification
Il comporte deux étapes distinctes : la recherche des composantes connexes à partir d’un sousensemble de relations et l’agglomération des composantes en classes à partir d’un deuxième sousensemble de relations. Nous avons déjà justifié l’intérêt de faire ce partage en deux catégories de
relations (§1.3 : axe grammatical). Il s’agit à ce stade pour l’utilisateur d’indiquer aux
programmes les deux sous-ensembles de relations ainsi que leur rôle respectif.
• Etape 1. Recherche des composantes connexes avec les relations de COMP
Cette première étape est une application des algorithmes usuels de recherche de composantes
connexes. Partant du sous-ensemble COMP de relations (Exp-g, Ins, Sub-m), l’algorithme va
générer des composantes connexes du graphe initial VAR, qui sont des ensembles maximaux de
sommets tels qu’entre deux sommets, il existe un chemin dans COMP permettant de les relier.
Cette étape ne fait pas intervenir le coefficient de différenciation d’arêtes défini précédemment. La
taille des composantes obtenues est très variable. Elle dépend de l’importance de chaque
paradigme dans le corpus. Dans notre corpus, la taille des composantes variait entre 2 et 69
termes.
aerated culture
agitated culture
agitated liquid culture
agitated culture of rhizobium strain anu289
arabidopsis tissue culture
cell culture
cell suspension culture
legume cell suspension culture
shaken liquid culture
tissue culture of soyabean
stationary liquid culture
tissue culture
Figure 3. Composante formée autour du mot centre "culture".
• Etape 2. Agglomération des composantes connexes en classes avec les relations de CLAS
Les composantes connexes générées à l’étape précédente seront agglomérées en classes à l’aide
des relations dans CLAS (Exp-d, Exp-gd, Sub-c). Le principe de l’agglomération est le suivant :
deux composantes sont agglomérées si la valeur du lien qui les unit est plus fort que la valeur du
lien qui unit l’une d’entre elles à tout autre composante. La valeur de ce lien entre deux
composantes est déterminée par le nombre et le type des relations transversales dans CLAS. Les
ensembles ainsi obtenus sont appelés classes. A chaque itération, l’algorithme va rechercher une
composante à l’extérieur d’une classe qui partage le lien le plus fort avec une composante de cette
classe. La procédure est réitérée autant de fois que l’utilisateur le désire ou jusqu’à ce que la
partition du graphe initial aboutisse à la fermeture transitive de celui-ci. Cette deuxième étape de
notre algorithme de classification peut être comparée à la méthode de classification ascendante
hiérarchique par saut minimal. Cependant, la méthode CPCL n’emploie pas de mesure de distance
(chi-2, variance, etc.). Elle peut en outre disposer de plusieurs points de départ, à savoir que des
couples de composantes différents peuvent être agglomérées. Ainsi l’image obtenue n’est pas
celle d’un arbre à racine unique (voir figure 3 ci-après). La classification est effectuée non pas sur
les unités atomiques (ici les termes) mais sur des groupes de termes (ici les composantes
connexes). On peut représenter le fonctionnement de cet algorithme sous la forme du dendro-
6
gramme suivant.
Sn
S3
C3
S2
C12
C3
S1
c1
C3
C2
C1
c2
c3
c4
c5
c6
c7
c8
C4
c9
c10
c11 c12
Figure 3. Dendrogramme illustrant la procédure d’agglomération des composantes connexes
Dans la figure ci-dessus, c1,...,cn représente les composantes connexes, S1-Sn les itérations
successives de l’algorithme. A la première exécution, quatre classes sont formées : C1 (c1, c2);
C2 (c3, c4) ; C3 (c7, c8, c9); C4 (c11, c12). A S2 itération, les deux classes C1 et C2 se
fusionnent, on la notera C12. La composante c6 intègre la classe C3, la classe C4 reste stable. Elle
n’est liée à aucune autre composante ou classe. A S3 itération, la composante c5 intègre la classe
C3. Les partitions du graphe sont alors stables. La composante c10 reste isolée.
Plus formellement, notre algorithme de classification peut être décrit ainsi:
Soit G(V,E) un graphe (i.e. un ensemble V non vide de sommets et une collection E de
paires de sommets dans V appelées arêtes), soit {COMP, CLAS} une partition (les
couleurs) de E et soit p une fonction de E dans un ensemble fini de rationnels.
De ce graphe nous dérivons un autre graphe dG(dV, dE) tel que : dV est l’ensemble de
toutes les composantes connexes de G(V, COMP) et dE est l’ensemble de paires de
composantes {X, Y} pour lesquelles il existe une arête {x,y} dans CLAS avec x dans X et y
dans Y. Nous définissons aussi une fonction dp sur dE par :
dp(X,Y) = Σ{p({x,y}): {x,y}∈CLAS, x∈X, y∈Y}
Nous appelons classe toute partie C de dV qui ait au moins deux éléments et telle que pour
tout X dans C on ait max{dp(X,Y) : Y dans C} > max{dp(X,Y) : Y non dans C}. Nous
appelons classification toute partition de dV en classes et en singletons, et nous appelons
suite complète de classifications une suite minimale ordonnée par inclusion de
classifications S1, ... , Sn telle que S1 soit l’identité sur dV, Sn soit la fermeture transitive
de dG(dV, dE), et pour toute classe C de dV il existe une partition Si contenant C parmi ses
classes.
2.2 Protocole d’interprétation : les propriété des classes
Les classes obtenues par la méthode CPCL sont caractérisées à l’aide de cinq propriétés : taille,
centralité, étiquette, indices de variation (interne et externe) et indice de transformation.
Les deux premières propriétés permettent d’appréhender l’importance d’un thème (représenté par
une classe) dans le corpus.
1. Taille : Une des spécificités de la méthode CPCL est qu'elle n'impose pas de taille maximale
aux classes. Elle évite ainsi l'écueil d'une coupure artificielle des classes. De ce fait, les classes
que nous obtenons sont de tailles très variables, ce qui préfigure l’importance d’un thème dans
le corpus.
7
2. Centralité : Cette notion a ici la même acceptation que dans la méthode des mots-associés
[Callon et al. 1991]. La centralité donne une indication de la position d’une classe vis-à-vis des
autres classes. Elle reflète l’organisation des thèmes du corpus et permet de désigner comme
thèmes centraux, les classes ayant une valeur élevée de liens externes et comme thèmes
périphérique ou isolés, les classes à valeur faible (ou nulle) de liens externes. Nous considérons
comme centrales les classes ayant au moins trois liens externes.
3. Etiquette : Elle permet une première prise de conscience grossière du contenu d’une classe.
Pour ce faire, nous indexons les classes par des segments répétés. Ce sont des suites de mots
adjacents et peu fréquents dans une classe. L'idée est de choisir les unités peu fréquentes dans
la classe par opposition aux unités trop courantes. Les segments peu fréquents reflètent ce qui
est spécifique dans la classe par opposition à ce qui est générique. Ils sont plus intéressants du
point de vue de la surveillance des tendances thématiques. A cette fin, un indice a été élaboré,
appelé Segment frequency index (SF), il permet de sélectionner de tels segments répétés. Il est
défini comme suit :
1
SFij =
fij x cfi
où
SFij est la spécificité du segment i dans la classe j
fij est la fréquence du segment i dans la classe j
cfi est le nombre de classes contenant i
En considérant l'inverse de chaque paramètre : fréquence d'un segment dans une classe et le
nombre de classes dans lesquelles il apparaît, on pénalise des segments fréquents dans une classe
et qui apparaissent dans beaucoup de classes. Inversement, on privilégie les segments de faible
fréquence apparaissant dans une seule classe.
4. Les classes sont ensuite caractérisées par leurs activités de variation interne et externe.
• L'indice de variation interne, Intj donne une indication de la force d'activité interne
de variation à l’intérieur d'une classe. C'est le rapport entre la somme des liens de variations dans
une classe et le nombre total de termes dans la classe. Il est formulé ainsi :
Rj
Intj =
Tj
où Intj = indice de variation interne de la classe j
Rj est la somme des liens de variation interne à j
Tj est le nombre total de termes dans j
Plus Intj est élevé, plus la classe connaît une forte activité de variation. Moins Intj est élevé, moins
est importante l'activité de variation dans cette classe. Il pourrait s'agir d'une thématique
consolidée et plutôt stable (statique) du point de vue interne.
• L'indice de variation externe, Extj indique le degré d’activité de variation entre une classe et
les autres classes. Il peut conforter l’information donnée par la centralité. Il est formulé ainsi :
Ext i =
T -i
Ti
x
T+i
T
où Extj est l'indice de variation externe de la classe j
T i est le nombre de termes de la classe i en relation avec des termes à l'extérieur de celle-ci
8
Ti est le nombre total de termes dans la classe i
+
T i est le nombre de termes à l'extérieur de la classe i en relation avec un terme dans celle-ci.
T est le nombre total des termes considérés.
Un Extj élevé désignerait souvent des classes centrales participant à la structuration des autres
thématiques du domaine du point de vue terminologique et donc conceptuel. Il s'agirait de
thématiques solidement ancrées dans le réseau des thématiques constitué. Un Extj faible
désignerait des classes qui représentent des thématiques périphériques ou des classes qui bien que
centrales dispersent leurs liens (liens de faible intensité). Une valeur faible de Extj peut aussi être
une conséquence de la constitution du corpus, à savoir que les termes considérés ne constituaient
pas le sujet central de la recherche documentaire. Une classe ayant un Intj et un Extj élevés peut
désigner une thématique à la fois structurée (plutôt stable) et centrale.
5. Indice de transformation
Il mesure le degré de transformation d’une classe sur deux périodes différentes. Il sert à suivre
l’évolution des thématiques dans le temps. Il est calculé par couple de périodes et s’appuie sur
deux paramètres : le nombre de termes communs et l’intensité des relations de variations entre
deux classes de deux périodes différentes. Cet indice sera d’autant plus élevé que deux classes i et
j à deux périodes différentes Pi et Pi+1 ne possèdent pas de terme commun mais partagent
beaucoup de liens de variations. Il est formulé ainsi :
Vij
TRANSij =
N2ij + 1
où
TRANSij est l’indice de transformation de la classe i vers la classe j
Vij est la somme des liens de variation entre la classe i et la classe j
Nij est le nombre de termes communs entre la classe i et la classe j
Remarquez que si Nij = 0, alors TRANSi est équivalent à Vij
si Vij = 0, alors TRANSi = 0
Avec ces notations, le degré de transformation TRANSi de la classe i pour les périodes Pk et Pk+1
est la moyenne des degrés de transformations TRANSij par rapport aux classes j de Pk+1
auxquelles i est liées.
3. Application à un corpus de textes scientifique
Cette section illustre l’application de la méthode CPCL au corpus de textes scientifiques en
anglais présenté en §1. Nous nous attacherons ici à l’aspect évolutif de la recherche des tendances
thématiques. Pour ce faire, nous avons fait une partition du corpus de termes variants en périodes.
Pour une étude globale sur l’ensemble du corpus, nous renvoyons le lecteur à Ibekwe-SanJuan
1997 ou 1998(a).
3.1 Analyse chronologique des tendances
Cette analyse a pour but de déterminer l’influence de la variable chronologique sur l’évolution des
thèmes. Nous avons extrait 3159 termes de notre corpus. Une partition du corpus en p périodes a
été effectuée avec pour souci d’obtenir un nombre comparable de termes pour chaque période. Ce
qui a donné les trois périodes : P1 (1981-87), P2 (1988-90) et P3 (1991-93). Chaque période
contient environ 1150 termes.
9
Les sous-ensembles de relations servant à former des composantes connexes (COMP) et à
agglomérer les composantes connexes en classes (CLAS) demeurent inchangés (cf. §2.1). Nous
considérons les classes obtenues après deux itérations (niveau 2 du dendrogramme). Le réseau
des classes est en effet suffisamment condensé, et donc lisible dès ce niveau. Ces informations
sont résumées dans le tableau 3 ci-dessous.
Nb. composantes
Nb. classes
Nb. termes inclus
P1 (81-87)
117
12
527
P2 (88-90) P3 (91-93)
129
85
10
11
523
363
Tableau 3. Composantes, classes et termes obtenus pour chaque période à S2 classifications.
Dans ce qui suit, nous décrivons le réseau de thématiques associées obtenu pour chaque période.
Les classes de chaque période seront examinées au regard des propriétés décrites précédemment,
à savoir la taille, la centralité et les indices de variation. Une classe sera identifiée par sa période,
notée Pi et par un numéro séquentiel. Ainsi la première classe de la période P1 sera notée "P1-1".
• Période P1 (1981-87). Réseau R1 de thématiques associées
Le tableau ci-dessous dresse une première vue des classes obtenues pour cette période. Il indique
pour chaque classe, son numéro, le nombre de composantes qu’elle contient (noté comp.), la
centralité, le nombre de termes et enfin quelques unes des étiquettes retenues pour cette classe.
Classe
P1-1
P1-2
P1-3
P1-4
P1-5
P1-6
P1-7
P1-8
P1-9
P1-10
P1-11
P1-12
Comp. Termes Centralité
Etiquettes
5
47
10 (3.5) nifa gene, nodd3 mutant, tn5 mutant, rhizobium
meliloti characterization, symbiotic mutant,
nitrogenase gene
3
9
0 (0)
fertility droughtmaster line foundation cow, high
fertility droughtmaster line, pregnancy rate,
fertility line
2
4
1 (0.1) japonicum strain cb1809, bradyrhizobium
japonicum
2
17
3 (2)
alfalfa nodulation
2
5
0 (0)
dna sequence, sequence analysis
7
36
3 (1.5) nodule formation, infection thread, root hair
curling, nodule type, effective alfalfa
4
13
0 (0)
k. pneumoniae, symbiotic nitrogen fixation,
pneumoniae nifb gene
7
32
2 (0.3) m. atropurpureum, glutamine synthetase activity,
nitrogenase activity derepression
3
18
1 (0.1) parasponia rhizobium strain anu289
2
4
0 (0)
bragg nodule, cv. bragg
2
10
2 (0.2) plant host genetic, plant host, nodulation plant
2
6
1 (0.1) tumefacien
Tableau 4. Les classes obtenues pour la période P1 (1981 - 87)
La colonne "centralité" donne le nombre de liens externes ainsi que l’intensité de ces liens (chiffre
entre parenthèses).
Les classes les plus importantes par leur taille sont P1-1, P1-6 et P1-8. Trois classes sont
centrales : P1-1, P1-6 et P1-4. La classe la plus centrale, P1-1 réunit des thèmes centraux : "gene,
rhizobium meliloti, mutant,...". Bien que cette classe possède 10 liens vers d’autres classe, ils sont
de faible intensité. Cette idée apparaîtra plus nettement dans la représentation graphique des liens
externes (voir figure 4 ci-après). Le tableau 5 ci-dessous donne les indices de variation interne
(Intj) et externe (Extj) des classes de cette période.
10
Les indices de variation externe sont globalement très faibles car les liens les plus forts sont
concentrés à l’intérieur des classes (Intj). Les premières classes par l'indice de variation interne
sont celles catégorisées "périphériques" (P1-9, P1-7, P1-2). Il s’agirait des thématiques se
structurant du point de vue interne mais isolées des autres classes du réseau.
Indices de variation interne et externe
Classe
Intj
Extj
P1-9
1,15
0,02
P1-7
1,05
0,00
P1-2
0,92
0,00
P1-1
0,89
0,14
P1-8
0,83
0,08
P1-6
0,79
0,11
P1-4
0,64
0,12
P1-3
0,55
0,02
P1-11
0,48
0,03
P1-12
0,40
0,01
P1-10
0,30
0,00
P1-5
0,28
0,00
Tableau 5. Indices de variation interne (Intj) et externe (Extj) pour la période P1 (81-87).
Nulle surprise à ce que les trois classes centrales (P1-1, P1-4, P1-6) aient les indices de variation
externe les plus élevés. Ce sont des classes qui structurent le réseau obtenu pour cette période.
Deux des classes isolées par l’indice de variation externe figurent en tête de la liste par l’indice de
variation interne (P1-7, P1-2). Il s’agirait de thématiques bien consolidées du point de vue interne
mais en marge du réseau des thématiques associées. Les classes P1-5 et P1-10 sont à la fois
faiblement structurées et isolées du réseau. Ceci apparaît nettement dans la figure 4 ci-dessous.
Seuls les termes à l’origine des relations de variation sont affichés dans chaque classe.
P1-8
P1-3
P1-9
nitrogenase activity
rhizobium japonicum
nodule activity
P1-5
dna sequence
sequence analysis
0,1
0,1
rhizobium strain
0,1
0,2
P1-12
P1-6
nodule formation
nodule type
P1-1
nitrogenase gene
1
wild-type
0,1
tn5 mutation
rhizobium meliloti
tn5 cluster
wild-type r. meliloti
P1-11
common nodulation gene
nif gene
nodulation gene
symbiotic mutant
symbiotic cluster
alfalfa nodule
alfalfa root
effective nodule
0,1
nodulation plant
0,1
0,3
P1-7
k. pneumoniae
symbiotic nitrogen fixation
pneumoniae nifb gene
P1-2
1,6
P1-4
common nodulation
nif phenotype
nodulation phenotype
effective phenotype symbiotic nodulation
symbiotic phenotype
alfalfa nodulation
fertility droughtmaster line foundation cow
high fertility droughtmaster line
pregnancy rate
fertility line
low fertility droughtmaster line
Légende
lien >= 1
lien < 1
classes isolées
P1-10
bragg nodule
cv. bragg
Figure 4. Réseau R1 de thématiques associées. Période P1 (1981-87).
La Figure 4 confirme le rôle fédérateur joué par la classe P1-1, formée autour des thèmes de
"gene", de "rhizobium meliloti", de "mutant"... On peut dire qu’il s’agissait d’une classe au coeur
11
des problèmes de recherche de cette période. Les liens sont de type “ centre unique vers
périphérie ”.
Le tableau ci-après donne le détail des classes obtenues pour cette période.
Classe
P2-1
Comp.
Termes
Centralité
0 (0)
2
5
P2-2
P2-3
P2-4
P2-5
2
3
4
2
7
7
16
33
1 (0.1)
2 (0.6)
0 (0)
5 (0.9)
P2-6
2
23
3 (0.7)
P2-7
P2-8
P2-9
P2-10
2
3
2
4
4
10
5
12
1 (0.1)
2 (0.6)
1 (0.2)
1 (0.2)
Libellés
b. japonicum, bradyrhizobium japonicum strain usda,
japonicum strain usda110
nucleotide sequence, sequence analysis
root hair curling, hair deformation
soyabean cv. bragg, bragg nodule, bragg plant
nitrate metabolism, regulatory gene, avirulence gene, nif
gene, gene regulation
nodulating soybean mutant, soyabean mutant,
supernodulating mutant
constitutive nitrate reductase activity regulation
biological root
cell division
r. meliloti culture, free living microaerobic, nifh promoter
Tableau 6. Détail des classes obtenues pour la période P2 (88-90).
Nulle surprise à ce que P2-5 et P2-6 soient les classes les plus centrales. Ces deux classes étaient
réunies en une seule lors de la première période (P1-1) et elles formaient déjà la classe la plus
centrale. Ceci confirme le fait que sur une période assez longue (1981-90), la thématqiue de gene
est restée au coeur des problèmes de recherche dans le domaine de la biotechnologie végétale. La
thématique de mutant qui avait été associé à gene au cours de la première période apparaît
désormais dans une classe à part (classe P2-6). Ces classes (P2-5, P2-6) seront sans doute liées
comme le montrera le diagramme des liens externes (voir Figure 5 ci-après).
Il est à remarquer que la classe P2-10 qui correspond au thème de rhizobium meliloti, jadis lié à
celui de gene dans la première période (P1-1), apparaît ici comme périphérique. En effet, pour
cette deuxième période (88-90), les termes qui expriment cette thématique sont peu en relation de
variation avec ceux utilisés pour exprimer la thématique de gene dans la classe P2-5. La classe
P2-1 est isolée alors qu’elle était périphérique dans la première période (classe P1-3). De même
les classes P2-2 et P1-5 demeurent périphériques dans les deux périodes P1 et P2. Leurs
étiquettes laissent supposer qu’il s’agit de thématiques très proches (dna sequence, sequence
analysis pour P1-5 et nucleotide sequence, sequence analysis pour P2-2).
Le tableau ci-dessous donne les indices de variation interne et externe.
Classe
Intj
Extj
P2-3
1,04
0,04
P2-7
0,78
0,01
P2-5
0,76
0,24
P2-10
0,73
0,02
P2-8
0,73
0,04
P2-4
0,69
0,03
P2-1
0,66
0,00
P2-6
0,66
0,13
P2-9
0,44
0,02
P2-2
0,37
0,06
12
La classe P2-5 qui est la plus centrale pour cette période est également bien structurée du point de
vue interne (Intj). Les classes en tête de l’indice de variation interne ont par contre des indices de
variation externe faibles (peu de liens externes). La figure 5 permet d’appréhender l’organisation
spatiale du réseau des thématiques durant cette deuxième période.
P2-2
P2-5
P2-9
plant cell
bacterial cell
0,1
plant gene
bacterial gene
0,2
genetic analysis
bacterial nitrate metabolism
genetic regulation
0,1
nif gene
nif regulation
P2-7
P2-4
soyabean cv. bragg
bragg nodule
bragg plant
P2-10
0,2
nif promoter
bacterial nitrate reductase
P2-1
nts gene
nod gene
nodh gene
b. japonicum
bradyrhizobium japonicum strain usda
japonicum strain usda110
P2-8
0,3
root extract
root exudate
P2-6
nts mutant
nod mutant
nodh mutant
0,2
0,4
root nodulation
P2-3
0,2
root hair
root deformation
La thématique de gene continue à jouer un rôle fédérateur (classe P2-5) comme ce fut le cas en
période P1 (classe P1-1). Nous avons toujours un centre unique mais un sous-réseau se dégage de
ce réseau global, celui formé des liens entre les classes P2-6, P2-8 et P3-3. Ce sous-réseau traduit
probablement l’entrée de nouveaux problèmes de recherche autour de gene : celle des propriétés
"nts, nodh, nod" partagées avec "mutant". La classe P1-5 isolée en P1 apparaît ici comme
périphérique (P2-2). La classe P2-4 reste isolée comme elle l’était en période P1 (P1-10).
Classe
P3-1
P3-2
P3-3
P3-4
P3-5
P3-6
P3-7
P3-8
Comp. Termes Centralité
2
4
0 (0)
2
8
0 (0)
2
5
0 (0)
3
8
0 (0)
3
19
2 (0.3)
2
5
1 (0.2)
2
12
3 (0.3)
3
39
2 (0.6)
P3-9
4
26
2 (0.6)
P3-10
P3-11
4
5
17
20
1 (0.2)
1 (0.1)
Etiquettes
ga1 3 genome
lox1 mrna, mrna level
glycine max
root tip, m. sativa, lateral root
linkage analysis, blot analysis, sequence information
pa 132, rflp marker
cv. bragg
pseudomonas syringae pv tomato strain, avirulent
pseudomonas syringae, nodulation gene
non nodulating, supernodulating soybean mutant, non
nodulation phenotype, supernodulating mutant
dna amplification, total s., uberis dna
meliloti nodd, nifa inactivation, r. meliloti, meliloti nodd
gene, higher plant, host plant
Tableau 8. Détail des classes obtenues pour la période P3 : 91-93.
A cette période, une seule classe apparaît comme centrale (P3-7). Son contenu tend à montrer
qu’il s’agissait d’une classe isolée au cours des périodes précédentes (P1-10, P2-4). Elle s’est
13
donc intégrée au coeur d’un réseau de thèmes de recherche durant la dernière période. La
thématique de gene qui apparaît d’ailleurs dans deux classes (P3-8 et P3-11) n’est plus centrale
ici. Il est à remarquer que cette thématique est la plus importante par sa taille pour les trois
périodes. Le tableau ci-dessous nous donne les indices de variation interne et externe pour les
classes de cette période.
Classe
Intj
Extj
P3-1
1,00
0,01
P3-3
0,82
0,01
P3-6
0,80
0,01
P3-9
0,70
0,06
P3-10
0,70
0,03
P3-8
0,68
0,11
P3-11
0,65
0,01
P3-4
0,55
0,01
P3-5
0,55
0,08
P3-7
0,55
0,02
P3-2
0,36
0,00
La figure 6 ci-après donne la vision externe du réseau formé par les classes de cette période.
P3-7
0,1
mature nodule
P3-8
0,1
younger region
P3-3a
P3-11
mature plant
glycine max
younger nodule
spontaneous nodule
0,1
nodh gene
P3-4
P3-9
nodh strain
0,2
spontaneous nodulation
nodulation gene
0,1
arabidopsis gene
arabidopsis thaliana
root tip
m. sativa
lateral root
nodh mutant
0,2
nodulation phenotype
arabidopsis mutant
P3-1
ga1-1 genome
P3-5
P3-10
0,2
dna analysis
dna sequence
dna fragment
P3-6
0,1
rflp marker
rflp analysis
P3-2
lox1 mrna
mrna level
A travers cette figure, on aperçoit nettement les changements intervenus dans l’organisation des
thèmes de recherche depuis la période P2. Nous n’avons plus un centre unique vers lequel
convergent tous les liens comme ce fut le cas pour les périodes P1 et P2 (Figures 4 et 5 cidessus). Deux sous-réseaux se dégagent de ce réseau global : le réseau formé des liens entre les
classes P3-7, P3-9, P3-11 et P3-8 et celui formé des liens entre les classes P3-5, P3-10 et P3-6.
14
L’évolution de la classe P3-7 vers une position centrale apparaît nettement ici alors qu’elle avait
été isolée jusqu’alors. Le thème de gene n’est plus fédérateur (central) durant cette dernière
période. Dans le sous-réseau formé des classes P3-5, P3-10 et P3-6, on voit apparaître plus
nettement la thématique de dna (dna analysis, dna sequence analysis et dna sequence
information). La classe P3-5 joue un rôle central ici alors qu’elle avait été isolée en période P1
(P1-5) et périphérique en période P2 (P2-2). Parmi les classes périphériques ou isolées, on voit
apparaître des thématiques jusqu’alors absentes : mrna level (P3-2), glycine max (P3-3) ou
encore ga1-3 genome (P3-1) qui possède l’Intj le plus élevé, signe d’une forte cohésion interne.
3.2 Transformations des réseaux de thématiques
Cette section a pour but de mesurer le degré de transformation subi par les thèmes des trois
réseaux. Pour ce faire, nous ferons appel à l’indice de transformation, défini dans la section §2.2.
• L’indice de transformation des classes. Périodes P1, P2 et P3
Comme défini précédemment, cet indice mesure le degré de transformation d’une classe d’une
période à une autre. Le tableau 10 ci-dessous montre l’indice de transformation (Transi) des
classes de P1 à la période P2, le tableau 11 celui des classes de P1 à la période P3 et enfin le
tableau 12 l’indice de transformation des classes de P2 à la période P3.
P1
P1-10
P1-11
P1-12
P1-1
P1-1
P1-1
P1-2
P1-3
P1-4
P1-5
P1-6
P1-6
P1-6
P1-7
P1-8
P1-8
P1-9
Transformation des classes de P1 à la période P2 (88-90)
P2
Nij
Vij
Classes de P1 Transi Moyenne
P2-4
P2-4
P2-5
P2-6
P2-10
P2-1
P2-6
P2-2
P2-4
P2-3
P2-8
P2-4
P2-7
P2-10
1
1
4
2
3
1
1
0
0
2
0
1
0
0
6,15
1,6
17
8,4
11,02
3,3
0,5
4,6
0,6
8,8
1,2
9,8
0,1
0,1
P1-10
P1-11
P1-12
P1-1
P1-1
P1-1
P1-2
P1-3
P1-4
P1-5
P1-6
P1-6
P1-6
P1-7
P1-8
P1-8
P1-9
3,08
0,45
0
1,00
1,68
1,10
0
1,65
0,25
4,60
0,6
1,75
1,2
0
4,88
0,1
0,1
1,26
1,18
2,49
Tableau 10. Le degré de transformation des classes de P1 à la période P2
Nous avons souligné le fait que l’indice de transformation privilégie les classes partageant
beaucoup de liens de variation mais peu de termes communs. Rappelons que si une classe de
période Pi est liée à plusieurs classes d’une période Pi+1, l’indice retenu est la moyenne des indices
de transformation avec les classes de Pi+1. Ainsi, l’indice de transformation de la classe P1-1 à la
période P2 est la moyenne de ces trois indices de transformation vers les classes de P2 auxquelles
elle est liée, à savoir P2-5, P2-6 et P2-10. Plus une classe disperse ses liens, moins son indice de
transformation sera élevé. En P2, c’est la classe P1-5 qui possède l’indice le plus élevé (4,60).
Nous avons déjà souligné l’évolution remarquable de cette classe en section §3.1. Isolée en P1,
elle s’est intégrée au réseau de thèmes associés en période P2 (P2-2) avant de se placer au coeur
d’une sous-réseau de thèmes associés en période P3 (P3-5). Les classes à Transi nul étaient déjà
15
périphériques ou isolées au départ (voir figure 4). Les liens entre les classes P1-10 et P2-4
deviennent manifestes à travers ce tableau. Il s’agit d’une thématique périphérique au départ mais
qui va se maintenir à travers le temps (Transi 3.08).
P1
P3
Nij
Vij
Classes de P1 Transi
P1-10
P1-11
P1-12
P1-1
P1-1
P1-1
P1-2
P1-3
P1-4
P1-5
P1-5
P1-6
P1-7
P1-8
P1-9
P1-9
P3-7
P3-1
P3-1
P3-11
P3-9
P3-8
P3-9
P3-5
P3-10
P3-4
P3-8
P3-11
1
2
0
2
0
1
4
2
0
1
0
0
3,15
2,4
1
15
3
10,15
2,9
4,1
0,1
0,1
1,8
0,1
P1-10
P1-11
P1-12
P1-1
P1-1
P1-1
P1-2
P1-3
P1-4
P1-5
P1-5
P1-6
P1-7
P1-8
P1-9
P1-9
1,58
0,48
1,00
3,00
3,00
5,08
0
0
0,17
0,82
0,10
0,05
0
0
1,80
0,10
Moyenne
3,69
0,46
0,95
Tableau 11. Le degré de Transformation des classes de P1 à la période P3
Dans le tableau 11, on observe que la classe P1-1 (thématique de gene) continue à connaître une
forte activité de variation au cours de la dernière période comme le témoigne son indice moyen de
transformation élevé (3,69).
P2
P2-10
P2-1
P2-2
P2-3
P2-4
P2-4
P2-5
P2-6
P2-7
P2-8
P2-9
Classes de P2 Transi Moyenne
P3
Nij
Vij
P3-5
P3-4
P3-11
P3-7
P3-8
P3-9
P3-4
-
-
2
0
0
1
3
7
0
-
3,2
0,1
1,8
4,65
7,55
16,4
0,1
-
P2-10
P2-1
P2-2
P2-3
P2-4
P2-4
P2-5
P2-6
P2-7
P2-8
P2-9
0
0
0,64
0,10
1,80
2,33
0,76
0,33
0
0,10
0
2,06
Tableau 12. Le degré de transformation des classes de P2 à la période P3.
La classe P2-4, isolée en P2 (figure 5) a l’indice de transformation le plus élevé en P3. Elle
entretient des liens forts avec les classes P3-7 (par ailleurs centrale) et P3-11.
Les graphiques ci-dessous permettront de rendre plus visible les transformations des thèmes d’une
période à une autre. Quatre types de comportement permettent de décrire ces transformations :
scission, mutation, apparition et disparition.
La trajectoire de la thématique de gene au cours des trois périodes P1, P2 et P3 est marquée
essentiellement par des scissions accompagnées de quelques mutations (voir figure 7).
P1: 1981-87
P2: 1988-90
16
P3: 1991-93
P2-8
biological root
P3-4
root tip
P1-6
nodule formation
P1-10
bragg nodule
P1-8
glutamine synthetase activity
P1-11
plant host genetic
P2-3
root hair curling
P2-4
soyabean cv. bragg
P3-7
cv. bragg
P2-7
constitutive nitrate
reductase activity regulation
P2-10
r. meliloti culture
P3-11
meliloti nodd
P1-1
nifa gene
P3-8
pseudomonas syringae pv tomato strain
P1-9
parasponia rhizobium strain anu289
P2-5
regulatory gene
P1-4
alfalfa nodulation
P3-9
supernodulating soybean mutant
P2-6
nodulating soybean mutant
Figure 7. Transformation des thèmes de 1981-93. Réseau dense.
Le graphique 8 ci-dessous montre d’autres sous-réseaux de thématiques associées dans le temps.
On observe que le thème de agrobacterium tumefacien (P1-12) disparaît en période P2. Il
réapparaîtra en P3 (classe P3-1) avec une nette évolution : il est associé à un nouveau thème, celui
de ga1-3 genome. L’association entre ga1-3 genome et agrobacterium tumefacien exprimait la
problématique de recherche qui consistait à injecter une maladie à une plante pour lui insérer un
gène. Il importe de souligner que cette association n’est apparue qu’en fin de période (91-93) et
que l’analyse des transformations a permis de la détecter. Rappelons également que cette classe
avait l’indice de variation interne le plus élevé (Tableau 9).
P1: 1981-87
P2: 1988-90
17
P3: 1991-93
P2-2
nucleotide sequence
P1-5
dna sequence
P3-5
sequence information
P3-10
dna amplification
P3-1
agrobacterium tumefacien mediated
transformation ga1-3 genome
ga1-3
ga1-3 genome
P1-12
a. tumefacien
agrobacterium tumefacien
P1-3
japonicum strain cb1809
P2-1
bradyrhizobium japonicum strain usda110
P2-9
P1-7
P3-2
P3-3
P1-2
P3-6
Figure 8. Transformation des thèmes de 1981-93. Réseaux épars.
4. Discussion
La méthode CPCL que nous avons développée a permis, sur un corpus d’essai, de retrouver ses
principaux thèmes de recherche et de suivre leurs transformations dans le temps. Il est
remarquable de souligner que ces thèmes ont été identifié à partir d’un sous-ensemble de termes
du corpus (à peu près 50%). Ainsi, l’image des classes que nous avons retenue a permis d’obtenir
des résultats cohérents. Pour cerner l’organisation complète des thèmes du corpus, il est
néanmoins nécessaire d’étudier les liens pouvant exister entre les classes et les composantes nonagglomérées. Ces liens peuvent préfigurer l’évolution future des thèmes.
Du fait qu’elle se fonde sur des relations linguistiques (variations terminologiques) entre des
unités textuelles pertinentes (termes), la méthode CPCL permet de mettre en évidence l’évolution
terminologique dans un domaine donné. Or, la terminologie constitue l’outil essentiel de la
diffusion des recherches scientifiques et techniques. Soulignons néanmoins que la méthode CPCL
ne peut pas mettre ensemble des thèmes qui bien qu’associés du point de vue sémantique,
apparaissent sous des formes lexicales totalement disjointes (termes n’ayant aucune relation de
variation). Cela exclue donc actuellement, l’identification de variantes sémantiques (type
synonymes).
D’un point de vue théorique et technique, la méthode CPCL allie les avantages du modèle de
18
graphe à savoir une représentation plus aisée des relations entre unités textuelles, et ceux de la
technique d’agglomération dite “ classification ascendante hiérarchique ” tout en évitant les
écueils habituels de celle-ci. En effet, il n’est pas nécessaire de fixer a priori, ni la taille des classes
ni leur nombre ou encore d’employer une mesure de distance extérieure aux objets d’étude.
Dans l’avenir, nos efforts de recherche porteront sur l’application de la méthode CPCL à d’autres
corpus afin de tester sa robustesse. Nous travaillerons également à une implantation informatique
optimale des programmes de recherche de variations ainsi que de classification. La recherche
d’outils appropriés de visualisation graphique permettra une meilleure exploitation des résultats
qui pour le moment reste manuelle. Tout ceci devra faciliter la comparaison des résultats obtenus
avec la méthode CPCL à d’autres méthodes visant une application similaire.
Bibliographie
1. Bourigault D. (1994). LEXTER, un Logiciel d'Extraction Terminologique. Application à l'acquisition
des connaissances à partir de textes. Doctorat, Ecoles des Hautes Etudes en Sciences Sociales, Paris,
352p.
2. Callon M., Courtial J-P., Turner W. (1991). La méthode Leximappe : un outil pour l'analyse
stratégique du développement scientifique et technique. In "Gestion de la recherche : nouveaux
problèmes, nouveaux outils", dir. by VINCK Boeck, Bruxelles, 207-277.
3. Daille B. (1994). Study and implementation of combined techniques for automatic extraction of
terminology. The Balancing Act : Combining Symbolic and Statistical Approaches to Language,
Workshop of the 32nd Annual Meeting of the ACL, Las Cruces, New Mexico, USA, 9p.
4. Ibekwe-SanJuan F. (1997). Recherche des tendances thématiques dans les publications scientifiques.
Définition d’une méthodologie fondée sur la linguistique. Doctorat, Université de Grenoble 3, 376p.
5. Ibekwe-SanJuan F. (1998a). Terminological variation, a means of identifying research topics from
texts, Joint International Conference on Computational Linguistics (COLING-ACL’98), Montréal
Québec, 10-14, août 1998, 564-570.
6. Ibekwe-SanJuan F. (1998b). A linguistic and mathematical method for mapping thematic trends from
texts, 13th European Conference on Artificial Intelligence (ECAI’98), Brighton UK, 23-28 août 1998,
170-174.
7. Ibekwe-SanJuan F., SanJuan E. (1999). Analyse formelle de corpus terminologiques. A paraître dans
Troisième rencontre de la Société Francophone de Classification (SFC’99), Nancy, 15-17 sept. 1999,
8p.
8. Jacquemin C. (1995). A symbolic and surgical acquisition of terms through variation,. Workshop
"New approaches to learning for NLP", 14th International Joint Conference on Artificial Intelligence
(IJCAI'95), Montréal, 8p.
9. Katz S.M. Justeson T.S. (1995). Technical terminology : some linguistic properties and an algorithm
for identification in text. Journal of Natural Language Engineering, 1(1), 19p.
10. Lebart L., Salem A. (1994). Statistique textuelle, Ed. Dunod, 342p.

Une nouvelle méthode de recherche des tendances

Transcription

Documents pareils

Lùsine dìncinération est à nouveau à làrrêt PAGE 52 Au musée

immobilier - Santé Chasseurs d`ondes électromagnétiques

Associated document

DNA Script - Réseau Entreprendre Sud Ile-de

Irradiation de molécules d`intérêt biologiques - Pamo

Pourquoi les séries star trek ne durent QUE 7 saisons ?

GENE VINCENT

Article DNA Saverne Détours de cheval

Fontaines à vins et autres crus