Combinaison de descripteurs linguistiques et de structure

Transcription

Combinaison de descripteurs linguistiques et de structure
69
Schedae, 2006
Prépublication n° 9
Fascicule n° 1
Combinaison de descripteurs linguistiques
et de structure pour la fouille
d’articles biomédicaux
Nadia Zerida, Nadine Lucas, Bruno Crémilleux
GREYC (CNRS – UMR 6 072) – Université de Caen Basse-Normandie
[email protected], [email protected], [email protected]
Résumé :
Ce travail propose une combinaison originale de descripteurs linguistiques et de descripteurs de
structure avec une méthode de fouille de données. L’objectif est de montrer l’apport de ces descripteurs prenant en compte la structure des documents pour caractériser trois types de textes
biomédicaux : articles de recherche, articles de synthèse et articles de clinique. La description du
texte est faite à différents niveaux, du global au local. Nous montrons que l’utilisation du plan et
de différents contextes permet de mener à bien la tâche de caractérisation de ces trois classes.
Nous donnons une évaluation quantitative de la caractérisation grâce aux capacités des techniques de fouille de données basées sur les motifs émergents.
Mots-clés : caractérisation, descripteurs linguistiques, descripteurs de plan, fouille de
données.
Abstract :
This work proposes an original combination of linguistic and structural descriptors with one of data
mining methods. The objective is to show the effectiveness of descriptors taking into account the
structure of documents to characterise three kinds of biomedical texts (reviews, research and clinical papers). The description of the text is made at various levels, from the global level to the local
one. The use of the plan and various contexts makes it possible to characterise the three classes.
The characterisation of the textual resources is carried out quantitatively by using the discriminating capacity of techniques of data mining based on emerging patterns.
Keywords : characterisation, linguistic descriptors, plan descriptors, data mining.
Introduction
La confrontation à la masse des documents électroniques textuels biomédicaux est un
grand défi. Ce travail exploite d’une part, un ensemble de descripteurs linguistiques et de
structure, et d’autre part, une méthode efficace de fouille de données pour la caractérisation.
Il est réalisé dans le cadre du projet Bases de données INductives et données GénOmiques,
Nadia Zerida, Nadine Lucas, Bruno Crémilleux
« Combinaison de descripteurs linguistiques et de structure pour la fouille d’articles biomédicaux »
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
70
Bingo 1 qui a entre autres pour but d’extraire des connaissances biomédicales à partir de ressources textuelles pour mieux exploiter les résultats issus de l’extraction de connaissances
de données d’expression de gènes. L’objectif à moyen terme de notre travail est de cibler
le contenu des textes biomédicaux pour pouvoir faire émerger de nouvelles connaissances.
Dans cet article, nous présentons les résultats obtenus lors du processus de fouille de textes
mis en place.
Dans ce travail, nous considérons les propriétés linguistiques et structurelles des documents comme des critères de base. Un savoir de nature linguistique est exploité, à partir de
travaux théoriques tels que (Parsons 1990). On en a dérivé une grammaire du texte, dans une
approche comparable à celle de Kando (1999) ou Karlgren (2005). Nous avons opté pour
l’exploitation de l’article en entier pour pouvoir gérer des espaces d’observation différents,
tels que le corps de texte, les parties, les sections, les paragraphes, les phrases et les virgulots 2, ces unités servent ensuite de fenêtres d’observation multi-échelle. Il ne s’agit pas d’une
simple utilisation de mots clés ou d’une analyse distributionnelle des mots, mais d’une analyse qui met en jeu la notion de contexte à travers la hiérarchie de mise en forme matérielle.
C’est en ce sens que nous cherchons à donner à nos descripteurs une valeur sémantique.
La pertinence des associations entre ces descripteurs est automatiquement extraite par une
technique performante de fouille de données, les motifs émergents (Dong & Li 1999). Nous
montrons que la combinaison d’associations extraites réussit à caractériser les trois principaux types d’articles biomédicaux (synthèse, recherche et clinique). Ces types d’articles sont
les plus utilisés. Les articles intéressant prioritairement les biologistes dans le projet sont les
synthèses. Les expérimentations fournissent une quantification des résultats et montre la
pertinence de l’approche adoptée.
Cet article est organisé de la façon suivante. La section 2 présente les différentes
familles de descripteurs, les grandes lignes de notre approche sont décrites à la section 3
et la méthode de fouille de données utilisée à la section 4. Finalement, les expériences à
la section 5 montrent l’efficacité de cette approche.
Les différentes familles de descripteurs
La fouille de textes de spécialité est un domaine de recherche qui a récemment gagné
l’attention de nombreux chercheurs car il fait appel à des techniques capables de manipuler efficacement un très grand volume de données textuelles. Mais la plupart des travaux
ont pour trait commun l’exploitation des titres et des résumés proposés par PubMed 3 et de
considérer que le texte n’est qu’un simple sac de mots sur lequel on peut appliquer l’une
des techniques de fouille de données classiques faisant référence à des ressources thésaurales telles que MeSH 4 (Hersh et al. 2003, Dayanik et al. 2003). Pour pouvoir extraire de la
nouvelle connaissance, la majorité de ces travaux se sont orientés plutôt vers l’évaluation
des techniques de représentation du mot dans le document (Wilcox & Hripcsak 1995), ou
l’étude de la variation des concepts (Ruch et al. 2003). Sinon, parmi le peu de travaux qui se
sont intéressés naturellement à l’utilisation de la notion de structure et du contenu, quelques uns ont travaillé au niveau des propositions Mesh (Rosario & Hearst 2005), d’autres
1.
2.
3.
4.
http://www.info.unicaen.fr/~bruno/bingo/
Espace ponctué par une virgule.
http://ncbi.nih.gov/entrez/query.fcgi.
Medical Subject Heading.
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
71
sur l’exploitation de la location de l’information et la fréquence des mots dans les phrases
des résumés (Blott 2003, Kayaalp et al. 2003), et plus rarement l’exploitation de l’article en
entier enrichi par des connaissances linguistiques (Ruch et al. 2003).
Dans ce travail, nous formulons l’hypothèse que les différentes catégories d’articles
(recherche, synthèse, clinique) sont susceptibles d’avoir une certaine organisation de l’écrit et
un contenu spécifiques. La construction des descripteurs de plan et de style vise à exploiter
ces spécificités portant sur l’organisation textuelle de l’article. Dans cette section, nous commençons par présenter ces descripteurs. Puis, nous indiquons rapidement les descripteurs
métriques et lexicaux. Ceux-ci nous seront utiles pour comparer l’apport des descripteurs de
plan et de style par rapport à ces deux dernières familles, les descripteurs lexicaux correspondant à une approche classique.
Les descripteurs au niveau global
Un premier jeu de descripteurs concerne l’organisation textuelle de l’article, il s’agit des
descripteurs de plan (cf. tableau 1). L’idée sous-jacente est que chaque article est constitué
d’un ensemble de parties qui sont établies pour jouer chacune une fonction bien déterminée, mais elles sont aussi reliées logiquement entre elles. Cette relation, exprimée par le plan
de l’article, permet de construire une structure logique de ce dernier. Cette constatation nous
a conduit à préserver l’unité globale de l’article de façon à présenter une information structurée logiquement. Ainsi les intitulés des parties constituant le plan ont été utilisés comme
descripteurs au niveau « article ».
Abstract
Introduction
Materials & Methods
Results
Footnotes
References Discussion
Aknowledgments
Conclusion
Keywords
Learn obj
Tableau 1 : Exemples de descripteurs de plan.
Les descripteurs stylistiques multi-échelle
Les études linguistiques (voir par exemple Parsons 1990) sont à la base de cette
deuxième famille de descripteurs. Plusieurs études se sont intéressées aux descripteurs de
texte, la plupart de ces études se basent sur les mots (Ahmed et al. 2005), quelques recherches sur les styles et les relations ont été établies par Karlgren (2005). Ses expérimentations
montrent que selon certains scénarios, une polarisation claire vers certains types ou genres
de textes peut être trouvée. Partant de l’hypothèse que la variation dans le choix lexical
reflète une variation intéressante dans la variation du style global, il a défini deux types de
descripteurs statistiques. Le premier type comprend des statistiques au niveau du mot telles
que le nombre de mots les plus longs, la longueur moyenne des mots, nombre de pronoms
etc. Un deuxième type de descripteurs est établi au niveau de la phrase ; il s’agit entre autres
de la longueur de la phrase, de la moyenne maximale de la profondeur d’un arbre syntaxique d’une phrase, du nombre de skips dans les phrases, d’un indicateur propositionnel tel
que la moyenne de TextTiles 5, le nombre de chaque type pronoms pour prédire le registre 6
du texte, la présence ou absence des contractions ( isn’t, does’nt), liste des adverbes pour
renforcer l’assertion des propositions textuelles, la fréquence relative des verbes modaux
(seem, appear) utilisés en début de texte.
5.
6.
Nombre de segments compris comme subtopic, par Hearst 1997.
Par exemple familier ou soutenu « formal », par Biber 1988.
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
72
À la différence de ces derniers, les descripteurs de style que nous proposons sont établis
pour six niveaux mis en relation avec la mise en forme matérielle. Ils sont définis à travers
des classes définies pour chaque niveau, et qui comprennent non seulement des mots mais
aussi des traits discontinus (notion de portée des marqueurs discursifs). Notre hypothèse est
que chaque type d’article comporte une variation stylistique propre à ce dernier, l’idée fondatrice de ces descripteurs et que l’information pertinente pour l’utilisateur peut se localiser
dans plusieurs fenêtres d’observation. Cette famille de descripteurs s’appuie essentiellement
sur deux notions de base qui sont respectivement : la notion de position et celle de l’héritage
du contexte (Lucas et al. 2003).
Niveau
Descripteurs
<corps>
Temporel : Now, Present, Past, Future, Ever, Current, Often. Superpersonnel : we,
us, I, our, Think, thought, believe, believed, suggest, suggested, that, to, is, are,
as Mode : can, may, should, would
</parties>
Appel : Appels aux références bibliographiques ou aux figures Penser : think,
thought, believ (e|ed), suggest, suggested Voix : is, was, were, are, ed
NegationList : do not, no FuturList : will, would Passé : ed, had, were, might,
could Aspect : do, has, ed Determinants : these, this, those, that, the, a, an
Connecteurs adverbiaux : moreover, thus, therefore, indeed, in fact, ly Anaphore :
this, these, those, that, the, thus Conjonctions : Because, if, whether, how, for this
reason, although, though, as, as well as, as well, due to, however
</section>
Conjonctions : why, because, if, how for this reason, although, though, as well,
due to, however, while, when, which, where Evaluation_Comparaison : even, they,
it is, one, most, some, all, a number, several, few, first, second, third, its, their,
such, only, other, otherwise, same
</paragraphes>
Prepositions : In, At, For, From, to, with, by, of, by contrast, among, within
Adverbiaux : inside, outside, through, after, before, mean, while, despite, Indeed,
in fact, in spite of Evaluation quantifiée : one, most, some, all, a number, several,
few, first, second, third, fourth, fifth, it, they Négation : do not, no Determinants :
this, that, the, a, an Coordination : and, but, also, or, instead, moreover
Ponctuation : … ; : , Adverbes : generally, particularly, specifically, clearly,
obviously, interestingly, accordingly
</phrases>
Coordination : and, but Reflexif : sel (f|ves)
</virgulots>
Passé : ed, ould, ought Forme « ing » : ing Adverbes : ly Forme « s » : s
Determinants : the, a, an Déictique : this, these, those, that, there, thus, therefore,
there is, there are, the other
Tableau 2 : Descripteurs stylistiques (extrait).
Ces descripteurs (cf. tableau 2) peuvent s’organiser implicitement selon une certaine
hiérarchie qui représente le modèle logique du document. La combinaison de descripteurs
de plusieurs niveaux de la hiérarchie permet de multiplier le poids des descripteurs de plus
haut niveau. Ainsi, les mots n’auront pas le même rôle, ni la même importance, suivant leur
place dans le document (titre, résumé, introduction, etc.). Leur importance varie aussi suivant
leur position dans une fenêtre d’observation (partie, paragraphe, section, etc.). Par exemple
parmi les coordinations de phrase, and et but – qui sont fréquents – seront renforcés au niveau
du paragraphe, qui comprend des coordinations comme moreover., qui est plus significatif
lorsqu’il se trouve en début de phrase. Les indicateurs les plus fréquents se retrouvent dans
le niveau le plus fin pour minimiser l’héritage dans le niveau au dessous. La position relative,
en début ou en fin d’une fenêtre change dans la hiérarchie d’une fenêtre à une autre. Pour
tenir compte des inclusions, le début ou la fin d’une fenêtre se traduisent respectivement
par la première (ou la dernière) sous-fenêtre d’une fenêtre donnée, par exemple, le début et
la fin d’un paragraphe sont respectivement la première et la dernière phrase du paragraphe.
Descripteurs métriques
Les descripteurs métriques portent sur la longueur des différentes unités textuelles obtenues lors de la segmentation : la longueur du corps de texte (exprimée en nombre de parties),
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
73
des parties (exprimée en nombre de sections ou de paragraphes), des sections (exprimée
en nombre de paragraphes), des paragraphes (exprimée en nombre de phrases) et des phrases (exprimée en nombre de virgulots). Nous avons également pris comme descripteur la
longueur du titre et des sous titres de l’article (exprimée en nombre de caractères).
Descripteurs lexicaux
Enfin, dans le but de comparer notre travail avec une approche classique, nous avons
utilisé les 47 résumés des articles pour extraire les mots clés caractérisant ces articles. Les
descripteurs lexicaux forment une base de comparaison avec les descripteurs de plan, discursifs et métriques.
Le processus de fouille
Cette expérience est conçue dans le but de comparer les résultats obtenus par les différentes familles de descripteurs. La figure 1 synthétise le processus général de notre approche, il s’agit de comparer des descripteurs linguistiques et de structure versus une simple
approche sac de mots représentée par descripteurs lexicaux.
Figure 1 : Les grandes lignes de l’approche.
La première étape concerne le choix des classes d’articles utilisées, qui tiennent compte
des attentes des biologistes : l’information qui intéresse prioritairement les spécialistes se
trouve dans ces trois classes. La première classe correspond aux articles de synthèse qui
représentent une revue très complète et exhaustive, commençant par l’historique jusqu’aux
connaissances actuelles sur un sujet très précis ; la deuxième classe contient des articles de
recherche qui présentent un travail personnel effectué par rapport à l’état des connaissances
actuelles ; enfin, la classe des articles de clinique qui décrivent une observation particulière
par rapport à sa rareté ou son caractère démonstratif. On a exclu dans cette expérience par
exemple les éditoriaux, qui peuvent contenir des hypothèses non démontrées.
D’autre part, suite à des attentes plus spécifiques de biologistes au sein du projet Bingo,
le sujet des articles est le cancer du cerveau ou de la prostate. Les articles ont été collectés
à partir d’une recherche documentaire classique par mots-clés MeSH sur la base documentaire en ligne PubMed.
La deuxième étape concerne la récupération des résumés du corpus et l’application
des différentes étapes des approches sac de mots, telles que la lemmatisation ( stemming)
et l’élimination des mots vides. Pour chaque article on garde les dix premiers mots les plus
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
74
fréquents (seuil > = 2), pour ce jeu de données, une ligne représente un article et une
colonne représente la présence ou l’absence d’un mot dans l’article.
La troisième étape consiste à segmenter le corpus en unités textuelles telles que le titre,
les sous titres, les parties, les sections, les paragraphes, les phrases et les virgulots en utilisant une méthode de découpage qui s’appuie sur la mise en forme matérielle du HTML, puis
sont extraits les différents descripteurs linguistiques et structuraux de chaque niveau en utilisant des expressions régulières. Un jeu de données par niveau est ainsi obtenu. Schématiquement, pour chaque jeu de données, une ligne peut être vue comme un segment du
texte (exemple : virgulots, phrases etc.) et une colonne code la présence ou l’absence d’un
descripteur pour chaque segment.
La caractérisation des articles est finalement obtenue en utilisant une méthode de fouille
de données, les motifs émergents (cf. section 4).
Des contraintes externes portant sur l’accessibilité des articles de PubMed ont influencé
la taille du corpus. En effet, la majorité des articles en accès libre sont au format PDF, ce qui
rend la tâche de prétraitement très complexe. Dans ce travail, nous nous sommes limités au
format HTML. Le sous-ensemble de textes ainsi obtenu rassemble 47 articles. Nous sommes
conscients que cet échantillon est restreint. Cependant, nous verrons à la section 5 que cette
échantillon va contenir 20 237 unités à explorer.
Fouille de données de motifs contraints
La fouille de données a pour but la découverte d’information nouvelle utile aux utilisateurs. Les méthodes typiques de fouille de données extraient tous les motifs vérifiant certaines
propriétés. Dans ce travail, les motifs sont des associations de descripteurs (e.g., stylistiques,
métriques) présents dans les articles. Du point de vue du processus de fouille, les propriétés
recherchées sont traduites par des contraintes qui expriment ainsi le point de vue de l’utilisateur et on parle de fouille de données sous contraintes (Bayardo 2005). Une contrainte est
une restriction devant être satisfaite par un motif. Considérons par exemple la table 3 qui
est un extrait d’un ensemble de données notée D contenant trois types d’articles (Cc pour
clinique, Cs pour synthèse et Cr pour recherche). Chaque ligne est un article décrit par les titres
des quatre parties Introduction, Material & Methods, Conclusion. Par exemple, « {Introduction,
Material & Methods} » est un motif composé de deux descripteurs qui vérifie la contrainte
« être présent au moins 3 fois dans D », en effet 4 segments contiennent ce motif, il s’agit des
segments 1, 2, 3 et 6. On dit que la fréquence de ce motif est 4. Il est possible d’exprimer
des contraintes très variées, comme le motif possède (ou ne possède pas) un descripteur, le
motif vérifie une certaine longueur, l’aire d’un motif (i.e., le produit de sa longueur par sa
fréquence) dépasse un seuil, etc. Une caractéristique importante de la fouille de données
sous contraintes est qu’on veut obtenir tous les motifs satisfaisant la contrainte. Cette complétude de la réponse à la requête est nécessaire pour obtenir toute l’information des données.
Elle exige des stratégies efficaces de fouille de données afin de ne pas avoir à parcourir tout
l’espace des motifs potentiels.
Dans ce travail, nous cherchons à caractériser des collections de données (i.e., les types
d’articles) les unes par rapport aux autres. Pour cela, nous nous intéressons aux « motifs
émergents ».
Segment
Classe
Items
1
CC
Introduction, Material & Methods
2
CC
Introduction, Material & Methods
3
CS
Introduction, Material & Methods, Conclusion
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
75
4
CS
Introduction, Conclusion
5
CS
Conclusion
6
CR
Introduction, Material & Methods, Conclusion
7
CR
Material & Methods
Tableau 3 : Extrait d’un ensemble de données.
Ces motifs sont des motifs dont la fréquence varie fortement entre deux ou plusieurs
classes (Soulet et al. 2005), une classe correspondant ici à un type d’articles. Soit Di (i : 1..3)
l’ensemble des articles d’un même type. La fréquence F (X, D) d’un motif X dans D est le
nombre d’articles contenant X dans D. Par exemple, F ({Introduction, Material & Methods},
D) = 4. Le concept de motif émergent est relié à la notion de différence de fréquence entre
classes. La quantification du contraste entre une classe i et les autres classes est mesurée
par le taux de croissance (ou « growth rate ») et noté GRi :
GRi (X) = [(|D| – |Di|)/|Di|] × [F (X, Di)/ (F (X, D) – F (X, Di))]
On dit que X est un motif émergent de D\Di dans Di, si GRi (X) > = ρ avec ρ > 1. Par
exemple le motif {Introduction, Material & Methods} est un motif émergent de D\Cc dans
Cc car le GR1 ({Introduction, Material & Methods}) = 2.5
Résultats et discussion
La segmentation des articles en unités textuelles (le corps de texte, les parties, les sections, les paragraphes, les phrases et les virgulots) est une des tâches initiales de notre travail. Il s’agit d’un traitement de surface pour découper le texte en unités que l’on supposera
élémentaires et qui serviront de fenêtres d’observation. En ce qui concerne le corpus utilisé
dans cet article, on obtient 12 246 virgulots, 5 404 phrases, 1 767 paragraphes, 416 sections,
310 parties et 47 corps de texte ainsi que 47 résumés, soit au total 20 237 unités.
Les tableaux 4 et 5 donnent les résultats pour les meilleurs motifs émergents (EP) résultant de l’utilisation des descripteurs lexicaux et métriques. Le processus est effectué trois
fois : on caractérise la classe Clinique par rapport aux Synthèse et Recherche et on donne
le meilleur motif émergent EP1, on caractérise la classe Synthèse par rapport aux Clinique
et Recherche et on donne le motif émergent EP2, et on fait la même chose pour la classe
Recherche et on donne le motif émergent EP3. Pour chaque motif émergent on associe son
GR et sa fréquence relative dans une classe donnée (représentée par la ligne). Par exemple
11,76 % est la fréquence relative de EP3 = {high} dans la classe « articles de recherche ». Ces
tables montrent que les descripteurs lexicaux et métriques sont uniformément distribués dans
les trois classes et le contraste exprimé par le GR est très faible. Ces descripteurs seuls ne
permettent pas de caractériser les trois classes.
Motifs Emergents (ρ = 2)
Classe
GR
Fréquences relatives
Clinique
Synthèse Recherche
Clinique vs. Synthèse et
Recherche
EP1 = {tumor, treat}
2.0588
30,00 %
25,88 %
23,52 %
Synthèse vs. Recherche et
Clinique
EP2 = {combination}
2.0461
13,00 %
15,88 %
16,38 %
2.1025
13,29 %
10,96 %
11,76 %
Recherche vs. Synthèse et EP3 = {high }
Clinique
Tableau 4 : Exemples des meilleurs résultats des descripteurs lexicaux.
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
76
Classe
Motifs Emergents (ρ = 2)
GR
Fréquences relatives
Clinique
Synthèse
Recherche
Clinique vs.
Synthèse
et Recherche
EP1 = {longueur_Titre_Article ∈ [35,195]} 2.000
91,00 %
83,12 %
88,23 %
Synthèse vs.
Recherche
et Clinique
EP2 = {longueur Crps_txt < 6}
Inf.
00,00 %
46,16 %
00,00 %
2.016
78,37 %
100 %
89,05 %
Recherche vs. EP3 = {longueur_Section ∈ ]5,10]}
Synthèse
et Clinique
Tableau 5 : Exemples des meilleurs résultats des descripteurs métriques.
Les tableaux 6 et 7 montrent les résultats en employant les descripteurs de plan et les
descripteurs stylistiques. Le motif {Discussion, Footnotes}{Abstract, Introduction, Material
& Methods} est un des motifs émergents mis en évidence avec les descripteurs de plan : sa
fréquence est 100 % pour les articles de recherche et 88,23 % pour les articles de clinique.
En revanche, il n’est pas présent dans les articles de synthèse. Cela signifie que la présence
de ce motif dans un article exclut qu’il s’agisse d’un article de synthèse. Nous disons alors
que la caractérisation des articles de synthèse est négative (par absence de ce motif dans
un article). Cela signifie que les articles de synthèse sont organisés différemment des articles de recherche et des articles de clinique.
On observe un résultat similaire avec les descripteurs stylistiques. On remarque qu’au
niveau du corps du texte, il existe des motifs émergents présents jusqu’à 82 % dans les articles de recherche et 69 % des articles de synthèse, mais 0 % des cliniques. La caractérisation
des articles de clinique est alors aussi négative. On note également que les résultats sont
conformes avec les résultats des descripteurs de plan, car c’est au niveau des parties que
les articles de synthèse sont discriminés.
Classe
Clinique vs.
Synthèse
et Recherche
Motifs Emergents (ρ = 2)
GR
Fréquences relatives
Clinique
Synthèse
Recherche
EP1 = {Footnotes,
Aknowledgement} {Abstract,
Introduction, Material & Methods,
Results}
2.7451
82,35 %
00,00 %
100 %
Synthèse vs.
Recherche
et Clinique
EP2 = {Conclusion, abstract}
10.4615
05,88 %
61,53 %
05,88 %
Recherche vs.
Synthèse
et Clinique
EP3 = {Discussion, Footnotes}
{Abstract, Introduction,
Material & Methods, Results}
2.0000
88,23 %
00,00 %
100 %
Tableau 6 : Exemples des meilleurs résultats des descripteurs de plan.
Fréquences relatives
Classe
Clinique vs.
Synthèse
et Recherche
Synthèse vs.
Recherche
et Clinique
Recherche vs.
Synthèse
et Clinique
Niveau
Motifs Emergents (ρ = 2)
EP1 = {TEMP_Début,
SUPPERS_Fin}
Corps EP2 = {MOD_Fin,
de
SUPPERS_Fin}
texte
EP3 = {SUPPERS_Début,
SUPPERS_Fin}
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
GR
Clinique
Synthèse Recherche
2.1176
35,29 %
15,38 %
17,64 %
Inf.
00,00 %
53,84 %
00,00 %
2.7451
82,00 %
69,23 %
35,00 %
77
Clinique vs.
Synthèse
et Recherche
Synthèse vs.
Recherche
et Clinique
Parties
EP1 = {CONADV_D, CONJ_D,
APPEL_F, TEMP_H}{APPEL_D,
VOIX_D, PAS_D, ASP_D,
DET_D, NAPH_D, VOIX_F,
PAS_F, ASP_F, DET_F,
ANAPH_F, SUPPERS_H}
4.45113
41,18 %
00,00 %
35,29 %
EP2 = {NEG_D,
DET_F}{DET_D, ANAPH_D,
SUPPERS_D}
3.01852
47,06 %
69,23 %
29,41 %
NEANT
NEANT
NEANT
NEANT
22.5904
17,65 %
07,69 %
00,00 %
14.0959
05,88 %
15,38 %
00,00 %
2.06569
17,65 %
00,00 %
23,53 %
Recherche vs.
Synthèse
et Clinique
NEANT
Clinique vs.
Synthèse
et Recherche
EP1 = {CONJ_D, NEG_P,
MOD_C} {VOIX_P, PAS_P,
ASP_P, CONJADV_P,
ANAPH_P, CONJ_P,
SUPPERS_C}
Synthèse vs.
Recherche
et Clinique
EP2 = {EVAL_COMP_F, NEG_P,
FUT_P}{VOIX_P, PAS_P, ASP_P,
Sections
DET_P, CONJADV_P,
ANAPH_P, CONJ_P,
SUPPERS_P}
Recherche vs.
Synthèse
et Clinique
EP3 = {TEMP_C,
MOD_C}{VOIX_P, PAS_P,
ASP_P, DET_P, ANAPH_P,
SUPPERS_C}
Tableau 7 : Exemples des meilleurs résultats des descripteurs stylistiques
Cette expérience montre que notre méthode basée sur les descripteurs stylistiques et les
descripteurs de plan combinée avec les motifs émergents discrimine bien les trois classes
en employant la caractérisation négative. Avec des règles de type X = > non (classei), c’està-dire que la présence du motif X exclut la classe i.
Le pré-traitement nécessaire pour les descripteurs stylistiques suppose une annotation
différenciée a priori de tous les niveaux d’un article. Toutefois, ce travail montre que pour
caractériser des classes d’articles, il suffit de segmenter les articles jusqu’au niveau des sections et d’annoter les parties et les sections. Pour d’autres corpus, l’annotation pourra s’arrêter
aux sections et le traitement sera ainsi plus léger.
Conclusion
Le présent travail montre l’existence d’une différence significative dans l’organisation
de l’écrit et dans le style des articles biomédicaux. Ce résultat est obtenu grâce à l’utilisation
de descripteurs linguistiques et de structure à partir desquels les associations sont extraites
automatiquement par des outils de fouille de données. Les descripteurs métriques et lexicaux ne sont pas performants pour cette tâche. La caractérisation est réalisée grâce à l’utilisation conjointe de motifs émergents, chacun de ces motifs excluant une classe.
Ces résultats exploratoires nous encouragent à tester l’efficacité de cette approche sur
un corpus de taille plus grande pour une autre tâche de caractérisation. En outre, remarquons
que cette approche peut être combinée avec une approche « sacs de mots » pour prendre en
compte les thèmes des articles.
Remerciements
Ce travail est partiellement financé par l’ACI masse de données (ministère de la recherche), projet Bingo (MD 46, 2004-2007).
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).
78
Bibliographie
AHMED S., CHIDAMBARAM D., DAVULCU H., BARAL C. (2005), Intex : A syntactic role driven proteinprotein
interaction extractor for bio-medical text, in Proceedings ISMB/ACL Biolink, p. 54-61.
BAYARDO R. (2005), « The Hows, Whys, and Whens of Constraints in Itemset and Rule Discovery », in
Proceedings of the workshop on Inductive Databases and Constraint Based Mining.
BLOTT S., GURRIN C., JONES G.J.F., SMEATON A.F. & SODRING T. (2003), « On the Use of MeSH Headings to
Improve Retrieval Effectiveness », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 215-224.
DAYANIK A., NEVILL-MANNING C.G., OUGHTRED R. (2003), « Partitioning a graph of sequences, Structures
and Abstracts for Information Retrieval », in NIST Special Publication 500-255 : The Twelfth Text REtrieval
Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 522-531.
DONG G. & LI J. (1999), « Efficient Mining of Emerging Patterns : Discovering Trends and Differences »,
in 5th ACM SIGKDD Int’l Conf. On knowledge Discovery and Data Mining (KDD’99), San Diego,
Californie, USA, p. 43-52.
HERSH W., BHUPATIRAJU R.T., PRICE S. (2003), « Phrases, Boosting, and Query Expansion Using External
Knowledge Resources for Genomic Information Retrieval», in NIST Special Publication 500-255: The Twelfth
Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 503-509.
KANDO N. (1999), « Text Structure Analysis as a Tool to Make Retrieved Documents Usable», in Proceedings
of the 4th International Workshop on Information Retrieval with Asian Languages, Taipei, Taiwan, p. 126135.
KARLGREN J. (2005), « Meaningful models for information access systems », in Inquiries into Words,
Constraints and Contexts : Festschrift in the Honour of Kimmo Koskenniemi on his 60th Birthday, CSLI
Studies in Computational Linguistics, CSLI Publications, Stanford, Californie, p. 241-248.
KAYAALP M., ARONSON A.R., HUMPHREY S.M., IDE N.C., TANABE L.K., SMITH L.H., DEMNER D., LOANE R.R.,
MORK J.G., BODENREIDER O., DEMNER D. (2003), « Methods for Accurate Retrieval of MEDLINE Citations
in Functional Genomics », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference
(TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 441-450.
LUCAS N., CRÉMILLEUX B., TURMEL L. (2003), Signalling well-written academic articles in an English corpus by
text-mining techniques, UCREL technical papers, 16 (Special issue Proceedings Corpus Linguistics 2003),
p. 465-474.
PARSONS G. (1990), Cohesion and coherence : Scientific texts. A comparative study, Nottingham, Angleterre,
Department of English Studies, University of Nottingham.
ROSARIO B. & HEARST M. (2005), « Multi-way Relation Classification : Application to Protein-Protein Interaction », in Proceedings of the HLT-NAACL’05, Vancouver (à paraître).
RUCH P., BAUD R. & GEISSBHLER A. (2003), « Learning-free Text Categorization », in Proceedings of the 9th
Conference on Artificial Intelligence in Medicine Europe AIME 2003, M. Dojat, E. Keravnou & P. Barahona
(éds), Springer, p. 199-208.
RUCH P., CHICHESTER C., COHEN G., CORAY G., EHRLER F., GHORBEL H., MÜLLER H. & PALLOTTA V. (2003), « Report
on the TREC 2003 Experiment : Genomic Track », in NIST Special Publication 500-255 : The Twelfth Text
REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 756-761.
SOULET A., CRÉMILLEUX B., RIOULT F. (2005), « Condensed Representation of EPs and Patterns Quantified by
Frequency-Based Measures », in Post-proceedings of the International Workshop on Knowledge Discovery
in Inductive Databases (KDID'04) co-located with the ECML-PKDD'04, B. Goethals et A. Siebes (éds.),
Springer (Lecture Notes in Computer Science 3370), p. 173-190.
WILCOX A. & HRIPCSAK G. (2000), « Medical text representations for inductive learning », in Proceedings of
the American Medical Informatics Association Fall Symposium, USA, AMIA.
Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).