Combinaison de descripteurs linguistiques et de structure
Transcription
Combinaison de descripteurs linguistiques et de structure
69 Schedae, 2006 Prépublication n° 9 Fascicule n° 1 Combinaison de descripteurs linguistiques et de structure pour la fouille d’articles biomédicaux Nadia Zerida, Nadine Lucas, Bruno Crémilleux GREYC (CNRS – UMR 6 072) – Université de Caen Basse-Normandie [email protected], [email protected], [email protected] Résumé : Ce travail propose une combinaison originale de descripteurs linguistiques et de descripteurs de structure avec une méthode de fouille de données. L’objectif est de montrer l’apport de ces descripteurs prenant en compte la structure des documents pour caractériser trois types de textes biomédicaux : articles de recherche, articles de synthèse et articles de clinique. La description du texte est faite à différents niveaux, du global au local. Nous montrons que l’utilisation du plan et de différents contextes permet de mener à bien la tâche de caractérisation de ces trois classes. Nous donnons une évaluation quantitative de la caractérisation grâce aux capacités des techniques de fouille de données basées sur les motifs émergents. Mots-clés : caractérisation, descripteurs linguistiques, descripteurs de plan, fouille de données. Abstract : This work proposes an original combination of linguistic and structural descriptors with one of data mining methods. The objective is to show the effectiveness of descriptors taking into account the structure of documents to characterise three kinds of biomedical texts (reviews, research and clinical papers). The description of the text is made at various levels, from the global level to the local one. The use of the plan and various contexts makes it possible to characterise the three classes. The characterisation of the textual resources is carried out quantitatively by using the discriminating capacity of techniques of data mining based on emerging patterns. Keywords : characterisation, linguistic descriptors, plan descriptors, data mining. Introduction La confrontation à la masse des documents électroniques textuels biomédicaux est un grand défi. Ce travail exploite d’une part, un ensemble de descripteurs linguistiques et de structure, et d’autre part, une méthode efficace de fouille de données pour la caractérisation. Il est réalisé dans le cadre du projet Bases de données INductives et données GénOmiques, Nadia Zerida, Nadine Lucas, Bruno Crémilleux « Combinaison de descripteurs linguistiques et de structure pour la fouille d’articles biomédicaux » Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 70 Bingo 1 qui a entre autres pour but d’extraire des connaissances biomédicales à partir de ressources textuelles pour mieux exploiter les résultats issus de l’extraction de connaissances de données d’expression de gènes. L’objectif à moyen terme de notre travail est de cibler le contenu des textes biomédicaux pour pouvoir faire émerger de nouvelles connaissances. Dans cet article, nous présentons les résultats obtenus lors du processus de fouille de textes mis en place. Dans ce travail, nous considérons les propriétés linguistiques et structurelles des documents comme des critères de base. Un savoir de nature linguistique est exploité, à partir de travaux théoriques tels que (Parsons 1990). On en a dérivé une grammaire du texte, dans une approche comparable à celle de Kando (1999) ou Karlgren (2005). Nous avons opté pour l’exploitation de l’article en entier pour pouvoir gérer des espaces d’observation différents, tels que le corps de texte, les parties, les sections, les paragraphes, les phrases et les virgulots 2, ces unités servent ensuite de fenêtres d’observation multi-échelle. Il ne s’agit pas d’une simple utilisation de mots clés ou d’une analyse distributionnelle des mots, mais d’une analyse qui met en jeu la notion de contexte à travers la hiérarchie de mise en forme matérielle. C’est en ce sens que nous cherchons à donner à nos descripteurs une valeur sémantique. La pertinence des associations entre ces descripteurs est automatiquement extraite par une technique performante de fouille de données, les motifs émergents (Dong & Li 1999). Nous montrons que la combinaison d’associations extraites réussit à caractériser les trois principaux types d’articles biomédicaux (synthèse, recherche et clinique). Ces types d’articles sont les plus utilisés. Les articles intéressant prioritairement les biologistes dans le projet sont les synthèses. Les expérimentations fournissent une quantification des résultats et montre la pertinence de l’approche adoptée. Cet article est organisé de la façon suivante. La section 2 présente les différentes familles de descripteurs, les grandes lignes de notre approche sont décrites à la section 3 et la méthode de fouille de données utilisée à la section 4. Finalement, les expériences à la section 5 montrent l’efficacité de cette approche. Les différentes familles de descripteurs La fouille de textes de spécialité est un domaine de recherche qui a récemment gagné l’attention de nombreux chercheurs car il fait appel à des techniques capables de manipuler efficacement un très grand volume de données textuelles. Mais la plupart des travaux ont pour trait commun l’exploitation des titres et des résumés proposés par PubMed 3 et de considérer que le texte n’est qu’un simple sac de mots sur lequel on peut appliquer l’une des techniques de fouille de données classiques faisant référence à des ressources thésaurales telles que MeSH 4 (Hersh et al. 2003, Dayanik et al. 2003). Pour pouvoir extraire de la nouvelle connaissance, la majorité de ces travaux se sont orientés plutôt vers l’évaluation des techniques de représentation du mot dans le document (Wilcox & Hripcsak 1995), ou l’étude de la variation des concepts (Ruch et al. 2003). Sinon, parmi le peu de travaux qui se sont intéressés naturellement à l’utilisation de la notion de structure et du contenu, quelques uns ont travaillé au niveau des propositions Mesh (Rosario & Hearst 2005), d’autres 1. 2. 3. 4. http://www.info.unicaen.fr/~bruno/bingo/ Espace ponctué par une virgule. http://ncbi.nih.gov/entrez/query.fcgi. Medical Subject Heading. Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 71 sur l’exploitation de la location de l’information et la fréquence des mots dans les phrases des résumés (Blott 2003, Kayaalp et al. 2003), et plus rarement l’exploitation de l’article en entier enrichi par des connaissances linguistiques (Ruch et al. 2003). Dans ce travail, nous formulons l’hypothèse que les différentes catégories d’articles (recherche, synthèse, clinique) sont susceptibles d’avoir une certaine organisation de l’écrit et un contenu spécifiques. La construction des descripteurs de plan et de style vise à exploiter ces spécificités portant sur l’organisation textuelle de l’article. Dans cette section, nous commençons par présenter ces descripteurs. Puis, nous indiquons rapidement les descripteurs métriques et lexicaux. Ceux-ci nous seront utiles pour comparer l’apport des descripteurs de plan et de style par rapport à ces deux dernières familles, les descripteurs lexicaux correspondant à une approche classique. Les descripteurs au niveau global Un premier jeu de descripteurs concerne l’organisation textuelle de l’article, il s’agit des descripteurs de plan (cf. tableau 1). L’idée sous-jacente est que chaque article est constitué d’un ensemble de parties qui sont établies pour jouer chacune une fonction bien déterminée, mais elles sont aussi reliées logiquement entre elles. Cette relation, exprimée par le plan de l’article, permet de construire une structure logique de ce dernier. Cette constatation nous a conduit à préserver l’unité globale de l’article de façon à présenter une information structurée logiquement. Ainsi les intitulés des parties constituant le plan ont été utilisés comme descripteurs au niveau « article ». Abstract Introduction Materials & Methods Results Footnotes References Discussion Aknowledgments Conclusion Keywords Learn obj Tableau 1 : Exemples de descripteurs de plan. Les descripteurs stylistiques multi-échelle Les études linguistiques (voir par exemple Parsons 1990) sont à la base de cette deuxième famille de descripteurs. Plusieurs études se sont intéressées aux descripteurs de texte, la plupart de ces études se basent sur les mots (Ahmed et al. 2005), quelques recherches sur les styles et les relations ont été établies par Karlgren (2005). Ses expérimentations montrent que selon certains scénarios, une polarisation claire vers certains types ou genres de textes peut être trouvée. Partant de l’hypothèse que la variation dans le choix lexical reflète une variation intéressante dans la variation du style global, il a défini deux types de descripteurs statistiques. Le premier type comprend des statistiques au niveau du mot telles que le nombre de mots les plus longs, la longueur moyenne des mots, nombre de pronoms etc. Un deuxième type de descripteurs est établi au niveau de la phrase ; il s’agit entre autres de la longueur de la phrase, de la moyenne maximale de la profondeur d’un arbre syntaxique d’une phrase, du nombre de skips dans les phrases, d’un indicateur propositionnel tel que la moyenne de TextTiles 5, le nombre de chaque type pronoms pour prédire le registre 6 du texte, la présence ou absence des contractions ( isn’t, does’nt), liste des adverbes pour renforcer l’assertion des propositions textuelles, la fréquence relative des verbes modaux (seem, appear) utilisés en début de texte. 5. 6. Nombre de segments compris comme subtopic, par Hearst 1997. Par exemple familier ou soutenu « formal », par Biber 1988. Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 72 À la différence de ces derniers, les descripteurs de style que nous proposons sont établis pour six niveaux mis en relation avec la mise en forme matérielle. Ils sont définis à travers des classes définies pour chaque niveau, et qui comprennent non seulement des mots mais aussi des traits discontinus (notion de portée des marqueurs discursifs). Notre hypothèse est que chaque type d’article comporte une variation stylistique propre à ce dernier, l’idée fondatrice de ces descripteurs et que l’information pertinente pour l’utilisateur peut se localiser dans plusieurs fenêtres d’observation. Cette famille de descripteurs s’appuie essentiellement sur deux notions de base qui sont respectivement : la notion de position et celle de l’héritage du contexte (Lucas et al. 2003). Niveau Descripteurs <corps> Temporel : Now, Present, Past, Future, Ever, Current, Often. Superpersonnel : we, us, I, our, Think, thought, believe, believed, suggest, suggested, that, to, is, are, as Mode : can, may, should, would </parties> Appel : Appels aux références bibliographiques ou aux figures Penser : think, thought, believ (e|ed), suggest, suggested Voix : is, was, were, are, ed NegationList : do not, no FuturList : will, would Passé : ed, had, were, might, could Aspect : do, has, ed Determinants : these, this, those, that, the, a, an Connecteurs adverbiaux : moreover, thus, therefore, indeed, in fact, ly Anaphore : this, these, those, that, the, thus Conjonctions : Because, if, whether, how, for this reason, although, though, as, as well as, as well, due to, however </section> Conjonctions : why, because, if, how for this reason, although, though, as well, due to, however, while, when, which, where Evaluation_Comparaison : even, they, it is, one, most, some, all, a number, several, few, first, second, third, its, their, such, only, other, otherwise, same </paragraphes> Prepositions : In, At, For, From, to, with, by, of, by contrast, among, within Adverbiaux : inside, outside, through, after, before, mean, while, despite, Indeed, in fact, in spite of Evaluation quantifiée : one, most, some, all, a number, several, few, first, second, third, fourth, fifth, it, they Négation : do not, no Determinants : this, that, the, a, an Coordination : and, but, also, or, instead, moreover Ponctuation : … ; : , Adverbes : generally, particularly, specifically, clearly, obviously, interestingly, accordingly </phrases> Coordination : and, but Reflexif : sel (f|ves) </virgulots> Passé : ed, ould, ought Forme « ing » : ing Adverbes : ly Forme « s » : s Determinants : the, a, an Déictique : this, these, those, that, there, thus, therefore, there is, there are, the other Tableau 2 : Descripteurs stylistiques (extrait). Ces descripteurs (cf. tableau 2) peuvent s’organiser implicitement selon une certaine hiérarchie qui représente le modèle logique du document. La combinaison de descripteurs de plusieurs niveaux de la hiérarchie permet de multiplier le poids des descripteurs de plus haut niveau. Ainsi, les mots n’auront pas le même rôle, ni la même importance, suivant leur place dans le document (titre, résumé, introduction, etc.). Leur importance varie aussi suivant leur position dans une fenêtre d’observation (partie, paragraphe, section, etc.). Par exemple parmi les coordinations de phrase, and et but – qui sont fréquents – seront renforcés au niveau du paragraphe, qui comprend des coordinations comme moreover., qui est plus significatif lorsqu’il se trouve en début de phrase. Les indicateurs les plus fréquents se retrouvent dans le niveau le plus fin pour minimiser l’héritage dans le niveau au dessous. La position relative, en début ou en fin d’une fenêtre change dans la hiérarchie d’une fenêtre à une autre. Pour tenir compte des inclusions, le début ou la fin d’une fenêtre se traduisent respectivement par la première (ou la dernière) sous-fenêtre d’une fenêtre donnée, par exemple, le début et la fin d’un paragraphe sont respectivement la première et la dernière phrase du paragraphe. Descripteurs métriques Les descripteurs métriques portent sur la longueur des différentes unités textuelles obtenues lors de la segmentation : la longueur du corps de texte (exprimée en nombre de parties), Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 73 des parties (exprimée en nombre de sections ou de paragraphes), des sections (exprimée en nombre de paragraphes), des paragraphes (exprimée en nombre de phrases) et des phrases (exprimée en nombre de virgulots). Nous avons également pris comme descripteur la longueur du titre et des sous titres de l’article (exprimée en nombre de caractères). Descripteurs lexicaux Enfin, dans le but de comparer notre travail avec une approche classique, nous avons utilisé les 47 résumés des articles pour extraire les mots clés caractérisant ces articles. Les descripteurs lexicaux forment une base de comparaison avec les descripteurs de plan, discursifs et métriques. Le processus de fouille Cette expérience est conçue dans le but de comparer les résultats obtenus par les différentes familles de descripteurs. La figure 1 synthétise le processus général de notre approche, il s’agit de comparer des descripteurs linguistiques et de structure versus une simple approche sac de mots représentée par descripteurs lexicaux. Figure 1 : Les grandes lignes de l’approche. La première étape concerne le choix des classes d’articles utilisées, qui tiennent compte des attentes des biologistes : l’information qui intéresse prioritairement les spécialistes se trouve dans ces trois classes. La première classe correspond aux articles de synthèse qui représentent une revue très complète et exhaustive, commençant par l’historique jusqu’aux connaissances actuelles sur un sujet très précis ; la deuxième classe contient des articles de recherche qui présentent un travail personnel effectué par rapport à l’état des connaissances actuelles ; enfin, la classe des articles de clinique qui décrivent une observation particulière par rapport à sa rareté ou son caractère démonstratif. On a exclu dans cette expérience par exemple les éditoriaux, qui peuvent contenir des hypothèses non démontrées. D’autre part, suite à des attentes plus spécifiques de biologistes au sein du projet Bingo, le sujet des articles est le cancer du cerveau ou de la prostate. Les articles ont été collectés à partir d’une recherche documentaire classique par mots-clés MeSH sur la base documentaire en ligne PubMed. La deuxième étape concerne la récupération des résumés du corpus et l’application des différentes étapes des approches sac de mots, telles que la lemmatisation ( stemming) et l’élimination des mots vides. Pour chaque article on garde les dix premiers mots les plus Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 74 fréquents (seuil > = 2), pour ce jeu de données, une ligne représente un article et une colonne représente la présence ou l’absence d’un mot dans l’article. La troisième étape consiste à segmenter le corpus en unités textuelles telles que le titre, les sous titres, les parties, les sections, les paragraphes, les phrases et les virgulots en utilisant une méthode de découpage qui s’appuie sur la mise en forme matérielle du HTML, puis sont extraits les différents descripteurs linguistiques et structuraux de chaque niveau en utilisant des expressions régulières. Un jeu de données par niveau est ainsi obtenu. Schématiquement, pour chaque jeu de données, une ligne peut être vue comme un segment du texte (exemple : virgulots, phrases etc.) et une colonne code la présence ou l’absence d’un descripteur pour chaque segment. La caractérisation des articles est finalement obtenue en utilisant une méthode de fouille de données, les motifs émergents (cf. section 4). Des contraintes externes portant sur l’accessibilité des articles de PubMed ont influencé la taille du corpus. En effet, la majorité des articles en accès libre sont au format PDF, ce qui rend la tâche de prétraitement très complexe. Dans ce travail, nous nous sommes limités au format HTML. Le sous-ensemble de textes ainsi obtenu rassemble 47 articles. Nous sommes conscients que cet échantillon est restreint. Cependant, nous verrons à la section 5 que cette échantillon va contenir 20 237 unités à explorer. Fouille de données de motifs contraints La fouille de données a pour but la découverte d’information nouvelle utile aux utilisateurs. Les méthodes typiques de fouille de données extraient tous les motifs vérifiant certaines propriétés. Dans ce travail, les motifs sont des associations de descripteurs (e.g., stylistiques, métriques) présents dans les articles. Du point de vue du processus de fouille, les propriétés recherchées sont traduites par des contraintes qui expriment ainsi le point de vue de l’utilisateur et on parle de fouille de données sous contraintes (Bayardo 2005). Une contrainte est une restriction devant être satisfaite par un motif. Considérons par exemple la table 3 qui est un extrait d’un ensemble de données notée D contenant trois types d’articles (Cc pour clinique, Cs pour synthèse et Cr pour recherche). Chaque ligne est un article décrit par les titres des quatre parties Introduction, Material & Methods, Conclusion. Par exemple, « {Introduction, Material & Methods} » est un motif composé de deux descripteurs qui vérifie la contrainte « être présent au moins 3 fois dans D », en effet 4 segments contiennent ce motif, il s’agit des segments 1, 2, 3 et 6. On dit que la fréquence de ce motif est 4. Il est possible d’exprimer des contraintes très variées, comme le motif possède (ou ne possède pas) un descripteur, le motif vérifie une certaine longueur, l’aire d’un motif (i.e., le produit de sa longueur par sa fréquence) dépasse un seuil, etc. Une caractéristique importante de la fouille de données sous contraintes est qu’on veut obtenir tous les motifs satisfaisant la contrainte. Cette complétude de la réponse à la requête est nécessaire pour obtenir toute l’information des données. Elle exige des stratégies efficaces de fouille de données afin de ne pas avoir à parcourir tout l’espace des motifs potentiels. Dans ce travail, nous cherchons à caractériser des collections de données (i.e., les types d’articles) les unes par rapport aux autres. Pour cela, nous nous intéressons aux « motifs émergents ». Segment Classe Items 1 CC Introduction, Material & Methods 2 CC Introduction, Material & Methods 3 CS Introduction, Material & Methods, Conclusion Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 75 4 CS Introduction, Conclusion 5 CS Conclusion 6 CR Introduction, Material & Methods, Conclusion 7 CR Material & Methods Tableau 3 : Extrait d’un ensemble de données. Ces motifs sont des motifs dont la fréquence varie fortement entre deux ou plusieurs classes (Soulet et al. 2005), une classe correspondant ici à un type d’articles. Soit Di (i : 1..3) l’ensemble des articles d’un même type. La fréquence F (X, D) d’un motif X dans D est le nombre d’articles contenant X dans D. Par exemple, F ({Introduction, Material & Methods}, D) = 4. Le concept de motif émergent est relié à la notion de différence de fréquence entre classes. La quantification du contraste entre une classe i et les autres classes est mesurée par le taux de croissance (ou « growth rate ») et noté GRi : GRi (X) = [(|D| – |Di|)/|Di|] × [F (X, Di)/ (F (X, D) – F (X, Di))] On dit que X est un motif émergent de D\Di dans Di, si GRi (X) > = ρ avec ρ > 1. Par exemple le motif {Introduction, Material & Methods} est un motif émergent de D\Cc dans Cc car le GR1 ({Introduction, Material & Methods}) = 2.5 Résultats et discussion La segmentation des articles en unités textuelles (le corps de texte, les parties, les sections, les paragraphes, les phrases et les virgulots) est une des tâches initiales de notre travail. Il s’agit d’un traitement de surface pour découper le texte en unités que l’on supposera élémentaires et qui serviront de fenêtres d’observation. En ce qui concerne le corpus utilisé dans cet article, on obtient 12 246 virgulots, 5 404 phrases, 1 767 paragraphes, 416 sections, 310 parties et 47 corps de texte ainsi que 47 résumés, soit au total 20 237 unités. Les tableaux 4 et 5 donnent les résultats pour les meilleurs motifs émergents (EP) résultant de l’utilisation des descripteurs lexicaux et métriques. Le processus est effectué trois fois : on caractérise la classe Clinique par rapport aux Synthèse et Recherche et on donne le meilleur motif émergent EP1, on caractérise la classe Synthèse par rapport aux Clinique et Recherche et on donne le motif émergent EP2, et on fait la même chose pour la classe Recherche et on donne le motif émergent EP3. Pour chaque motif émergent on associe son GR et sa fréquence relative dans une classe donnée (représentée par la ligne). Par exemple 11,76 % est la fréquence relative de EP3 = {high} dans la classe « articles de recherche ». Ces tables montrent que les descripteurs lexicaux et métriques sont uniformément distribués dans les trois classes et le contraste exprimé par le GR est très faible. Ces descripteurs seuls ne permettent pas de caractériser les trois classes. Motifs Emergents (ρ = 2) Classe GR Fréquences relatives Clinique Synthèse Recherche Clinique vs. Synthèse et Recherche EP1 = {tumor, treat} 2.0588 30,00 % 25,88 % 23,52 % Synthèse vs. Recherche et Clinique EP2 = {combination} 2.0461 13,00 % 15,88 % 16,38 % 2.1025 13,29 % 10,96 % 11,76 % Recherche vs. Synthèse et EP3 = {high } Clinique Tableau 4 : Exemples des meilleurs résultats des descripteurs lexicaux. Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 76 Classe Motifs Emergents (ρ = 2) GR Fréquences relatives Clinique Synthèse Recherche Clinique vs. Synthèse et Recherche EP1 = {longueur_Titre_Article ∈ [35,195]} 2.000 91,00 % 83,12 % 88,23 % Synthèse vs. Recherche et Clinique EP2 = {longueur Crps_txt < 6} Inf. 00,00 % 46,16 % 00,00 % 2.016 78,37 % 100 % 89,05 % Recherche vs. EP3 = {longueur_Section ∈ ]5,10]} Synthèse et Clinique Tableau 5 : Exemples des meilleurs résultats des descripteurs métriques. Les tableaux 6 et 7 montrent les résultats en employant les descripteurs de plan et les descripteurs stylistiques. Le motif {Discussion, Footnotes}{Abstract, Introduction, Material & Methods} est un des motifs émergents mis en évidence avec les descripteurs de plan : sa fréquence est 100 % pour les articles de recherche et 88,23 % pour les articles de clinique. En revanche, il n’est pas présent dans les articles de synthèse. Cela signifie que la présence de ce motif dans un article exclut qu’il s’agisse d’un article de synthèse. Nous disons alors que la caractérisation des articles de synthèse est négative (par absence de ce motif dans un article). Cela signifie que les articles de synthèse sont organisés différemment des articles de recherche et des articles de clinique. On observe un résultat similaire avec les descripteurs stylistiques. On remarque qu’au niveau du corps du texte, il existe des motifs émergents présents jusqu’à 82 % dans les articles de recherche et 69 % des articles de synthèse, mais 0 % des cliniques. La caractérisation des articles de clinique est alors aussi négative. On note également que les résultats sont conformes avec les résultats des descripteurs de plan, car c’est au niveau des parties que les articles de synthèse sont discriminés. Classe Clinique vs. Synthèse et Recherche Motifs Emergents (ρ = 2) GR Fréquences relatives Clinique Synthèse Recherche EP1 = {Footnotes, Aknowledgement} {Abstract, Introduction, Material & Methods, Results} 2.7451 82,35 % 00,00 % 100 % Synthèse vs. Recherche et Clinique EP2 = {Conclusion, abstract} 10.4615 05,88 % 61,53 % 05,88 % Recherche vs. Synthèse et Clinique EP3 = {Discussion, Footnotes} {Abstract, Introduction, Material & Methods, Results} 2.0000 88,23 % 00,00 % 100 % Tableau 6 : Exemples des meilleurs résultats des descripteurs de plan. Fréquences relatives Classe Clinique vs. Synthèse et Recherche Synthèse vs. Recherche et Clinique Recherche vs. Synthèse et Clinique Niveau Motifs Emergents (ρ = 2) EP1 = {TEMP_Début, SUPPERS_Fin} Corps EP2 = {MOD_Fin, de SUPPERS_Fin} texte EP3 = {SUPPERS_Début, SUPPERS_Fin} Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). GR Clinique Synthèse Recherche 2.1176 35,29 % 15,38 % 17,64 % Inf. 00,00 % 53,84 % 00,00 % 2.7451 82,00 % 69,23 % 35,00 % 77 Clinique vs. Synthèse et Recherche Synthèse vs. Recherche et Clinique Parties EP1 = {CONADV_D, CONJ_D, APPEL_F, TEMP_H}{APPEL_D, VOIX_D, PAS_D, ASP_D, DET_D, NAPH_D, VOIX_F, PAS_F, ASP_F, DET_F, ANAPH_F, SUPPERS_H} 4.45113 41,18 % 00,00 % 35,29 % EP2 = {NEG_D, DET_F}{DET_D, ANAPH_D, SUPPERS_D} 3.01852 47,06 % 69,23 % 29,41 % NEANT NEANT NEANT NEANT 22.5904 17,65 % 07,69 % 00,00 % 14.0959 05,88 % 15,38 % 00,00 % 2.06569 17,65 % 00,00 % 23,53 % Recherche vs. Synthèse et Clinique NEANT Clinique vs. Synthèse et Recherche EP1 = {CONJ_D, NEG_P, MOD_C} {VOIX_P, PAS_P, ASP_P, CONJADV_P, ANAPH_P, CONJ_P, SUPPERS_C} Synthèse vs. Recherche et Clinique EP2 = {EVAL_COMP_F, NEG_P, FUT_P}{VOIX_P, PAS_P, ASP_P, Sections DET_P, CONJADV_P, ANAPH_P, CONJ_P, SUPPERS_P} Recherche vs. Synthèse et Clinique EP3 = {TEMP_C, MOD_C}{VOIX_P, PAS_P, ASP_P, DET_P, ANAPH_P, SUPPERS_C} Tableau 7 : Exemples des meilleurs résultats des descripteurs stylistiques Cette expérience montre que notre méthode basée sur les descripteurs stylistiques et les descripteurs de plan combinée avec les motifs émergents discrimine bien les trois classes en employant la caractérisation négative. Avec des règles de type X = > non (classei), c’està-dire que la présence du motif X exclut la classe i. Le pré-traitement nécessaire pour les descripteurs stylistiques suppose une annotation différenciée a priori de tous les niveaux d’un article. Toutefois, ce travail montre que pour caractériser des classes d’articles, il suffit de segmenter les articles jusqu’au niveau des sections et d’annoter les parties et les sections. Pour d’autres corpus, l’annotation pourra s’arrêter aux sections et le traitement sera ainsi plus léger. Conclusion Le présent travail montre l’existence d’une différence significative dans l’organisation de l’écrit et dans le style des articles biomédicaux. Ce résultat est obtenu grâce à l’utilisation de descripteurs linguistiques et de structure à partir desquels les associations sont extraites automatiquement par des outils de fouille de données. Les descripteurs métriques et lexicaux ne sont pas performants pour cette tâche. La caractérisation est réalisée grâce à l’utilisation conjointe de motifs émergents, chacun de ces motifs excluant une classe. Ces résultats exploratoires nous encouragent à tester l’efficacité de cette approche sur un corpus de taille plus grande pour une autre tâche de caractérisation. En outre, remarquons que cette approche peut être combinée avec une approche « sacs de mots » pour prendre en compte les thèmes des articles. Remerciements Ce travail est partiellement financé par l’ACI masse de données (ministère de la recherche), projet Bingo (MD 46, 2004-2007). Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78). 78 Bibliographie AHMED S., CHIDAMBARAM D., DAVULCU H., BARAL C. (2005), Intex : A syntactic role driven proteinprotein interaction extractor for bio-medical text, in Proceedings ISMB/ACL Biolink, p. 54-61. BAYARDO R. (2005), « The Hows, Whys, and Whens of Constraints in Itemset and Rule Discovery », in Proceedings of the workshop on Inductive Databases and Constraint Based Mining. BLOTT S., GURRIN C., JONES G.J.F., SMEATON A.F. & SODRING T. (2003), « On the Use of MeSH Headings to Improve Retrieval Effectiveness », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 215-224. DAYANIK A., NEVILL-MANNING C.G., OUGHTRED R. (2003), « Partitioning a graph of sequences, Structures and Abstracts for Information Retrieval », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 522-531. DONG G. & LI J. (1999), « Efficient Mining of Emerging Patterns : Discovering Trends and Differences », in 5th ACM SIGKDD Int’l Conf. On knowledge Discovery and Data Mining (KDD’99), San Diego, Californie, USA, p. 43-52. HERSH W., BHUPATIRAJU R.T., PRICE S. (2003), « Phrases, Boosting, and Query Expansion Using External Knowledge Resources for Genomic Information Retrieval», in NIST Special Publication 500-255: The Twelfth Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA., NIST, p. 503-509. KANDO N. (1999), « Text Structure Analysis as a Tool to Make Retrieved Documents Usable», in Proceedings of the 4th International Workshop on Information Retrieval with Asian Languages, Taipei, Taiwan, p. 126135. KARLGREN J. (2005), « Meaningful models for information access systems », in Inquiries into Words, Constraints and Contexts : Festschrift in the Honour of Kimmo Koskenniemi on his 60th Birthday, CSLI Studies in Computational Linguistics, CSLI Publications, Stanford, Californie, p. 241-248. KAYAALP M., ARONSON A.R., HUMPHREY S.M., IDE N.C., TANABE L.K., SMITH L.H., DEMNER D., LOANE R.R., MORK J.G., BODENREIDER O., DEMNER D. (2003), « Methods for Accurate Retrieval of MEDLINE Citations in Functional Genomics », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 441-450. LUCAS N., CRÉMILLEUX B., TURMEL L. (2003), Signalling well-written academic articles in an English corpus by text-mining techniques, UCREL technical papers, 16 (Special issue Proceedings Corpus Linguistics 2003), p. 465-474. PARSONS G. (1990), Cohesion and coherence : Scientific texts. A comparative study, Nottingham, Angleterre, Department of English Studies, University of Nottingham. ROSARIO B. & HEARST M. (2005), « Multi-way Relation Classification : Application to Protein-Protein Interaction », in Proceedings of the HLT-NAACL’05, Vancouver (à paraître). RUCH P., BAUD R. & GEISSBHLER A. (2003), « Learning-free Text Categorization », in Proceedings of the 9th Conference on Artificial Intelligence in Medicine Europe AIME 2003, M. Dojat, E. Keravnou & P. Barahona (éds), Springer, p. 199-208. RUCH P., CHICHESTER C., COHEN G., CORAY G., EHRLER F., GHORBEL H., MÜLLER H. & PALLOTTA V. (2003), « Report on the TREC 2003 Experiment : Genomic Track », in NIST Special Publication 500-255 : The Twelfth Text REtrieval Conference (TREC 2003), E. M. Voorhees et L. P. Buckland (éds), USA, NIST, p. 756-761. SOULET A., CRÉMILLEUX B., RIOULT F. (2005), « Condensed Representation of EPs and Patterns Quantified by Frequency-Based Measures », in Post-proceedings of the International Workshop on Knowledge Discovery in Inductive Databases (KDID'04) co-located with the ECML-PKDD'04, B. Goethals et A. Siebes (éds.), Springer (Lecture Notes in Computer Science 3370), p. 173-190. WILCOX A. & HRIPCSAK G. (2000), « Medical text representations for inductive learning », in Proceedings of the American Medical Informatics Association Fall Symposium, USA, AMIA. Schedae, 2006, prépublication n° 9, (fascicule n° 1, p. 69-78).