sujet these Island N. Lucas 08
Transcription
sujet these Island N. Lucas 08
sujet de thèse ISLand 2007-2008 Analyse raisonnée d’articles scientifiques bio-médicaux Encadrants : Nadine Lucas et Jacques Vergne Contexte Les articles académiques font l’objet de traitements en recherche et extraction d’information, notamment dans le domaine de la biologie et de la médecine, en forte expansion (600 000 entrées par an dans la bibliothèque américaine Pub Med Central). Parmi les besoins urgents : Extraction d’informations factuelles, en relation avec la fouille de données classique ; Résumé pour l’indexation ; Repérage d’idées nouvelles, pour la veille scientifique et le signalement ; Recherche d’antériorité (dépôt de brevet, publication de haut niveau) pour assurer l’originalité d’une démarche intellectuelle ou détecter le plagiat. Les défis à relever sont clairement identifiés, mais les réponses sont très partielles. Les méthodes actuelles basées sur le lexique réduisent le champ d’investigation à l’anglais et à la génomique. De nombreux colloques et concours internationaux (MUC, BioCreative, TREC Genomics Track, JNLPBA) s’y consacrent (15, 16, 17). Dans l’approche dominante, le texte est défini comme non structuré : il est considéré comme un "sac de mots" ou un "sac de phrases" (5, 8). Pour aller audelà de ces résultats, il est nécessaire de représenter le sens général de l’article. L’analyse de textes au niveau global compte encore peu de travaux (2, 6, 7, 12, 13, 14). Les recherches entreprises au GREYC dans l’équipe ISLanD s’inscrivent dans ce nouveau champ. Le doctorant bénéficiera, s’il le souhaite, d’un cadre applicatif (analyse du transcriptome) déjà traité par le projet Bingo (2004-2007). Objectifs L’objectif de la thèse est de proposer une analyse automatique « raisonnée » des articles académiques de biologie et médecine pour mettre en valeur l’argumentation globale et la cohérence sémantique. La structuration des articles doit permettre d’extraire l’information pertinente à différents grains. On souhaite notamment signaler les synthèses et les reformulations locales des arguments principaux dans les parties et sections d’articles. L’annotation automatique a pour but de répondre aux besoins cités plus haut. Caractéristiques du sujet Le sujet s’inscrit dans un domaine très porteur (les sciences bio-médicales sont bien financées). Il relève à la fois du génie linguistique et du génie logiciel. Il comprend 1 une part de développement de projet et une part d’évaluation comparative des méthodes existantes. L’approche adoptée est innovante. Elle est fondée sur l’analyse de discours. La difficulté dans la structuration des articles scientifiques consiste à établir des liens de co-référence de très grande portée, spécialement lorsque les formulations lexicales varient. Ce point est traité en linguistique et en stylistique, mais nécessite une approche différentielle (non triviale). Un modèle théorique en analyse argumentative de discours est proposé (il en existe plusieurs, parmi lesquels le doctorant pourra choisir, mais ils posent tous les mêmes problèmes d’implémentation). L’annotation des articles est établie d'après la structure discursive et s’appuie sur le plan (13). Pratiquement, la structure discursive est calculée à partir des indices relevés dans le texte et les fractions de texte. Il reste à gérer les points de décision de l’algorithme. Le doctorant devra faire preuve de sagacité et de rigueur dans le choix et la mise en œuvre de stratégies efficaces, éventuellement issues d’autres domaines d’application (méthodes dans la lignée inductive ou autre). Les résultats obtenus seront évalués en vérifiant trois points : la qualité en termes de pertinence sémantique dans le domaine bio-médical ; la fiabilité (détection des arguments avec un maximum de certitude) ; et la robustesse ou couverture du logiciel en termes de formats traités. Etapes de travail Classiquement dans une conduite de thèse, il sera nécessaire de faire le point sur les travaux concernant le traitement des articles bio-médicaux et le traitement du discours, d’autant que le terme argumentation reçoit des acceptions différentes selon les communautés de chercheurs (3, 4, 10, 11). Le travail initial comprend la familiarisation avec les types d’articles du domaine biomédical et la notion d’argumentation à l’échelle du texte (1, 2, 9). La définition d’une stratégie sera suivie de la réalisation d’un logiciel d’étude et de l’évaluation des résultats. La réalisation d’un logiciel suppose le maniement d’outils d’analyse de corpus et de maquettage (plate-forme wims ou LinguaStream, langage Java, Php), de la technologie XML et des langages à expressions régulières (Perl, Python). Elle comporte la gestion de l’interface utilisateurs. L’évaluation des résultats sera suivie d’une confrontation avec les méthodes existantes et d’une réflexion sur les différentes approches d’investigation des articles scientifiques pour situer les complémentarités. Références 1. FLEISCHMAN, Suzanne (2001). "Language and Medicine" in The Handbook of Discourse Analysis. D. SCHIFFRIN et al. (Ed.), Blackwell: 470-502. 2. DE WAARD, A., L. BREURE, J. G. KIRCZ & H. VAN OOSTENDORP (2006). "Modeling Rhetoric in Scientific Publications ": Inscit 2006 In Current Research in Information Sciences and Technologies Multidisciplinary approaches to global information systems V. P. GuerreroBote (Ed.), Open Institute of Knowledge. 3. FRIEDMAN, C., P. KRA & A. RZHETSKY (2002). "Two biomedical sublanguages: a description based on the theories of Zellig Harris" Journal of Biomedical informatics 35 (4): 222-35. 2 4. GLANZBERG, Michael (2002). "Context and Discourse" Mind and Language 17: 333-375. 5. HIRSCHMAN, L., A. YEH, C. BLASCHKE & A. VALENCIA (2005). "Overview of BioCreAtIvE: critical assessment of information extraction for biology" BMC Bioinformatics (6 S1). 6. KANDO, Noriko (1997). Text-level Structure of Research Papers: Implications for Text-Based Information Processing Systems. BCS-ISRG Colloquium. pp. 1-14. 7. KARLGREN, Jussi (2005). "Meaningful models for information access systems" in Inquiries into Words, Constraints and Contexts: Festschrift in the Honour of Kimmo Koskenniemi on his 60th Birthday.: 241-248. 8. MACK, R., S. MUKHERJEA, A. SOFFER, N. URAMOTO, E. BROWN, A. CODEN, J. COOPER, A. INOKUCHI, B. IYER, Y. MASS, H. MATSUZAWA & L. V. SUBRAMANIAM (2004). "Text analytics for life science using the Unstructured Information Management Architecture" IBM Systems Journal 43 (3): 490-515. 9. NWOGU, K. N. (1997). "The medical research paper: structure and functions" English for Specific Purposes 16: 1119-1138. 10. POLANYI, L., C. CULY, M. VAN DEN BERG, G.L. THIONE & D. AHN (2004). "A Rule Based Approach to Discourse Parsing". In Proceedings of the 5th SIGdial Workshop in Discourse and Dialogue (pp. 108-117). 11. REDEKER, G. (2000). "Coherence and structure in text and discourse" in Abduction, Belief and Context in Dialogue. Studies in Computational Pragmatics. W. Black & H. Hunt (Ed.). Amsterdam, John Benjamins: 233-263. 12. REITTER, David (2003). "Simple Signals for Complex Rhetorics: On Rhetorical Analysis with Rich-Feature Support Vector Models" in Sprachtechnologie für die multilinguale Kommunikation. U. Seewald-Heeg (Ed.). Sankt Augustin: Gardez! Verlag. 13. VOISIN, L. (2002) Le correcteur automatique d'articles scientifiques en anglais. Stage de maîtrise sous la dir. de N. Lucas et J. Vergne, GREYC, Université de Caen. 14. ZERIDA, N., N. LUCAS, B. CREMILLEUX Combinaison de descripteurs linguistiques et de structure pour la fouille d’articles biomédicaux. International Symposium on Discourse and Document. Caen, Presses universitaires de Caen, Schedae 9-1 (2006) 69-78. 15. http://www.bionlp.org/ 16. Text REtrieval Conference [http://trec.nist.gov/] 17. BioCreative [http://biocreative.sourceforge.net/] 3