sujet these Island N. Lucas 08

Transcription

sujet these Island N. Lucas 08
sujet de thèse ISLand 2007-2008
Analyse raisonnée d’articles scientifiques
bio-médicaux
Encadrants : Nadine Lucas et Jacques Vergne
Contexte
Les articles académiques font l’objet de traitements en recherche et extraction
d’information, notamment dans le domaine de la biologie et de la médecine, en forte
expansion (600 000 entrées par an dans la bibliothèque américaine Pub Med
Central). Parmi les besoins urgents :
Extraction d’informations factuelles, en relation avec la fouille de données classique ;
Résumé pour l’indexation ;
Repérage d’idées nouvelles, pour la veille scientifique et le signalement ;
Recherche d’antériorité (dépôt de brevet, publication de haut niveau) pour assurer
l’originalité d’une démarche intellectuelle ou détecter le plagiat.
Les défis à relever sont clairement identifiés, mais les réponses sont très
partielles. Les méthodes actuelles basées sur le lexique réduisent le champ
d’investigation à l’anglais et à la génomique. De nombreux colloques et concours
internationaux (MUC, BioCreative, TREC Genomics Track, JNLPBA) s’y consacrent
(15, 16, 17). Dans l’approche dominante, le texte est défini comme non structuré : il
est considéré comme un "sac de mots" ou un "sac de phrases" (5, 8). Pour aller audelà de ces résultats, il est nécessaire de représenter le sens général de l’article.
L’analyse de textes au niveau global compte encore peu de travaux (2, 6, 7, 12, 13,
14). Les recherches entreprises au GREYC dans l’équipe ISLanD s’inscrivent dans
ce nouveau champ.
Le doctorant bénéficiera, s’il le souhaite, d’un cadre applicatif (analyse du
transcriptome) déjà traité par le projet Bingo (2004-2007).
Objectifs
L’objectif de la thèse est de proposer une analyse automatique « raisonnée » des
articles académiques de biologie et médecine pour mettre en valeur l’argumentation
globale et la cohérence sémantique. La structuration des articles doit permettre
d’extraire l’information pertinente à différents grains. On souhaite notamment signaler
les synthèses et les reformulations locales des arguments principaux dans les parties
et sections d’articles. L’annotation automatique a pour but de répondre aux besoins
cités plus haut.
Caractéristiques du sujet
Le sujet s’inscrit dans un domaine très porteur (les sciences bio-médicales sont bien
financées). Il relève à la fois du génie linguistique et du génie logiciel. Il comprend
1
une part de développement de projet et une part d’évaluation comparative des
méthodes existantes.
L’approche adoptée est innovante. Elle est fondée sur l’analyse de discours. La
difficulté dans la structuration des articles scientifiques consiste à établir des liens de
co-référence de très grande portée, spécialement lorsque les formulations lexicales
varient. Ce point est traité en linguistique et en stylistique, mais nécessite une
approche différentielle (non triviale).
Un modèle théorique en analyse argumentative de discours est proposé (il en existe
plusieurs, parmi lesquels le doctorant pourra choisir, mais ils posent tous les mêmes
problèmes d’implémentation). L’annotation des articles est établie d'après la structure
discursive et s’appuie sur le plan (13). Pratiquement, la structure discursive est
calculée à partir des indices relevés dans le texte et les fractions de texte.
Il reste à gérer les points de décision de l’algorithme. Le doctorant devra faire preuve
de sagacité et de rigueur dans le choix et la mise en œuvre de stratégies efficaces,
éventuellement issues d’autres domaines d’application (méthodes dans la lignée
inductive ou autre).
Les résultats obtenus seront évalués en vérifiant trois points : la qualité en termes de
pertinence sémantique dans le domaine bio-médical ; la fiabilité (détection des
arguments avec un maximum de certitude) ; et la robustesse ou couverture du
logiciel en termes de formats traités.
Etapes de travail
Classiquement dans une conduite de thèse, il sera nécessaire de faire le point sur
les travaux concernant le traitement des articles bio-médicaux et le traitement du
discours, d’autant que le terme argumentation reçoit des acceptions différentes selon
les communautés de chercheurs (3, 4, 10, 11).
Le travail initial comprend la familiarisation avec les types d’articles du domaine
biomédical et la notion d’argumentation à l’échelle du texte (1, 2, 9). La définition
d’une stratégie sera suivie de la réalisation d’un logiciel d’étude et de l’évaluation des
résultats.
La réalisation d’un logiciel suppose le maniement d’outils d’analyse de corpus et de
maquettage (plate-forme wims ou LinguaStream, langage Java, Php), de la
technologie XML et des langages à expressions régulières (Perl, Python). Elle
comporte la gestion de l’interface utilisateurs.
L’évaluation des résultats sera suivie d’une confrontation avec les méthodes
existantes et d’une réflexion sur les différentes approches d’investigation des articles
scientifiques pour situer les complémentarités.
Références
1. FLEISCHMAN, Suzanne (2001). "Language and Medicine" in The Handbook of Discourse
Analysis. D. SCHIFFRIN et al. (Ed.), Blackwell: 470-502.
2. DE WAARD, A., L. BREURE, J. G. KIRCZ & H. VAN OOSTENDORP (2006). "Modeling
Rhetoric in Scientific Publications ": Inscit 2006 In Current Research in Information Sciences
and Technologies Multidisciplinary approaches to global information systems V. P. GuerreroBote (Ed.), Open Institute of Knowledge.
3. FRIEDMAN, C., P. KRA & A. RZHETSKY (2002). "Two biomedical sublanguages: a
description based on the theories of Zellig Harris" Journal of Biomedical informatics 35 (4):
222-35.
2
4. GLANZBERG, Michael (2002). "Context and Discourse" Mind and Language 17: 333-375.
5. HIRSCHMAN, L., A. YEH, C. BLASCHKE & A. VALENCIA (2005). "Overview of
BioCreAtIvE: critical assessment of information extraction for biology" BMC Bioinformatics (6
S1).
6. KANDO, Noriko (1997). Text-level Structure of Research Papers: Implications for Text-Based
Information Processing Systems. BCS-ISRG Colloquium. pp. 1-14.
7. KARLGREN, Jussi (2005). "Meaningful models for information access systems" in Inquiries
into Words, Constraints and Contexts: Festschrift in the Honour of Kimmo Koskenniemi on his
60th Birthday.: 241-248.
8. MACK, R., S. MUKHERJEA, A. SOFFER, N. URAMOTO, E. BROWN, A. CODEN, J.
COOPER, A. INOKUCHI, B. IYER, Y. MASS, H. MATSUZAWA & L. V. SUBRAMANIAM
(2004). "Text analytics for life science using the Unstructured Information Management
Architecture" IBM Systems Journal 43 (3): 490-515.
9. NWOGU, K. N. (1997). "The medical research paper: structure and functions" English for
Specific Purposes 16: 1119-1138.
10. POLANYI, L., C. CULY, M. VAN DEN BERG, G.L. THIONE & D. AHN (2004). "A Rule Based
Approach to Discourse Parsing". In Proceedings of the 5th SIGdial Workshop in Discourse
and Dialogue (pp. 108-117).
11. REDEKER, G. (2000). "Coherence and structure in text and discourse" in Abduction, Belief
and Context in Dialogue. Studies in Computational Pragmatics. W. Black & H. Hunt (Ed.).
Amsterdam, John Benjamins: 233-263.
12. REITTER, David (2003). "Simple Signals for Complex Rhetorics: On Rhetorical Analysis with
Rich-Feature Support Vector Models" in Sprachtechnologie für die multilinguale
Kommunikation. U. Seewald-Heeg (Ed.). Sankt Augustin: Gardez! Verlag.
13. VOISIN, L. (2002) Le correcteur automatique d'articles scientifiques en anglais. Stage de
maîtrise sous la dir. de N. Lucas et J. Vergne, GREYC, Université de Caen.
14. ZERIDA, N., N. LUCAS, B. CREMILLEUX Combinaison de descripteurs linguistiques et de
structure pour la fouille d’articles biomédicaux. International Symposium on Discourse and
Document. Caen, Presses universitaires de Caen, Schedae 9-1 (2006) 69-78.
15. http://www.bionlp.org/
16. Text REtrieval Conference [http://trec.nist.gov/]
17. BioCreative [http://biocreative.sourceforge.net/]
3