Structuration et présentation de motifs en fouille de données
Transcription
Structuration et présentation de motifs en fouille de données
Sujet de thèse 2013 Structuration et présentation de motifs en fouille de données pour la découverte de motifs utiles : application aux motifs de graphes en toxicologie Encadrants : in silico Bertrand Cuissart (MC), Alban Lepailleur 1 (MC HDR) et Bruno Crémilleux (PR). Laboratoire : GREYC - CNRS - UMR 6072, équipe Constraints, Data Mining, Graphs (CoDaG), sujet soutenu par le CERMN - UPRES EA 4258 - FR CNRS 3038 INC3M Il s'agit de développer des méthodes et des outils permettant de structurer les motifs résultant d'un processus de fouille de données. Des avancées dans ce cadre seront utiles au projet de toxicologie informatique bas-normand ; de plus, les productions de ce travail possèderont un caractère général, valorisant ainsi le savoir-faire local en matière de fouille de données structurées. Ob jectif Le niveau de toxicité d'une molécule résulte généralement de l'activité de certains de ses fragments appelés des toxicophores. Au cours des quinze dernières années, ce constat a servi de fondement au développement de plusieurs travaux de toxicologie informatique, permettant des avancées signicatives en toxicologie, comme l'ont démontré les résultats du Predictive Toxicology Challenge dans le domaine particulier de la cancérogenèse chimique[1]. Toutefois, il est admis que les modèles actuels sourent de deux lacunes : ils reposent uniquement sur des toxicophores proposés par des experts humains et ils ne tiennent pas compte de l'inuence des conjonctions de fragments[5]. En réponse à ces besoins, nous avons conçu une méthode d'extraction des motifs corrélés à un prol de toxicité, méthode dont l'intérêt applicatif a été reconnu sur le plan international [4]. En s'appuyant sur ce résultat, notre objectif est maintenant de construire une méthode automatique d'évaluation de la toxicité des molécules à partir des motifs corrélés. Pour cela, il est nécessaire de structurer l'ensemble des motifs extraits, comme cela est le cas pour tout processus de fouille de données. Ce travail de structuration de l'ensemble des motifs répond aux besoins suivants : i) sélectionner les motifs "intéressants" parmi les motifs corrélés, ii) mettre en dynamique des motifs "intéressants" pour que le toxicologue puisse les étudier, iii) étudier la notion d'équivalence entre motifs de manière à trouver des connaissances s'appuyant sur peu d'exemples. Contexte La corrélation de nombreux motifs à l'activité est en fait due à des sous-parties de ces motifs qui sont fortement corrélées à cette activité. Ces motifs ne sont pas directement intéressants, ils viennent inutilement augmenter l'ensemble des résultats et ils ne sont pas à conserver pour faire ressortir les motifs réellement intéressants par rapport à l'activité. L'utilisation des résultats par un expert nécessite une organisation des motifs dont l'étude provoquera la génération d'hypothèses concernant la toxicité. D'autre part, quelques motifs intéressants sont supportés par trop peu d'exemples connus pour être généralisés ; une notion d'équivalence entre motifs permettrait de généraliser en s'appuyant sur moins d'exemples. Ces trois problématiques seront étudiées en prenant la relation d'inclusion comme base de structuration des motifs. Cette structure est déjà utilisée avec succès, notamment pour la fouille de données [3] : le treillis des concepts sert communément à regrouper les motifs. Nous proposons ici d'aller plus loin dans l'exploitation de cette structure : nous nous concentrerons sur les transitions entre concepts, transitions que nous avons nommé la stimulation [2]. Par ailleurs, nous proposons aussi d'introduire une notion d'équivalence entre concepts, faisant ainsi évoluer la structure classique. Ces questions, si elles se posent de manière aigüe en toxicologie prédictive, ont une portée plus générale ; des réponses à ces questions pourront s'appliquer aux problèmes dont la résolution s'appuie sur l'acquisition de règles d'inférence. Travail 1. Alban Lepailleur est maître de conférences de l'Université de Caen, habilité en science du médicamement (section 86). Alban est membre du Centre d'Études et de Recherche sur le Médicament de Normandie (CERMN - UPRES EA 4258 - FR CNRS 3038 INC3M) ; il est aussi accueilli par l'équipe CODAG du GREYC 1 Références [1] R Benigni and R Zito. The second National Toxicology Program comparative exercise on the prediction of rodent carcinogenicity : denitive results. MUTATION RESEARCH-REVIEWS IN MUTATION RESEARCH, 566(1) :4963, JAN 2004. [2] Ryan Bissell-Siders, Bertrand Cuissart, and Bruno Cremilleux. On the Stimulation of Patterns Denitions, Calculation Method and First Usages. In Croitoru, M and Ferre, S and Lukose, D, editor, CONCEPTUAL STRUCTURES : FROM INFORMATION TO INTELLIGENCE, volume 6208 of Lecture Notes in Articial Intelligence, pages 5669, HEIDELBERGER PLATZ 3, D-14197 BERLIN, GERMANY, 2010. Min Sci Technol & Innovat ; MIMOS BERHAD ; Natl ICT Assoc Malaysia ; Multimedia Dev Corp ; Univ Malaysia Sarawak, Fac Cognit Sci & Human Dev ; Univ Malaysia Sarawak, Fac Comp Sci & Informat Technol ; Univ Malaysia Sarawak, Ctr Excellence Semant Technol & Augmented Real, SPRINGER-VERLAG BERLIN. 18th International Conference on Conceptual Structures, Kuching, MALAYSIA, JUL 26-30, 2010. [3] B. Ganter, G. Stumme, and R. Wille, editors. Formal Concept Analysis : Foundations and Applications. Springer, 2005. [4] Sylvain Lozano, Guillaume Poezevara, Marie-Pierre Halm-Lemeille, Elodie Lescot-Fontaine, Alban Lepailleur, Ryan Bissell-Siders, Bruno Cremilleux, Sylvain Rault, Bertrand Cuissart, and Ronan Bureau. Introduction of Jumping Fragments in Combination with QSARs for the Assessment of Classication in Ecotoxicology. JOURNAL OF CHEMICAL INFORMATION AND MODELING, 50(8) :13301339, AUG 2010. [5] Luis G. Valerio, Jr. In silico toxicology for the pharmaceutical sciences. TOXICOLOGY AND APPLIED PHARMACOLOGY, 241(3) :356370, DEC 15 2009. 2