Structuration et présentation de motifs en fouille de données

Transcription

Structuration et présentation de motifs en fouille de données
Sujet de thèse 2013
Structuration et présentation de motifs en fouille de données
pour la découverte de motifs utiles :
application aux motifs de graphes en toxicologie
Encadrants :
in silico
Bertrand Cuissart (MC), Alban Lepailleur 1 (MC HDR) et Bruno Crémilleux (PR).
Laboratoire : GREYC - CNRS - UMR 6072, équipe Constraints, Data Mining, Graphs (CoDaG),
sujet soutenu par le CERMN - UPRES EA 4258 - FR CNRS 3038 INC3M
Il s'agit de développer des méthodes et des outils permettant de structurer les motifs
résultant d'un processus de fouille de données. Des avancées dans ce cadre seront utiles au projet de
toxicologie informatique bas-normand ; de plus, les productions de ce travail possèderont un caractère
général, valorisant ainsi le savoir-faire local en matière de fouille de données structurées.
Ob jectif
Le niveau de toxicité d'une molécule résulte généralement de l'activité de certains de
ses fragments appelés des toxicophores. Au cours des quinze dernières années, ce constat a servi
de fondement au développement de plusieurs travaux de toxicologie informatique, permettant des
avancées signicatives en toxicologie, comme l'ont démontré les résultats du Predictive Toxicology
Challenge dans le domaine particulier de la cancérogenèse chimique[1]. Toutefois, il est admis que les
modèles actuels sourent de deux lacunes : ils reposent uniquement sur des toxicophores proposés par
des experts humains et ils ne tiennent pas compte de l'inuence des conjonctions de fragments[5].
En réponse à ces besoins, nous avons conçu une méthode d'extraction des motifs corrélés à un prol
de toxicité, méthode dont l'intérêt applicatif a été reconnu sur le plan international [4]. En s'appuyant
sur ce résultat, notre objectif est maintenant de construire une méthode automatique d'évaluation
de la toxicité des molécules à partir des motifs corrélés. Pour cela, il est nécessaire de structurer
l'ensemble des motifs extraits, comme cela est le cas pour tout processus de fouille de données. Ce
travail de structuration de l'ensemble des motifs répond aux besoins suivants : i) sélectionner les motifs
"intéressants" parmi les motifs corrélés, ii) mettre en dynamique des motifs "intéressants" pour que
le toxicologue puisse les étudier, iii) étudier la notion d'équivalence entre motifs de manière à trouver
des connaissances s'appuyant sur peu d'exemples.
Contexte
La corrélation de nombreux motifs à l'activité est en fait due à des sous-parties de ces motifs
qui sont fortement corrélées à cette activité. Ces motifs ne sont pas directement intéressants, ils viennent inutilement augmenter l'ensemble des résultats et ils ne sont pas à conserver pour faire ressortir
les motifs réellement intéressants par rapport à l'activité. L'utilisation des résultats par un expert
nécessite une organisation des motifs dont l'étude provoquera la génération d'hypothèses concernant
la toxicité. D'autre part, quelques motifs intéressants sont supportés par trop peu d'exemples connus
pour être généralisés ; une notion d'équivalence entre motifs permettrait de généraliser en s'appuyant
sur moins d'exemples.
Ces trois problématiques seront étudiées en prenant la relation d'inclusion comme base de structuration des motifs. Cette structure est déjà utilisée avec succès, notamment pour la fouille de données
[3] : le treillis des concepts sert communément à regrouper les motifs. Nous proposons ici d'aller plus
loin dans l'exploitation de cette structure : nous nous concentrerons sur les transitions entre concepts,
transitions que nous avons nommé la stimulation [2]. Par ailleurs, nous proposons aussi d'introduire
une notion d'équivalence entre concepts, faisant ainsi évoluer la structure classique. Ces questions, si
elles se posent de manière aigüe en toxicologie prédictive, ont une portée plus générale ; des réponses
à ces questions pourront s'appliquer aux problèmes dont la résolution s'appuie sur l'acquisition de
règles d'inférence.
Travail
1. Alban Lepailleur est maître de conférences de l'Université de Caen, habilité en science du médicamement (section
86). Alban est membre du Centre d'Études et de Recherche sur le Médicament de Normandie (CERMN - UPRES EA
4258 - FR CNRS 3038 INC3M) ; il est aussi accueilli par l'équipe CODAG du GREYC
1
Références
[1] R Benigni and R Zito. The second National Toxicology Program comparative exercise on the
prediction of rodent carcinogenicity : denitive results. MUTATION RESEARCH-REVIEWS IN
MUTATION RESEARCH, 566(1) :4963, JAN 2004.
[2] Ryan Bissell-Siders, Bertrand Cuissart, and Bruno Cremilleux. On the Stimulation of Patterns
Denitions, Calculation Method and First Usages. In Croitoru, M and Ferre, S and Lukose, D,
editor, CONCEPTUAL STRUCTURES : FROM INFORMATION TO INTELLIGENCE, volume
6208 of Lecture Notes in Articial Intelligence, pages 5669, HEIDELBERGER PLATZ 3, D-14197
BERLIN, GERMANY, 2010. Min Sci Technol & Innovat ; MIMOS BERHAD ; Natl ICT Assoc
Malaysia ; Multimedia Dev Corp ; Univ Malaysia Sarawak, Fac Cognit Sci & Human Dev ; Univ
Malaysia Sarawak, Fac Comp Sci & Informat Technol ; Univ Malaysia Sarawak, Ctr Excellence Semant Technol & Augmented Real, SPRINGER-VERLAG BERLIN. 18th International Conference
on Conceptual Structures, Kuching, MALAYSIA, JUL 26-30, 2010.
[3] B. Ganter, G. Stumme, and R. Wille, editors. Formal Concept Analysis : Foundations and Applications. Springer, 2005.
[4] Sylvain Lozano, Guillaume Poezevara, Marie-Pierre Halm-Lemeille, Elodie Lescot-Fontaine, Alban
Lepailleur, Ryan Bissell-Siders, Bruno Cremilleux, Sylvain Rault, Bertrand Cuissart, and Ronan
Bureau. Introduction of Jumping Fragments in Combination with QSARs for the Assessment of
Classication in Ecotoxicology. JOURNAL OF CHEMICAL INFORMATION AND MODELING,
50(8) :13301339, AUG 2010.
[5] Luis G. Valerio, Jr. In silico toxicology for the pharmaceutical sciences. TOXICOLOGY AND
APPLIED PHARMACOLOGY, 241(3) :356370, DEC 15 2009.
2

Documents pareils