Stages Recherche de M2 (MOPS et IMBI) et
Transcription
Stages Recherche de M2 (MOPS et IMBI) et
Stages Recherche de M2 (MOPS et IMBI) et troisième année d école d ingénieurs LABORATOIRE IBISC Thème : APPRENTISSAGE AUTOMATIQUE & BIOINFO Mots-clefs : apprentissage statistique, bioinformatique, génomique fonctionnelle, modélisation de réseaux biologiques Tous les stages se déroulent à IBISC (EVRY) au sein de l équipe Apprentissage, Modélisation et Intégration de données pour la biologie des systèmes. Durée : 5 à 6 mois (début souhaité Février ou Mars) Indemnités 300 euros/mois. Contact : [email protected] avant le 12/31/06 : www.ibisc.univ-evry.fr/~dalche A partir de 2007 : http://amis-bio.ibisc.univ-evry.fr Stage 1 : Mélange de réseaux bayésiens dynamiques pour la modélisation de réseaux d'interactions géniques Mots-clefs : modèles graphiques, réseaux bayésiens dynamiques, modèles à espace d états, modules, réseaux génétiques de régulation La modélisation et l'inférence de réseaux biologiques à partir de données (transcriptome/ protéome/métabolome) constituent des enjeux majeurs de la biologie des systèmes. L apprentissage statistique offre un cadre à la fois formel et méthodologique pour la représentation et l identification de tels systèmes. On s intéresse à l hypothèse de modularité dans les réseaux génétiques : toute fonction biologique est implémentée non pas par un seul gène mais par un ensemble de gènes qui interagissent. Un réseau génétique serait décomposable en plusieurs sous-réseaux plus ou moins connectés correspondants à des fonctions distinctes, implémentées en parallèle ou à différents moments. L objectif de ce premier stage est d étudier et de développer un modèle de mélange original, basé sur des sous-réseaux de base, qui permettent d implémenter cette hypothèse. Contrairement aux modèles usuels de mélange, chaque modèle, composant de base, travaille dans un sous-espace à identifier. Il s agit donc de définir le nombre de sousréseaux, les probabilités que les gènes étudiés aient leur activité régie par ces sous-réseaux et la nature des régulations au sein de ces sous-réseaux. On propose de lier la notion de sous-réseau à la notion d indépendance statistique et d utiliser des décompositions de type ICA ( analyse en composantes indépendantes) pour identifier les sous-réseaux pertinents. On pourra choisir de travailler à partir d une initialisation des sousréseaux ou au contraire à l aide d un algorithme incrémental et hiérarchique. On travaillera essentiellement sur des données artificielles simulées mais les résultats seront discutés avec des biologistes du site. 1Laboratoire IBISC CNRS Equipe AMIS-BIO Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry Le stagiaire bénéficiera du travail déjà effectué sur deux types de systèmes dynamiques : système dynamique linéaire sous la forme d un filtre de Kalman et modèle non linéaire dynamique appris à l aide d un filtre à particules. Contact : Florence d Alché (email : [email protected],Tél. 01 60 87 39 08) et Nicolas Brunel (postdoc présent au laboratoire à partir de décembre 2006). Bibliographie : A unifying view of linears systems, Roweis , Gharahmani, Neural Computation., vol. 11, 1999. Inference of gene regulatory network with Dynamic Bayesian Network, B.-E. Perrin, L. Ralaivola,A. Mazurie, S. Bottani, J. Mallet, F. d'Alché-Buc, Bioinformatics (Oxford Press), vol. 19, 2003. Modeling highly non linear time series using kernel dynamical models, L. Ralaivola and F. d'Alché-Buc, Advance in Neural Information Processing Systems, MIT Press, 2004. Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules In Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors, Probabilistic Modeling and Machine Learning in Structural and Systems Biology (PMSB 2006), workshop proceedings, pages131-136, Helsinki University Printing House, 2006. G. Siolas et F. d'Alche-Buc, Mixture of Probabililistic PCAs and Fisher scores for word and document modeling, in Artificial Neural networks ICANN 2002, Lecture Notes in Computer Science 2415 Springer 2002,pp.769-776, 2002. Stage 2 : Extraction de modules dans les réseaux d interactions géniques à partir de données d expression statiques et cinétiques Les données d expression (transcriptome) sont généralement étudiées sous l angle du clustering classique : c est-à-dire qu on souhaite regrouper les gènes qui sont co-exprimés. Cependant, dans un réseau d interactions géniques, l important est de savoir qui interagit avec qui. Si on admet l hypothèse d une certaine modularité dans les réseaux, l identification de groupes de gènes interdépendants entre eux et faiblement dépendants avec les gènes des autres groupes s avère une piste intéressante. Dans le cadre du projet ANR Genomic Data to Graph Structure (GD2GS) coordonné par l équipe AMIS-BIO, un stage est proposé pour travailler sur des données d abord statiques d expression de gènes de cellules humaines de la peau. Le stage donnera lieu à une collaboration avec le CEA d Evry. Ce stage a un lien fort avec le stage 1. Contact : Florence d Alché-Buc, IBISC ([email protected]), Vincent Frouin ([email protected]). Bibliographie : F. Bach and M. Jordan, Kernel independent component analysis,The Journal of Machine Learning Research,Volume 3 , (March 2003), Pages: 1 - 48 ,2003. 2Laboratoire IBISC CNRS Equipe AMIS-BIO Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry Janne Nikkilä, Antti Honkela, and Samuel Kaski. Exploring the independence of gene regulatory modules In Juho Rousu, Samuel Kaski, and Esko Ukkonen, editors, Probabilistic Modeling and Machine Learning in Structural and Systems Biology (PMSB 2006), workshop proceedings, pages131-136, Helsinki University Printing House, 2006. G. Siolas et F. d'Alche-Buc, Mixture of Probabililistic PCAs and Fisher scores for word and document modeling, in Artificial Neural networks ICANN 2002, Lecture Notes in Computer Science 2415 Springer 2002,pp.769-776, 2002. F. Theis. Towards a general independent subspace analysis, preprint, NIPS 2006. Stage 3 : Combinaison de programmation logique inductive et d inférence statistique pour l inférence supervisée de réseau biologique On s intéresse à différents concepts d interaction biologique dans la cellule : - interaction physique entre protéines interaction entre gènes régulateurs et gènes régulés interactions métaboliques L apprentissage relationnel réalisé en programmation logique inductive semble particulièrement adapté à l identification des règles sous-jacentes à chacun de ces concepts. Cependant dès que le nombre de variables et le nombre de prédicats est important, les algorithmes de programmation logique inductive se heurtent à la NP-complétude du problème d induction. Dans ce stage, on se propose de re-visiter les formalismes récents proposés pour l apprentissage de règles probabilistes du premier ordre et d identifier parmi ceux-ci le cadre approprié à l inférence d interactions biologiques à partir de données. Dans ce contexte, on s intéressera en particulier aux liens entre réseaux bayésiens et programmes logiques probabilistes. Le stage s appuiera sur un stage déjà réalisé dans l équipe AMIS-BIO en 2004 sur l apprentissage de concept d interactions géniques avec l ILP. Le travail s inscrira dans le cadre d une collaboration avec l équipe de Christel Vrain au Laboratoire d Informatique Fondamentale à Orléans et participera au projet ANR (Appel Action en Amont : masse de données) : Genomic Data to Graph Structure financé entre 2006 et 2008, et coordonné par l équipe. Une thèse peut suivre. Contact : Florence d Alché ([email protected]) et Christel Vrain ([email protected]) Bibliographie : Travaux de Luc De Raedt, de S. Muggleton. Rapport Eprint réseau PASCAL . Cyril Combe, Florence d Alché. Apprentissage relationnel du concept de régulation. 2005. 3Laboratoire IBISC CNRS Equipe AMIS-BIO Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry Stage 4 : Apprentissage statistique pour la prédiction de structures Ce stage a pour objectif l étude de différentes méthodes de l apprentissage statistique pour la prédiction dans des espaces de sorties structurés. La prédiction de structures en sortie est en effet l un des plus grands challenges actuels en apprentissage statistique. Ce problème très récemment introduit est omniprésent en bioinformatique et en fouille de textes. Il s agit de définir des algorithmes d apprentissage supervisé qui puissent fournir en sortie des objets structurés et non des vecteurs. On souhaite ici élaborer une stratégie nouvelle pour traiter le cas où les sorties sont interdépendantes avec les entrées : par exemple, prédire à partir d une matrice d entrée de données d expression un graphe de dépendance entre les gènes. Différentes méthodes récentes dont une, Output Kernel Tree (OK3), introduite par l équipe en 2006 peuvent être considérées et étendues. OK3 est une extension des méthodes d arbres (arbres, extra-trees, boosting d arbres) qui considère un espace de sortie muni d une fonction noyau. OK3 allie les avantages des arbres et ceux des méthodes à noyaux. Un ensemble de tâches de difficulté croissante sera étudié pour se familiariser avec la méthode : classification hiérarchique de protéines puis prédiction de réseaux biologiques. Les données seront puisées dans les deux projets menés par l équipe en collaboration avec des biologistes : GD2GS (Apprentissage semi-supervisé de graphes) , DYNAMO (Extraction de réseaux de régulation à partir de l étude des données cinétiques). Plusieurs stages sont possibles sur ce thème avec de préférence une prolongation en thèse de doctorat. Contact : Florence d Alché ([email protected]) et Pierre Geurts ([email protected], [email protected]). Le stage se déroulera à IBISC (Evry) avec une possibilité de court séjour à l université de Liège (Belgique). Bibliographie : . Thèse de Ben Taskar, Stanford, 2005. . P. Geurts, L. Wehenkel, F. d Alché-Buc, Kernelizing the output of tree-based methods, Proc. of ICML 2006. . P. Geurts, N. Touleimat, M. Dutreix, F. d Alché-Buc, Inferring biological networks with Output Kernel Trees, BMC Bioinformatics, à paraître 2007. Stage 5 : Combinaisons locales de noyaux pour la détection de groupes homogènes de gènes. L'analyse des données d expressions de gènes couplées aux autres types de données génomiques (fonctions, réseaux biologiques, localisation, ) ouvre des voies vers la découverte des mécanismes de régulation impliqués dans la réponse cellulaire à différents signaux. Dans ce stage, on souhaite étudier l adéquation entre des groupes de gènes homogènes selon un critère de référence (par exemple, les données expérimentales) et 4Laboratoire IBISC CNRS Equipe AMIS-BIO Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry d autres représentations de ces gènes. En utilisant les méthodes à noyaux, les différents critères se traduisent par la donnée de différentes matrices de similarité qui ont la propriété d être définies positives. Le problème peut alors être posé à travers la recherche d une combinaison locales de noyaux pour approcher au mieux un noyau de référence. On souhaite donc développer une approche automatique qui cherche à optimiser le « matching » entre noyaux en autorisant des « matching » locaux (sous-matrices). Plusieurs approches seront considérées et s appuieront sur la programmation semi définie positive. Les méthodes seront appliquées à des données de la levure soumise à l irradiation (Collaboration avec Marie Dutreix, Institut Curie, Orsay) que l équipe a déjà étudiées. Contact : F. d Alché-Buc, Farida Zehraoui, ([email protected]). Le stage se déroulera à IBISC (Evry), dans le contexte de Genopole. Bibliographie : Lanckriet, G.R.G., De Bie, T., Cristianini, N. , Jordan, M.I., Noble, W.S. (2004). A statistical framework for genomic data fusion . Bioinformatics, 20, 2626-2635, 2004. Vandenberghe, L., Boyd, S. Semidefinite Programming, SIAM Review, vol.38 (1), 49-95, 1996. Lanckriet, G. R. G., Cristianini, N., Bartlett, P., El Ghaoui, L., Jordan , M., Learning the Kernel Matrix with Semidefinite Programming, J. Mach. Learn. Res. Journal, vol.5,27 72,2004. Stage 6 : Algorithmes de clustering spectral et biclustering spectral pour des gros volumes : application à l analyse de données génomiques et transcriptomiques Les méthodes spectrales ont été utilisées récemment avec succès dans plusieurs domaines pour le clustering des données et ont été l'un des thèmes principaux de la conférence internationale d'apprentissage automatique NIPS (Neural Information Processing Systems) 2005. Le coeur du clustering spectral est le Laplacien de la matrice d'adjacence du graphe, qui représente les données, obtenu à partir de la formulation du problème de clustering des données sous forme d'un problème de coupe de graphe normalisée. Cet algorithme utilise les vecteurs propres du Laplacien et donc sont peu appropriés à des gros volumes de données. En revanche, il suffit de déterminer une matrice de noyau pour l appliquer et donc le traitement de données hétérogènes se traduit simplement par la définition de différentes matrices de noyau. Les algorithmes de biclustering [MAD04] représentent une généralisation des algorithmes de clustering basés sur des représentations vectorielles. Ils cherchent des sous-ensembles significatifs de données similaires suivant un sous ensemble d'attributs. Ces groupes sont appelés biclusters. Le biclustering spectral travaille à partir de fonctions noyaux par extension du problème de coupe de graphe à un graphe biparti, généralisant ainsi le clustering spectral. L objectif principal de ce stage est d étudier différentes solutions pour adapter les algorithmes de clustering spectral et biclustering au traitement de gros volumes de données, avec pour option, le cas échéant de proposer un nouvel algorithme. Le stagiaire s emploiera à traiter les données du projet GD2GS qui vise à identifier des réseaux de régulation transcriptionnelle impliqués dans la réponse des cellules de la peau à l irradiation en utilisant des techniques 5Laboratoire IBISC CNRS Equipe AMIS-BIO Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry d'apprentissage automatique [ GD2GS : Genomic Data to Graph Structure est un projet ANR coordonnée par l équipe AMIS-BIO]. Bibliographie : [Madeira & Oliveira, 2004] Sara C. Madeira, Arlindo L. Oliveira, "Biclustering Algorithms for Biological Data Analysis: A Survey," IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 01, no. 1, pp. 24-45, Jan-Mar, 2004. [Zha & al., 2001b] H. Zha, X. He, C. Ding, M. Gu & H. Simon. Bipartite Graph Partitioning and Data Clustering, Proc. of ACM 10th Int'l Conf. Information and Knowledge Management (CIKM 2001), pp.25-31, 2001, Atlanta. I. S. Dhillon . Co-Clustering Documents and Words Using Bipartite Spectral Graph Partitioning. Proc. of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD), August 26-29, 2001, San Francisco, California, USA Contact : Farida Zehraoui MC et Florence d Alché, PR, IBISC, mailto:{prenom.nom}@ibisc.fr. Le stage se déroulera à IBISC (Evry) en collaboration avec Vincent Frouin du SGF-CEA (Evry). Stage 7 : Algorithmes de biclustering pour traiter des données structurées NB : ce stage concerne la même problématique que le stage 5 avec une approche différente. L'analyse des données d expressions de gènes couplées aux autres types de données génomiques (fonctions, réseaux biologiques, localisation, ) ouvre des voies vers la découverte des mécanismes de régulation impliqués dans la réponse cellulaire à différents signaux. Une étape clé dans cette analyse consiste à détecter des groupes de gènes ayant des expressions similaires. Ceci revient à utiliser des algorithmes de clustering ou de biclustering. Dans ce stage, on s intéressera au traitement de données hétérogènes (cinétiques d expression, fonctions GO, ) par le biais du biclustering. Un travail déjà réalisé dans l équipe [Touleimat et al. 2005, Touleimat et al. 2006] a permis d étudier des données concernant la réponse de la levure à l irradiation et d extraire des bribes de réseaux de régulation. Un algorithme appelé multiclustering (clustering spectral appliqué à une combinaison de noyaux) ainsi que du biclustering ont été utilisés successivement sur deux types de données : des données expérimentales (cinétiques d expression) puis des données provenant de différentes bases de données.. Dans ce stage, nous souhaitons reprendre l étude et appliquer une seule fois un algorithme de biclustering à l ensemble des données qui sont donc particulièrement hétérogènes. Le stagiaire privilégiera l études des méthodes à noyaux (biclustering spectral) et leur extension à ces cas difficile. Bibliographie [Madeira & Oliveira, 2004] Sara C. Madeira, Arlindo L. Oliveira, "Biclustering Algorithms for Biological Data Analysis: A Survey," IEEE/ACM Transactions on Computational Biology and Bioinformatics, vol. 01, no. 1, pp. 24-45, Jan-Mar, 2004. 6Laboratoire IBISC CNRS Equipe AMIS-BIO Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry I. S. Dhillon . Co-Clustering Documents and Words Using Bipartite Spectral Graph Partitioning. Proc. of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD), August 26-29, 2001, San Francisco, California, USA Y. Cheng and G. M. Church. Biclustering of expression data. In 8th Int'l Conference on Intelligent Systems for Molecular Biology, pages 93--103, 2000. Contact : Farida Zehraoui MC et Florence d Alché, PR, IBISC, mailto:{prenom.nom}@ibisc.fr. Le stage se déroulera à IBISC (Evry). 7Laboratoire IBISC CNRS Equipe AMIS-BIO Adresse : Tour Evry II, 4ième étage,523 Place des terrasses 91 Evry This document was created with Win2PDF available at http://www.daneprairie.com. The unregistered version of Win2PDF is for evaluation or non-commercial use only.