Formulaire de proposition de sujet de thèse
Transcription
Formulaire de proposition de sujet de thèse
Formulaire de proposition de sujet de thèse Titre (en): Building a set of common components for in-silico evolution running on next generation HPC platforms Titre (fr): Un ensemble de briques communes pour les simulateurs d'évolution in-silico tournant sur des plateformes HPC. Mots clés : in-silico evolution, computational biology, artificial evolution, complex systems, numerical computing, HPC, runtime Description du sujet (en): Evolution is the major source of complexity on Earth, at the origin of all the species we can observe, interact with or breed. On a smaller scale, evolution is at the heart of the adaptation process for many species, in particular micro-organisms (e.g. bacteria, viruses…). Microbial evolution results in the emergence of the species itself, and it also contributes to the organisms’ adaptation to perturbations or environmental changes. Evolution is central to many contemporary challenges : antibiotic resistance, nosocomial infections, emerging viruses, microbiome and new invasive species due to climate change. To better understand the evolutionary dynamic of microorganisms and of their cellular structures (genome organisation, regulation networks, signaling cascades, metabolic networks), we develop individual-based evolutionary models. They allow us to study how evolution leads to some specific structures shaped by the needs of robustness, variability or evolvability, depending on some specific conditions (e.g., large vs. small efficient population sizes, high vs. low mutation rates, stable vs. unstable environments). Models can also be used for predictive purposes on real data: we reconstruct the evolutionary events that have shaped the extant real genomes, including small substitutions as well as large genome reorganizations. By comparing the reconstructed historical events and the laws inferred from artificial experiments, we can explain some patterns of today’s organisms and biodiversity. Nowadays, multiple simulation frameworks (and their underlying models) exist e.g. Avida (Beacon Center, Michigan State University), (R-)Aevol (LIRIS-Inria Beagle), Pearls on string (Utrecht University), EvoEvo (EvoEvo FP7 Project). Each one comes with its own model and focuses on a specific biologic level. Furthermore, none of these frameworks share code (and optimizations). Moreover, they are quite slow (ranging from several days to several months for a single simulation run). Accordingly, for each new model, all the past optimizations are lost and it is hardly possible to increase the number of simulated organisms neither than the length of the evolution process i.e. the number of generations. The main goal of the Ph.D. will be to formalize and propose a common set of components for in-silico evolution simulation running on HPC platforms. The Ph.D. student will be hosted in the Inria Beagle team at LIRIS (Lyon) for the artificial evolution / computational biology part and at Maison de la simulation for the numerical computation and HPC part. The Ph.D. thesis will take place as follow : Define and formalize the numerical computation problems that are common to the different in-silico evolution frameworks. A very important point is a perfect reproducibility of the experiments. Accordingly, the proposed method must be strongly validated to be able to do so. 1. Propose HPC approaches to solve these problems. It will be important to take into account the scaling of the simulation to manage large amount of individuals but also to speed up the simulation to be able to simulate a large number of generations. Furthermore, the HPC approaches must be applicable to large number of processing units (to support post-petascale platforms) but also to different types of processing units (CPU, GPU, Intel Xeon Phi, …). 2. 3. Demonstrate the utility of the proposed approach for different simulators and fully apply it to at least one of them. On top of the computational problems, HPC approaches for visualization (in near real time) and data processing (post-treatments) must also be proposed. Description du sujet (fr): L'évolution est la principale source de complexité sur Terre. Elle est à l'origine de toutes les espèces que nous pouvons observer, interagir avec et faire se reproduire. A une plus petite échelle, l'évolution est au coeur du processus d'adaptation de nombreuses espèces, en particulier celui des micro-organismes (e.g. bactérie et virus). L'évolution microbienne est la source de nouvelles espèces et aussi contribue à l'adaptation de ces organismes aux perturbations et aux changements d'environnement. De plus, l'évolution est centrale pour de nombreux challenges contemporains : la résistance aux antibiotiques, les infections nosocomiales, les virus émergeants, le microbiome et les nouvelles espèces invasives due aux changements climatiques. Pour mieux comprendre les dynamiques évolutives des micro-organismes ainsi que de leurs structures cellulaires (organisation du génome, réseaux de régulation, cascades de signalisation, réseaux métaboliques), nous développons des modèles d'évolution basé individus. Ils nous permettent d'étudier comment l'évolution conduit à des structures spécifiques façonnées par les besoins de robustesse, de variabilité ou d'évolutivité, selon certaines conditions spécifiques (e.g. grande vs. petite taille efficace de population, taux de mutation haut vs. bas, environnement stable et instable). Ces modèles peuvent également être utilisés pour la prédiction en lien avec des données réels : nous pouvons reconstruire les évenements évolutifs qui ont façonné les génomes existants, y compris les petites substitutions ainsi que les grandes réorganisations génomiques. En comparant les événements historiques reconstruits et les lois déduites des expériences artificielles, nous pouvons expliquer certaines tendances des organismes et de la biodiversités d'aujourd'hui. De nos jours, plusieurs boites à outils de simulations (et leurs modèles sous jacent) existent e.g. Avida (Beacon Center, Michigan State University), (R-)Aevol (LIRIS-Inria Beagle), Pearls on string (Utrecht University), EvoEvo (EvoEvo FP7 Project). Chacun utilise son propre modèle et se concentre sur un niveau biologique spécifique. En outre, aucune de ces boites à outils ne partagent de code (ou d'optimisations). De plus, ils sont assez lents (de plusieurs jours à plusieurs mois d'exécution pour une seule simulation). Ainsi, pour chaque nouveau modèle, toutes les optimisations précédentes sont perdues. Par conséquence, il est bien souvent impossible d'augmenter le nombre d'organismes simulées mais aussi la longueur du processus d'évolution i.e. le nombre de générations. L'objectif principal de cette thèse sera de formaliser et de proposer un ensemble de composants communs pour les simulateurs de vie artificielle s'exécutant sur des plateformes HPC. Le doctorant sera hébergé dans l'équipe Inria Beagle du LIRIS (Lyon) pour la partie évolution artificielle / biologie computationnelle et à la Maison de la Simulation pour la partie calcul numérique et intensif. La thèse se déroulera comme suit : Définir et formaliser les problèmes de calcul numérique qui sont commun aux différentes boites à outils d'évolution artificielle. Un point très important est la reproductibilité parfaite des expériences. Par conséquence, les méthodes proposées devront être validées dans ce sens. 1. Proposer des approches de calcul intensif pour résoudre ces problèmes. Il sera important de prendre en compte le passage à l'échelle de la simulation pour pouvoir gérer un grand nombre d'individus mais aussi pour augmenter la rapidité d'exécution de la simulation pour pouvoir simuler un grand nombre de génération. Finalement, les approches de calcul intensif choisies devront être applicable à un très grand nombre d'unité de calcul (pour supporter les plate-formes post-petascale) mais aussi à différents types d'unité de calcul (CPU, GPU, Intel Xeon Phi, …). 2. Démontrer l'utilité de l'approche proposée pour plusieurs simulateurs et l'appliquer totalement pour au moins l'un d'entre eux. En plus des problèmes de calcul, des approches HPC devront être proposées pour la visualisation (en temps presque réel) et pour le traitement de données (post-traitements). 3. Encadrant : Nom, prénom : Rouzaud-Cornabas Jonathan Organisme : INSA de Lyon Adresse : Inria Antenne Lyon la Doua Bâtiment CEI-2 56, Boulevard Niels Bohr CS 52132 69603 Villeurbanne Téléphone : 04 72 43 75 03 Mél : [email protected] Etes-vous titulaire d’une HDR ou d’un doctorat d’Etat (oui, non, en cours) ? non Nombre de doctorants qui seront encadrés au cours de la prochaine année ? 1 Nombre de thèses déjà encadrées ? 0 Etablissement d’inscription potentiel ? INSA de Lyon Ecole doctorale potentielle ? École Doctorale InfoMaths (ED 512) Ce sujet est-il susceptible de faire l’objet d’un co-financement entre la Maison de la Simulation et un autre établissement : Non Le cas échant, établissement partenaire :