Formulaire de proposition de sujet de thèse

Transcription

Formulaire de proposition de sujet de thèse
Formulaire de proposition de sujet de thèse
Titre (en): Building a set of common components for in-silico evolution running on next
generation HPC platforms
Titre (fr): Un ensemble de briques communes pour les simulateurs d'évolution in-silico
tournant sur des plateformes HPC.
Mots clés : in-silico evolution, computational biology, artificial evolution, complex systems,
numerical computing, HPC, runtime
Description du sujet (en):
Evolution is the major source of complexity on Earth, at the origin of all the species we can
observe, interact with or breed. On a smaller scale, evolution is at the heart of the
adaptation process for many species, in particular micro-organisms (e.g. bacteria,
viruses…). Microbial evolution results in the emergence of the species itself, and it also
contributes to the organisms’ adaptation to perturbations or environmental changes.
Evolution is central to many contemporary challenges : antibiotic resistance, nosocomial
infections, emerging viruses, microbiome and new invasive species due to climate change.
To better understand the evolutionary dynamic of microorganisms and of their cellular
structures (genome organisation, regulation networks, signaling cascades, metabolic
networks), we develop individual-based evolutionary models. They allow us to study how
evolution leads to some specific structures shaped by the needs of robustness, variability
or evolvability, depending on some specific conditions (e.g., large vs. small efficient
population sizes, high vs. low mutation rates, stable vs. unstable environments). Models
can also be used for predictive purposes on real data: we reconstruct the evolutionary
events that have shaped the extant real genomes, including small substitutions as well as
large genome reorganizations. By comparing the reconstructed historical events and the
laws inferred from artificial experiments, we can explain some patterns of today’s
organisms and biodiversity.
Nowadays, multiple simulation frameworks (and their underlying models) exist e.g. Avida
(Beacon Center, Michigan State University), (R-)Aevol (LIRIS-Inria Beagle), Pearls on
string (Utrecht University), EvoEvo (EvoEvo FP7 Project). Each one comes with its own
model and focuses on a specific biologic level. Furthermore, none of these frameworks
share code (and optimizations). Moreover, they are quite slow (ranging from several days
to several months for a single simulation run). Accordingly, for each new model, all the
past optimizations are lost and it is hardly possible to increase the number of simulated
organisms neither than the length of the evolution process i.e. the number of generations.
The main goal of the Ph.D. will be to formalize and propose a common set of components
for in-silico evolution simulation running on HPC platforms. The Ph.D. student will be
hosted in the Inria Beagle team at LIRIS (Lyon) for the artificial evolution / computational
biology part and at Maison de la simulation for the numerical computation and HPC part.
The Ph.D. thesis will take place as follow :
Define and formalize the numerical computation problems that are common to the
different in-silico evolution frameworks. A very important point is a perfect reproducibility of
the experiments. Accordingly, the proposed method must be strongly validated to be able
to do so.
1.
Propose HPC approaches to solve these problems. It will be important to take into
account the scaling of the simulation to manage large amount of individuals but also to
speed up the simulation to be able to simulate a large number of generations.
Furthermore, the HPC approaches must be applicable to large number of processing units
(to support post-petascale platforms) but also to different types of processing units (CPU,
GPU, Intel Xeon Phi, …).
2.
3.
Demonstrate the utility of the proposed approach for different simulators and fully
apply it to at least one of them. On top of the computational problems, HPC approaches
for visualization (in near real time) and data processing (post-treatments) must also be
proposed.
Description du sujet (fr):
L'évolution est la principale source de complexité sur Terre. Elle est à l'origine de toutes
les espèces que nous pouvons observer, interagir avec et faire se reproduire. A une plus
petite échelle, l'évolution est au coeur du processus d'adaptation de nombreuses espèces,
en particulier celui des micro-organismes (e.g. bactérie et virus). L'évolution microbienne
est la source de nouvelles espèces et aussi contribue à l'adaptation de ces organismes
aux perturbations et aux changements d'environnement. De plus, l'évolution est centrale
pour de nombreux challenges contemporains : la résistance aux antibiotiques, les
infections nosocomiales, les virus émergeants, le microbiome et les nouvelles espèces
invasives due aux changements climatiques.
Pour mieux comprendre les dynamiques évolutives des micro-organismes ainsi que de
leurs structures cellulaires (organisation du génome, réseaux de régulation, cascades de
signalisation, réseaux métaboliques), nous développons des modèles d'évolution basé
individus. Ils nous permettent d'étudier comment l'évolution conduit à des structures
spécifiques façonnées par les besoins de robustesse, de variabilité ou d'évolutivité, selon
certaines conditions spécifiques (e.g. grande vs. petite taille efficace de population, taux
de mutation haut vs. bas, environnement stable et instable). Ces modèles peuvent
également être utilisés pour la prédiction en lien avec des données réels : nous pouvons
reconstruire les évenements évolutifs qui ont façonné les génomes existants, y compris
les petites substitutions ainsi que les grandes réorganisations génomiques. En comparant
les événements historiques reconstruits et les lois déduites des expériences artificielles,
nous pouvons expliquer certaines tendances des organismes et de la biodiversités
d'aujourd'hui.
De nos jours, plusieurs boites à outils de simulations (et leurs modèles sous jacent)
existent e.g. Avida (Beacon Center, Michigan State University), (R-)Aevol (LIRIS-Inria
Beagle), Pearls on string (Utrecht University), EvoEvo (EvoEvo FP7 Project). Chacun
utilise son propre modèle et se concentre sur un niveau biologique spécifique. En outre,
aucune de ces boites à outils ne partagent de code (ou d'optimisations). De plus, ils sont
assez lents (de plusieurs jours à plusieurs mois d'exécution pour une seule simulation).
Ainsi, pour chaque nouveau modèle, toutes les optimisations précédentes sont perdues.
Par conséquence, il est bien souvent impossible d'augmenter le nombre d'organismes
simulées mais aussi la longueur du processus d'évolution i.e. le nombre de générations.
L'objectif principal de cette thèse sera de formaliser et de proposer un ensemble de
composants communs pour les simulateurs de vie artificielle s'exécutant sur des plateformes HPC. Le doctorant sera hébergé dans l'équipe Inria Beagle du LIRIS (Lyon) pour la
partie évolution artificielle / biologie computationnelle et à la Maison de la Simulation pour
la partie calcul numérique et intensif. La thèse se déroulera comme suit :
Définir et formaliser les problèmes de calcul numérique qui sont commun aux
différentes boites à outils d'évolution artificielle. Un point très important est la
reproductibilité parfaite des expériences. Par conséquence, les méthodes proposées
devront être validées dans ce sens.
1.
Proposer des approches de calcul intensif pour résoudre ces problèmes. Il sera
important de prendre en compte le passage à l'échelle de la simulation pour pouvoir gérer
un grand nombre d'individus mais aussi pour augmenter la rapidité d'exécution de la
simulation pour pouvoir simuler un grand nombre de génération. Finalement, les
approches de calcul intensif choisies devront être applicable à un très grand nombre
d'unité de calcul (pour supporter les plate-formes post-petascale) mais aussi à différents
types d'unité de calcul (CPU, GPU, Intel Xeon Phi, …).
2.
Démontrer l'utilité de l'approche proposée pour plusieurs simulateurs et l'appliquer
totalement pour au moins l'un d'entre eux. En plus des problèmes de calcul, des
approches HPC devront être proposées pour la visualisation (en temps presque réel) et
pour le traitement de données (post-traitements).
3.
Encadrant :
Nom, prénom : Rouzaud-Cornabas Jonathan
Organisme : INSA de Lyon
Adresse : Inria Antenne Lyon la Doua
Bâtiment CEI-2
56, Boulevard Niels Bohr
CS 52132
69603 Villeurbanne
Téléphone : 04 72 43 75 03
Mél : [email protected]
Etes-vous titulaire d’une HDR ou d’un doctorat d’Etat (oui, non, en cours) ? non
Nombre de doctorants qui seront encadrés au cours de la prochaine année ? 1
Nombre de thèses déjà encadrées ? 0
Etablissement d’inscription potentiel ? INSA de Lyon
Ecole doctorale potentielle ? École Doctorale InfoMaths (ED 512)
Ce sujet est-il susceptible de faire l’objet d’un co-financement entre la Maison de la
Simulation et un autre établissement : Non
Le cas échant, établissement partenaire :