Stage de Master 2 en Biostatistique « Construction de modèles de
Transcription
Stage de Master 2 en Biostatistique « Construction de modèles de
Stage de Master 2 en Biostatistique « Construction de modèles de prédiction à partir de données de production de semence ovine. » 1) Contexte L’expérimentation biologique nécessite l’utilisation d’outils statistiques pour la conception des projets et surtout pour l’interprétation et l’exploitation des résultats. Dans le cadre d’un projet regroupant les centres de production de semence ovine et les équipes de recherche d’ALLICE, un ensemble de données quantitatives et qualitatives ont été générées. L’objectif est de mettre au point des prédicteurs précoces du démarrage de la fonction sexuelle chez le bélier, ainsi que des prédicteurs de l’aptitude de la semence à se conserver à 4°C plusieurs heures tout en restant fertile. Le stage se déroulera sur le site de l’INRA à Jouy en Josas, sous la responsabilité d’Andrea Rau (INRA, unité Génétique Animale et Biologie Intégrative) et d’Eli Sellem (Allice). Employeur : ALLICE. Entreprise développant les biotechnologies de la reproduction animale (www.allice.fr). Lieu du Stage : INRA Jouy en Josas Co-encadrement : Andrea Rau ([email protected]), aspect statistique. 01 34 65 22 82 Eli Sellem ([email protected]), aspect biologique. 06 27 47 33 37 2) Objectifs Les objectifs sont les suivants : Effectuer une analyse exploratoire des données de production de semence. Identifier les méthodes de prédiction en statistiques susceptibles d’être utiles dans ce contexte, notamment les régressions multiples, les régressions multiples pénalisées, les arbres de régression, les forets aléatoires, et les machines à vecteurs de support (support vector machines). Construire des modèles de prédiction pour différents phénotypes d’intérêt avec chacune des méthodes identifiées, et évaluer leur performance prédictive à travers de multiples critères statistiques : erreur prédictive, sensibilité, spécificité, statistique de R². Pour la méthode la plus performante, mettre au point un script R (ou idéalement un package R avec documentation) qui facilite sa mise en place pour d’autres jeux de données. 3) Profil Le candidat devra se montrer autonome et motivé pour la modélisation de données biologiques, et aura des notions en inférence statistique et de bonnes aptitudes de programmation en R. Le stage se déroulera dans un environnement de recherche appliqué sur ce projet interdisciplinaire.