Stage de Master 2 en Biostatistique « Construction de modèles de

Transcription

Stage de Master 2 en Biostatistique « Construction de modèles de
Stage de Master 2 en Biostatistique
« Construction de modèles de prédiction à partir de données de
production de semence ovine. »
1) Contexte
L’expérimentation biologique nécessite l’utilisation d’outils statistiques pour la conception des
projets et surtout pour l’interprétation et l’exploitation des résultats. Dans le cadre d’un projet
regroupant les centres de production de semence ovine et les équipes de recherche d’ALLICE,
un ensemble de données quantitatives et qualitatives ont été générées. L’objectif est de mettre
au point des prédicteurs précoces du démarrage de la fonction sexuelle chez le bélier, ainsi que
des prédicteurs de l’aptitude de la semence à se conserver à 4°C plusieurs heures tout en
restant fertile.
Le stage se déroulera sur le site de l’INRA à Jouy en Josas, sous la responsabilité d’Andrea Rau
(INRA, unité Génétique Animale et Biologie Intégrative) et d’Eli Sellem (Allice).
Employeur :
ALLICE. Entreprise développant les biotechnologies de la reproduction animale
(www.allice.fr).
Lieu du Stage :
INRA Jouy en Josas
Co-encadrement :
Andrea Rau ([email protected]), aspect statistique. 01 34 65 22 82
Eli Sellem ([email protected]), aspect biologique. 06 27 47 33 37
2) Objectifs
Les objectifs sont les suivants :
 Effectuer une analyse exploratoire des données de production de semence.
 Identifier les méthodes de prédiction en statistiques susceptibles d’être utiles dans ce
contexte, notamment les régressions multiples, les régressions multiples pénalisées, les
arbres de régression, les forets aléatoires, et les machines à vecteurs de support
(support vector machines).
 Construire des modèles de prédiction pour différents phénotypes d’intérêt avec chacune
des méthodes identifiées, et évaluer leur performance prédictive à travers de multiples
critères statistiques : erreur prédictive, sensibilité, spécificité, statistique de R².
 Pour la méthode la plus performante, mettre au point un script R (ou idéalement un
package R avec documentation) qui facilite sa mise en place pour d’autres jeux de
données.
3) Profil
Le candidat devra se montrer autonome et motivé pour la modélisation de données
biologiques, et aura des notions en inférence statistique et de bonnes aptitudes de
programmation en R. Le stage se déroulera dans un environnement de recherche appliqué sur
ce projet interdisciplinaire.