french - LIX - Ecole polytechnique
Transcription
french - LIX - Ecole polytechnique
CALL FOR POSTDOC APPLICATION / APPEL A CANDIDATURESUR POSTDOC Projet DIGITEO GAS : Géométrie Algorithmique pour les Statistiques Encadrants : Frank Nielsen (LIX, [email protected]) et Pascal Massart/Gilles Celeux (INRIA Saclay-Ile de France) Titre : Géométrie algorithmique informationnelle pour les statistiques Equipes d’accueil : LIX (Ecole Polytechnique) et SELECT (INRIA Saclay-Ile de France) Dates : Mars 2009-Mars 2010 (ou antérieurement en fonction du candidat). Contexte : Bâtir des modèles statistiques et évaluer leurs pertinences à partir d'un ensemble d'observations est un problème fondamental en analyse statistique aux applications omniprésentes dans tous les domaines des sciences de la nature et du vivant. Une des approches phares consiste à apprendre à partir des données expérimentales un modèle générateur défini comme un mélange de modèles gaussiens grâce à des algorithmes de "clustering" de type maximisation de la vraisemblance (EM: expectation maximization) (voir le logiciel MIXMOD (1)). Plus le mélange contient de composantes (c'està-dire de Gaussiennes pondérées) plus le modèle colle aux observations mais perd de sa généralité. Il est ainsi important en statistique de choisir la bonne échelle du mélange grâce à des critères d'information [2]. Ces modèles de mélange sont souvent en pratique ajustés via des simulations numériques de type MonteCarlo. Nous proposons de considérer les modèles de mélange comme des entités géométriques (des nuages de points) dans des espaces de paramètres statistiques. L'algorithmique géométrique sur ces variétés statistiques en grande dimension et l'étude conjointe de leurs propriétés combinatoires permettra non seulement d'interpréter ''visuellement'' ces modèles de mélange génériques mais aussi permettra de traiter ces mélanges efficacement. Bref état de l'art : La construction de modèles de mélange en statistique a connu un essort considérable depuis l'introduction de l'algorithme EM de maximisation de la vraisemblance [2]. Toutefois sélectionner un bon modèle parsimonieux à partir d'un faible echantillon d'observations reste un des problemes majeurs en statistique [1]. La géométrie informationnelle qui repose sur les fondements de la géométrie différentielle consiste notamment à étudier les variétes statistiques [3]. Cette approche géométrique de l'information a permis notamment de construire des estimateurs plus fiables [3] mais reste néanmoins assez peu algorithmique. Très récemment, la généralisation d'algorithmes fondamentaux en géométrie algorithmique (comme le calcul de diagrammes de Voronoi et de triangulations duales régulières [4], le calcul de barycentres [5], ou encore le calcul de la plus petite boule englobante [6] ou d'une approximation arbitrairement fine [7]) offre la possibilité d'explorer une algorithmique efficace pour la Statistique. Description du travail de recherche : Le travail consistera à explorer la piste de la géométrie algorithmique informationelle [4-7] pour apporter de nouveaux algorithmes et outils aux Statisticiens. On s'intéressera en premier lieu à exprimer, caracteriser et calculer efficacement la distance entre deux modèles de mélange et à construire des modèles hiérarchiques de mélange [8]. On regardera le lien entre modèles hiérarchiques (par niveau ou représentation progressive) et critère d'information, et analysera la justesse de ces représentations dans les simulations de type MonteCarlo (par anologie aux niveaux de détails LODs en infographie). Dans un deuxième temps, on envisagera différents modèles de mélange en se basant sur des familles de distributions (par exemple, les familles exponentielles [3]) et on cherchera à retrouver à partir des observations la sémantique du mélange (pas nécessairement Gaussien). Dans ce cadre, on fournira un prototype expérimental graphique sur MIXMOD [1] et une interface utilisateur permettant d'orienter interactivement l'exploration de ces familles de mélange. Cette étude bénéficiera des expertises complémentaires en statistique et géométrie des équipes INRIA (SELECT/GEOMETRICA). Dans ce cadre, le candidat participera aux activites du projet GAS (Geometric Algorithms for Statistics). Profil du candidat: Le candidat devra avoir un doctorat en Informatique ou en Mathématiques Appliquées avec quelques notions en analyse statistique. Une bonne expérience de la programmation en C++ est également nécessaire ainsi qu’une aptitude à travailler en équipe. Une connaissance de la programmation sur GPU serait un plus. Le financement sera a hauteur de 49.800 euros/an, soit 4150 euros toutes charges comprises (environ 2300 euros net). Références : (1) Gilles Celeux Logiciel MIXMOD, http://www.math.upsud.fr/select/ (2) Pascal Massart, A non asymptotic theory for model selection, Proceedings of the 4th European Congress of Mathematicians, pp. 309-323, 2005. (3) Shun-Ichi Amari et Hiroshi Nagaoka, Methods of information Geometry, AMS et Oxford University Press, ISBN 082184028, 2000. (4) Frank Nielsen, Jean-Daniel Boissonnat et Richard Nock, Bregman Voronoi Diagrams: Properties, Algorithms and Applications, arXiv:0709.2191, 2007 (version preliminaire presentee a ACM-SIAM Symposium on Discrete Algorithms, pp. 746-755, 2007). (5) Frank Nielsen et Richard Nock, On the Centroids of Symmetrized Bregman Divergences, arXiv:0711.3242, 2007. (version preliminaire presentee a EURO-Computational Geometry, Mars 2008) (6) Frank Nielsen et Richard Nock, On the smallest enclosing information disk, Information Processing Letters (Elsevier), 105(3), pp. 93-97, 2008. (7) Frank Nielsen et Richard Nock, On approximating the smallest enclosing Bregman balls, ACM Symposium on Computational Geometry, pp. 485-486, 2006. (8) Roland Wilson, MGMM: Multiresolution Gaussian Mixture Models for Computer Vision, IEEE Int. Conf. on Pattern Recognition, Vol. 1, pp. 212-215, 2000. Contacts : Frank Nielsen: [email protected] Pascal Massart: [email protected]