french - LIX - Ecole polytechnique

Transcription

french - LIX - Ecole polytechnique
CALL FOR POSTDOC APPLICATION / APPEL A CANDIDATURESUR POSTDOC
Projet DIGITEO GAS :
Géométrie Algorithmique pour les Statistiques
Encadrants :
Frank Nielsen (LIX, [email protected]) et
Pascal Massart/Gilles Celeux (INRIA Saclay-Ile de
France)
Titre : Géométrie algorithmique informationnelle pour
les statistiques
Equipes d’accueil :
LIX (Ecole Polytechnique) et SELECT (INRIA Saclay-Ile
de France)
Dates : Mars 2009-Mars 2010 (ou antérieurement en
fonction du candidat).
Contexte :
Bâtir des modèles statistiques et évaluer leurs
pertinences à partir d'un ensemble d'observations est
un problème fondamental en analyse statistique aux
applications omniprésentes dans tous les domaines des
sciences de la nature et du vivant.
Une des approches phares consiste à apprendre à
partir des données expérimentales un modèle
générateur défini comme un mélange de modèles
gaussiens grâce à des algorithmes de "clustering" de
type maximisation de la vraisemblance (EM:
expectation maximization) (voir le logiciel MIXMOD
(1)). Plus le mélange contient de composantes (c'està-dire de Gaussiennes pondérées) plus le modèle colle
aux observations mais perd de sa généralité. Il est
ainsi important en statistique de choisir la bonne
échelle du mélange grâce à des critères d'information
[2].
Ces modèles de mélange sont souvent en pratique
ajustés via des simulations numériques de type MonteCarlo.
Nous proposons de considérer les modèles de mélange
comme des entités géométriques (des nuages de points)
dans des espaces de paramètres statistiques.
L'algorithmique géométrique sur ces variétés
statistiques en grande dimension et l'étude conjointe
de leurs propriétés combinatoires permettra non
seulement d'interpréter ''visuellement'' ces modèles
de mélange génériques mais aussi permettra de traiter
ces mélanges efficacement.
Bref état de l'art :
La construction de modèles de mélange en statistique
a connu un essort considérable depuis l'introduction
de l'algorithme EM de maximisation de la
vraisemblance [2]. Toutefois sélectionner un bon
modèle parsimonieux à partir d'un faible echantillon
d'observations reste un des problemes majeurs en
statistique [1]. La géométrie informationnelle qui
repose sur les fondements de la géométrie
différentielle consiste notamment à étudier les
variétes statistiques [3]. Cette approche géométrique
de l'information a permis notamment de construire des
estimateurs plus fiables [3] mais reste néanmoins
assez peu algorithmique.
Très récemment, la généralisation d'algorithmes
fondamentaux en géométrie algorithmique (comme le
calcul de diagrammes de Voronoi et de triangulations
duales régulières [4], le calcul de barycentres [5],
ou encore le calcul de la plus petite boule
englobante [6] ou d'une approximation arbitrairement
fine [7]) offre la possibilité d'explorer une
algorithmique efficace pour la Statistique.
Description du travail de recherche :
Le travail consistera à explorer la piste de la
géométrie algorithmique informationelle [4-7] pour
apporter de nouveaux algorithmes et outils aux
Statisticiens. On s'intéressera en premier lieu à
exprimer, caracteriser et calculer efficacement la
distance entre deux modèles de mélange et à
construire des modèles hiérarchiques de mélange [8].
On regardera le lien entre modèles hiérarchiques (par
niveau ou représentation progressive) et critère
d'information, et analysera la justesse de ces
représentations dans les simulations de type MonteCarlo (par anologie aux niveaux de détails LODs en
infographie). Dans un deuxième temps, on envisagera
différents modèles de mélange en se basant sur des
familles de distributions (par exemple, les familles
exponentielles [3]) et on cherchera à retrouver à
partir des observations la sémantique du mélange (pas
nécessairement Gaussien). Dans ce cadre, on fournira
un prototype expérimental graphique sur MIXMOD [1] et
une interface utilisateur permettant d'orienter
interactivement l'exploration de ces familles de
mélange. Cette étude bénéficiera des expertises
complémentaires en statistique et géométrie des
équipes INRIA (SELECT/GEOMETRICA). Dans ce cadre, le
candidat participera aux activites du projet GAS
(Geometric Algorithms for Statistics).
Profil du candidat:
Le candidat devra avoir un doctorat en Informatique
ou en Mathématiques Appliquées avec quelques notions
en analyse statistique.
Une bonne expérience de la programmation en C++ est
également nécessaire ainsi qu’une aptitude à
travailler en équipe.
Une connaissance de la programmation sur GPU serait
un plus.
Le financement sera a hauteur de 49.800 euros/an,
soit 4150 euros toutes charges comprises
(environ 2300 euros net).
Références :
(1) Gilles Celeux Logiciel MIXMOD, http://www.math.upsud.fr/select/
(2) Pascal Massart, A non asymptotic theory for model
selection, Proceedings of the 4th European Congress
of Mathematicians, pp. 309-323, 2005.
(3) Shun-Ichi Amari et Hiroshi Nagaoka, Methods of
information Geometry, AMS et Oxford University Press,
ISBN 082184028, 2000.
(4) Frank Nielsen, Jean-Daniel Boissonnat et Richard
Nock, Bregman Voronoi Diagrams: Properties,
Algorithms and Applications, arXiv:0709.2191, 2007
(version preliminaire presentee a ACM-SIAM Symposium
on Discrete Algorithms, pp. 746-755, 2007).
(5) Frank Nielsen et Richard Nock, On the Centroids
of Symmetrized Bregman Divergences, arXiv:0711.3242,
2007.
(version preliminaire presentee a EURO-Computational
Geometry, Mars 2008)
(6) Frank Nielsen et Richard Nock, On the smallest
enclosing information disk,
Information Processing Letters (Elsevier), 105(3),
pp. 93-97, 2008.
(7) Frank Nielsen et Richard Nock, On approximating
the smallest enclosing Bregman balls,
ACM Symposium on Computational Geometry, pp. 485-486,
2006.
(8) Roland Wilson, MGMM: Multiresolution Gaussian
Mixture Models for Computer Vision, IEEE Int. Conf.
on Pattern Recognition, Vol. 1, pp. 212-215, 2000.
Contacts :
Frank Nielsen: [email protected]
Pascal Massart: [email protected]