Stephan clemencon
Transcription
Stephan clemencon
Stéphan Clémençon Né le 11 Avril 1972 Marié 1 enfant 34, rue d’Avron 94170 Le Perreux sur Marne Téléphone : 01 48 76 11 78 Adresse de messagerie : [email protected] Telecom ParisTech Département TSI Laboratoire LTCI UMR Telecom ParisTech/CNRS N° 5141 Groupe STA Maître de Conférences (Apprentissage Statistique) Bureau DA 314 Téléphone : 01 45 81 78 07 Télécopie : 01 45 81 71 58 Situation Actuelle Maître de Conférences (Apprentissage Statistique) – Telecom ParisTech er Depuis le 1 Octobre 2008 Département TSI - Groupe STA Cursus Qualification aux Fonctions de Professeur 2007 Section N° 26 du Conseil National des Universités (Mathématiques Appliquées et Applications des Mathématiques) Habilitation à Diriger des Recherches (HDR Sciences) - Université Paris X 2006 Spécialité : Statistique et Applications des Statistiques Présentation des travaux en soutenance le 1 er Décembre 2006 devant le Jury composé de : L. Birgé (Université Paris 6), P. Bühlmann (ETH Zurich), D. Picard (Université Paris 7), M. Neumann (Université de Cologne), Y. Ritov (Université Hebraïque de Jerusalem), P. Soulier (Université Paris X) et A. Tsybakov (Université Paris 6) Doctorat de Mathématiques Appliquées – Université Paris 7 1996 - 1999 Spécialité : Probabilité et Statistiques Titre: Méthodes d’ondelettes pour la statistique nonparamétrique des chaînes de Markov Thèse dirigée par D. Picard et soutenue le 7/01/00 devant le jury composé de : L. Elie (Université Paris 7), X. Guyon (Université Paris 1), C. Laredo (INRA), D. Picard (Université Paris 7), B. Prum (Université Paris 5) et M. Neumann (Humboldt Universität), et obtenue avec la Mention Très Honorable avec les Félicitations Expérience Professionnelle Accueil en Délégation à l’INRA – Département MIA 2005 - 2007 • Unité Metarisk N° 1204 «Méthodologies d’Analyse des Risques Alimentaires » • Responsable de la sphère « Modélisation » Maître de Conférences Université Paris X 2001 - 2005 • Laboratoire MODALX – Modélisation Aléatoire de Paris X - EA 3454 • UFR SPSE Membre permanent du Laboratoire de Probabilité & Modèles Aléatoires 2001 – 2007 • Laboratoire LPMA (Universités Paris 6 et Paris 7) – UMR CNRS N° 7599 – Groupe « Statistique » ATER – Université Paris X 1999 – 2001 Vacataire Université Paris XII (IUT Traitement du Signal) 1996 - 1997 THEMES/DOMAINES DE RECHERCHE • Apprentissage statistique – « Ranking » Mots-clef : Scoring, courbe ROC, détection d’anomalie en image/signal, diagnostic médical, risque de crédit, U-processus, boosting, statistiques de rang, ensemble de volume minimum, analyse en composantes principales, NMF • Statistique des Processus Markoviens Mots-clef : Théorie du renouvellement, processus pseudo-régénératif, théorèmes limites, inégalités de probabilité/moment, bootstrap, U-statistiques, robustesse, valeurs extrêmes, modèles de Markov cachés, approches non paramétriques • Modélisation probabiliste et inférence statistique en Finance Mots-clef : Value at Risk, analyse temps-fréquence, ondelettes, paquets de cosinus, estimation spectrale, sélection de portefeuille, modélisation des risques extrêmes, analyse en composantes indépendantes • Modélisation probabiliste et inférence statistique pour la Toxicologie Mots-clef : Equation de toxico/pharmaco–cinétique, processus ponctuels marqués, estimation par simulation, étude de stabilité, ergodicité, filtrage particulaire, valeurs extrêmes • Modélisation probabiliste et inférence statistique en Epidémiologie Mots-clef : Modèles SIR, contact-tracing, modèles de durées, processus markoviens, systèmes particulaires en interaction, approximation grande population, observations incomplètes, modèles de Markov cachés, graphes aléatoires, réseaux TRAVAUX D’EXPERTISE STATISTIQUE (Etudes - Consulting) • • • • • • • Société Hitachi Data System (modélisation statistique) Agence AVISO Conseil (optimisation) Société Essilor (fiabilité) Société COFIDIS (credit-scoring) Société COFINOGA (credit-scoring) Banque Mapfre (optimisation de portefeuille) Société CORSAIR (yield management) COMPETENCES • Langues : Anglais (lu, écrit, parlé), Allemand (lu, écrit, parlé), Italien (lu, parlé), Espagnol (lu, parlé). • Informatique : Matlab (Scilab, Octave), SAS, C/C++, Visual Basic, R, logiciels statistiques (GAUSS, Statistica, StatGraphics). 2 PUBLICATIONS THESES, RAPPORTS, MEMOIRE 1. Méthodes d'ondelettes pour la statistique non paramétrique des chaînes de Markov. (2000), thèse de Doctorat de Mathématiques Appliquées de l'université Denis Diderot Paris VII. 2. Note on the practical implementation of two algorithms for estimating the transition density of a regular Markov chain. (2002), 12 pages, Rapport Technique de l’Université Paris X. 3. Nonparametric Estimation for some Specific Classes of Hidden Markov Models. (2005), 25 pages, Rapport Technique de l’Université Paris X, N° 03-9. 4. Travaux de statistique mathématique et statistiques appliqués - Mémoire en vue de l’obtention de l’Habilitation à Diriger des Recherches. (2007), 125 pages, Ecole Doctorale Modélisation, Connaissance et Culture, Université Paris X. http://tel.archives-ouvertes.fr/tel-00138299 . ARTICLES PUBLIES DANS DES REVUES AVEC COMITE DE LECTURE 1. Moment and Probability Inequalities for Sums of Bounded Additive Functionals of a Regular Markov Chains via the Nummelin Splitting Technique. (2001), Statistics and Probability Letters, 55, pp 227-238 . 2. Adaptive Estimation of the Transition Density of a Regular Markov Chain by Wavelet Methods. (2000), Mathematical Methods of Statistics, Vol. 9, N° 4, pp 323-357. 3. Statistical analysis of financial time series under the assumption of local stationarity. En collaboration avec S. Slim (THEMA, Université Paris X Nanterre), (2004), Quantitative Finance, Vol. 4, N° 2, pp 208-220. 4. Note on the regeneration-based bootstrap for atomic Markov chains. En collaboration avec P. Bertail (CREST), (2007) in TEST, Vol. 16, N° 1 pp 109-122. 5. Edgeworth expansions for suitably renormalized sample mean statistics of atomic Markov chains. En collaboration avec P. Bertail (CREST), (2004), Probability Theory and Related Fields, N°130, pp 388-414. 6. Regenerative block-bootstrap for Harris Markov chains. En collaboration avec P. Bertail (CREST), (2006), Bernoulli, 12(4), pp 689-712 . 7. Approximate regenerative block-bootstrap : some simulation studies. Avec P. Bertail (CREST), (2008), in Computational Statistics and Data Analysis, Vol. 52, Issue 5, pp 2739-2756. 8. Ranking and Empirical Minimization of U-statistics. Avec G. Lugosi (Pompeu Fabra, Barcelone) & N. Vayatis (Paris VI), (2008) in Annals of Statistics, Vol. 36, N° 2, pp 844-874. 9. On Portfolio Selection under Extreme Risk Measure : the Heavy-tailed ICA Model. (2007), Avec S. SLIM (THEMA, Paris X), International Journal of Theoretical and Applied Finance, Vol. 10, No 3, May 2007 issue. 10. Some comments on ”Local Rademacher complexities and oracle inequalities in risk minimization” by Vladimir Koltchinskii. Avec G. Lugosi (Pompeu Fabra, Barcelona) & N. Vayatis (Paris VI), (2006) in Annals of Statistics, Vol. 34, N°6. 3 11. Integration of time as a description parameter in risk characterisation: application to methyl mercury. (2007) avec Ph. Verger (INRA) & J. Tressou (INRA), in Regulatory, Toxicology and Pharmacology, Vol. 48, N°3, pp 259-269. 12. On Ranking the Best Instances (2007). Avec N. Vayatis (ENS Cachan), in Journal of Machine Learning Research, N° 8, pp 2671--2699. 13. New concepts for in-house method validation based on bootstrap tolerance intervals (2007). Avec M. Feinberg (INRA) & T. Rebafka (CEA/Telecom Paristech) in Chemometrics and Intelligent Laboratory Systems, Vol. 89, Issue 2, 15 November 2007, pp 69-81. 14. The AIDS epidemy in Cuba: why a low prevalence ? (2006) Avec H. de Arazoza (Universidad La Habana, Cuba) & B. Auvert (INSERM, Paris V), in BMC Disease, Vol. 7, N° 130, http://www.biomedcentral.com/imedia/1826182617138620_article.pdf. 15. A storage model avec random release rate for modeling exposure to food contaminant. Avec P. Bertail (CREST) & J. Tressou (INRA), (2007), in Mathematical Biosciences and Engineering. Vol. 5, N° 1, pp 35-60. 16. A Stochastic Epidemic Model avec Contact-Tracing: Large Population Approximation and Statistical Estimation (2007). Avec H. de Arazoza (Universidad La Habana, Cuba) & V.C. Tran (Lille 1), in Journal of Biological Dynamics, Vol. 2, Issue 4, pp 392-414. 17. Sharp Bounds for the Tails of Functionals of Harris Markov Chains. Avec P. Bertail (CREST Paris X), to appear in Theory of Probability and its Applications, https://hal.archives-ouvertes.fr/hal-00140591. 18. Extreme values statistics for Harris Markov chains via the (pseudo-) regenerative method, (2007) avec P. Bertail (CREST Paris X) & J. Tressou (INRA), to appear in Extremes, http://hal.archives-ouvertes.fr/hal-00165652/fr/. ACTES DE CONFERENCES AVEC COMITE DE LECTURE 19. From Classification to Ranking: a Statistical View. En collaboration avec G. Lugosi (Université Pompeu Fabra, Barcelone) & N. Vayatis (Université Paris VI), (2006), in Proc. of the 29 Annual Conference of the German Classification Society, GfKl 2005, 'Studies in Classification, Data Analysis and Knowledge Organization' series, Vol. 30. Springer-Verlag. th 20. Ranking and scoring, using empirical risk minimization. En collaboration avec G. Lugosi (Université Pompeu Fabra, Barcelone) & N. Vayatis (Université Paris VI), (2005) in Proceedings of COLT Bertinoro, Italy, June 27-30, 2005. Lecture Notes in Computer Science 3559 Springer, 1-15. 21. Second order validity of the 2-split ARBB for Markov chains. En collaboration avec P. Bertail (CREST), (2004), in Proceedings of COMPSTAT, Physica-Verlag. 22. Regeneration-based statistics for Harris Markov chains. En collaboration avec P. Bertail (CREST), (2006), in ‘Dependence in Probability and Statistics’, Eds P. Bertail, P. Doukhan & P. Soulier, Lecture Notes in Statistics N°187, Springer-Verlag, pp 1-54. 23. A regeneration-based runs estimator for the extremal index in the Markov setup, (2008) avec P. Bertail (CREST Paris X) & J. Tressou (INRA), in Proceedings of IWAP’08 (International Workshop in Applied Probability, UTC). http://hal.archivesouvertes.fr/hal-00214305/fr/ 24. Regenerative Block-Bootstrap Confidence Intervals for the Extremal Index, (2008) avec P. Bertail (CREST Paris X) & J. Tressou (INRA), in Proceedings of IWAP’08 (International Workshop in Applied Probability, UTC). http://hal.archives4 ouvertes.fr/hal-00214306/fr/ 25. Approximation of the optimal ROC curve and a tree-based ranking algorithm (2008) avec N. Vayatis (ENSC). In Proceedings of ALT’08, Budapest (Hungary) 13-18 Oct. 2008. Algorithmic Learning Theory, Lecture Notes in Science, Springer. 26. On Bootstrapping the ROC curve, (2008) avec N. Vayatis (ENSC) & P. Bertail (Paris X), in Proceedings of NIPS 2008 27. Overlaying classifiers: a practical approach for optimal ranking, (2008) avec N. Vayatis (ENSC), in Proceedings of NIPS 2008 28. Empirical performance maximization based on linear rank statistics, (2008) avec N. Vayatis (ENSC), in Proceedings of NIPS 2008 POSTERS DANS DES CONFERENCES AVEC COMITE DE LECTURE 29. Kinetic dietary exposure model (KDEM): Integration of half-life of Methyl Mercury in human for modeling the long term dietary exposure International Conference on Fetal Programming and Developmental Toxicity (PPTOX). Faroe’s Islands, May 2007. ARTICLES SOUMIS A PUBLICATION DANS DES REVUES A COMITE DE LECTURE 30. Statistical analysis of a dynamic model for food contaminant exposure avec applications to dietary methylmercury contamination. Avec P. Bertail (CREST) & J. Tressou (INRA), (2008), http://hal.archives-ouvertes.fr/hal-00308881/fr/ . 31. The RankOver algorithm: overlaid classification rules for optimal ranking. avec N. Vayatis (ENSC) (2008). 32. A Renewal Approach to markovian U-statistics. Avec P. Bertail (CREST) & J. Tressou (INRA), (2008). 33. Tree-based ranking rules. Avec N. Vayatis (ENSC) (2008). http://hal.archives-ouvertes.fr/hal-00268068/fr/ 34. Exposition aux risques alimentaires et processus stochastiques. Avec J. Tressou (INRA). http://hal.archives-ouvertes.fr/hal00311405 35. On Partitioning Rules for Bipartite Ranking. Avec N. Vayatis (ENSC) (2008). TRAVAUX EN COURS DE REALISATION 36. Rank processes and nonparametric ranking. Avec N. Vayatis (ENSC) (2008). 37. Ranking Pursuit: a new recursive partitioning method for bipartite ranking. Avec M. Depecker (Telecom ParisTech) and N. Vayatis (ENSC) (2008). 38. On Bootstrapping Goodness of Fit Statistics in the Ranking Problem, (2008) avec N. Vayatis (ENSC) & P. Bertail (Paris X) 39. Regenerative Block-Bootstrap Confidence Intervals for the Tail and Extremal Indexes of Markov Chains. Avec P. Bertail (CREST) & J. Tressou (INRA), (2008). 5 40. Bayesian Analysis of Microbiological Data based on a Prevalence-Contamination Relationship, 16 pages en collaboration avec A. Crépet (INRA). 41. Statistical Inference of a Stochastic SIR Model in Long Time Asymptotics, 30 pages, en collaboration avec V.C. Tran (Paris X) & P. Bertail (CREST). 42. On predicting sickle cell disease via machine learning algorithms, 16 pages, en collaboration avec avec B. Diagne (Université Orléans), R. Emilion (Université d’Orléans) et T. Marianne-Pepin (Université des Antilles et de la Guyane). 43. Statistical inference for density dependent Markovian forestry models. 25 pages, en collaboration avec M. Zetlaoui (OMIP, AgroParisTech). 44. On Akaike’s information criterion for assessing the number of sources in ICA models, 15 pages en collaboration avec Nicolas Vayatis (Paris 6). 45. Reassignment: an alternative to Gaussian deconvolution? 46. Food consumption data disaggregation using machine learning methods, 18 pages en collaboration avec J. Tressou (INRA). 47. Approximate Regenerative Block-Bootstrap for Hidden Markov Models, 22 pages en collaboration avec P. Bertail (CREST). En résumé: • 18 articles parus ou à paraître dans des revues internationales avec comité de lecture • 10 actes de conferences avec comité de lecture • 6 articles soumis à publication et 13 articles en preparation Bibliométrie (http://scholar.google.com): • Articles les plus cites: article N°20 (32 citations), article N°5 (16 citations), article N°2 (12 citations) • Articles perçus comme les plus importants: articles N°5, 8 et 33 MISSIONS A L’ETRANGER / CONFERENCES • 1997 mai : Groupe de travail en statistiques, Institut Henri Poincaré • 1997 sept. : Séminaire de Statistiques PARIS-BERLIN (Schmerwitz, Allemagne) • 1997-98 : Séjour d’un an au département de Statistiques de l'Université de STANFORD (Californie) sur invitation du Prof. David Donoho • 1999 sept. : Séminaire de Statistiques PARIS-BERLIN (Berlin, Humböldt Univ.) • 2000 mars : Séminaire de Statistique de l'Université PARIS X NANTERRE • 2000 avril : Séminaire de Statistique de l'Université de Marne La Vallée 6 • 2000 sept. : Séminaire "Finance- Assurance" PARIS-BERLIN (Invitation) • 2001 février : Séjour d'une semaine à Berlin sur invitation du prof. M. Neumann, Séminaire de l'INSTITUT WEIERSTRASS (BERLIN) • 2001 mai : Séminaire de Statistique de l’Université Paris IX Dauphine • 2002 mars : Séminaire de Statistique de l’Université Paris X Nanterre • 2002 mai : XXIèmes journées de Statistique (SFdS Bruxelles) (Invitation) • 2002 juin : Séminaire de Statistique de l’Université Pompeu Fabra (Barcelone), sur invitation du Pr. G. Lugosi • 2002 nov. : Séminaire de Statistique de l’Université Paris-Sud Orsay • 2003 janvier : Séminaire d’Econométrie de l’Université Paris X Nanterre • 2003 mai : Séminaire Parisien de Statistiques – Institut Henri Poincaré) • 2003 oct. : Séminaire Modèles Stochastiques du CMAP – Ecole Polytechnique • 2003 déc. : Séminaire de Statistiques du CREST – ENSAE • 2004 janv. : Séminaire de Statistiques - Universités Paris VI et Paris VII • 2004 mars : Séjour d’une semaine à l’Université de Braunschweig (Allemagne) sur invitation du Pr. M. Neumann • 2004 juin : Congrès“Mathematical Foundations of Learning Theory” (Barcelone) • 2005 janvier : Séminaire de Statistiques – Université de Versailles – St Quentin • 2005 janvier : Congrès «STATDEP2005» - PARIS/MALAKOFF (Invitation) • 2005 mars : Congrès «GFKL 2005» – Magdeburg Universität, Allemagne • 2005 juillet : Congrès «COLT 2005» – Bertinoro, Universita di Bologna, Italie • 2005 oct. : Séminaire de Statistiques – INA-PG • 2006 mars : 7th Conf. on Operation Research and Applied Maths, Universidad de La Habana, Cuba • 2006 sept. : Journées «MAS 2006» – Université Lille 1 (Invitation) • 2006 nov. : Séminaire du laboratoire TSI (Telecom Paris) • 2006 nov. : Colloquium MAP5 – Université Paris V • 2006 déc. : Séminaire MODAL’X – Université Paris X Nanterre 7 • 2007 mars : Séminaire de Mathématiques Appliquées – ENS Cachan Bretagne • 2007 juin : Congrès de la SMAI – Praz sur Arly (Invitation) • 2007 déc. : Journées de BioStatistiques de l’UAG - Guadeloupe (Invitation) • 2008 fév.: XII-th congress in operations research ) Cuba (Invitation) • 2008 mars: Journées d’Apprentissage Statistique Université d’Orléans (Invitation) • 2008 avril : Séminaire IT stats – Telecom ParisTech • 2008 avril : Invitation d’une semaine à l’Université National de Singapour (NUS) par le Prof. M.W. Ho • 2008 avril: Invitation d’une semaine à l’Université de Sciences et Technologies de Hong Kong (HKUST) par la Prof. A. Lo • 2008 mai : Congrès « Statistics for Dependent Data » – Malakoff (Invitation) • 2008 juin : Séminaire de Statistiques Appliquées de l’Université Paris 7 • 2008 juillet : International Workshop in Applied Probability, UTC, Compiègne (Invitation) • 2008 août : Journées MAS – Rennes (Invitation) • 2008 sept. : Journées de Probabilités - Lille • 2008 oct. : Séminaire de Probabilité de l’Université d’Evry • 2008 oct. : Algorithmic Learning Theory, Budapest • 2008 oct. : Congrès R0 – INRA, Paris • 2008 dec. : Neural Information Processing Systems, Vancouver (Canada) En résumé : • 21 exposés à des Séminaires • 20 exposés lors de Conférences Internationales dont 7 invitations • 6 séjours à l’étranger (de plus d’une semaine) sur invitation ACTIVITES D’ENCADREMENT DE LA RECHERCHE Coordination de Projets de Recherche • Coordinateur du projet ACI-Nouvelles Interfaces des Mathématiques « Modélisation épidémiologique » - 2005/2007 Paris X - Paris 5 - ENSAE - INSERM - Université de la Havane 8 • Responsable de l’équipe INRA pour le projet ANR blanc « TAMIS » - 2006/2009 Paris 6 - Paris 7 - SA Pertinence – INRA – Institut Curie • Coordinateur du projet ANR Systèmes Complexes « Viroscopy » - 2008/2011 Telecom ParisTech – INRIA – Université de Lille 1 – Université Paris 5 Encadrement de theses et de stages post-doctoraux • Co-encadrement de la thèse de S. Slim (50%) avec le Pr. Daniel Zajdenweber (Paris X), intitulée « Analyse statistique des rendements financiers et modélisation du risque », reçu avec la mention Très Bien et les Félicitations du Jury (janvier 2006) – Membre du jury de thèse • Co-encadrement de la thèse Cifre de N. Mahler (50%) avec N. Vayatis (ENS Cachan) et la Société Strategic Risk Management • Co-encadrement de la thèse Cifre de M. Depecker (50%) avec F. Roueff (Telecom ParisTech) et Renault Technocentre • Encadrement du stage post-doctoral de M. Zetlaoui (100%) dans le cadre du projet ANR « Tamis » - 2007/2008 (INRA) Encadrement de stages de Master et de groupes de travail • Suivi du stage de DEA (Modèles Aléatoires, Paris 7) de M. Houzé « Modèles de durée pour les phénomènes récurrents en épidémiologie » (juin-septembre 2005) • Encadrement du stage de DEA (Modèles Aléatoires, Paris 7) de T. Rebafka au sein de l’unité INRA Met@risk « Intervalles de tolérance et intervalles de prédiction pour la validation des mesures en Microbiologie », avril-octobre 2006 • Encadrement du stage de DEA (Biomathématiques, Paris 7) de P. Müller au sein de l’unité INRA Met@risk « Méthodes d’apprentissage supervisé pour la désagrégation des données de consommation des ménages », septembre 2005 – juin 2006 • Encadrement du stage de 2 année de l’ENSAE de C. Mialle au sein de l’unité INRA Met@risk « Méthodes de clustering pour la classification des comportements alimentaires » Juillet-Octobre 2006 ème ème • Encadrement du Groupe de Travail de 2 année à l’ENSAE (2006/07) « modélisation statistique paramétrique de données de survie pour l’épidémie de Sida à Cuba, » avec P. Bertail (INSEE) ème • Encadrement du Groupe de Travail de 3 année à l’ENSAE (2006/07) « modélisation non paramétrique des données (censurées) de durée pour l’épidémie de Sida à Cuba » avec P. Bertail (INSEE) et H. de Arazoza (MATCOM, Universidad de la Habana). • Encadrement du stage de MASTER PRO (Paris 1) de A. Dibbouh au sein de l’unité INRA Met@risk « Méthodes de Kohonen pour la classification des données de consommation de Poisson au sein de la population française », mars 2007 – septembre 2007 • Encadrement du stage de MASTER Recherche (Paris 1) de A. Bardet au sein de l’unité Met@risk, « Modèles hiérarchiques pour la classification des régimes alimentaires », février 2008 – mars 2008 9 ème • Encadrement du Groupe de Travail de 3 année à l’ENSAE (2008/09) « Méthodes Avancées de Scoring/Ranking pour le Risque de Crédit » avec N. Vayatis (ENS Cachan) et N. Bertrand (BNP Exane). Jurys de thèses • Membre du jury de thèse de V.C. Tran (Université Paris X Nanterre) intitulée «Modèles particulaires stochastiques pour des problèmes d'évolution adaptative et pour l'approximation de solutions statistiques » dirigée par le Pr. S. Méléard (Ecole Polytechnique) • Membre du jury de thèse de C. Lacour (Université Paris 5) intitulée « Estimation non paramétrique adaptative pour les chaînes de Markov et les chaînes de Markov cachées » dirigée par le Pr. F. Comte (Université Paris 5) Activité éditoriale • Révision d’articles pour: Annals of Statistics, Bernoulli, Computational Statistics and Data Analysis, Constructive Approximation, Computational Learning Theory, Journal of Statistical Planning and Inference, Probability Theory and Related Fields, Genetic Epidemiology, Journal of Biological Dynamics, NIPS, Stochastic Processes and Their Applications, Journal of nonparametric statistics, Annals of the Institute of Mathematical Statistics, International Conference on Machine Learning FONCTIONS ADMINISTRATIVES ET RESPONSABILITES COLLECTIVES • Membre de la Commission de Spécialistes de l’Université Paris X (sections 25 et 26) -2002/07 • Membre du comité de recrutement CR2/CR1 à l’INRA (campagne 2006) • Membre de l’équipe responsable du contenu des programmes du projet de la licence « Mathématiques de l’aléatoire » dans le cadre de la réforme LMD, avec C. Léonard et N. Cheze 2003/05 • Membre de l’équipe responsable du contenu des programmes de statistiques pour le projet de Maîtrise de Psychologie de l’université Paris X, dans le cadre de la réforme LMD, avec M. Mora – 2003/05 • Rédaction du rapport d’activité de l’équipe « Statistiques pour l’évaluation des risques alimentaires » en vue de l’évaluation quadriennale de l’unité Met@risk (12041 INRA) • Membre du comité mixte FAO/OMS http://www.fao.org/ag/agn/jecfa/experts_fr.stm d'experts des additifs alimentaires (JECFA) 2007/2011 - 10 RECHERCHE – Résultats et Projets N.B. les références en caractère gras dans le texte renvoient à la liste de publication Apprentissage Statistique Ranking / Scoring – Théorie et applications Mots-clef : scoring, courbe ROC, ranking, U-processus, traitement du signal, risque de crédit, « information retrieval », diagnostic medical, statistiques de rang, bootstrap, théorèmes limites fonctionnels Dans de nombreuses applications telles que les questions relatives à la collecte automatique d’informations (« information retrieval ») par des moteurs de recherche, il ne s’agit pas seulement de classer les observations (‘document pertinent’ vs. ‘document non pertinent’), mais de les ranger/ordonner de façon adéquate (par degré de pertinence). En bref, il s’agit d’apprendre statistiquement à ordonner des objets à partir de données labellisées, binaires pour simplifier. Ce problème est crucial dans de nombreuses applications, allant du « crédit-scoring » à la détection d’anomalies en traitement du signal en passant par le diagnostic médical. Des travaux relatifs à la formulation et à la résolution du problème de scoring/ranking ont été réalisés sur le modèle des méthodes utilisées en Machine Learning pour résoudre les problèmes de classification (Arbres de décision, Support Vector Machines, Boosting, etc. voir [6]) et font l’objet des articles 8, 10, 12, 19, 20, 25, 26, 27, 28, 31, 33, 35, 36, 37 et 38. Le problème du scoring/ranking est un problème d’apprentissage global, à la différence du problème de classification binaire qui est de nature locale. Modifier le rang d’un élément dans une liste peut affecter le rangs de nombreux autres éléments, il s’agit bien sûr ici de comparer les éléments les uns aux autres. La façon la plus naturelle d’ordonner des objets appartenant à un espace multidimensionnel est de transporter l’ordre naturel sur la droite réelle sur cet espace au moyen d’une « fonction de scoring ». Le critère de performance n’est alors plus à valeurs scalaires comme dans le cas de la classification, où l’on considère généralement la probabilité d’erreur de classification, mais une courbe : la courbe ROC. Dans l’espace des courbes ROC, une courbe domine toutes les autres, la courbe ROC de la fonction de régression. Si les transformées croissantes de la fonction de régression forment bien sûr la classe des fonctions de scoring optimales, les méthodes dites « plug-in » fondées sur la modélisation et l’estimation de la fonction de régression se révèlent totalement inefficace en pratique dans le contexte de la grande dimension, cf « fléau de la dimension ». U-processus et maximisation du critère AUC. Une première approche consiste à considérer un critère résumant les qualités d’une courbe ROC : l’aire sous la courbe ROC (critère AUC). S’il est à valeurs scalaires, le critère AUC est néanmoins plus complexe que l’erreur de classification dans la mesure où il peut-être exprimé comme le « taux de paires concordantes » et sa version statistique n’est pas une moyenne mais une U-statistique de degré 2. L’étude de la performance des algorithmes fondées sur la maximisation du critère AUC conduit ainsi à étudier les propriétés de concentration des U-processus (i.e. collections de Ustatistiques indexées par des classes de fonctions, généralisant les processus empiriques) : des inégalités de concentration ont été obtenues au moyen des techniques de découplage et de projection dans les articles 8, 10, 19 et 20. Des bornes de généralisation de la performance ont été démontrées et des hypothèses généralisant les conditions de marges garantissant des vitesses d’apprentissage rapides ont aussi été déterminées. Critères de performance et statistiques de rang. Plusieurs développements, consacrés principalement en l’élaboration de critères fonctionnels adéquats pour l’évaluation de modèles de scoring, adaptés aux problèmes rencontrés dans les applications ont été réalisés ou sont en cours de réalisation, voir les articles 12, 28 et 36. Les critères proposés généralisent le critère AUC et permettent par exemple d’accorder plus d’importance à l’ordonnancement des objets les plus pertinents. Une classe de critères, pouvant être interprétées comme des « statistiques linéaires de rang conditionnelles » et englobant la totalité des critères considérés à ce jour a été proposée dans ??. Au moyen des techniques de projection similaires à celles utilisées dans le cas des U-processus, des inégalités de déviations uniformes ont été établies afin d’évaluer la performance des méthodes d’apprentissage fondées sur l’optimisation de tels critères. 11 Algorithmes. Un algorithme de partitionnement récursif, appelé « TreeRank », permettant de produire une fonction de scoring constante par morceaux et dont la courbe ROC imite l’approximation linéaire par morceaux produite par un schéma d’approximation récursif de type « éléments finis » a été proposé et étudié dans les articles 25, 33 et 37. Des bornes d’apprentissage ont été établies dans un cadre fonctionnel, la distance de la courbe ROC produite par TreeRank à la courbe ROC optimale étant évaluée au moyen de la norme-sup. Il s’agit des premiers résultats de cette nature en théorie de l’apprentissage dans la mesure où la plupart des critères considérés sont à valeurs scalaires. La mise en œuvre pratique de l’algorithme ainsi que les questions relatives à la sélection de modèle ont également été traitées. Une autre approche, fondées sur la théorie de l’estimation d’ensembles de « volume minimum » a été proposée et étudiée. L’idée sous-jacente consiste à caractériser le problème du ranking comme un continuum de problèmes de classifications puis de le discrétiser de façon adéquate. Si l’algorithme TreeRank correspond à un schéma de discrétisation implicite, la méthode RankOver s’apparente elle à un schéma de discrétisation explicite. Les résultats obtenus permettent en particulier de résoudre le problème de l’apprentissage d’un test quasi-optimal permettant de discriminer des hypothèses composites, fréquemment rencontré en détection d’anomalies. Diverses méthodes de partitionnement alternatives sont également considérées (algorithmes dits « gloutons ») et font l’objet d’articles en cours de préparation. Validation. La question de la construction de tubes de confiance pour les courbes ROC obtenues est considérée dans les articles 26 et 38. Dans ce type d’application, où la cible est de nature fonctionnelle, il n’est bien sûr pas question d’utiliser les équivalents asymptotiques du processus des fluctuations entre courbe théorique et courbe empirique, trop complexes en pratique, mais d’utiliser des procédures de ré-échantillonnage de type Bootstrap. Une étude précise des lois limites fonctionnelles du processus des fluctuations a permis de démontrer l’intérêt d’appliquer une version « lissée » du bootstrap, phénomène également mis en évidence par des simulations. Au delà de la norme-sup et de l’AUC, des résultats pour une pseudo-distance voisine de la distance de Hausdorff plus adaptée au cas de courbes à sauts telles que les courbes ROC empiriques ont aussi été obtenus. Développements. Ces travaux s’effectuent en particulier dans le cadre de l’ANR TAMIS, en collaboration avec N. Vayatis (ENS Cachan) principalement. Des applications des méthodes de ranking/scoring élaborées sont envisagées par l’Institut Curie, partenaire de l’ANR, dans le contexte de l’élaboration de tests statistiques permettant de diagnostiquer certains types de cancer à partir dune information génétique de très grande dimension. Une application similaire de ces travaux est réalisée avec l’Université des Antilles et de la Guyane pour détection des crises de drépanocitose. La thèse de M. Depecker (Telecom ParisTech/Renault TechnoCentre) s’articule autour de l’adaptation de ces techniques au problème du ranking de courbes (données fonctionnelles). Un groupe de travail à l’Ensae (3 année) étudie également les avancées permises par les travaux décrits ci-dessus dans le domaine du « créditscoring ». En termes de valorisation, le développement d’une toolbox « Ranklab » pour le scoring et la détection d’anomalies fondée sur les algorithmes proposés est envisagée en partenariat avec la société Matlab. ème Statistique des processus markoviens Mots-clef : Processus markoviens, processus de renouvellement, estimation non paramétrique, ondelettes, pseudo- régénération, risque minimax, inégalités de probabilité/moment, développement d’Edgeworth, bootstrap, U-statistiques, robustesse, valeurs extrêmes, modèles de Markov cachés Une grande partie de mes travaux de recherche est consacrée au développement de procédures d’inférence statistique non paramétrique pour les chaînes de Markov, processus à temps discret très fréquemment utilisés pour modéliser des phénomènes aléatoires avec une causalité, ainsi qu’à l’élaboration d’un cadre de validité théorique pour ces dernières. L’objet de mon travail de thèse de doctorat fut de généraliser l’utilisation de méthodes d’inférence issues de l’analyse harmonique algorithmique, principalement les méthodes d’ondelettes (voir article 2), au cas de l’estimation non paramétrique adaptative de la densité de transition et de la densité stationnaire d’une chaîne de Markov sous des hypothèses de stabilité stochastique minimales. J’ai pu proposer différents algorithmes d’estimation (dont l’un s’appuie sur une analogie relevée avec le problème de l’estimation dans le cas d’une régression de schéma d’observations aléatoires et offre une alternative aux procédures de type 12 Nadaraya-Watson, dont les vitesses de convergence peuvent être pénalisées par un éventuel manque de régularité de la densité stationnaire. Afin de pouvoir étudier les vitesses de convergence de ces procédures, nous avons établis des inégalités de moments de type Rosenthal et des inégalités de probabilité exponentielles de type Bernstein pour les fonctionnelles additives de chaînes de Markov sous des hypothèses de régularité stochastique minimales, au terme d'une étude approfondie des processus de renouvellement associés au comportement asymptotique des modèles markoviens (ergodicité) et de la technique de scission de Nummelin. Une fois ces résultats probabilistes établis, j’ai alors pu livrer aux utilisateurs potentiels des algorithmes d’estimation proposés un cadre de validité sous forme d’une étude technique exhaustive du risque minimax asymptotique pour les problèmes de statistique théorique sous-jacents (calculs de bornes inférieures pour le risque Lp intégré sur des classes de Besov, majorations du risque maximum des estimations proposées). Le problème connexe de l’inférence statistique non paramétrique dans le cas très important en pratique, d’observations incomplètes de chaînes de Markov (chaînes de Markov cachées) est également l’un des thèmes de ma recherche. En formulant ce problème dans le cadre de la théorie des problèmes inverses « mal posés », j’ai pu généraliser les méthodes d’inférence élaborées dans le cas d’observations complètes au cas d’une chaîne de Markov observée dans un bruit blanc fort spécifique (méthode d’estimation par ondelettes/vaguelettes). Les calculs de vitesses minimax ont également été menés dans ce cas plus complexe. Les différents résultats obtenus ont donné lieu à la rédaction de deux articles publiés (articles 1, 2) et de deux rapport techniques, l’un des deux contenant des simulations et des précisions quant à l'implémentation pratique des algorithmes d'estimation proposés via l'utilisation de routines disponibles sous Matlab. Méthodes statistiques fondées sur les propriétés pseudo-régénératives des chaînes de Markov. Plusieurs prolongements à ces travaux relatifs au problème de l’inférence statistique pour les chaînes de Markov ont été réalisés. Il apparaissait naturel dans un premier temps de chercher à compléter l’arsenal des procédures d’estimation pour les modèles markoviens, par l’élaboration de méthodes statistiques permettant de construire intervalles de confiance et tests d’hypothèses. La description du comportement d’une chaîne de Markov en termes de processus de renouvellement que nous avions exploitée afin d’étudier les vitesses de convergence des estimateurs proposés, nous a permis de construire des estimations explicites de la variance asymptotique des estimateurs statistiques et d’élaborer une méthode de rééchantillonnage (Regenerative Block-Bootstrap) spécifique au cas des chaînes de Markov Harris récurrentes. Cette méthode permet aussi d’obtenir des développements d’Edgeworth de U-statistiques ou de V-statistiques de chaînes de Markov et offre une alternative très efficace à la procédure de « random moving-block bootstrap » pour les variables dépendantes. Les principes sur lesquels les méthodes statistiques de Bootstrap et d’estimation de la variance asymptotique que nous avons développées pour traiter le cas des chaînes de Markov ont également pu être utilisés pour traiter d’autres problématiques telles que l’étude statistique des valeurs extrêmes (estimation de l’indice de Pareto, de l’indice extrême), ou l’élaboration de méthodes statistiques robustes pour l’estimation fonctionnelle. D’autres développements, relatifs à l’étude des vraisemblances empiriques dans le cadre Markovien et à la généralisation des méthodes aux modèles markoviens cachés sont en cours de réalisation. Ces travaux ont été réalisés en collaboration avec P. Bertail (INSEE) et les résultats obtenus font l’objet des articles 4, 5, 6, 7, 17, 18, 21, 22, 23, 24, 32, 39 et 47. 13 Finance : travaux de modélisation et applications statistiques Application de méthodes statistiques non paramétriques aux séries financières. Mots-clef : séries financières, Value at Risk, Analyse temps-fréquence, Ondelettes, Paquets de cosinus, Macrotiles, stationnarité locale, analyse spectrale, analyse harmonique algorithmique. Dans le cadre de mon activité d’encadrement de la thèse de l’étudiant S. Slim (THEMA, Université Paris X) avec le Pr. D. Zajdenweber (économiste, Paris X), des travaux visant à mener une étude quantitative des séries chronologiques financières et à développer des outils de gestion des risques financiers (Value at Risk) au moyen de décomposition tempsfréquence ont été menés, dans le but de rendre compte avec précision du caractère inhomogène (dans le temps) de l'évolution de ce type de séries temporelles. L’approche adaoptée a consisté en la modélisation des séries de rendements par des processus "localement stationnaires" (processus à mémoire courte, de taille variable) afin de fournir une alternative aux modèles à mémoire longue allant à l'encontre du principe d'efficience des marchés financiers sur le long terme. Ces travaux ont requis l’élaboration d’un programme spécifique pour implémenter un algorithme d’estimation de la fonction d’autocovariance des processus localement stationnaires, et a fait l'objet d'un article publié (article 3). Sélection de portefeuille et risques extrêmes. Mots-clef : Risque financier extrême, sélection/optimisation de portefeuile, valeurs extrêmes, indice de Pareto, analyse en composantes indépendantes, estimation par maximum de vraisemblance conditionnelle. En collaboration avec S. Slim (THEMA, Université Paris X), des travaux consacrés à la modélisation des événements extrêmes en finance et à l’application de méthodes d’analyse en composantes indépendantes au problème de la sélection de portefeuilles financiers en vue de minimiser les pertes extrêmes ont également été réalisés (article 9). Apprentissage statistique on-line et sélection de portefeuille. Mots-clef : sélection/optimisation de portefeuile, apprentissage statistique on-line supervisé/non supervisé, switching models, analyse de ‘style’. En collaboration avec J.C. Casanova (Strategic Risk Management, www.riskvalue.com ) et N. Vayatis (ENS Cachan), un projet visant à développer des méthodes de gestion de portefeuilles financiers fondées sur les techniques de prédiction élaborées dans le domaine de l’apprentissage statistique. Les écueils proviennent principalement de l’inhomogénéité temporelle des phénomènes économiques et financiers, de la grande dimension et des aspects multi-échelles de l’information disponible pour la prédiction. Une thèse Cifre a débuté à la rentrée 2007 (Nicolas Mahler, Telecom ParisTech/ENS Cachan). Des thèmes connexes pourront être développés dans le cadre d’un projet Futur & Ruptures proposé par l’Institut Telecom déposé par le groupe STA de Telecom ParisTech en collaboration avec l’INT et BNP Parisbas. La banque BNP Exane envisage par ailleurs de démarrer une thèse Cifre sur la prédiction des données haute-fréquence en 2009. 14 BIOSTATISTIQUES APPLICATIONS EN TOXICOLOGIE Contexte de la recherche : Maître de Conférences à l’Université Paris X, j’ai été accueilli en délégation auprès de l’Institut National de la Recherche Agronomique (INRA) pendant deux ans (1er sept. 2005 – 1 sept. 2007) au sein de l’unité n°1204 Met@risk (Département MIA) afin d’effectuer une activité de recherche dont le détail est présenté ci-dessous. L’objectif qui m’était fixé par le Directeur de l’unité, le Dr Ph. Verger (INRA), consistait à développer et animer la jeune équipe « modélisation et statistiques » de Met@risk (encadrements de jeunes chercheurs, élaboration et réalisation de projets de recherche pluridisciplinaires – voir 19, 20, 23, 25, 26, 36). er Les travaux de l’unité Met@risk visant à développer des méthodologies d’analyse du risque alimentaire, j’ai naturellement débuté mon activité en me familiarisant avec les enjeux et les concepts (tels que la notion d’analyse de risque en trois étapes définie par les comités d’experts) propres à cette thématique de recherche récente et les moyens mis à disposition pour l’aborder (logiciels et bases de données recensant les niveaux de contamination des aliments, les comportements alimentaires de la population). On peut trouver dans [1] une présentation très complète du thème de l’évaluation des risques alimentaires, champ d’investigation pluridisciplinaire, à l’interface de diverses spécialités : toxicologie, biologie, médecine nutritionnelle, sociologie, économie outre la modélisation mathématique et l’inférence statistique. Par ailleurs, l’application de méthodes statistiques aux problèmes posés par l’évaluation de l’exposition aux risques alimentaires fait l’objet depuis quelques années d’une littérature scientifique émergente. Un ”état de l’art” est dressé dans [2]. A l’instar d’autres domaines tels que la sécurité nucléaire, la finance ou l’assurance pour lesquels l’analyse des risques est un enjeu essentiel, la sécurité alimentaire est un champ d’application naturel des outils de la modélisation probabiliste et des méthodes statistiques. Si en toute généralité le langage probabiliste est inhérent à la formalisation quantitative d’un risque quelconque et donc du risque alimentaire en particulier, la modélisation des phénomènes aléatoires rencontrés, qu’ils soient de nature biologique ou sociologique, la construction d’indicateurs de risque pertinents ainsi que l’élaboration et la mise en œuvre de procédures statistiques fondées sur les données disponibles dans ce domaine requièrent un travail tout à fait spécifique. Depuis la création de l’unité Mét@risk, les travaux de l’équipe « Modélisation » visent à développer et appliquer des méthodes mathématiques adaptées à l’analyse des risques alimentaires. Son activité s’articule principalement autour des thèmes suivants : 1. 2. 3. La modélisation du risque microbiologique L’évaluation de l’exposition humaine au risque alimentaire La connaissance des comportements alimentaires. Cette liste thématique n’est en aucune manière exhaustive, des développements intégrant les aspects épidémiologiques de l’exposition au risque alimentaire par exemple pourraient également être menés plus avant, les connaissances produites devant permettre d’une manière générale d’éclairer les décisions en matière de santé publique (législation, recommandations) prises dans le domaine de la sécurité alimentaire. Au delà du travail bibliographique nécessaire, les nombreuses discussions informelles et les réunions organisées au sein de l’unité m’ont permis de présenter mes compétences dans le domaine des mathématiques appliquées et d’élaborer les axes de recherche suivants. 15 Modélisation du processus d’exposition au risque alimentaire. Mots-clef : pharmacocinétique, toxicocinétique, processus ponctuels marqués, mesure d’équilibre, étude de stabilité, estimation par simulation, filtrage particulaire La plupart des calculs d’exposition au risque de contamination alimentaire sont effectués dans un cadre où le temps n’intervient pas, et combinent seulement les distributions Q et C de consommation et de teneur en contaminants : B = Q × C. Or la temporalité est un élément essentiel du phénomène de contamination : les aspects pharmacocinétiques relatifs au processus d’élimination progressive par l’organisme des contaminants chimiques ingérés sont naturellement à prendre en compte pour obtenir des modèles réalistes. Disposant de connaissances dans le domaine des modèles markoviens (modélisation et inférence statistique, voir la section IV ci-après), processus stochastiques modélisant des phénomènes temporels avec causalité et à mémoire courte, j’ai pu formuler un projet de recherche en collaboration avec P. Bertail (INSEE) et J.Tressou (INRA) visant à modéliser l’évolution temporelle de la quantité de contaminant présente dans l’organisme par la voie alimentaire par un processus de Markov à temps continu représentant la quantité de contaminant dans l’organisme à chaque instant t. La dynamique du processus fait intervenir les éléments suivants : • A des dates aléatoires 0 < T1 < T2 < · · · < TN < ..., des doses B1 =Q1 × C1, …, BN = QN × CN, ... sont successivement ingérées. Le régime alimentaire est décrit par le processus ponctuel marqué. • Pharmacocinétique : une quantité x(0) = B de contaminant ingérée à un instant t = 0 est dégradée à la vitesse r(x, t) selon une équation différentielle ordinaire (avec coefficients aléatoires éventuellement) ou stochastique : dx(t) = -r(x(t), t)dt + s(x(t), t)dWt, dx(t) = -r(x(t), t)dt. Les trajectoires du processus d’exposition ne sont naturellement pas observables (ceci supposerait de mesurer la teneur en contaminant de chaque aliment consommé, voir la Fig. ci dessous), mais sa loi est caractérisée par: 1. la loi des Cn (teneur en contaminant), 2. la loi de (Tn,Qn) (fréquences des consommations et quantités consommées), 3. les paramètres de l’EDO/EDS de dégradation, pour lesquels on dispose d’observations (données de consommation et études toxicologiques). Il est ainsi envisageable d’estimer les caractéristiques du processus d’exposition, importantes du point de vue de la toxicologie (exposition maximum sur une période donnée, temps passé au-delà d’un seuil critique, valeur moyenne, caractéristiques de l’état d’équilibre), en mettant en œuvre des techniques de simulation (Monte-Carlo). Les enjeux de ce projet de recherche consistaient donc à proposer d’abord une description quantitative pertinente de la dynamique d’exposition puis d’étudier le(s) modèle(s) proposé(s) (loi du temps de dépassement d’un certain seuil, valeurs extrêmes, comportement asymptotique en temps long). Il importait également d’établir un cadre de validité rigoureux pour l’application de procédures statistiques fondées sur la simulation de trajectoires en abordant les problèmes de stabilité (« Monte-Carlo naif » ou algorithmes génétiques pour l’estimation des risques liés à des événements extrêmes). Plusieurs articles abordant ces questions ont été publiés ou sont soumis à publication (voir les articles 11, 15, 30 et 34) présentant à la fois des résultats théoriques et expérimentaux (le cas, très important dans le domaine de la Santé Publique, de la contamination alimentaire par le methyle-mercure (MeHg), contaminant présent essentiellement dans les poissons et particulièrement néfaste pour le développement neurophysiologique, étant traité en détail), les résultats obtenus seront également présentés à la Conférence PPTOX en Mai 2007 (voir 29). 16 Plusieurs développements de cette approche pour des modèles toxicocinétiques plus complexes ainsi que de nouvelles applications sont envisagés dans le projet ANR PNRA ‘Avicenne’ proposé en 2007 auquel je participe pour Met@risk avec Ph. Verger (INRA). Analyse Risque-Bénefice des régimes alimentaires. Mots-clef : bénéfice nutritionnel, risque chimique, ‘curse of dimensionality’, ensembles de niveaux, détection d’anomalie, ‘MV sets’, ‘False Discovery Rate’, tests statistiques, ‘sparsity’, analyse en composantes indépendantes. Afin de pouvoir effectuer des recommandations en termes de régime alimentaire et/ou en terms de normes de contamination maximale admissible pour des produits alimentaires donnés, il importe également d’élaborer des méthodes probabilistes et statistiques (tests) permettant de définir des régimes alimentaires optimaux en termes de bénéfice nutritionnel acceptable et de risque d’exposition (lié à certains contaminants) minimum. Certains aliments contiennent en effet dans des teneurs plus ou moins grandes des contaminants, qui par effet d’accumulation peuvent occasionner des problèmes de santé. Dans le même temps, la plupart des aliments sont indispensables à l’équilibre nutritionnel d’un individu. Il apparaît important de modéliser les risques et les bénéfices liés à la consommation de certains produits en tenant compte à la fois de leurs aspects nutritionnels et de leur contamination en certaines substances chimiques pouvant engendrer des problèmes de santé majeurs. Dans une approche duale, il peut être intéressant de rechercher pour le régime actuel des individus d’une population des normes sur les contaminations maximales admises sur certains produits, compte tenu de leur utilité nutritionnelle. Une approche possible pour ce type de problème est d’essayer de déterminer une région de l’espace (de grande dimension) des consommations qui minimise la probabilité que les contaminations (somme pondérée de consommations) soient en dessous d’un certain niveau, sous la contrainte que les contributions nutritionnelles totales (elles même sommes pondérées de consommations) soient au dessus d’un seuil recommandé par les nutritionnistes. De telles questions apparaissent dans de nombreux problèmes liés à la détection d’anomalies et ont fait l’objet de travaux récents sous le nom de théorie des ensembles de niveaux (voir [3] par exemple). En collaboration avec P. Bertail (INSEE), un projet visant développer cette approche a été élaboré. Il constitue en particulier un sujet de thèse dont le financement a été accepté par l’INRA. Il est également partie intégrante du projet ANR ”TAMIS” accepté en 2006 auquel j’ai pris part (et dont je coordonne le sous-projet « Risque-Bénéfice » pour l’INRA) dont l’objet est le développement et l’application de méthodes d’apprentissage statistiques récentes, et auquel participent l’équipe « Statistique » du LPMA des universités Paris 6/7, le groupe Bioinformatique de l’Institut Curie, la Société Pertinence SA et l’INRA. Conformité des méthodes d’analyse en microbiologie. Mots-clef : chimiométrie, conformité des méthodes d’analyse, intervalles de tolérance, statistique non paramétrique, bootstrap. Les aspects métrologiques relatifs à la mesure des teneurs en contaminants des aliments par les laboratoires d’analyses constituent également une dimension importante de l’évaluation des risques alimentaires (voir [1]). La modélisation statistique permet de rendre compte de la variabilité des phénomènes rencontrés ainsi que des incertitudes inhérentes aux mesures effectuées en microbiologie (‘comptage de bactéries’ présentes dans un produit alimentaire). L’élaboration de méthodes statistiques expérimentales permettant de contrôler les nombreuses sources de variabilité et d’établir la conformité des résultats obtenus est un enjeu crucial. Il s’agit en particulier de construire, à partir de mesures expérimentales effectuées selon un protocole donné, des bornes numériques entre lesquelles doivent de situer les mesures effectuées ultérieurement avec une probabilité supérieure à 95% par exemple (cette notion correspond au concept d’intervalles de tolérance dans le domaine des statistiques appliquées à la fiabilité). A cet égard, les méthodes de ré-échantillonnage de type Bootstrap offrent des avantages certains par rapport aux méthodes analytiques développées dans [4] 17 stipulant la normalité des observations. Cette ligne de recherche a fait l’objet d’un stage de DEA (T. Rebafka, Paris 7) au sein de l’unité Met@risk et de l’Institut de Sécurité et d’Hygiène Alimentaire (ISHA) que j’ai co-encadré avec M. Feinberg (INRA) et d’un article soumis à publication (voir l’article N°13 dans la liste de publications). APPLICATIONS EN EPIDEMIOLOGIE Modélisation statistique pour l’analyse de l’épidémie du VIH à Cuba. Mots-clef : épidémiologie mathématique, VIH, SIDA, modèles stochastiques SIR, contact-tracing, processu de Markov à valeurs mesure, approximation ‘grande population’, quasi-stationarité, statistique paramétrique, modèles de durée, observations incomplètes, modèles de Markov cachés. En collaboration avec P. Bertail (Paris X), B. Auvert (INSERM U687, Paris V), H. De Arazoza (Université de La Havane, Cuba), J. Perez (Institut de médecine tropicale, Cuba), R. Lounes (Paris V), et V.C. Tran (Paris X), un projet de recherche visant à étudier/prévoir, via une modélisation mathématique, l’évolution de l’épidémie du VIH à Cuba a été réalisé dans le cadre de l’ACINouvelles Interfaces des Mathématiques « Modélisation épidémiologique » (2005-2007), dont j’ai coordonne le fonctionnement. Plus précisément, le projet de cette ACI consiste à développer un modèle mathématique permettant de rendre compte de l'évolution récente de l'épidémie du sida à Cuba, et de l'anticiper tout à la fois. La modélisation statistique de l'épidémie s'appuie sur l'atout majeur que constitue l'accès à la base de données établie par le Sanatorium de Santiago de Las Vegas (Cuba) pour le contrôle épidémiologique du virus. Unique en son genre, cette base de données contient non seulement les informations médicales, sociodémographiques et comportementales relatives aux individus infectés par le VIH détectés par le système de santé publique cubain, mais aussi une liste des partenaires sexuels (fournie sur la base du volontariat) de chacun de ces individus : une caractéristique essentielle du système de lutte contre le sida mis en place à Cuba consistant en la recherche active des contacts sexuels des personnes infectées (voir la description statistique de l’épidémie présentée dans l’article 14). Dans le domaine de la Santé Publique, cette stratégie d’intervention (coûteuse et controversée mais considérée comme très efficace pour le contrôle des épidémies de MST) est connue sous le nom de Contact-Tracing. Dans ce cadre spécifique, et sur la base de cette source exceptionnelle d'information, un modèle de population structurée pour l'évolution de l'épidémie, reposant sur la description des comportements individuels par des processus microscopiques en interaction a été proposé et étudié (voir l’article 16). Ce nouveau modèle généralise les modèles vectoriels SIR classiques (voir [5]) utilisés en épidémiologie mathématique dans la mesure où les strates de la population y sont décrites par des mesures ponctuelles. Il permet ainsi de tenir compte des effets des différentes variables d’âge (état-civil, âge de l’infection, âge de la détection) sur la dynamique de l’épidémie et en particulier, de modéliser les effets du Contact-Tracing et d’en évaluer l’efficacité. Ces résultats ont été présentés en partie lors de la session « mathematical epidemiology » organisée par le Pr. H. de Arazoza lors du 7 Congrès en recherche opérationnelle et mathématiques appliquées à la Havane (Cuba). ème Dans ce projet, la diversité de la population est prise en compte en caractérisant chaque individu par des variables identifiées comme pertinentes du point de vue épidémiologique, parmi les caractères recensés dans la base de données. La difficulté de ce projet réside principalement dans la détermination préalable de ces variables d’état, dans la modélisation de leurs effets sur l'évolution des individus et leurs interactions, une telle modélisation devant naturellement faciliter l'élaboration de stratégies d'estimation statistique consistantes dans un cadre asymptotique « grande population » ainsi que la mise en œuvre de méthodes numériques de simulation. Dans cet esprit, j’anime avec P. Bertail (Crest) et H. de Arazoza (Universidad de la Habana, Cuba), deux groupes de travail à l’ENSAE (2 et 3 années), dans le prolongement du cours d’épidémiologie mathématique que je donne à l’ENSAE en troisième année. ème ème 18 Le problème de l’inférence statistique (estimation et détermination d’intervalles de confiance) pour de tels modèles dans une asymptotique ‘temps long’ (justifiée dans les cas endémiques tels que le HIV) représente un véritable challenge du point de vue mathématique, du fait du caractère incomplet des données épidémiologiques. Ce problème est abordé dans l’article 43 en cours de rédaction. Le projet ANR Systèmes Complexes intitulé « Viroscopy » que je coordonne (2008-2011), regroupant Telecom ParisTech, l’INRIA et les Universités Lille 1 et Paris 5, vise à développer plus avant les résultats obtenus. En particulier, les questions relatives à l’hétérogénéité spatiale, à la structure en graphes de la chaine de propagation et à la quantification des événements rares y seront abordées. Un projet connexe, visant à étudier la propagation d’informations au sein d’un réseau social, à a été soumis à l’appel à projets Futur et Ruptures proposé par l’Institut Telecom en collaboration avec F. Rossi (INFRES, Telecom ParisTech) et S. Blanchemanche (INRA). Références bibliographiques : 1. 2. 3. 4. 5. 6. 7. Feinberg M., Bertail P., Tressou J., Verger P. (Editeurs) (2006). Analyse des risques alimentaires, Tec&Doc. Tressou, J. (2005). Méthodes statistiques pour l'évaluation du risque alimentaire. Rapport de thèse, Université Paris X. Polonik, W. (1995). Measuring mass concentration and estimating density contour clusters – an excess mass approach. Ann. Statist. 23, pp. 855-881. Mee, R.W. (1984) beta-expectation and beta-content tolerance limits for balanced one-way ANOVA random model. Technometrics, 26(3):251–254. Andersson H., Britton, T. (2000). Stochastic Epidemic Models and their Statistical Analysis. Lecture Notes in Statistics n°151, Springer. Friedman, J., Hastie, T., Tibshirani, R. (2001). The Elements of Statistical Learning. Springer. Donoho, D. Johnstone, I., Kerkyacharian, G., Picard. D. (1996). Wavelet shrinkage: asymptopia? Journal of the Royal Statistical Society. Series B, 57(2) (1995), pp. 301-369. 19 ENSEIGNEMENT 2008/09 Master recherche - Paris 7 Denis Diderot en co-tutelle avec Telecom ParisTech • Apprentissage Statistique: Théorie et Applications - avec N. Vayatis (ENS Cachan) – 24h Cours Telecom Paristech • Probabilité ++ - MDI 221 - avec E. Moulines (Telecom Paristech) – 20TH • Equations aux Dérivées Partielles - MDI 226 – 20TH • Apprentissage Statistique - MDI 343 - avec F. Rossi (Telecom-ParisTech) – 60TH • Encadrement du Projet Libre de S. Mignot (X-Telecom) : « Sélection de Variables en Apprentissage Statistique » Ensae ParisTech ème • Apprentissage Statistique: Théorie et Applications (3 année) avec N. Vayatis (ENS Cachan) – 8h Cours ème • Epidémiologie Mathématique (3 année) avec V.C. Tran (Université Lille 1) – 7h Cours Centrale Paris ème • Apprentissage Statistique: Théorie et Applications (3 année) avec N. Vayatis (ENS Cachan) – 6h Cours 2007/08 Telecom Paristech • Probabilité - MDI 101 - avec O. Hudry (Telecom-ParisTech), J. Najim (CNRS), G. Fort (CNRS), F. Roueff (TelecomParisTech), L. Decreusefond (Telecom-ParisTech) - 22TH • Probabilité ++ - MDI 221 - avec J. Najim (CNRS) et I. Camilier (Telecom Paristech) – 16TH • Equations aux Dérivées Partielles - MDI 226 – 20TH • Calculus Stochastique (Applications en Finance) - MDI 340 - avec L. Decreusefond, I. Camilier, P. Bourgade, E. Moulines & B. Le Quan - 5TH • Apprentissage Statistique - MDI 343 - avec F. Roueff (Telecom-ParisTech) - 6TH • Ingéniérie Financière - MDI 34 - avec F. Roueff (Telecom-ParisTech), E. Moulines (Telecom ParisTech), I. Camilier (Telecom ParisTech) et P. Bourgade (Telecom ParisTech) - Encadrement du projet de S. Dang-Nguyen 20 • Méthodes Monte-Carlo pour la Finance- MDI 345 avec E. Moulines (Telecom-ParisTech), G. Fort (Telecom-ParisTech) et M. Charbit (Telecom-ParisTech) – 2TH • Encadrement du Projet Libre de J. Lemaire « Modèles de Gestion de Portefeuille Alternatives » En résumé : • 71TH • Encadrement de deux projets : un projet libre, un projet en ingénierie financière Ensae ParisTech ème • Apprentissage Statistique: Théorie et Applications (3 année) avec N. Vayatis (ENS Cachan) - 8h Cours ème • Epidémiologie Mathématique (3 année) avec V.C. Tran (Université Lille 1) – 7h Cours Centrale Paris ème • Apprentissage Statistique: Théorie et Applications (2 année) avec N. Vayatis (ENS Cachan) – 6h Cours 2006/07 Ensae ParisTech • Responsable de l’examen de Statistiques pour le Concours Interne d’Administrateur de l’INSEE avec J.M. Fournier ème • Apprentissage Statistique: Théorie et Applications (3 année) – 16h Cours ème • Epidémiologie Mathématique (3 année) - 14h Cours ème • Chaînes de Markov (2 année) avec P. Bertail (Ensae) – 9h TP 2005/06 Ensae ParisTech ème • Apprentissage Statistique: Théorie et Applications (3 année) – 16h Cours ème • Chaînes de Markov (2 année) avec P. Bertail (Ensae) – 6h TP 21 2004/05 UNIVERSITE PARIS X NANTERRE 1 • • • • er cycle DEUG MASS 1 année (Probabilités et Statistiques, 26h TD) DEUG MASS 2 année (Probabilités et Statistiques, 26h Cours) DEUG MASS 2 année (Probabilités et Statistiques, 26h Cours) DEUG Sc. Eco. 2 année (Probabilités et Statistiques, 20h TD) ère ème ème ème nd 2 cycle • Maîtrise de psychologie (Analyse de la Variance, 48h TP) • Maîtrise de psychologie (Analyse de Données, 48h TP) 2003/04 UNIVERSITE PARIS X NANTERRE er 1 cycle • DEUG MASS 1 année (Probabilités et Statistiques, 52h TD) • DEUG de Psychologie 1 année (Probabilités et Statistiques, 52h TD) ère ère 2 • • • nd cycle Maîtrise de psychologie (Analyse de la Variance, 48h TP) Maîtrise de psychologie (Analyse de données, 26h TP) Maîtrise MASS (Séries chronologiques, 26h CM) 2002/03 UNIVERSITE PARIS X NANTERRE er 1 cycle • DEUG MASS 1 année (Probabilités et Statistiques, 52h TD) ère 2 • • • nd cycle Maîtrise de psychologie (Analyse de la Variance, 48h TP) Maîtrise de psychologie (Statistiques non paramétriques, 26h TP) Maîtrise MASS (Séries chronologiques, 26h CM) ème 3 cycle • DESS de Psychologie (Analyse de Données, 15h TP) 22 2001/02 UNIVERSITE PARIS X NANTERRE er 1 cycle • DEUG MASS 1 année (Probabilités et Statistiques, 52h TD) ère nd 2 cycle • Maîtrise de psychologie (Analyse de la Variance, 48h TP) • Maîtrise de psychologie (Statistiques non paramétriques, 24h TP) • Maîtrise MASS (Séries chronologiques, 26h CM) ème 3 cycle • DESS de Psychologie (Analyse de Données, 15h TP) 2000/01 UNIVERSITE PARIS X NANTERRE 1 • • • • er cycle DEUG MASS 1 année (Probabilités et Statistiques, 24h TD) DEUG MASS 2 année (Probabilités et Statistiques, 36h TD) DEUG de sciences économiques (Statistiques, 39h TD) DEUG de Psychologie 1 année (Statistiques, 24h TD) ère nde ère nd 2 cycle • Licence de sciences économiques (statistiques, 39h TD) 1999/2000 UNIVERSITE PARIS X NANTERRE 1 • • • • • er cycle DEUG MASS 1 année (Probabilités et Statistiques, 24h TD) DEUG MASS 2 année (Probabilités et Statistiques, 36h TD) DEUG de sciences économiques (Statistiques, 36h TD) DEUG de sciences économiques (Mathématiques, 36h TD) DEUG de Géographie 1 année (Statistiques, 24h TP) ère nde ère nd 2 cycle • Licence de sciences économiques (Mathématiques, 36h TD) 23 Projet pédagogique Le principal objectif en matière d’enseignement que je me suis fixé pour ces prochaines années consiste à mettre en œuvre un enseignement d’Apprentissage Statistique et de Fouilles de Données attrayant pour un nombre croissant d’élèves ingénieurs, au niveau du module MDI 343 en particulier (Parcours « Fouille de Données ») et du cours dispensé au Master Recherche « Modèles Aléatoires » de Paris 7 en co-tutelle avec Telecom ParisTech. En effet, beaucoup d'applications modernes (données web, génomique, finance, e-marketing, etc.) requièrent de manipuler et traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type de données s'appelle l'apprentissage statistique (statistical machine learning). Il s'agit, in fine, de produire des outils de prédiction et d'aide à la décision dédiés à une application spécifique. L'apparition d'algorithmes très performants pour la classification de données en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement transformé le champ occupé jusqu'alors par la statistique traditionnelle qui s'appuyait en grande partie sur le prétraitement réalisé par l'opérateur humain. En s'appuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau courant de recherche est né: il se situe à l'interface entre les communautés mathématique et informatique et mobilise un nombre croissant de jeunes chercheurs tournés vers les applications liées à l'analyse de données massives. Il me paraît ainsi très important qu’un nombre significatif d’élèves ingénieurs puissent accéder à ces connaissances et ces savoir-faire, dont l’utilisation va indiscutablement s’accroître dans de nombreux secteurs d’activité, ceux tournés vers le développement et l’innovation technologique en particulier. Afin que cet enseignement puisse séduire davantage d’étudiants , il me semble essentiel de multiplier les « portes d’entrée » pour l’accès à la culture « multi-facette » de l’apprentissage statistique : les étudiants les plus portés sur la formalisation mathématique des concepts devraient pouvoir se concentrer sur les concepts essentiels de la théorie (concentration de la mesure, caractérisation de la complexité des règles de décision, pénalisation du risque, régularisation) sans pour autant dérouter ceux qui seraient davantage intéressés par les aspects algorithmiques et les applications. Il paraît également important de faire percevoir aux élèves ingénieurs la grande variété des applications de ces techniques, un aspect que l’activité du LTCI illustre parfaitement, avec pour preuve les conclusions de la récente réunion TSI/INFRES faisant le point sur les activités de l’école dans ce domaine. L’enseignement que je souhaite mettre en place en collaboration avec F. Rossi (INFRES, Telecom ParisTech) consistera à exposer les principes fondamentaux de la théorie de l’Apprentissage, éventuellement complétés par lecture de certains articles et chapitres d'ouvrages de références, et à mettre en oeuvre pratiquement les algorithmes étudiés (sur données réelles ou simulées) dans le but de résoudre des problèmes d’apprentissage supervisés ou non supervisés, batch ou on-line, variés, allant de l’analyse de données multi-media (texte ou images) dans le but de les indexer, de les classer ou encore de les ordonner, à la CRM en passant par le traitement du signal. 24 25