Stephan clemencon

Transcription

Stephan clemencon
Stéphan Clémençon
Né le 11 Avril 1972  Marié  1 enfant  34, rue d’Avron  94170 Le Perreux sur Marne  Téléphone : 01 48 76 11 78  Adresse de
messagerie : [email protected]
Telecom ParisTech  Département TSI  Laboratoire LTCI UMR Telecom ParisTech/CNRS N° 5141  Groupe STA  Maître de
Conférences (Apprentissage Statistique)  Bureau DA 314  Téléphone : 01 45 81 78 07  Télécopie : 01 45 81 71 58
Situation Actuelle
Maître de Conférences (Apprentissage Statistique) – Telecom ParisTech
er
Depuis le 1 Octobre 2008
Département TSI - Groupe STA
Cursus
Qualification aux Fonctions de Professeur
2007
Section N° 26 du Conseil National des Universités (Mathématiques Appliquées et Applications des Mathématiques)
Habilitation à Diriger des Recherches (HDR Sciences) - Université Paris X
2006
Spécialité : Statistique et Applications des Statistiques
Présentation des travaux en soutenance le 1 er Décembre 2006 devant le Jury composé de :
L. Birgé (Université Paris 6), P. Bühlmann (ETH Zurich), D. Picard (Université Paris 7), M. Neumann (Université de Cologne), Y.
Ritov (Université Hebraïque de Jerusalem), P. Soulier (Université Paris X) et A. Tsybakov (Université Paris 6)
Doctorat de Mathématiques Appliquées – Université Paris 7
1996 - 1999
Spécialité : Probabilité et Statistiques
Titre: Méthodes d’ondelettes pour la statistique nonparamétrique des chaînes de Markov
Thèse dirigée par D. Picard et soutenue le 7/01/00 devant le jury composé de : L. Elie (Université Paris 7), X. Guyon (Université
Paris 1), C. Laredo (INRA), D. Picard (Université Paris 7), B. Prum (Université Paris 5) et M. Neumann (Humboldt Universität), et
obtenue avec la Mention Très Honorable avec les Félicitations
Expérience Professionnelle
Accueil en Délégation à l’INRA – Département MIA
2005 - 2007
• Unité Metarisk N° 1204 «Méthodologies d’Analyse des Risques Alimentaires »
• Responsable de la sphère « Modélisation »
Maître de Conférences Université Paris X
2001 - 2005
• Laboratoire MODALX – Modélisation Aléatoire de Paris X - EA 3454
• UFR SPSE
Membre permanent du Laboratoire de Probabilité & Modèles Aléatoires
2001 – 2007
• Laboratoire LPMA (Universités Paris 6 et Paris 7) – UMR CNRS N° 7599 – Groupe « Statistique »
ATER – Université Paris X
1999 – 2001
Vacataire Université Paris XII (IUT Traitement du Signal)
1996 - 1997
THEMES/DOMAINES DE RECHERCHE
• Apprentissage statistique – « Ranking »
Mots-clef : Scoring, courbe ROC, détection d’anomalie en image/signal, diagnostic médical, risque de crédit, U-processus,
boosting, statistiques de rang, ensemble de volume minimum, analyse en composantes principales, NMF
• Statistique des Processus Markoviens
Mots-clef : Théorie du renouvellement, processus pseudo-régénératif, théorèmes limites, inégalités de probabilité/moment,
bootstrap, U-statistiques, robustesse, valeurs extrêmes, modèles de Markov cachés, approches non paramétriques
• Modélisation probabiliste et inférence statistique en Finance
Mots-clef : Value at Risk, analyse temps-fréquence, ondelettes, paquets de cosinus, estimation spectrale, sélection de portefeuille,
modélisation des risques extrêmes, analyse en composantes indépendantes
• Modélisation probabiliste et inférence statistique pour la Toxicologie
Mots-clef : Equation de toxico/pharmaco–cinétique, processus ponctuels marqués, estimation par simulation, étude de stabilité,
ergodicité, filtrage particulaire, valeurs extrêmes
• Modélisation probabiliste et inférence statistique en Epidémiologie
Mots-clef : Modèles SIR, contact-tracing, modèles de durées, processus markoviens, systèmes particulaires en interaction,
approximation grande population, observations incomplètes, modèles de Markov cachés, graphes aléatoires, réseaux
TRAVAUX D’EXPERTISE STATISTIQUE (Etudes - Consulting)
•
•
•
•
•
•
•
Société Hitachi Data System (modélisation statistique)
Agence AVISO Conseil (optimisation)
Société Essilor (fiabilité)
Société COFIDIS (credit-scoring)
Société COFINOGA (credit-scoring)
Banque Mapfre (optimisation de portefeuille)
Société CORSAIR (yield management)
COMPETENCES
• Langues : Anglais (lu, écrit, parlé), Allemand (lu, écrit, parlé), Italien (lu, parlé), Espagnol (lu, parlé).
• Informatique : Matlab (Scilab, Octave), SAS, C/C++, Visual Basic, R, logiciels statistiques (GAUSS, Statistica, StatGraphics).
2
PUBLICATIONS
THESES, RAPPORTS, MEMOIRE
1.
Méthodes d'ondelettes pour la statistique non paramétrique des chaînes de Markov. (2000), thèse de Doctorat
de Mathématiques Appliquées de l'université Denis Diderot Paris VII.
2.
Note on the practical implementation of two algorithms for estimating the transition density of a regular
Markov chain. (2002), 12 pages, Rapport Technique de l’Université Paris X.
3.
Nonparametric Estimation for some Specific Classes of Hidden Markov Models. (2005), 25 pages, Rapport
Technique de l’Université Paris X, N° 03-9.
4.
Travaux de statistique mathématique et statistiques appliqués - Mémoire en vue de l’obtention de
l’Habilitation à Diriger des Recherches. (2007), 125 pages, Ecole Doctorale Modélisation, Connaissance et Culture,
Université Paris X. http://tel.archives-ouvertes.fr/tel-00138299 .
ARTICLES PUBLIES DANS DES REVUES AVEC COMITE DE LECTURE
1.
Moment and Probability Inequalities for Sums of Bounded Additive Functionals of a Regular Markov Chains via the Nummelin
Splitting Technique. (2001), Statistics and Probability Letters, 55, pp 227-238 .
2.
Adaptive Estimation of the Transition Density of a Regular Markov Chain by Wavelet Methods. (2000), Mathematical Methods
of Statistics, Vol. 9, N° 4, pp 323-357.
3.
Statistical analysis of financial time series under the assumption of local stationarity. En collaboration avec S. Slim (THEMA,
Université Paris X Nanterre), (2004), Quantitative Finance, Vol. 4, N° 2, pp 208-220.
4.
Note on the regeneration-based bootstrap for atomic Markov chains. En collaboration avec P. Bertail (CREST), (2007) in
TEST, Vol. 16, N° 1 pp 109-122.
5.
Edgeworth expansions for suitably renormalized sample mean statistics of atomic Markov chains. En collaboration avec P.
Bertail (CREST), (2004), Probability Theory and Related Fields, N°130, pp 388-414.
6.
Regenerative block-bootstrap for Harris Markov chains. En collaboration avec P. Bertail (CREST), (2006), Bernoulli, 12(4), pp
689-712 .
7.
Approximate regenerative block-bootstrap : some simulation studies. Avec P. Bertail (CREST), (2008), in Computational
Statistics and Data Analysis, Vol. 52, Issue 5, pp 2739-2756.
8.
Ranking and Empirical Minimization of U-statistics. Avec G. Lugosi (Pompeu Fabra, Barcelone) & N. Vayatis (Paris VI), (2008)
in Annals of Statistics, Vol. 36, N° 2, pp 844-874.
9.
On Portfolio Selection under Extreme Risk Measure : the Heavy-tailed ICA Model. (2007), Avec S. SLIM (THEMA, Paris X),
International Journal of Theoretical and Applied Finance, Vol. 10, No 3, May 2007 issue.
10. Some comments on ”Local Rademacher complexities and oracle inequalities in risk minimization” by Vladimir Koltchinskii.
Avec G. Lugosi (Pompeu Fabra, Barcelona) & N. Vayatis (Paris VI), (2006) in Annals of Statistics, Vol. 34, N°6.
3
11. Integration of time as a description parameter in risk characterisation: application to methyl mercury. (2007) avec Ph. Verger
(INRA) & J. Tressou (INRA), in Regulatory, Toxicology and Pharmacology, Vol. 48, N°3, pp 259-269.
12. On Ranking the Best Instances (2007). Avec N. Vayatis (ENS Cachan), in Journal of Machine Learning Research, N° 8, pp
2671--2699.
13. New concepts for in-house method validation based on bootstrap tolerance intervals (2007). Avec M. Feinberg (INRA) & T.
Rebafka (CEA/Telecom Paristech) in Chemometrics and Intelligent Laboratory Systems, Vol. 89, Issue 2, 15 November 2007,
pp 69-81.
14. The AIDS epidemy in Cuba: why a low prevalence ? (2006) Avec H. de Arazoza (Universidad La Habana, Cuba) & B. Auvert
(INSERM, Paris V), in BMC Disease, Vol. 7, N° 130, http://www.biomedcentral.com/imedia/1826182617138620_article.pdf.
15. A storage model avec random release rate for modeling exposure to food contaminant. Avec P. Bertail (CREST) & J. Tressou
(INRA), (2007), in Mathematical Biosciences and Engineering. Vol. 5, N° 1, pp 35-60.
16. A Stochastic Epidemic Model avec Contact-Tracing: Large Population Approximation and Statistical Estimation (2007). Avec
H. de Arazoza (Universidad La Habana, Cuba) & V.C. Tran (Lille 1), in Journal of Biological Dynamics, Vol. 2, Issue 4, pp
392-414.
17. Sharp Bounds for the Tails of Functionals of Harris Markov Chains. Avec P. Bertail (CREST Paris X), to appear in Theory of
Probability and its Applications, https://hal.archives-ouvertes.fr/hal-00140591.
18. Extreme values statistics for Harris Markov chains via the (pseudo-) regenerative method, (2007) avec P. Bertail (CREST Paris
X) & J. Tressou (INRA), to appear in Extremes, http://hal.archives-ouvertes.fr/hal-00165652/fr/.
ACTES DE CONFERENCES AVEC COMITE DE LECTURE
19. From Classification to Ranking: a Statistical View. En collaboration avec G. Lugosi (Université Pompeu Fabra, Barcelone) & N.
Vayatis (Université Paris VI), (2006), in Proc. of the 29 Annual Conference of the German Classification Society, GfKl 2005,
'Studies in Classification, Data Analysis and Knowledge Organization' series, Vol. 30. Springer-Verlag.
th
20. Ranking and scoring, using empirical risk minimization. En collaboration avec G. Lugosi (Université Pompeu Fabra, Barcelone)
& N. Vayatis (Université Paris VI), (2005) in Proceedings of COLT Bertinoro, Italy, June 27-30, 2005. Lecture Notes in
Computer Science 3559 Springer, 1-15.
21. Second order validity of the 2-split ARBB for Markov chains. En collaboration avec P. Bertail (CREST), (2004), in Proceedings
of COMPSTAT, Physica-Verlag.
22. Regeneration-based statistics for Harris Markov chains. En collaboration avec P. Bertail (CREST), (2006), in ‘Dependence in
Probability and Statistics’, Eds P. Bertail, P. Doukhan & P. Soulier, Lecture Notes in Statistics N°187, Springer-Verlag, pp 1-54.
23. A regeneration-based runs estimator for the extremal index in the Markov setup, (2008) avec P. Bertail (CREST Paris X) & J.
Tressou (INRA), in Proceedings of IWAP’08 (International Workshop in Applied Probability, UTC). http://hal.archivesouvertes.fr/hal-00214305/fr/
24. Regenerative Block-Bootstrap Confidence Intervals for the Extremal Index, (2008) avec P. Bertail (CREST Paris X) & J.
Tressou (INRA), in Proceedings of IWAP’08 (International Workshop in Applied Probability, UTC). http://hal.archives4
ouvertes.fr/hal-00214306/fr/
25. Approximation of the optimal ROC curve and a tree-based ranking algorithm (2008) avec N. Vayatis (ENSC). In Proceedings of
ALT’08, Budapest (Hungary) 13-18 Oct. 2008. Algorithmic Learning Theory, Lecture Notes in Science, Springer.
26. On Bootstrapping the ROC curve, (2008) avec N. Vayatis (ENSC) & P. Bertail (Paris X), in Proceedings of NIPS 2008
27. Overlaying classifiers: a practical approach for optimal ranking, (2008) avec N. Vayatis (ENSC), in Proceedings of NIPS 2008
28. Empirical performance maximization based on linear rank statistics, (2008) avec N. Vayatis (ENSC), in Proceedings of NIPS
2008
POSTERS DANS DES CONFERENCES AVEC COMITE DE LECTURE
29. Kinetic dietary exposure model (KDEM): Integration of half-life of Methyl Mercury in human for
modeling the long term dietary exposure International Conference on Fetal Programming and Developmental Toxicity
(PPTOX). Faroe’s Islands, May 2007.
ARTICLES SOUMIS A PUBLICATION DANS DES REVUES A COMITE DE LECTURE
30. Statistical analysis of a dynamic model for food contaminant exposure avec applications to dietary methylmercury
contamination. Avec P. Bertail (CREST) & J. Tressou (INRA), (2008), http://hal.archives-ouvertes.fr/hal-00308881/fr/ .
31. The RankOver algorithm: overlaid classification rules for optimal ranking. avec N. Vayatis (ENSC) (2008).
32. A Renewal Approach to markovian U-statistics. Avec P. Bertail (CREST) & J. Tressou (INRA), (2008).
33. Tree-based ranking rules. Avec N. Vayatis (ENSC) (2008). http://hal.archives-ouvertes.fr/hal-00268068/fr/
34. Exposition aux risques alimentaires et processus stochastiques. Avec J. Tressou (INRA). http://hal.archives-ouvertes.fr/hal00311405
35. On Partitioning Rules for Bipartite Ranking. Avec N. Vayatis (ENSC) (2008).
TRAVAUX EN COURS DE REALISATION
36. Rank processes and nonparametric ranking. Avec N. Vayatis (ENSC) (2008).
37. Ranking Pursuit: a new recursive partitioning method for bipartite ranking. Avec M. Depecker (Telecom ParisTech) and N.
Vayatis (ENSC) (2008).
38. On Bootstrapping Goodness of Fit Statistics in the Ranking Problem, (2008) avec N. Vayatis (ENSC) & P. Bertail (Paris X)
39. Regenerative Block-Bootstrap Confidence Intervals for the Tail and Extremal Indexes of Markov Chains. Avec P. Bertail
(CREST) & J. Tressou (INRA), (2008).
5
40. Bayesian Analysis of Microbiological Data based on a Prevalence-Contamination Relationship, 16 pages en collaboration avec
A. Crépet (INRA).
41. Statistical Inference of a Stochastic SIR Model in Long Time Asymptotics, 30 pages, en collaboration avec V.C. Tran (Paris X)
& P. Bertail (CREST).
42. On predicting sickle cell disease via machine learning algorithms, 16 pages, en collaboration avec avec B. Diagne (Université
Orléans), R. Emilion (Université d’Orléans) et T. Marianne-Pepin (Université des Antilles et de la Guyane).
43. Statistical inference for density dependent Markovian forestry models. 25 pages, en collaboration avec M. Zetlaoui (OMIP,
AgroParisTech).
44. On Akaike’s information criterion for assessing the number of sources in ICA models, 15 pages en collaboration avec Nicolas
Vayatis (Paris 6).
45. Reassignment: an alternative to Gaussian deconvolution?
46. Food consumption data disaggregation using machine learning methods, 18 pages en collaboration avec J. Tressou (INRA).
47. Approximate Regenerative Block-Bootstrap for Hidden Markov Models, 22 pages en collaboration avec P. Bertail (CREST).
En résumé:
•
18 articles parus ou à paraître dans des revues internationales avec comité de lecture
•
10 actes de conferences avec comité de lecture
•
6 articles soumis à publication et 13 articles en preparation
Bibliométrie (http://scholar.google.com):
•
Articles les plus cites: article N°20 (32 citations), article N°5 (16 citations), article N°2 (12 citations)
•
Articles perçus comme les plus importants: articles N°5, 8 et 33
MISSIONS A L’ETRANGER / CONFERENCES
• 1997 mai : Groupe de travail en statistiques, Institut Henri Poincaré
• 1997 sept. : Séminaire de Statistiques PARIS-BERLIN (Schmerwitz, Allemagne)
• 1997-98 : Séjour d’un an au département de Statistiques de l'Université de STANFORD (Californie) sur invitation du Prof.
David Donoho
• 1999 sept. : Séminaire de Statistiques PARIS-BERLIN (Berlin, Humböldt Univ.)
• 2000 mars : Séminaire de Statistique de l'Université PARIS X NANTERRE
• 2000 avril : Séminaire de Statistique de l'Université de Marne La Vallée
6
• 2000 sept. : Séminaire "Finance- Assurance" PARIS-BERLIN (Invitation)
• 2001 février : Séjour d'une semaine à Berlin sur invitation du prof. M. Neumann, Séminaire de l'INSTITUT WEIERSTRASS
(BERLIN)
• 2001 mai : Séminaire de Statistique de l’Université Paris IX Dauphine
• 2002 mars : Séminaire de Statistique de l’Université Paris X Nanterre
• 2002 mai : XXIèmes journées de Statistique (SFdS Bruxelles) (Invitation)
• 2002 juin : Séminaire de Statistique de l’Université Pompeu Fabra (Barcelone), sur invitation du Pr. G. Lugosi
• 2002 nov. : Séminaire de Statistique de l’Université Paris-Sud Orsay
• 2003 janvier : Séminaire d’Econométrie de l’Université Paris X Nanterre
• 2003 mai : Séminaire Parisien de Statistiques – Institut Henri Poincaré)
• 2003 oct. : Séminaire Modèles Stochastiques du CMAP – Ecole Polytechnique
• 2003 déc. : Séminaire de Statistiques du CREST – ENSAE
• 2004 janv. : Séminaire de Statistiques - Universités Paris VI et Paris VII
• 2004 mars : Séjour d’une semaine à l’Université de Braunschweig (Allemagne) sur invitation du Pr. M. Neumann
• 2004 juin : Congrès“Mathematical Foundations of Learning Theory” (Barcelone)
• 2005 janvier : Séminaire de Statistiques – Université de Versailles – St Quentin
• 2005 janvier : Congrès «STATDEP2005» - PARIS/MALAKOFF (Invitation)
• 2005 mars : Congrès «GFKL 2005» – Magdeburg Universität, Allemagne
• 2005 juillet : Congrès «COLT 2005» – Bertinoro, Universita di Bologna, Italie
• 2005 oct. : Séminaire de Statistiques – INA-PG
• 2006 mars : 7th Conf. on Operation Research and Applied Maths, Universidad de La Habana, Cuba
• 2006 sept. : Journées «MAS 2006» – Université Lille 1 (Invitation)
• 2006 nov. : Séminaire du laboratoire TSI (Telecom Paris)
• 2006 nov. : Colloquium MAP5 – Université Paris V
• 2006 déc. : Séminaire MODAL’X – Université Paris X Nanterre
7
• 2007 mars : Séminaire de Mathématiques Appliquées – ENS Cachan Bretagne
• 2007 juin : Congrès de la SMAI – Praz sur Arly (Invitation)
• 2007 déc. : Journées de BioStatistiques de l’UAG - Guadeloupe (Invitation)
• 2008 fév.: XII-th congress in operations research ) Cuba (Invitation)
• 2008 mars: Journées d’Apprentissage Statistique Université d’Orléans (Invitation)
• 2008 avril : Séminaire IT stats – Telecom ParisTech
• 2008 avril : Invitation d’une semaine à l’Université National de Singapour (NUS) par le Prof. M.W. Ho
• 2008 avril: Invitation d’une semaine à l’Université de Sciences et Technologies de Hong Kong (HKUST) par la Prof. A. Lo
• 2008 mai : Congrès « Statistics for Dependent Data » – Malakoff (Invitation)
• 2008 juin : Séminaire de Statistiques Appliquées de l’Université Paris 7
• 2008 juillet : International Workshop in Applied Probability, UTC, Compiègne (Invitation)
• 2008 août : Journées MAS – Rennes (Invitation)
• 2008 sept. : Journées de Probabilités - Lille
• 2008 oct. : Séminaire de Probabilité de l’Université d’Evry
• 2008 oct. : Algorithmic Learning Theory, Budapest
• 2008 oct. : Congrès R0 – INRA, Paris
• 2008 dec. : Neural Information Processing Systems, Vancouver (Canada)
En résumé :
•
21 exposés à des Séminaires
•
20 exposés lors de Conférences Internationales dont 7 invitations
•
6 séjours à l’étranger (de plus d’une semaine) sur invitation
ACTIVITES D’ENCADREMENT DE LA RECHERCHE
Coordination de Projets de Recherche
• Coordinateur du projet ACI-Nouvelles Interfaces des Mathématiques « Modélisation épidémiologique » - 2005/2007
Paris X - Paris 5 - ENSAE - INSERM - Université de la Havane
8
•
Responsable de l’équipe INRA pour le projet ANR blanc « TAMIS » - 2006/2009
Paris 6 - Paris 7 - SA Pertinence – INRA – Institut Curie
• Coordinateur du projet ANR Systèmes Complexes « Viroscopy » - 2008/2011
Telecom ParisTech – INRIA – Université de Lille 1 – Université Paris 5
Encadrement de theses et de stages post-doctoraux
•
Co-encadrement de la thèse de S. Slim (50%) avec le Pr. Daniel Zajdenweber (Paris X), intitulée « Analyse statistique des
rendements financiers et modélisation du risque », reçu avec la mention Très Bien et les Félicitations du Jury (janvier 2006) –
Membre du jury de thèse
• Co-encadrement de la thèse Cifre de N. Mahler (50%) avec N. Vayatis (ENS Cachan) et la Société Strategic Risk Management
• Co-encadrement de la thèse Cifre de M. Depecker (50%) avec F. Roueff (Telecom ParisTech) et Renault Technocentre
• Encadrement du stage post-doctoral de M. Zetlaoui (100%) dans le cadre du projet ANR « Tamis » - 2007/2008 (INRA)
Encadrement de stages de Master et de groupes de travail
•
Suivi du stage de DEA (Modèles Aléatoires, Paris 7) de M. Houzé « Modèles de durée pour les phénomènes récurrents en
épidémiologie » (juin-septembre 2005)
•
Encadrement du stage de DEA (Modèles Aléatoires, Paris 7) de T. Rebafka au sein de l’unité INRA Met@risk « Intervalles de
tolérance et intervalles de prédiction pour la validation des mesures en Microbiologie », avril-octobre 2006
•
Encadrement du stage de DEA (Biomathématiques, Paris 7) de P. Müller au sein de l’unité INRA Met@risk « Méthodes
d’apprentissage supervisé pour la désagrégation des données de consommation des ménages », septembre 2005 – juin 2006
•
Encadrement du stage de 2 année de l’ENSAE de C. Mialle au sein de l’unité INRA Met@risk « Méthodes de clustering pour
la classification des comportements alimentaires » Juillet-Octobre 2006
ème
ème
• Encadrement du Groupe de Travail de 2 année à l’ENSAE (2006/07)
« modélisation statistique paramétrique de données de survie pour l’épidémie de Sida à Cuba, » avec P. Bertail (INSEE)
ème
• Encadrement du Groupe de Travail de 3 année à l’ENSAE (2006/07)
« modélisation non paramétrique des données (censurées) de durée pour l’épidémie de Sida à Cuba » avec P. Bertail (INSEE)
et H. de Arazoza (MATCOM, Universidad de la Habana).
•
Encadrement du stage de MASTER PRO (Paris 1) de A. Dibbouh au sein de l’unité INRA Met@risk « Méthodes de Kohonen
pour la classification des données de consommation de Poisson au sein de la population française », mars 2007 – septembre
2007
• Encadrement du stage de MASTER Recherche (Paris 1) de A. Bardet au sein de l’unité Met@risk, « Modèles hiérarchiques pour
la classification des régimes alimentaires », février 2008 – mars 2008
9
ème
• Encadrement du Groupe de Travail de 3 année à l’ENSAE (2008/09)
« Méthodes Avancées de Scoring/Ranking pour le Risque de Crédit » avec N. Vayatis (ENS Cachan) et N. Bertrand (BNP Exane).
Jurys de thèses
•
Membre du jury de thèse de V.C. Tran (Université Paris X Nanterre) intitulée «Modèles particulaires stochastiques pour des
problèmes d'évolution adaptative et pour l'approximation de solutions statistiques » dirigée par le Pr. S. Méléard (Ecole
Polytechnique)
• Membre du jury de thèse de C. Lacour (Université Paris 5) intitulée « Estimation non paramétrique adaptative
pour les chaînes de Markov et les chaînes de Markov cachées » dirigée par le Pr. F. Comte (Université Paris 5)
Activité éditoriale
•
Révision d’articles pour: Annals of Statistics, Bernoulli, Computational Statistics and Data Analysis, Constructive Approximation,
Computational Learning Theory, Journal of Statistical Planning and Inference, Probability Theory and Related Fields, Genetic
Epidemiology, Journal of Biological Dynamics, NIPS, Stochastic Processes and Their Applications, Journal of nonparametric
statistics, Annals of the Institute of Mathematical Statistics, International Conference on Machine Learning
FONCTIONS ADMINISTRATIVES ET RESPONSABILITES COLLECTIVES
• Membre de la Commission de Spécialistes de l’Université Paris X (sections 25 et 26) -2002/07
• Membre du comité de recrutement CR2/CR1 à l’INRA (campagne 2006)
•
Membre de l’équipe responsable du contenu des programmes du projet de la licence « Mathématiques de l’aléatoire » dans le
cadre de la réforme LMD, avec C. Léonard et N. Cheze 2003/05
•
Membre de l’équipe responsable du contenu des programmes de statistiques pour le projet de Maîtrise de Psychologie de
l’université Paris X, dans le cadre de la réforme LMD, avec M. Mora – 2003/05
•
Rédaction du rapport d’activité de l’équipe « Statistiques pour l’évaluation des risques alimentaires » en vue de l’évaluation
quadriennale de l’unité Met@risk (12041 INRA)
• Membre
du
comité
mixte
FAO/OMS
http://www.fao.org/ag/agn/jecfa/experts_fr.stm
d'experts
des
additifs
alimentaires
(JECFA)
2007/2011
-
10
RECHERCHE – Résultats et Projets
N.B. les références en caractère gras dans le texte renvoient à la liste de publication
Apprentissage Statistique
Ranking / Scoring – Théorie et applications
Mots-clef : scoring, courbe ROC, ranking, U-processus, traitement du signal, risque de crédit, « information retrieval », diagnostic
medical, statistiques de rang, bootstrap, théorèmes limites fonctionnels
Dans de nombreuses applications telles que les questions relatives à la collecte automatique d’informations (« information retrieval »)
par des moteurs de recherche, il ne s’agit pas seulement de classer les observations (‘document pertinent’ vs. ‘document non
pertinent’), mais de les ranger/ordonner de façon adéquate (par degré de pertinence). En bref, il s’agit d’apprendre statistiquement à
ordonner des objets à partir de données labellisées, binaires pour simplifier. Ce problème est crucial dans de nombreuses
applications, allant du « crédit-scoring » à la détection d’anomalies en traitement du signal en passant par le diagnostic médical. Des
travaux relatifs à la formulation et à la résolution du problème de scoring/ranking ont été réalisés sur le modèle des méthodes
utilisées en Machine Learning pour résoudre les problèmes de classification (Arbres de décision, Support Vector Machines,
Boosting, etc. voir [6]) et font l’objet des articles 8, 10, 12, 19, 20, 25, 26, 27, 28, 31, 33, 35, 36, 37 et 38.
Le problème du scoring/ranking est un problème d’apprentissage global, à la différence du problème de classification binaire qui est
de nature locale. Modifier le rang d’un élément dans une liste peut affecter le rangs de nombreux autres éléments, il s’agit bien sûr ici
de comparer les éléments les uns aux autres. La façon la plus naturelle d’ordonner des objets appartenant à un espace multidimensionnel est de transporter l’ordre naturel sur la droite réelle sur cet espace au moyen d’une « fonction de scoring ». Le critère
de performance n’est alors plus à valeurs scalaires comme dans le cas de la classification, où l’on considère généralement la
probabilité d’erreur de classification, mais une courbe : la courbe ROC. Dans l’espace des courbes ROC, une courbe domine toutes
les autres, la courbe ROC de la fonction de régression. Si les transformées croissantes de la fonction de régression forment bien sûr
la classe des fonctions de scoring optimales, les méthodes dites « plug-in » fondées sur la modélisation et l’estimation de la fonction
de régression se révèlent totalement inefficace en pratique dans le contexte de la grande dimension, cf « fléau de la dimension ».
U-processus et maximisation du critère AUC. Une première approche consiste à considérer un critère résumant les qualités
d’une courbe ROC : l’aire sous la courbe ROC (critère AUC). S’il est à valeurs scalaires, le critère AUC est néanmoins plus
complexe que l’erreur de classification dans la mesure où il peut-être exprimé comme le « taux de paires concordantes » et sa version
statistique n’est pas une moyenne mais une U-statistique de degré 2. L’étude de la performance des algorithmes fondées sur la
maximisation du critère AUC conduit ainsi à étudier les propriétés de concentration des U-processus (i.e. collections de Ustatistiques indexées par des classes de fonctions, généralisant les processus empiriques) : des inégalités de concentration ont été
obtenues au moyen des techniques de découplage et de projection dans les articles 8, 10, 19 et 20. Des bornes de généralisation de
la performance ont été démontrées et des hypothèses généralisant les conditions de marges garantissant des vitesses d’apprentissage
rapides ont aussi été déterminées.
Critères de performance et statistiques de rang. Plusieurs développements, consacrés principalement en l’élaboration de
critères fonctionnels adéquats pour l’évaluation de modèles de scoring, adaptés aux problèmes rencontrés dans les applications ont
été réalisés ou sont en cours de réalisation, voir les articles 12, 28 et 36. Les critères proposés généralisent le critère AUC et
permettent par exemple d’accorder plus d’importance à l’ordonnancement des objets les plus pertinents. Une classe de critères,
pouvant être interprétées comme des « statistiques linéaires de rang conditionnelles » et englobant la totalité des critères considérés à
ce jour a été proposée dans ??. Au moyen des techniques de projection similaires à celles utilisées dans le cas des U-processus, des
inégalités de déviations uniformes ont été établies afin d’évaluer la performance des méthodes d’apprentissage fondées sur
l’optimisation de tels critères.
11
Algorithmes. Un algorithme de partitionnement récursif, appelé « TreeRank », permettant de produire une fonction de scoring
constante par morceaux et dont la courbe ROC imite l’approximation linéaire par morceaux produite par un schéma
d’approximation récursif de type « éléments finis » a été proposé et étudié dans les articles 25, 33 et 37. Des bornes d’apprentissage
ont été établies dans un cadre fonctionnel, la distance de la courbe ROC produite par TreeRank à la courbe ROC optimale étant
évaluée au moyen de la norme-sup. Il s’agit des premiers résultats de cette nature en théorie de l’apprentissage dans la mesure où la
plupart des critères considérés sont à valeurs scalaires. La mise en œuvre pratique de l’algorithme ainsi que les questions relatives à la
sélection de modèle ont également été traitées. Une autre approche, fondées sur la théorie de l’estimation d’ensembles de « volume
minimum » a été proposée et étudiée. L’idée sous-jacente consiste à caractériser le problème du ranking comme un continuum de
problèmes de classifications puis de le discrétiser de façon adéquate. Si l’algorithme TreeRank correspond à un schéma de
discrétisation implicite, la méthode RankOver s’apparente elle à un schéma de discrétisation explicite. Les résultats obtenus
permettent en particulier de résoudre le problème de l’apprentissage d’un test quasi-optimal permettant de discriminer des
hypothèses composites, fréquemment rencontré en détection d’anomalies. Diverses méthodes de partitionnement alternatives sont
également considérées (algorithmes dits « gloutons ») et font l’objet d’articles en cours de préparation.
Validation. La question de la construction de tubes de confiance pour les courbes ROC obtenues est considérée dans les articles
26 et 38. Dans ce type d’application, où la cible est de nature fonctionnelle, il n’est bien sûr pas question d’utiliser les équivalents
asymptotiques du processus des fluctuations entre courbe théorique et courbe empirique, trop complexes en pratique, mais
d’utiliser des procédures de ré-échantillonnage de type Bootstrap. Une étude précise des lois limites fonctionnelles du processus
des fluctuations a permis de démontrer l’intérêt d’appliquer une version « lissée » du bootstrap, phénomène également mis en
évidence par des simulations. Au delà de la norme-sup et de l’AUC, des résultats pour une pseudo-distance voisine de la distance de
Hausdorff plus adaptée au cas de courbes à sauts telles que les courbes ROC empiriques ont aussi été obtenus.
Développements. Ces travaux s’effectuent en particulier dans le cadre de l’ANR TAMIS, en collaboration avec N. Vayatis (ENS
Cachan) principalement. Des applications des méthodes de ranking/scoring élaborées sont envisagées par l’Institut Curie, partenaire
de l’ANR, dans le contexte de l’élaboration de tests statistiques permettant de diagnostiquer certains types de cancer à partir dune
information génétique de très grande dimension. Une application similaire de ces travaux est réalisée avec l’Université des Antilles et
de la Guyane pour détection des crises de drépanocitose. La thèse de M. Depecker (Telecom ParisTech/Renault TechnoCentre)
s’articule autour de l’adaptation de ces techniques au problème du ranking de courbes (données fonctionnelles). Un groupe de
travail à l’Ensae (3 année) étudie également les avancées permises par les travaux décrits ci-dessus dans le domaine du « créditscoring ». En termes de valorisation, le développement d’une toolbox « Ranklab » pour le scoring et la détection d’anomalies fondée
sur les algorithmes proposés est envisagée en partenariat avec la société Matlab.
ème
Statistique des processus markoviens
Mots-clef : Processus markoviens, processus de renouvellement, estimation non paramétrique, ondelettes, pseudo- régénération,
risque minimax, inégalités de probabilité/moment, développement d’Edgeworth, bootstrap, U-statistiques, robustesse, valeurs
extrêmes, modèles de Markov cachés
Une grande partie de mes travaux de recherche est consacrée au développement de procédures d’inférence statistique non
paramétrique pour les chaînes de Markov, processus à temps discret très fréquemment utilisés pour modéliser des
phénomènes aléatoires avec une causalité, ainsi qu’à l’élaboration d’un cadre de validité théorique pour ces dernières.
L’objet de mon travail de thèse de doctorat fut de généraliser l’utilisation de méthodes d’inférence issues de l’analyse harmonique
algorithmique, principalement les méthodes d’ondelettes (voir article 2), au cas de l’estimation non paramétrique adaptative de
la densité de transition et de la densité stationnaire d’une chaîne de Markov sous des hypothèses de stabilité stochastique minimales.
J’ai pu proposer différents algorithmes d’estimation (dont l’un s’appuie sur une analogie relevée avec le problème de
l’estimation dans le cas d’une régression de schéma d’observations aléatoires et offre une alternative aux procédures de type
12
Nadaraya-Watson, dont les vitesses de convergence peuvent être pénalisées par un éventuel manque de régularité de la densité
stationnaire. Afin de pouvoir étudier les vitesses de convergence de ces procédures, nous avons établis des inégalités de
moments de type Rosenthal et des inégalités de probabilité exponentielles de type Bernstein pour les fonctionnelles
additives de chaînes de Markov sous des hypothèses de régularité stochastique minimales, au terme d'une étude approfondie des
processus de renouvellement associés au comportement asymptotique des modèles markoviens (ergodicité) et de la technique de
scission de Nummelin. Une fois ces résultats probabilistes établis, j’ai alors pu livrer aux utilisateurs potentiels des algorithmes
d’estimation proposés un cadre de validité sous forme d’une étude technique exhaustive du risque minimax
asymptotique pour les problèmes de statistique théorique sous-jacents (calculs de bornes inférieures pour le risque Lp intégré sur
des classes de Besov, majorations du risque maximum des estimations proposées).
Le problème connexe de l’inférence statistique non paramétrique dans le cas très important en pratique, d’observations
incomplètes de chaînes de Markov (chaînes de Markov cachées) est également l’un des thèmes de ma recherche. En
formulant ce problème dans le cadre de la théorie des problèmes inverses « mal posés », j’ai pu généraliser les méthodes d’inférence
élaborées dans le cas d’observations complètes au cas d’une chaîne de Markov observée dans un bruit blanc fort spécifique
(méthode d’estimation par ondelettes/vaguelettes). Les calculs de vitesses minimax ont également été menés dans ce cas plus
complexe. Les différents résultats obtenus ont donné lieu à la rédaction de deux articles publiés (articles 1, 2) et de deux rapport
techniques, l’un des deux contenant des simulations et des précisions quant à l'implémentation pratique des algorithmes d'estimation
proposés via l'utilisation de routines disponibles sous Matlab.
Méthodes statistiques fondées sur les propriétés pseudo-régénératives des chaînes de Markov.
Plusieurs prolongements à ces travaux relatifs au problème de l’inférence statistique pour les chaînes de Markov ont été réalisés. Il
apparaissait naturel dans un premier temps de chercher à compléter l’arsenal des procédures d’estimation pour les modèles
markoviens, par l’élaboration de méthodes statistiques permettant de construire intervalles de confiance et tests
d’hypothèses. La description du comportement d’une chaîne de Markov en termes de processus de renouvellement que nous
avions exploitée afin d’étudier les vitesses de convergence des estimateurs proposés, nous a permis de construire des estimations
explicites de la variance asymptotique des estimateurs statistiques et d’élaborer une méthode de rééchantillonnage
(Regenerative Block-Bootstrap) spécifique au cas des chaînes de Markov Harris récurrentes. Cette méthode permet aussi d’obtenir
des développements d’Edgeworth de U-statistiques ou de V-statistiques de chaînes de Markov et offre une alternative très
efficace à la procédure de « random moving-block bootstrap » pour les variables dépendantes.
Les principes sur lesquels les méthodes statistiques de Bootstrap et d’estimation de la variance asymptotique que nous avons
développées pour traiter le cas des chaînes de Markov ont également pu être utilisés pour traiter d’autres problématiques telles que
l’étude statistique des valeurs extrêmes (estimation de l’indice de Pareto, de l’indice extrême), ou l’élaboration de
méthodes statistiques robustes pour l’estimation fonctionnelle. D’autres développements, relatifs à l’étude des vraisemblances
empiriques dans le cadre Markovien et à la généralisation des méthodes aux modèles markoviens cachés sont en cours de
réalisation. Ces travaux ont été réalisés en collaboration avec P. Bertail (INSEE) et les résultats obtenus font l’objet des articles 4, 5,
6, 7, 17, 18, 21, 22, 23, 24, 32, 39 et 47.
13
Finance : travaux de modélisation et applications statistiques
Application de méthodes statistiques non paramétriques aux séries financières.
Mots-clef : séries financières, Value at Risk, Analyse temps-fréquence, Ondelettes, Paquets de cosinus, Macrotiles, stationnarité locale,
analyse spectrale, analyse harmonique algorithmique.
Dans le cadre de mon activité d’encadrement de la thèse de l’étudiant S. Slim (THEMA, Université Paris X) avec le Pr. D.
Zajdenweber (économiste, Paris X), des travaux visant à mener une étude quantitative des séries chronologiques
financières et à développer des outils de gestion des risques financiers (Value at Risk) au moyen de décomposition tempsfréquence ont été menés, dans le but de rendre compte avec précision du caractère inhomogène (dans le temps) de l'évolution de ce
type de séries temporelles. L’approche adaoptée a consisté en la modélisation des séries de rendements par des processus
"localement stationnaires" (processus à mémoire courte, de taille variable) afin de fournir une alternative aux modèles à
mémoire longue allant à l'encontre du principe d'efficience des marchés financiers sur le long terme. Ces travaux ont requis
l’élaboration d’un programme spécifique pour implémenter un algorithme d’estimation de la fonction d’autocovariance des
processus localement stationnaires, et a fait l'objet d'un article publié (article 3).
Sélection de portefeuille et risques extrêmes.
Mots-clef : Risque financier extrême, sélection/optimisation de portefeuile, valeurs extrêmes, indice de Pareto, analyse en
composantes indépendantes, estimation par maximum de vraisemblance conditionnelle.
En collaboration avec S. Slim (THEMA, Université Paris X), des travaux consacrés à la modélisation des événements extrêmes en
finance et à l’application de méthodes d’analyse en composantes indépendantes au problème de la sélection de portefeuilles
financiers en vue de minimiser les pertes extrêmes ont également été réalisés (article 9).
Apprentissage statistique on-line et sélection de portefeuille.
Mots-clef : sélection/optimisation de portefeuile, apprentissage statistique on-line supervisé/non supervisé, switching models,
analyse de ‘style’.
En collaboration avec J.C. Casanova (Strategic Risk Management, www.riskvalue.com ) et N. Vayatis (ENS Cachan), un projet visant
à développer des méthodes de gestion de portefeuilles financiers fondées sur les techniques de prédiction élaborées dans le domaine
de l’apprentissage statistique. Les écueils proviennent principalement de l’inhomogénéité temporelle des phénomènes économiques
et financiers, de la grande dimension et des aspects multi-échelles de l’information disponible pour la prédiction. Une thèse Cifre a
débuté à la rentrée 2007 (Nicolas Mahler, Telecom ParisTech/ENS Cachan).
Des thèmes connexes pourront être développés dans le cadre d’un projet Futur & Ruptures proposé par l’Institut Telecom déposé
par le groupe STA de Telecom ParisTech en collaboration avec l’INT et BNP Parisbas.
La banque BNP Exane envisage par ailleurs de démarrer une thèse Cifre sur la prédiction des données haute-fréquence en 2009.
14
BIOSTATISTIQUES
APPLICATIONS EN TOXICOLOGIE
Contexte de la recherche :
Maître de Conférences à l’Université Paris X, j’ai été accueilli en délégation auprès de l’Institut National de la Recherche
Agronomique (INRA) pendant deux ans (1er sept. 2005 – 1 sept. 2007) au sein de l’unité n°1204 Met@risk (Département MIA)
afin d’effectuer une activité de recherche dont le détail est présenté ci-dessous. L’objectif qui m’était fixé par le Directeur de l’unité,
le Dr Ph. Verger (INRA), consistait à développer et animer la jeune équipe « modélisation et statistiques » de Met@risk
(encadrements de jeunes chercheurs, élaboration et réalisation de projets de recherche pluridisciplinaires – voir 19, 20, 23, 25, 26,
36).
er
Les travaux de l’unité Met@risk visant à développer des méthodologies d’analyse du risque alimentaire, j’ai naturellement débuté
mon activité en me familiarisant avec les enjeux et les concepts (tels que la notion d’analyse de risque en trois étapes définie par les
comités d’experts) propres à cette thématique de recherche récente et les moyens mis à disposition pour l’aborder (logiciels et bases
de données recensant les niveaux de contamination des aliments, les comportements alimentaires de la population).
On peut trouver dans [1] une présentation très complète du thème de l’évaluation des risques alimentaires, champ d’investigation
pluridisciplinaire, à l’interface de diverses spécialités : toxicologie, biologie, médecine nutritionnelle, sociologie, économie outre la
modélisation mathématique et l’inférence statistique. Par ailleurs, l’application de méthodes statistiques aux problèmes posés par
l’évaluation de l’exposition aux risques alimentaires fait l’objet depuis quelques années d’une littérature scientifique émergente. Un
”état de l’art” est dressé dans [2].
A l’instar d’autres domaines tels que la sécurité nucléaire, la finance ou l’assurance pour lesquels l’analyse des risques est un enjeu
essentiel, la sécurité alimentaire est un champ d’application naturel des outils de la modélisation probabiliste et des méthodes
statistiques. Si en toute généralité le langage probabiliste est inhérent à la formalisation quantitative d’un risque quelconque et donc
du risque alimentaire en particulier, la modélisation des phénomènes aléatoires rencontrés, qu’ils soient de nature biologique ou
sociologique, la construction d’indicateurs de risque pertinents ainsi que l’élaboration et la mise en œuvre de procédures statistiques
fondées sur les données disponibles dans ce domaine requièrent un travail tout à fait spécifique.
Depuis la création de l’unité Mét@risk, les travaux de l’équipe « Modélisation » visent à développer et appliquer des méthodes
mathématiques adaptées à l’analyse des risques alimentaires. Son activité s’articule principalement autour des thèmes suivants :
1.
2.
3.
La modélisation du risque microbiologique
L’évaluation de l’exposition humaine au risque alimentaire
La connaissance des comportements alimentaires.
Cette liste thématique n’est en aucune manière exhaustive, des développements intégrant les aspects épidémiologiques de
l’exposition au risque alimentaire par exemple pourraient également être menés plus avant, les connaissances produites devant
permettre d’une manière générale d’éclairer les décisions en matière de santé publique (législation, recommandations) prises dans le
domaine de la sécurité alimentaire.
Au delà du travail bibliographique nécessaire, les nombreuses discussions informelles et les réunions organisées au sein de l’unité
m’ont permis de présenter mes compétences dans le domaine des mathématiques appliquées et d’élaborer les axes de recherche
suivants.
15
Modélisation du processus d’exposition au risque alimentaire.
Mots-clef : pharmacocinétique, toxicocinétique, processus ponctuels marqués, mesure d’équilibre, étude de stabilité, estimation
par simulation, filtrage particulaire
La plupart des calculs d’exposition au risque de contamination alimentaire sont effectués dans un cadre où le temps n’intervient pas,
et combinent seulement les distributions Q et C de consommation et de teneur en contaminants : B = Q × C. Or la temporalité est
un élément essentiel du phénomène de contamination : les aspects pharmacocinétiques relatifs au processus d’élimination
progressive par l’organisme des contaminants chimiques ingérés sont naturellement à prendre en compte pour obtenir des modèles
réalistes. Disposant de connaissances dans le domaine des modèles markoviens (modélisation et inférence statistique, voir la section
IV ci-après), processus stochastiques modélisant des phénomènes temporels avec causalité et à mémoire courte, j’ai pu formuler un
projet de recherche en collaboration avec P. Bertail (INSEE) et J.Tressou (INRA) visant à modéliser l’évolution temporelle de la
quantité de contaminant présente dans l’organisme par la voie alimentaire par un processus de Markov à temps continu représentant
la quantité de contaminant dans l’organisme à chaque instant t. La dynamique du processus fait intervenir les éléments suivants :
• A des dates aléatoires 0 < T1 < T2 < · · · < TN < ..., des doses B1 =Q1 × C1, …, BN = QN × CN, ... sont successivement ingérées. Le
régime alimentaire est décrit par le processus ponctuel marqué.
• Pharmacocinétique : une quantité x(0) = B de contaminant ingérée à un instant t = 0 est dégradée à la vitesse r(x, t) selon une
équation différentielle ordinaire (avec coefficients aléatoires éventuellement) ou stochastique :
dx(t) = -r(x(t), t)dt + s(x(t), t)dWt,
dx(t) = -r(x(t), t)dt.
Les trajectoires du processus d’exposition ne sont naturellement pas observables (ceci supposerait de mesurer la teneur en
contaminant de chaque aliment consommé, voir la Fig. ci dessous), mais sa loi est caractérisée par:
1. la loi des Cn (teneur en contaminant),
2. la loi de (Tn,Qn) (fréquences des consommations et quantités consommées),
3. les paramètres de l’EDO/EDS de dégradation,
pour lesquels on dispose d’observations (données de consommation et études toxicologiques). Il est ainsi envisageable d’estimer les
caractéristiques du processus d’exposition, importantes du point de vue de la toxicologie (exposition maximum sur une période
donnée, temps passé au-delà d’un seuil critique, valeur moyenne, caractéristiques de l’état d’équilibre), en mettant en œuvre des
techniques de simulation (Monte-Carlo).
Les enjeux de ce projet de recherche consistaient donc à proposer d’abord une description quantitative pertinente de la dynamique
d’exposition puis d’étudier le(s) modèle(s) proposé(s) (loi du temps de dépassement d’un certain seuil, valeurs extrêmes,
comportement asymptotique en temps long). Il importait également d’établir un cadre de validité rigoureux pour l’application de
procédures statistiques fondées sur la simulation de trajectoires en abordant les problèmes de stabilité (« Monte-Carlo naif » ou
algorithmes génétiques pour l’estimation des risques liés à des événements extrêmes).
Plusieurs articles abordant ces questions ont été publiés ou sont soumis à publication (voir les articles 11, 15, 30 et 34) présentant
à la fois des résultats théoriques et expérimentaux (le cas, très important dans le domaine de la Santé Publique, de la contamination
alimentaire par le methyle-mercure (MeHg), contaminant présent essentiellement dans les poissons et particulièrement néfaste pour
le développement neurophysiologique, étant traité en détail), les résultats obtenus seront également présentés à la Conférence
PPTOX en Mai 2007 (voir 29).
16
Plusieurs développements de cette approche pour des modèles toxicocinétiques plus complexes ainsi que de nouvelles applications
sont envisagés dans le projet ANR PNRA ‘Avicenne’ proposé en 2007 auquel je participe pour Met@risk avec Ph. Verger
(INRA).
Analyse Risque-Bénefice des régimes alimentaires.
Mots-clef : bénéfice nutritionnel, risque chimique, ‘curse of dimensionality’, ensembles de niveaux, détection d’anomalie, ‘MV sets’,
‘False Discovery Rate’, tests statistiques, ‘sparsity’, analyse en composantes indépendantes.
Afin de pouvoir effectuer des recommandations en termes de régime alimentaire et/ou en terms de normes de contamination
maximale admissible pour des produits alimentaires donnés, il importe également d’élaborer des méthodes probabilistes et
statistiques (tests) permettant de définir des régimes alimentaires optimaux en termes de bénéfice nutritionnel acceptable et de risque
d’exposition (lié à certains contaminants) minimum. Certains aliments contiennent en effet dans des teneurs plus ou moins grandes
des contaminants, qui par effet d’accumulation peuvent occasionner des problèmes de santé. Dans le même temps, la plupart des
aliments sont indispensables à l’équilibre nutritionnel d’un individu. Il apparaît important de modéliser les risques et les bénéfices
liés à la consommation de certains produits en tenant compte à la fois de leurs aspects nutritionnels et de leur contamination en
certaines substances chimiques pouvant engendrer des problèmes de santé majeurs. Dans une approche duale, il peut être
intéressant de rechercher pour le régime actuel des individus d’une population des normes sur les contaminations maximales
admises sur certains produits, compte tenu de leur utilité nutritionnelle.
Une approche possible pour ce type de problème est d’essayer de déterminer une région de l’espace (de grande dimension) des
consommations qui minimise la probabilité que les contaminations (somme pondérée de consommations) soient en dessous d’un
certain niveau, sous la contrainte que les contributions nutritionnelles totales (elles même sommes pondérées de consommations)
soient au dessus d’un seuil recommandé par les nutritionnistes. De telles questions apparaissent dans de nombreux problèmes liés à
la détection d’anomalies et ont fait l’objet de travaux récents sous le nom de théorie des ensembles de niveaux (voir [3] par exemple).
En collaboration avec P. Bertail (INSEE), un projet visant développer cette approche a été élaboré. Il constitue en particulier un
sujet de thèse dont le financement a été accepté par l’INRA. Il est également partie intégrante du projet ANR ”TAMIS”
accepté en 2006 auquel j’ai pris part (et dont je coordonne le sous-projet « Risque-Bénéfice » pour l’INRA) dont l’objet est le
développement et l’application de méthodes d’apprentissage statistiques récentes, et auquel participent l’équipe « Statistique » du
LPMA des universités Paris 6/7, le groupe Bioinformatique de l’Institut Curie, la Société Pertinence SA et l’INRA.
Conformité des méthodes d’analyse en microbiologie.
Mots-clef : chimiométrie, conformité des méthodes d’analyse, intervalles de tolérance, statistique non paramétrique, bootstrap.
Les aspects métrologiques relatifs à la mesure des teneurs en contaminants des aliments par les laboratoires d’analyses constituent
également une dimension importante de l’évaluation des risques alimentaires (voir [1]). La modélisation statistique permet de rendre
compte de la variabilité des phénomènes rencontrés ainsi que des incertitudes inhérentes aux mesures effectuées en microbiologie
(‘comptage de bactéries’ présentes dans un produit alimentaire). L’élaboration de méthodes statistiques expérimentales permettant
de contrôler les nombreuses sources de variabilité et d’établir la conformité des résultats obtenus est un enjeu crucial. Il s’agit en
particulier de construire, à partir de mesures expérimentales effectuées selon un protocole donné, des bornes numériques entre
lesquelles doivent de situer les mesures effectuées ultérieurement avec une probabilité supérieure à 95% par exemple (cette notion
correspond au concept d’intervalles de tolérance dans le domaine des statistiques appliquées à la fiabilité). A cet égard, les méthodes
de ré-échantillonnage de type Bootstrap offrent des avantages certains par rapport aux méthodes analytiques développées dans [4]
17
stipulant la normalité des observations. Cette ligne de recherche a fait l’objet d’un stage de DEA (T. Rebafka, Paris 7) au sein de
l’unité Met@risk et de l’Institut de Sécurité et d’Hygiène Alimentaire (ISHA) que j’ai co-encadré avec M. Feinberg (INRA) et d’un
article soumis à publication (voir l’article N°13 dans la liste de publications).
APPLICATIONS EN EPIDEMIOLOGIE
Modélisation statistique pour l’analyse de l’épidémie du VIH à Cuba.
Mots-clef : épidémiologie mathématique, VIH, SIDA, modèles stochastiques SIR, contact-tracing, processu de Markov à valeurs
mesure, approximation ‘grande population’, quasi-stationarité, statistique paramétrique, modèles de durée, observations incomplètes,
modèles de Markov cachés.
En collaboration avec P. Bertail (Paris X), B. Auvert (INSERM U687, Paris V), H. De Arazoza (Université de La Havane, Cuba), J.
Perez (Institut de médecine tropicale, Cuba), R. Lounes (Paris V), et V.C. Tran (Paris X), un projet de recherche visant à
étudier/prévoir, via une modélisation mathématique, l’évolution de l’épidémie du VIH à Cuba a été réalisé dans le cadre de l’ACINouvelles Interfaces des Mathématiques « Modélisation épidémiologique » (2005-2007), dont j’ai coordonne le
fonctionnement.
Plus précisément, le projet de cette ACI consiste à développer un modèle mathématique permettant de rendre compte de l'évolution
récente de l'épidémie du sida à Cuba, et de l'anticiper tout à la fois. La modélisation statistique de l'épidémie s'appuie sur l'atout
majeur que constitue l'accès à la base de données établie par le Sanatorium de Santiago de Las Vegas (Cuba) pour le contrôle
épidémiologique du virus. Unique en son genre, cette base de données contient non seulement les informations médicales, sociodémographiques et comportementales relatives aux individus infectés par le VIH détectés par le système de santé publique cubain,
mais aussi une liste des partenaires sexuels (fournie sur la base du volontariat) de chacun de ces individus : une caractéristique
essentielle du système de lutte contre le sida mis en place à Cuba consistant en la recherche active des contacts sexuels des personnes
infectées (voir la description statistique de l’épidémie présentée dans l’article 14). Dans le domaine de la Santé Publique, cette
stratégie d’intervention (coûteuse et controversée mais considérée comme très efficace pour le contrôle des épidémies de MST) est
connue sous le nom de Contact-Tracing.
Dans ce cadre spécifique, et sur la base de cette source exceptionnelle d'information, un modèle de population structurée pour
l'évolution de l'épidémie, reposant sur la description des comportements individuels par des processus microscopiques en interaction
a été proposé et étudié (voir l’article 16). Ce nouveau modèle généralise les modèles vectoriels SIR classiques (voir [5]) utilisés en
épidémiologie mathématique dans la mesure où les strates de la population y sont décrites par des mesures ponctuelles. Il permet
ainsi de tenir compte des effets des différentes variables d’âge (état-civil, âge de l’infection, âge de la détection) sur la dynamique de
l’épidémie et en particulier, de modéliser les effets du Contact-Tracing et d’en évaluer l’efficacité. Ces résultats ont été présentés en
partie lors de la session « mathematical epidemiology » organisée par le Pr. H. de Arazoza lors du 7 Congrès en recherche
opérationnelle et mathématiques appliquées à la Havane (Cuba).
ème
Dans ce projet, la diversité de la population est prise en compte en caractérisant chaque individu par des variables identifiées
comme pertinentes du point de vue épidémiologique, parmi les caractères recensés dans la base de données. La difficulté de ce
projet réside principalement dans la détermination préalable de ces variables d’état, dans la modélisation de leurs effets sur
l'évolution des individus et leurs interactions, une telle modélisation devant naturellement faciliter l'élaboration de stratégies
d'estimation statistique consistantes dans un cadre asymptotique « grande population » ainsi que la mise en œuvre de méthodes
numériques de simulation. Dans cet esprit, j’anime avec P. Bertail (Crest) et H. de Arazoza (Universidad de la Habana, Cuba), deux
groupes de travail à l’ENSAE (2 et 3 années), dans le prolongement du cours d’épidémiologie mathématique que je donne à
l’ENSAE en troisième année.
ème
ème
18
Le problème de l’inférence statistique (estimation et détermination d’intervalles de confiance) pour de tels modèles dans une
asymptotique ‘temps long’ (justifiée dans les cas endémiques tels que le HIV) représente un véritable challenge du point de vue
mathématique, du fait du caractère incomplet des données épidémiologiques. Ce problème est abordé dans l’article 43 en cours de
rédaction.
Le projet ANR Systèmes Complexes intitulé « Viroscopy » que je coordonne (2008-2011), regroupant Telecom ParisTech, l’INRIA
et les Universités Lille 1 et Paris 5, vise à développer plus avant les résultats obtenus. En particulier, les questions relatives à
l’hétérogénéité spatiale, à la structure en graphes de la chaine de propagation et à la quantification des événements rares y seront
abordées.
Un projet connexe, visant à étudier la propagation d’informations au sein d’un réseau social, à a été soumis à l’appel à projets Futur
et Ruptures proposé par l’Institut Telecom en collaboration avec F. Rossi (INFRES, Telecom ParisTech) et S. Blanchemanche
(INRA).
Références bibliographiques :
1.
2.
3.
4.
5.
6.
7.
Feinberg M., Bertail P., Tressou J., Verger P. (Editeurs) (2006). Analyse des risques alimentaires, Tec&Doc.
Tressou, J. (2005). Méthodes statistiques pour l'évaluation du risque alimentaire. Rapport de thèse, Université Paris X.
Polonik, W. (1995). Measuring mass concentration and estimating density contour clusters – an excess mass approach. Ann.
Statist. 23, pp. 855-881.
Mee, R.W. (1984) beta-expectation and beta-content tolerance limits for balanced one-way ANOVA random model.
Technometrics, 26(3):251–254.
Andersson H., Britton, T. (2000). Stochastic Epidemic Models and their Statistical Analysis. Lecture Notes in Statistics n°151,
Springer.
Friedman, J., Hastie, T., Tibshirani, R. (2001). The Elements of Statistical Learning. Springer.
Donoho, D. Johnstone, I., Kerkyacharian, G., Picard. D. (1996). Wavelet shrinkage: asymptopia? Journal of the Royal Statistical
Society. Series B, 57(2) (1995), pp. 301-369.
19
ENSEIGNEMENT
2008/09
Master recherche - Paris 7 Denis Diderot en co-tutelle avec Telecom ParisTech
• Apprentissage Statistique: Théorie et Applications - avec N. Vayatis (ENS Cachan) – 24h Cours
Telecom Paristech
• Probabilité ++ - MDI 221 - avec E. Moulines (Telecom Paristech) – 20TH
• Equations aux Dérivées Partielles - MDI 226 – 20TH
• Apprentissage Statistique - MDI 343 - avec F. Rossi (Telecom-ParisTech) – 60TH
• Encadrement du Projet Libre de S. Mignot (X-Telecom) : « Sélection de Variables en Apprentissage Statistique »
Ensae ParisTech
ème
• Apprentissage Statistique: Théorie et Applications (3 année) avec N. Vayatis (ENS Cachan) – 8h Cours
ème
• Epidémiologie Mathématique (3 année) avec V.C. Tran (Université Lille 1) – 7h Cours
Centrale Paris
ème
• Apprentissage Statistique: Théorie et Applications (3 année) avec N. Vayatis (ENS Cachan) – 6h Cours
2007/08
Telecom Paristech
• Probabilité - MDI 101 - avec O. Hudry (Telecom-ParisTech), J. Najim (CNRS), G. Fort (CNRS), F. Roueff (TelecomParisTech), L. Decreusefond (Telecom-ParisTech) - 22TH
• Probabilité ++ - MDI 221 - avec J. Najim (CNRS) et I. Camilier (Telecom Paristech) – 16TH
• Equations aux Dérivées Partielles - MDI 226 – 20TH
• Calculus Stochastique (Applications en Finance) - MDI 340 - avec L. Decreusefond, I. Camilier, P. Bourgade, E. Moulines & B.
Le Quan - 5TH
• Apprentissage Statistique - MDI 343 - avec F. Roueff (Telecom-ParisTech) - 6TH
• Ingéniérie Financière - MDI 34 - avec F. Roueff (Telecom-ParisTech), E. Moulines (Telecom ParisTech), I. Camilier (Telecom
ParisTech) et P. Bourgade (Telecom ParisTech) - Encadrement du projet de S. Dang-Nguyen
20
• Méthodes Monte-Carlo pour la Finance- MDI 345 avec E. Moulines (Telecom-ParisTech), G. Fort (Telecom-ParisTech) et M.
Charbit (Telecom-ParisTech) – 2TH
• Encadrement du Projet Libre de J. Lemaire « Modèles de Gestion de Portefeuille Alternatives »
En résumé :
•
71TH
•
Encadrement de deux projets : un projet libre, un projet en ingénierie financière
Ensae ParisTech
ème
• Apprentissage Statistique: Théorie et Applications (3 année) avec N. Vayatis (ENS Cachan) - 8h Cours
ème
• Epidémiologie Mathématique (3 année) avec V.C. Tran (Université Lille 1) – 7h Cours
Centrale Paris
ème
• Apprentissage Statistique: Théorie et Applications (2 année) avec N. Vayatis (ENS Cachan) – 6h Cours
2006/07
Ensae ParisTech
• Responsable de l’examen de Statistiques pour le Concours Interne d’Administrateur de l’INSEE avec J.M. Fournier
ème
• Apprentissage Statistique: Théorie et Applications (3 année) – 16h Cours
ème
• Epidémiologie Mathématique (3 année) - 14h Cours
ème
• Chaînes de Markov (2 année) avec P. Bertail (Ensae) – 9h TP
2005/06
Ensae ParisTech
ème
• Apprentissage Statistique: Théorie et Applications (3 année) – 16h Cours
ème
• Chaînes de Markov (2 année) avec P. Bertail (Ensae) – 6h TP
21
2004/05
UNIVERSITE PARIS X NANTERRE
1
•
•
•
•
er
cycle
DEUG MASS 1 année (Probabilités et Statistiques, 26h TD)
DEUG MASS 2 année (Probabilités et Statistiques, 26h Cours)
DEUG MASS 2 année (Probabilités et Statistiques, 26h Cours)
DEUG Sc. Eco. 2 année (Probabilités et Statistiques, 20h TD)
ère
ème
ème
ème
nd
2 cycle
• Maîtrise de psychologie (Analyse de la Variance, 48h TP)
• Maîtrise de psychologie (Analyse de Données, 48h TP)
2003/04
UNIVERSITE PARIS X NANTERRE
er
1 cycle
• DEUG MASS 1 année (Probabilités et Statistiques, 52h TD)
• DEUG de Psychologie 1 année (Probabilités et Statistiques, 52h TD)
ère
ère
2
•
•
•
nd
cycle
Maîtrise de psychologie (Analyse de la Variance, 48h TP)
Maîtrise de psychologie (Analyse de données, 26h TP)
Maîtrise MASS (Séries chronologiques, 26h CM)
2002/03
UNIVERSITE PARIS X NANTERRE
er
1 cycle
• DEUG MASS 1 année (Probabilités et Statistiques, 52h TD)
ère
2
•
•
•
nd
cycle
Maîtrise de psychologie (Analyse de la Variance, 48h TP)
Maîtrise de psychologie (Statistiques non paramétriques, 26h TP)
Maîtrise MASS (Séries chronologiques, 26h CM)
ème
3 cycle
• DESS de Psychologie (Analyse de Données, 15h TP)
22
2001/02
UNIVERSITE PARIS X NANTERRE
er
1 cycle
• DEUG MASS 1 année (Probabilités et Statistiques, 52h TD)
ère
nd
2 cycle
• Maîtrise de psychologie (Analyse de la Variance, 48h TP)
• Maîtrise de psychologie (Statistiques non paramétriques, 24h TP)
• Maîtrise MASS (Séries chronologiques, 26h CM)
ème
3 cycle
• DESS de Psychologie (Analyse de Données, 15h TP)
2000/01
UNIVERSITE PARIS X NANTERRE
1
•
•
•
•
er
cycle
DEUG MASS 1 année (Probabilités et Statistiques, 24h TD)
DEUG MASS 2 année (Probabilités et Statistiques, 36h TD)
DEUG de sciences économiques (Statistiques, 39h TD)
DEUG de Psychologie 1 année (Statistiques, 24h TD)
ère
nde
ère
nd
2 cycle
• Licence de sciences économiques (statistiques, 39h TD)
1999/2000
UNIVERSITE PARIS X NANTERRE
1
•
•
•
•
•
er
cycle
DEUG MASS 1 année (Probabilités et Statistiques, 24h TD)
DEUG MASS 2 année (Probabilités et Statistiques, 36h TD)
DEUG de sciences économiques (Statistiques, 36h TD)
DEUG de sciences économiques (Mathématiques, 36h TD)
DEUG de Géographie 1 année (Statistiques, 24h TP)
ère
nde
ère
nd
2 cycle
• Licence de sciences économiques (Mathématiques, 36h TD)
23
Projet pédagogique
Le principal objectif en matière d’enseignement que je me suis fixé pour ces prochaines années consiste à mettre en œuvre un
enseignement d’Apprentissage Statistique et de Fouilles de Données attrayant pour un nombre croissant d’élèves ingénieurs, au
niveau du module MDI 343 en particulier (Parcours « Fouille de Données ») et du cours dispensé au Master Recherche « Modèles
Aléatoires » de Paris 7 en co-tutelle avec Telecom ParisTech.
En effet, beaucoup d'applications modernes (données web, génomique, finance, e-marketing, etc.) requièrent de manipuler et
traiter des données de très grande dimension. La discipline qui développe et étudie des méthodes concrètes pour modéliser ce type
de données s'appelle l'apprentissage statistique (statistical machine learning). Il s'agit, in fine, de produire des outils de prédiction et
d'aide à la décision dédiés à une application spécifique. L'apparition d'algorithmes très performants pour la classification de données
en grande dimension, tels que le boosting ou les Support Vector Machines dans le milieu des années 90, a progressivement
transformé le champ occupé jusqu'alors par la statistique traditionnelle qui s'appuyait en grande partie sur le prétraitement réalisé par
l'opérateur humain. En s'appuyant sur la théorie popularisée par Vapnik (The Nature of Statistical Learning, 1995), un nouveau
courant de recherche est né: il se situe à l'interface entre les communautés mathématique et informatique et mobilise un nombre
croissant de jeunes chercheurs tournés vers les applications liées à l'analyse de données massives. Il me paraît ainsi très important
qu’un nombre significatif d’élèves ingénieurs puissent accéder à ces connaissances et ces savoir-faire, dont l’utilisation va
indiscutablement s’accroître dans de nombreux secteurs d’activité, ceux tournés vers le développement et l’innovation technologique
en particulier.
Afin que cet enseignement puisse séduire davantage d’étudiants , il me semble essentiel de multiplier les « portes d’entrée » pour
l’accès à la culture « multi-facette » de l’apprentissage statistique : les étudiants les plus portés sur la formalisation mathématique des
concepts devraient pouvoir se concentrer sur les concepts essentiels de la théorie (concentration de la mesure, caractérisation de la
complexité des règles de décision, pénalisation du risque, régularisation) sans pour autant dérouter ceux qui seraient davantage
intéressés par les aspects algorithmiques et les applications. Il paraît également important de faire percevoir aux élèves ingénieurs la
grande variété des applications de ces techniques, un aspect que l’activité du LTCI illustre parfaitement, avec pour preuve les
conclusions de la récente réunion TSI/INFRES faisant le point sur les activités de l’école dans ce domaine. L’enseignement que je
souhaite mettre en place en collaboration avec F. Rossi (INFRES, Telecom ParisTech) consistera à exposer les principes
fondamentaux de la théorie de l’Apprentissage, éventuellement complétés par lecture de certains articles et chapitres d'ouvrages de
références, et à mettre en oeuvre pratiquement les algorithmes étudiés (sur données réelles ou simulées) dans le but de résoudre des
problèmes d’apprentissage supervisés ou non supervisés, batch ou on-line, variés, allant de l’analyse de données multi-media (texte
ou images) dans le but de les indexer, de les classer ou encore de les ordonner, à la CRM en passant par le traitement du signal.
24
25

Documents pareils