étude asymptotique et
Transcription
étude asymptotique et
Statistique Nonparamétrique Fonctionnelle: Etude asymptotique et applications d’estimateurs des Modes et Quantiles Conditionnels fonctionnels Frédéric FERRATY, Ali LAKSACI et Philippe VIEU Adresse pour coreespondance: Laboratoire de Statistique et Probabilités Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse Cedex, France [email protected] Résumé. Nous présenterons des résultats asymptotiques récents concernant des méthodes nonparamétriques dans des cadres fonctionnels (c’est à dire pour des situations où les variables aléatoires qui interviennent peuvent être de dimension infinie). Nous aborderons rapidement plusieurs problèmes statistiques (régression, densité, lois conditionnelles, discrimination de courbes, ...), et nous insisterons particulièrement sur les résultats les plus récents, issus de Ferraty, Laksaci et Vieu (2003), qui concernent les estimations de mode conditionnel et de quantiles conditionnels. L’accent sera mis sur les liens entre les vitesses de convergence et les probabilités de petites boules. En outre, l’exposé sera ponctué de diverses applications à des jeux de données qui sont des courbes, avec une attention particulière pour un problème de chimie quantitative dans lequel les approches fonctionnelles s’imposent de manière naturelle.. Mots clés: Modèles/Méthodes non-paramétriques fonctionnels, Variables fonctionnelles, Probabilités de petites boules, Mode/Quantiles conditionnels fonctionnels, Statistique asymptotique: vitesses de convergence, Statistique appliquée: chimie quantitative. Abstract. We will present several asymptotic results about nonparametric statistical methods in situations of infinite dimensional variables. We will quickly discuss different statistical problems (such as regression, density, and conditional distribution functions estimations, curves discrimination, unsupervised curves classification, ...). A special attention will be given to recent results, given in Ferraty, Laksaci et Vieu (2003), concerning nonparametric estimation of functional conditional mode and quantiles. In addition to the presentation of the rates of convergence (and their links with small ball probabilities considerations), several curves data applications will be presented; A special attention will be given to some chemiometrical data set for which the functional approaches are particularly well adapted. Key words: Nonparametric Functional Models/Methods, Functional Data, Small Ball Probabilities, Functional Conditional Mode/Quantiles, Asymptotic Statistics: Rates of Convergence, Applied Statistics: Spectrometric Curves Data. 1 1. Introduction L’objectif est de montrer comment les techniques non-paramétriques peuvent être utilisées lorsque les variables statistiques sont des courbes. On parle alors de problème doublement infiniment dimensionné, puisque à la fois l’objet à estimer et celui qui sert à estimer évoluent dans des espaces de dimension infinie. On parle aussi de modèle/méthode Nonparamétrique Fonctionnel: le Nonparamétrique ayant trait à la dimension infinie du modèle statistique, tandis que le Fonctionnel a trait à la nature fonctionnelle des variables statistiques. L’étude de différents modèles/méthodes de ce type est une des préoccupations du groupe de travail STAPH (voir [9]), et on commencera par un rapide tour d’horizon de l’état de l’art dans ces domaines (régression pour variables fonctionnelles, discrimination de courbes, classification de variables fonctionnelles, . . .). L’accent sera mis sur les développements récents, issus de Ferraty, Goia et Vieu (2003), et qui concernent l’estimation de quantiles/modes conditionnels fonctionnels. Des résultats de convergence (avec vitesses) seront donnés. L’exposé sera ponctués de jeux de courbes venant d’horizons divers (chimie quantitative, géophysique, reconnaissance vocale, ...) avec un intérêt particulier pour un problème de spectrométrie en étude de qualité alimentaire. 2. Quelques problèmes de statistique nonpamétrique fonctionnelle Dans tout l’exposé on se limitera à des situations où X est une v.a. prenant ses valeurs dans un espace vectoriel abstrait semi-métrique (E, d), de dimension non nécessairement finie, et où Y est une v.a. à valeurs réelles. On supposera que l’on dispose d’un échantillon de couples (Xi , Yi ) indépendants et ayant chacun même loi que (X, Y ) 1 . De telles situations se rencontrent de plus en plus souvent dans de nombreux domaines d’applications tels que l’économétrie, les sciences environnementales, la géophysique, la chimie quantitative, la médecine, ... (voir Ferraty et Vieu, 2004b, pour de nombreux exemples). Ainsi depuis une bonne dizaine d’années et ce de manière naturelle, la communauté statistique s’est préoccupé du développement de modèles/méthodes adaptés à ces situations. Alors que les premières études dans cette direction se sont essentiellement concentrées sur des modèles linéaires (voir les monographies de Ramsay et Silverman, 1997 et Bosq, 2000), les développements récents (voir Ferraty et Vieu, 2003, pour un état de l’art) font état de modèles nonparamétriques adaptés à ce type de données. Nous présenterons rapidement quelques uns de ces modèles, comme le modèle de régression nonparamétrique fonctionnelle (voir Ferraty et Vieu, 2004), pour lequel l’objectif est d’estimer l’opérateur R (non nécessairement linéaire mais assujetti à une condition de 1 Voir cependant Ferraty, Goia and Vieu, 2002, pour des résultats dans un contexte de dépendance 2 régularité) qui est défini par un modèle classique du type Yi = R(Xi ) + i , i étant une v.a.r. centrée non corrélée avec Xi . Un autre exemple classique est le modèle d’estimation de densité (voir Niang, 2003), pour lequel l’objectif est d’estimer la densité f (par rapport à une mesure donnée µ sur E). On évoquera aussi les problèmes de l’estimation des densités conditionnelles fY |X ou des fonctions de répartition conditionnelles FY |X . On insistera sur le fait que les propriétés mathématiques des estimateurs, propriétés que l’on quantifie en donnant l’expression de vitesses de convergence, sont étroitement liées à la question de la concentration de la variable fonctionnelle X dans des petites boules. Pour illustrer ce phénomène, et en utilisant les nombreux résultats probabilistes récents en théorie des probabilités de petites boules on montrera comment nos résultats nonparamétriques incluent directement de nombreux processus à temps continus tels les processus de diffusion (Ornstein-Uhlenbeck par exemple, mais pas seulement), les processus gaussiens en général (Brownien fractionnaire, drap Brownien fractionnaire, ...), .... A travers ces phénomènes de concentration, le lien sera fait avec le problème bien connu en dimension finie du fléau de la dimension. 3. Estimation de quelques paramètres fonctionnels Les modèles évoqués ci-dessus concernent l’étude et l’estimation d’opérateurs (non linéaires) fonctionnels, c’est à dire d’objet définis de E dans R. De manière naturelle, les techniques précédentes peuvent déboucher sur la construction d’estimateurs de certains paramètres, fonctionnels ou réels, (c’est à dire de certains objets de E ou de R). Ainsi, les travaux de Niang (2002) en estimation de densité débouchent naturellement sur l’étude d’estimateurs du mode de la densité f d’une v.a. de dimension infinie, avec d’intéressants développements en matière de définition et d’estimation de courbe modale et de classification de courbes. Nous insisterons d’avantage dans notre propos sur la façon dont les travaux évoqués précédemment en matière d’estimation de loi conditionnelle, permettent d’aborder de manière purement non-paramétrique les questions d’estimation de mode conditionnel et/ou de quantile conditionnel. Nous expliciterons des résultats de convergence de ces paramètres dont on verra qu’ils sont toujopurs liés aux probabilités de petites boules de la loi de X mais aussi à la régularité de la densité conditionnelle (ou de la fonction de répartition conditionnelle). En complément de ces résultats asymptotiques, qui généralisent à la dimension infinie de nombreux travaux déjà existants en dimension finie, nous traiterons rapidement un jeu de données réelles issues de problème de chimie quantitative en analyse de qualité alimentaire. Ce jeu de données permettra de mettre en évidence à la fois la facilité d’implémentation des méthodes proposées (malgré leur premier aspect relativement abstrait) et leur bon comportement à taille d’échantillon finie. 3 L’ensemble des résultats présentés dans ce paragraphe 3, tant sur le mode conditionnel que sur les quantiles conditionnels, sont issus de Ferraty, Laksaci et Vieu (2003). Bibliographie [1] Bosq, D. (2000). Linear processes in functions spaces. Lecture Notes in Statistics, 149, Springer, Berlin. [2] Ferraty, F., Goia, A. et Vieu, P. (2002). Functional nonparametric model for time series. TEST, 11, 317-344. [3] Ferraty, F., Laksaci, A. et Vieu, P. (2003). Estimating some characteristics of conditional distribution in nonparametric functional models. Preprint [4] Ferraty, F. et Vieu, P. (2003). Functional nonparametric statistics: a double infinite dimensional framework. In Recent advances and trends in Nonparametric Statistics, Ed. M. Akritas and D. Politis, Elsevier Sciences. [5] Ferraty, F. et Vieu, P. (2004). Nonparametric models for functional data with applications in regression, time series prediction and curve discrimination. Nonparametric Statistics, 16, 111-125. [6] Ferraty, F. et Vieu, P. (2004b). Functional nonparametric in action. In The art of semiparametrics Ed. W. Härdle. Lecture Notes in Statistics, IN PRINT. [7] Ramsay, J. et Silverman, B. (1997). Functional Data Analysis, Springer Berlin. [8] Niang, S. (2003). Kernel density estimator in an infinite dimension with a rate oçf convergence in the case of diffusion processes. Applied Math. lettres, IN PRINT. [9] Staph. Groupe de travail en Statistique Fonctionnelle et Opératorielle, LSP Toulouse. http://www.lsp.ups-tlse.fr/Fp/Ferraty/staph.html 4