étude asymptotique et

Transcription

étude asymptotique et
Statistique Nonparamétrique Fonctionnelle:
Etude asymptotique et applications d’estimateurs
des Modes et Quantiles Conditionnels
fonctionnels
Frédéric FERRATY, Ali LAKSACI et Philippe VIEU
Adresse pour coreespondance:
Laboratoire de Statistique et Probabilités
Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse Cedex, France
[email protected]
Résumé. Nous présenterons des résultats asymptotiques récents concernant des méthodes
nonparamétriques dans des cadres fonctionnels (c’est à dire pour des situations où les variables aléatoires qui interviennent peuvent être de dimension infinie). Nous aborderons
rapidement plusieurs problèmes statistiques (régression, densité, lois conditionnelles, discrimination de courbes, ...), et nous insisterons particulièrement sur les résultats les plus
récents, issus de Ferraty, Laksaci et Vieu (2003), qui concernent les estimations de mode
conditionnel et de quantiles conditionnels. L’accent sera mis sur les liens entre les vitesses
de convergence et les probabilités de petites boules. En outre, l’exposé sera ponctué de
diverses applications à des jeux de données qui sont des courbes, avec une attention particulière pour un problème de chimie quantitative dans lequel les approches fonctionnelles
s’imposent de manière naturelle..
Mots clés: Modèles/Méthodes non-paramétriques fonctionnels, Variables fonctionnelles,
Probabilités de petites boules, Mode/Quantiles conditionnels fonctionnels, Statistique
asymptotique: vitesses de convergence, Statistique appliquée: chimie quantitative.
Abstract. We will present several asymptotic results about nonparametric statistical
methods in situations of infinite dimensional variables. We will quickly discuss different
statistical problems (such as regression, density, and conditional distribution functions
estimations, curves discrimination, unsupervised curves classification, ...). A special attention will be given to recent results, given in Ferraty, Laksaci et Vieu (2003), concerning
nonparametric estimation of functional conditional mode and quantiles. In addition to
the presentation of the rates of convergence (and their links with small ball probabilities
considerations), several curves data applications will be presented; A special attention
will be given to some chemiometrical data set for which the functional approaches are
particularly well adapted.
Key words: Nonparametric Functional Models/Methods, Functional Data, Small Ball
Probabilities, Functional Conditional Mode/Quantiles, Asymptotic Statistics: Rates of
Convergence, Applied Statistics: Spectrometric Curves Data.
1
1. Introduction
L’objectif est de montrer comment les techniques non-paramétriques peuvent être
utilisées lorsque les variables statistiques sont des courbes. On parle alors de problème
doublement infiniment dimensionné, puisque à la fois l’objet à estimer et celui qui sert à
estimer évoluent dans des espaces de dimension infinie. On parle aussi de modèle/méthode
Nonparamétrique Fonctionnel: le Nonparamétrique ayant trait à la dimension infinie du
modèle statistique, tandis que le Fonctionnel a trait à la nature fonctionnelle des variables
statistiques.
L’étude de différents modèles/méthodes de ce type est une des préoccupations du
groupe de travail STAPH (voir [9]), et on commencera par un rapide tour d’horizon de
l’état de l’art dans ces domaines (régression pour variables fonctionnelles, discrimination
de courbes, classification de variables fonctionnelles, . . .).
L’accent sera mis sur les développements récents, issus de Ferraty, Goia et Vieu
(2003), et qui concernent l’estimation de quantiles/modes conditionnels fonctionnels. Des
résultats de convergence (avec vitesses) seront donnés. L’exposé sera ponctués de jeux
de courbes venant d’horizons divers (chimie quantitative, géophysique, reconnaissance vocale, ...) avec un intérêt particulier pour un problème de spectrométrie en étude de qualité
alimentaire.
2. Quelques problèmes de statistique nonpamétrique fonctionnelle
Dans tout l’exposé on se limitera à des situations où X est une v.a. prenant ses valeurs
dans un espace vectoriel abstrait semi-métrique (E, d), de dimension non nécessairement
finie, et où Y est une v.a. à valeurs réelles. On supposera que l’on dispose d’un échantillon
de couples (Xi , Yi ) indépendants et ayant chacun même loi que (X, Y ) 1 .
De telles situations se rencontrent de plus en plus souvent dans de nombreux domaines
d’applications tels que l’économétrie, les sciences environnementales, la géophysique, la
chimie quantitative, la médecine, ... (voir Ferraty et Vieu, 2004b, pour de nombreux
exemples). Ainsi depuis une bonne dizaine d’années et ce de manière naturelle, la communauté statistique s’est préoccupé du développement de modèles/méthodes adaptés à
ces situations. Alors que les premières études dans cette direction se sont essentiellement
concentrées sur des modèles linéaires (voir les monographies de Ramsay et Silverman,
1997 et Bosq, 2000), les développements récents (voir Ferraty et Vieu, 2003, pour un état
de l’art) font état de modèles nonparamétriques adaptés à ce type de données.
Nous présenterons rapidement quelques uns de ces modèles, comme le modèle de
régression nonparamétrique fonctionnelle (voir Ferraty et Vieu, 2004), pour lequel l’objectif
est d’estimer l’opérateur R (non nécessairement linéaire mais assujetti à une condition de
1
Voir cependant Ferraty, Goia and Vieu, 2002, pour des résultats dans un contexte de dépendance
2
régularité) qui est défini par un modèle classique du type
Yi = R(Xi ) + i ,
i étant une v.a.r. centrée non corrélée avec Xi . Un autre exemple classique est le modèle
d’estimation de densité (voir Niang, 2003), pour lequel l’objectif est d’estimer la densité f (par rapport à une mesure donnée µ sur E). On évoquera aussi les problèmes de
l’estimation des densités conditionnelles fY |X ou des fonctions de répartition conditionnelles FY |X .
On insistera sur le fait que les propriétés mathématiques des estimateurs, propriétés
que l’on quantifie en donnant l’expression de vitesses de convergence, sont étroitement
liées à la question de la concentration de la variable fonctionnelle X dans des petites
boules. Pour illustrer ce phénomène, et en utilisant les nombreux résultats probabilistes
récents en théorie des probabilités de petites boules on montrera comment nos résultats
nonparamétriques incluent directement de nombreux processus à temps continus tels les
processus de diffusion (Ornstein-Uhlenbeck par exemple, mais pas seulement), les processus gaussiens en général (Brownien fractionnaire, drap Brownien fractionnaire, ...), .... A
travers ces phénomènes de concentration, le lien sera fait avec le problème bien connu en
dimension finie du fléau de la dimension.
3. Estimation de quelques paramètres fonctionnels
Les modèles évoqués ci-dessus concernent l’étude et l’estimation d’opérateurs (non
linéaires) fonctionnels, c’est à dire d’objet définis de E dans R. De manière naturelle, les
techniques précédentes peuvent déboucher sur la construction d’estimateurs de certains
paramètres, fonctionnels ou réels, (c’est à dire de certains objets de E ou de R).
Ainsi, les travaux de Niang (2002) en estimation de densité débouchent naturellement
sur l’étude d’estimateurs du mode de la densité f d’une v.a. de dimension infinie, avec
d’intéressants développements en matière de définition et d’estimation de courbe modale
et de classification de courbes.
Nous insisterons d’avantage dans notre propos sur la façon dont les travaux évoqués
précédemment en matière d’estimation de loi conditionnelle, permettent d’aborder de
manière purement non-paramétrique les questions d’estimation de mode conditionnel
et/ou de quantile conditionnel. Nous expliciterons des résultats de convergence de ces
paramètres dont on verra qu’ils sont toujopurs liés aux probabilités de petites boules
de la loi de X mais aussi à la régularité de la densité conditionnelle (ou de la fonction de répartition conditionnelle). En complément de ces résultats asymptotiques, qui
généralisent à la dimension infinie de nombreux travaux déjà existants en dimension finie,
nous traiterons rapidement un jeu de données réelles issues de problème de chimie quantitative en analyse de qualité alimentaire. Ce jeu de données permettra de mettre en
évidence à la fois la facilité d’implémentation des méthodes proposées (malgré leur premier aspect relativement abstrait) et leur bon comportement à taille d’échantillon finie.
3
L’ensemble des résultats présentés dans ce paragraphe 3, tant sur le mode conditionnel
que sur les quantiles conditionnels, sont issus de Ferraty, Laksaci et Vieu (2003).
Bibliographie
[1] Bosq, D. (2000). Linear processes in functions spaces. Lecture Notes in Statistics,
149, Springer, Berlin.
[2] Ferraty, F., Goia, A. et Vieu, P. (2002). Functional nonparametric model for time
series. TEST, 11, 317-344.
[3] Ferraty, F., Laksaci, A. et Vieu, P. (2003). Estimating some characteristics of conditional distribution in nonparametric functional models. Preprint
[4] Ferraty, F. et Vieu, P. (2003). Functional nonparametric statistics: a double infinite
dimensional framework. In Recent advances and trends in Nonparametric Statistics, Ed.
M. Akritas and D. Politis, Elsevier Sciences.
[5] Ferraty, F. et Vieu, P. (2004). Nonparametric models for functional data with applications in regression, time series prediction and curve discrimination. Nonparametric
Statistics, 16, 111-125.
[6] Ferraty, F. et Vieu, P. (2004b). Functional nonparametric in action. In The art of
semiparametrics Ed. W. Härdle. Lecture Notes in Statistics, IN PRINT.
[7] Ramsay, J. et Silverman, B. (1997). Functional Data Analysis, Springer Berlin.
[8] Niang, S. (2003). Kernel density estimator in an infinite dimension with a rate oçf
convergence in the case of diffusion processes. Applied Math. lettres, IN PRINT.
[9] Staph. Groupe de travail en Statistique Fonctionnelle et Opératorielle, LSP Toulouse.
http://www.lsp.ups-tlse.fr/Fp/Ferraty/staph.html
4