Estimation de l`indice de queue d`un vecteur aléatoire à queue
Transcription
Estimation de l`indice de queue d`un vecteur aléatoire à queue
Contexte Résultats principaux Idées de la preuve Simulations Références Estimation de l'indice de queue d'un vecteur aléatoire à queue épaisse Antoine Dematteo Télécom ParisTech Séminaire YSP. 12 septembre 2014 Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Plan 1 Contexte 2 Résultats principaux 3 Idées de la preuve 4 Simulations Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Cadre d'étude On considère un vecteur X = (X1 , . . . , Xd ) ∈ Rd de loi F . On suppose que ∀i ∈ {1, . . . , d}, 1 − Fi ∈ RV −α , pour un même α. Fi est la fonction de répartition de Xi . On observe n réalisations indépendantes (X1 , . . . , Xn ) de X. On suppose que X a une queue épaisse standard : ∃ une mesure de Radon positive ν telle que : Xd X1 v , . . . , ∈ · −−−−→ ν(·), (1) nP n→∞ a(1) (n) a(d) (n) où pour i = 1 . . . d, a(i) : t 7→ Fi−1 (1 − 1/t), t > 1. Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Exemple 1 cm 0.55 cm Figure : Schéma d'une matrice de capteurs de taille Antoine Dematteo Télécom ParisTech Séminaire YSP. 6 × 6. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Problématique Pour tout i ∈ {1, . . . , d}, on note Hk(i) l'estimateur de Hill associé à la i ,n i-ème marginale utilisant ki valeurs extrêmes. On obtient d estimateurs de α. Comment combiner les estimations pour obtenir un estimateur qui soit le plus précis possible ? Des combinaisons convexes d'estimateur marginaux On considère la classe des combinaisons convexes d'estimateur marginaux. On dénit, pour k = (k1 , . . . , kd ) : Hk,n (λ) = d X (2) (i) λi Hki ,n i=1 où λ = (λ1 , . . . , λd ) est tel que ∀i, λi > 0 et Antoine Dematteo Télécom ParisTech Séminaire YSP. Pd i=1 λi = 1 . Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Reformulation de la problématique L'Erreur Quadratique Asymptotique Moyenne (EQAM) On la dénit comme " EQAM (λ) = lim k1 E n→∞ 1 Hk,n (λ) − α 2 # (3) . minimisation de l'EQAM On cherche l'estimateur agrégé minimisant l'EQAM min λ=(λi )1≤i≤l ∈[0,1]d Antoine Dematteo EQAM (λ) sous contrainte que Télécom ParisTech Séminaire YSP. d X λi = 1. i=1 Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Plan 1 Contexte 2 Résultats principaux 3 Idées de la preuve 4 Simulations Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Quelques notations On note F la fonction de survie de X : pour t = (t1 , . . . , td ), F (t) = P X1 > t1 , . . . , Xd > td Toutes les opérations sont eectuées composante par composante. Pour k = (k1 , . . . , kd ), a(n/k) = a(1) (n/k1 ), . . . , a(d) (n/kd ) . Dans la suite, on suppose que ki /k1 −−−−→ ci , avec 0 < ci < ∞. n→∞ Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Un théorème central limit fonctionnel Théorème (de Haan and Resnick [1993]) Si n, k → +∞ sont tels que k = o(n), alors la convergence vague (dans l'espace des fonctions continues de Rd+ dans R) suivante est vériée : ! n n 1X Xi v k 1 > x − F (a(n/k)x) −−−−→ W (x−α ), n→∞ k i=1 a(n/k) k où x = x1 , . . . , xd , W (x) est un champ aléatoire Gaussien centré de √ (4) covariance donnée par : ∀(x, y) ∈ Rd × Rd , E [W (x)W (y)] = ν max(x−1/α , y−1/α ) . Rappel sur l'estimateur de Hill On considère un échantillon (X1 , . . . , Xn ) tiré dans une distribution à queue épaisse d'indice α. Alors l'estimateur de Hill de 1/α est donné par : Z ∞ X k n X(i) 1X 1 Xi dx Hk,n = log = 1 >x . k i=1 X(k + 1) k i=1 X(k + 1) x 1 Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Un théorème central limit fonctionnel Théorème (de Haan and Resnick [1993]) Si n, k → +∞ sont tels que k = o(n), alors la convergence vague (dans l'espace des fonctions continues de Rd+ dans R) suivante est vériée : ! n n 1X Xi v k 1 > x − F (a(n/k)x) −−−−→ W (x−α ), n→∞ k i=1 a(n/k) k où x = x1 , . . . , xd , W (x) est un champ aléatoire Gaussien centré de √ (4) covariance donnée par : ∀(x, y) ∈ Rd × Rd , E [W (x)W (y)] = ν max(x−1/α , y−1/α ) . Rappel sur l'estimateur de Hill On considère un échantillon (X1 , . . . , Xn ) tiré dans une distribution à queue épaisse d'indice α. Alors l'estimateur de Hill de 1/α est donné par : Z ∞ X k n X(i) 1X 1 Xi dx Hk,n = log = 1 >x . k i=1 X(k + 1) k i=1 X(k + 1) x 1 Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références En utilisant quelques résultats de composition de convergence et les techniques utilisées dans le cadre univarié, on en déduit facilement que : Théorème √ ∞ Z (1) k Hk,n − 1 dx n (d) , . . . , Hk,n − F 1 X1 (k)x k x ∞ Z 1 dx n F d Xd (k)x k x ⇒K (5) où K ∼ N (0, Σ) avec Σi,j = R∞R∞ dxdy 1 1 νi,j (x, y) xy 2 α2 si 1 ≤ i 6= j ≤ d. sinon. Pour 1 ≤ i 6= j ≤ d, νi,j (xi , xj ) est la limite de ν(x1 , . . . , xd ) quand toutes les composantes à part la i-ème et la j -ème tendent vers 0. Retirer le centrage aléatoire Comme dans le cas univarié, on veut remplacer le centrage aléatoire par un centrage déterministe Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références En utilisant quelques résultats de composition de convergence et les techniques utilisées dans le cadre univarié, on en déduit facilement que : Théorème √ ∞ Z (1) k Hk,n − 1 dx n (d) , . . . , Hk,n − F 1 X1 (k)x k x ∞ Z 1 dx n F d Xd (k)x k x ⇒K (5) où K ∼ N (0, Σ) avec Σi,j = R∞R∞ dxdy 1 1 νi,j (x, y) xy 2 α2 si 1 ≤ i 6= j ≤ d. sinon. Pour 1 ≤ i 6= j ≤ d, νi,j (xi , xj ) est la limite de ν(x1 , . . . , xd ) quand toutes les composantes à part la i-ème et la j -ème tendent vers 0. Retirer le centrage aléatoire Comme dans le cas univarié, on veut remplacer le centrage aléatoire par un centrage déterministe Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Retirer le centrage aléatoire Hypothèse du second ordre ∀ i ∈ {1, . . . , d}, lim n→∞ √ Z k ∞ 1 n (i) n dx x − x−α Fi a = 0. k k x (6) On en déduit que √ 1 1 (1) (d) k Hk,n − , . . . , Hk,n − + α α ! Z X1 (k) Z Xd (k) √ n n dx dx k F 1 (x) ,..., F d (x) ⇒K x x a(1) (n/k) k a(d) (n/k) k Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Résultat principal Pour 1 ≤ i 6= j ≤ l, quand n, k → +∞, on a n n 1 n x, a(j) y − νi,j (x, y) = o sup F i,j a(i) . k k log k x,y>1 k (7) Théorème Sous les Conditions (6) et (7) et les conditions de von Mises : lim α(s) := s→∞ Alors sFi0 (s) = α, 1 − Fi (s) ∀i ∈ {1, . . . , d}. √ 1 1 (d) (1) k1 Hk1 ,n − , . . . , Hkd ,n − ⇒ N (0, Γ) , α α 1/α 1/α ν (c ,c ) i,j i 2 j si 1 ≤ i 6= j ≤ d. α où Γi,j = 1 sinon. c α2 (8) (9) i Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Plan 1 Contexte 2 Résultats principaux 3 Idées de la preuve 4 Simulations Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Pour tout 1 ≤ i 6= j ≤, on a Z ∞Z ∞ dxdy νi,j (x, y) Γi,j = xy 1 1 " Z # Z Xi (k) dx Xj (k) n dx n F i (x) F j (x) −E k x a(j) (n/k) k x a(i) (n/k) k # " Z Xi (k) n dx 1 (j) F i (x) − E k Hk,n − α k x (i) a (n/k) " # Z Xj (k) 1 n dx (i) − E k Hk,n − F j (x) α x a(j) (n/k) k Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Quelques notations pour une preuve en dimension 2 On note : X = X1 et Y = X2 . FX = F1 et FY = F2 . a = a(1) et b = a(2) . Ui = FX (Xi ) et Vi = FY (Yi ) ν = ν1,2 . Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Lemme (Représentation de Bahadur-Kiefer) On dénit pi = n−i+1 n et pi = 1 − pi , X(i) = a(n/i) − Z X(k) a(n/k) i = 1 . . . k, et on a presque surement n 1 X 1 (Uj ≤ pi ) − pi + Tn (pi ) n j=1 fX a n/i n T (p ) n dx 1 X 1 (Uj ≤ pk ) − pk + n k . F X (x) =− k x n j=1 a (n/k) fX a n/k a (n/k) Lemme (Contrôle du reste) Sous certaines conditions de régularité [Csörgö and Révész, 1978], on a presque surement : sup |Tn (y)| = O n−3/4 (log log n)−1/4 (log n)−1/2 . 0≤y≤1 Z Y (k) b(n/k) n dx =O F Y (x) k x Antoine Dematteo 1 n−3/4 (log log n)−1/4 (log n)−1/2 . a (n/k) Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Lemme Sous les hypothèses du Théorème principal, on a " Z lim E k k→∞ Antoine Dematteo X(k) a(n/k) n dx F X (x) k x Télécom ParisTech Séminaire YSP. Z Y (k) b(n/k) n dx F Y (x) k x # = ν(1, 1) . α2 Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Preuve du Lemme "Z X(k) kE a(n/k) n dx F X (x) k x Z Y (k) b(n/k) n dx F Y (x) k x # = n X 1 (U ≤ p ) − p T (p ) 1 j k k + n k kE − n j=1 a (n/k) fX a (n/k) a (n/k) n X 1 (V ≤ p ) − p T (p ) 1 j n k k k + × − n j=1 a (n/k) fY b (n/k) b (n/k) Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références n 1 (Uj ≤ pk ) − pk 1 (Vj ≤ pk ) − pk X 1 = kE 2 n j=1 a (n/k) fX a (n/k) b (n/k) fX b (n/k) " # " # Z Z Tn (pk ) Y (k) n Tn (pk ) X(k) n dx dx +E F Y (x) +E F X (x) a (n/k) b(n/k) k x b (n/k) a(n/k) k x P X > a (n/k) , Y > b(n/k) − pk pk =k nb (n/k) fX b n/k a (n/k) fX a (n/k) +O Antoine Dematteo Télécom ParisTech Séminaire YSP. n−3/2 (log log n)−1/2 (log n)−1 k a (n/k) b (n/k) ! . Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Conditions de von Mises k2 a n/k fX a n/k b (n/k) fY b (n/k) ∼ α2 2 . n Donc P X > a n/k , Y > b (n/k) − pk pk 1 n ∼ 2 P X > a n/k , Y > b (n/k) , α k na n/k fX a n/k b (n/k) fX b (n/k) −−−−→ n→∞ Antoine Dematteo Télécom ParisTech Séminaire YSP. ν(1, 1) α2 Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Des k diérents On a (i) ∀i, a Donc, a(i) a(i) n k1 n ki n ki ∈ RV 1/α . 1/α −−−−→ n→∞ ki 1/α k1 1/α = ci . Retour sur le théorème de de Haan and Resnick [1993] ! n √ 1X Xi n v k 1 > x − F (a(n/k)x) −−−−→ W (x0−α ), n→∞ k i=1 a(n/k) k 1/α 1/α x0 = x1 , c2 x2 , . . . , cd xd Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Application à la minimisation de l'EQAM EQAM (λ) = lim k1 E n→∞ d X (i) λi Hki ,n i=1 1 − α !2 = d X d X λi λj Γi,j = t λΓλ. i=1 j=1 λopt argmint λΓλ, Cλ≤D En pratique, on dénit n 1 X νbi,j (x, y) = 1 k m=1 (j) (i) Xm Xm > x, >y Xi (k) Xj (k) ! b i,j = and Γ 1/α b νbi,j (ci α b2 1/α b , cj ) . Puis on calcule bopt = argmint λΓλ. b λ Cλ≤d Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Plan 1 Contexte 2 Résultats principaux 3 Idées de la preuve 4 Simulations Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références Protocole Les estimateurs P −1 k1 , . . . , k d . bopt , On dénit l'estimateur BEAR : Hk,n λ On note λAV E = d i=1 ki bAV E . On dénit l'estimateur AVERAGE : Hk,n λ Les données Les données sont simulées sur des réseaux de taille 2 × 2 et 4 × 4. Les marginales sont choisies parmi les loi de Student, Pareto généralisée, log Gamma, inverse Gamma, Fréchet, Fischer. La structure de dépendance est donnée par la copule logistique. Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références α=1 α=5 dim. n BEAR 2×2 1000 2500 5000 10000 25000 0.89 0.97 0.82 0.80 0.59 0.95 1.08 1.10 1.12 1.20 (-6%) (-10%) (-25%) (-34%) (-51%) 0.11 0.03 0.04 0.05 0.04 0.12 0.04 0.05 0.03 0.07 (-5%) (-10%) (-21%) (-30%) (-49%) 4×4 1000 2500 5000 10000 25000 0.78 1.06 0.85 1.00 0.76 0.76 1.05 1.02 0.86 1.49 (3%) (-1%) (-17%) (-42%) (-49%) 0.06 0.07 0.04 0.04 0.03 0.06 0.07 0.05 0.04 0.06 (6%) (3%) (-12%) (-29%) (-34%) Table : Antoine Dematteo Ave.(Impr.) BEAR Ave.(Impr.) Résultat des simulations. Comparaison des racines des EQAM. Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép Contexte Résultats principaux Idées de la preuve Simulations Références M. Csörgö and Révész. Strong approximation of the quantiles process. Ann. Stat., 6 :882894, 1978. L. de Haan and S.I. Resnick. Estimating the limit distribution of multivariate extremes. Com. Stat. Stoch. Mod., 9 :275309, 1993. Antoine Dematteo Télécom ParisTech Séminaire YSP. Estimation de l'indice de queue d'un vecteur aléatoire à queue ép