Estimation de quantiles extrêmes pour les lois à queue de type

Transcription

Estimation de quantiles extrêmes pour les lois à queue de type
Journal de la Société Française de Statistique
Vol. 154 No. 2 (2013)
Estimation de quantiles extrêmes pour les lois à
queue de type Weibull : une synthèse
bibliographique
Title: Extreme quantile estimation for Weibull-tail distributions: an overview
Laurent Gardes1 et Stéphane Girard2
Résumé : Cet article est une synthèse bibliographique des méthodes d’estimation de quantiles extrêmes pour les lois
à queue de type Weibull. Ces lois ont une fonction de survie qui décroit vers zéro à une vitesse exponentielle. Nous
montrons comment cette problématique s’inscrit plus largement dans la théorie des valeurs extrêmes.
Abstract: In this paper, an overview on extreme quantiles estimation for Weibull-tail distribution is provided. Recall
that the survival function of a Weibull-tail distribution decreases exponentially fast. We show how this problem can be
inserted in the more general setting of extreme value theory.
Mots-clés : Lois à queue de type Weibull, Synthèse bibliographique
Keywords: Weibull-tail distributions, Overview
Classification AMS 2000 : 62-00, 62G32
1. Introduction
Dans cet article, nous étudions le comportement des valeurs extrêmes d’un échantillon de variables
aléatoires unidimensionnelles. Nous nous concentrons essentiellement sur une famille particulière
de lois : les lois à queue de type Weibull. Ces lois ont une fonction de survie qui décroit vers zéro
à la vitesse exponentielle. Nous donnerons une définition plus précise de cette famille dans le
paragraphe 3. Notre principal objectif est de proposer des estimateurs de quantiles extrêmes. Plus
précisément, disposant d’un échantillon X1 , . . . , Xn de n variables aléatoires réelles indépendantes
et identiquement distribuées de fonction de répartition commune F(.), nous souhaitons estimer le
réel q(αn ) défini par
q(αn ) = F̄ ← (αn ), avec αn → 0 lorsque n → ∞,
où (αn ) est une suite connue et F̄ ← (u) = inf{x, F̄(x) ≤ u} est l’inverse généralisée de la fonction
de survie F̄(.) = 1 − F(.). Remarquons que q(αn ) est le quantile d’ordre 1 − αn de la fonction
de répartition F. Un problème similaire à l’estimation de q(αn ) est l’estimation de "petites
probabilités" pn . Autrement dit, pour une suite de réels (xn ) fixée, nous souhaitons estimer la
1
2
Université de Strasbourg & CNRS, IRMA, UMR 7501.
E-mail : [email protected]
INRIA Rhône-Alpes & LJK.
E-mail : [email protected]
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
99
probabilité pn définie par
pn = F̄(xn ), xn → ∞ lorsque n → ∞.
Ce sont les hydrologues qui ont été parmi les premiers à s’intéresser à ces deux problèmes.
Disposant d’un échantillon de hauteurs d’un cours d’eau, ils se sont posés les deux questions
suivantes :
1) quelle est la hauteur d’eau qui est atteinte ou dépassée pour une faible probabilité donnée ?
2) pour une "grande" hauteur d’eau fixée, qu’elle est la probabilité d’observer une hauteur
d’eau qui lui sera supérieure ?
Les questions 1) et 2) se rapportent donc respectivement à l’estimation d’un quantile extrême
(ou niveau de retour en hydrologie) et d’une "petite probabilité" (ou de façon équivalente en
hydrologie, période de retour). La difficulté principale réside dans le fait que l’on considère un
ordre de quantile αn → 0 (ou de manière équivalente un seuil xn → ∞). En effet, si par exemple
nαn → 0 lorsque n → ∞, il est clair que
P(Xn,n < q(αn )) = F n (q(αn )) = (1 − αn )n → 1
où X1,n ≤ . . . ≤ Xn,n est l’échantillon ordonné associé à X1 , . . . , Xn . La quantité q(αn ) n’appartient
donc pas à l’intervalle de variation de nos observations. En conséquence, l’estimateur de q(αn ) ne
peut être obtenu en inversant simplement la fonction de répartition empirique
F̂n (x) =
1 n
∑ I{Xi ≤ x},
n i=1
car F̂n (x) = 1 pour x ≥ Xn,n . L’estimation de quantiles extrêmes et/ou de "petites probabilités" est
requise dans de nombreux domaines d’application parmi lesquels citons la fiabilité (Ditlevsen
(1998)), la finance (Embrechts et al. (1997)), les assurances (Beirlant and Teugels (1992); Brodin
and Rootzén (2009)) et la climatologie (Rootzén and Tajvidi (2001)). Pour répondre à ces deux
questions, nous devons donc étudier de près le comportement de la queue de distribution de F(.)
en utilisant la théorie des valeurs extrêmes. Nous présentons les éléments essentiels de cette
théorie paragraphe 2. Dans le paragraphe 3, nous proposons des estimateurs de quantiles extrêmes
pour la famille des lois à queue de type Weibull.
2. Introduction à la théorie des valeurs extrêmes
Lorsque l’on s’intéresse à la partie centrale d’un échantillon, le résultat clé est le Théorème de
la Limite Centrale (abrégé en TLC) donnant la loi asymptotique de la somme des observations.
Par contre, si l’on souhaite étudier les valeurs extrêmes de cet échantillon, le TLC ne présente
que peu d’intérêt. On utilise plutôt un résultat établissant la loi asymptotique du maximum de
l’échantillon. Ce résultat est énoncé dans le paragraphe 2.1. Il permet de classer la plupart des lois
en trois domaines d’attraction. La caractérisation des fonctions de répartition dans chacun de ces
domaines est donnée dans le paragraphe 2.2.
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
100
L. Gardes & S. Girard
F IGURE 1. Exemples de densités associées à la loi des valeurs extrêmes (noir : γ = 0, bleu : γ = 1 et rouge : γ = −1).
2.1. Convergence en loi du maximum d’un échantillon
Le résultat ci-dessous établit la loi asymptotique du maximum Xn,n = max(X1 , . . . , Xn ) de l’échantillon. Il a été démontré notamment par Gnedenko (1943).
Théorème 1. S’il existe deux suites réelles (an > 0), (bn ) et un réel γ tels que
Xn,n − bn
P
≤ x → Hγ (x),
an
lorsque n → ∞ alors
(
Hγ (x) =
−1/γ
exp[−(1 + γx)+ ] si γ 6= 0,
exp(−e−x ) si γ = 0,
où y+ = max(0, y).
La fonction de répartition Hγ (.) est la fonction de répartition de la loi des valeurs extrêmes. La
densité associée est représentée Figure 1 pour différentes valeurs de γ. Cette loi dépend du seul
paramètre γ appelé l’indice des valeurs extrêmes. Selon le signe de γ, on définit trois domaines
d’attraction :
• si γ > 0, on dit que F(.) appartient au domaine d’attraction de Fréchet. Il contient les lois
dont la fonction de survie décroit comme une fonction puissance. On parle aussi de lois à
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
101
TABLE 1. Domaines d’attraction des lois usuelles.
Domaine
d’attraction
Loi
Gumbel
γ =0
Fréchet
γ >0
Weibull
γ <0
Normale
Exponentielle
Lognormale
Gamma
Weibull
Cauchy
Pareto
Student
Burr
Uniforme
Beta
queue lourde. Dans ce domaine d’attraction, on trouve les lois de Pareto, de Student, de
Cauchy, etc . . .
• si γ = 0, F(.) est dans le domaine d’attraction de Gumbel qui regroupe les lois ayant une
fonction de survie à décroissance exponentielle. C’est le cas des lois normale, gamma,
exponentielle, etc . . .
• si γ < 0, F(.) appartient au domaine d’attraction de Weibull. Ce domaine contient les lois
dont le point terminal xF = inf{x, F(x) ≥ 1} est fini. C’est le cas par exemple des lois
uniformes, lois beta, etc . . .
Un classement de nombreuses lois par domaine d’attraction est disponible dans (Embrechts et al.,
1997, Tableaux 3.4.2-3.4.4). Un extrait en est présenté Table 1. Nous allons à présent rappeler les
théorèmes de caractérisation des trois domaines d’attraction ci-dessus.
2.2. Caractérisation des domaines d’attraction
La caractérisation des domaines d’attraction fait largement appel à la notion de fonctions à
variations régulières. Rappelons qu’une fonction U(.) positive est à variations régulières d’indice
δ ∈ R à l’infini (on notera par la suite U(.) ∈ RV δ ) si pour tout λ > 0,
lim
x→∞
U(λ x)
= λδ.
U(x)
Si δ = 0, on dit que la fonction U(.) est à variations lentes (U(.) ∈ RV 0 ). On montre facilement
que toute fonction à variations régulières d’indice δ ∈ R s’écrit,
U(x) = xδ L(x), L ∈ RV 0 .
Rappelons enfin que toutes les fonctions à variations lentes L(.) s’écrivent sous la forme :
Z x
∆(u)
L(x) = c(x) exp
du ,
u
1
où c(x) → c > 0 et ∆(x) → 0 lorsque x → ∞. Cette représentation des fonctions à variations lentes
est connue sous le nom de représentation de Karamata (voir (Bingham et al., 1987, Théorème
1.3.1)). De plus, si la fonction c(.) est constante, la fonction L(.) est dite normalisée. De nombreux
résultats sur les fonctions à variations régulières sont donnés dans le livre de Bingham et al.
(1987).
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
102
L. Gardes & S. Girard
2.2.1. Domaine d’attraction de Fréchet
Le résultat ci-dessous énoncé par Gnedenko (1943) et dont on trouvera une démonstration simple
dans le livre de (Resnick, 1987, Proposition 1.11) assure que toute fonction appartenant au
domaine d’attraction de Fréchet est une fonction à variations régulières.
Théorème 2. Une fonction de répartition F(.) appartient au domaine d’attraction de Fréchet
(avec un indice des valeurs extrêmes γ > 0) si et seulement si la fonction de survie F̄(.) ∈ RV −1/γ .
Autrement dit, une fonction de répartition F(.) appartenant au domaine d’attraction de Fréchet
s’écrit sous la forme :
F(x) = 1 − x−1/γ L(x), L(.) ∈ RV 0 .
(1)
Les suites de normalisation (an ) et (bn ) sont données dans ce cas par an = F̄ ← (1/n) et bn = 0
(voir (Resnick, 1987, Proposition 1.11)). Il faut aussi noter que toutes les fonctions de répartition
du domaine d’attraction de Fréchet ont un point terminal infini. On peut montrer (voir (Bingham
et al., 1987, Théorème 1.5.12)) que l’équation (1) est équivalente à :
q(α) = α −γ `(α −1 ), `(.) ∈ RV 0 ,
(2)
où α ∈ [0, 1]. De nombreux auteurs se sont intéressés à l’estimation de l’indice des valeurs
extrêmes γ et des quantiles extrêmes q(αn ) pour des lois à queue lourde. L’estimateur le plus
connu de γ > 0 est l’estimateur proposé par Hill (1975) et défini par
γ̂nH =
1 kn
∑ log(Xn−i+1,n ) − log(Xn−kn ,n ),
kn i=1
(3)
où (kn ) est une suite d’entiers telle que 1 < kn < n. D’autres estimateurs de cet indice ont
été proposés notamment par Beirlant et al. (2002, 1999) qui utilisent un modèle de régression
exponentiel pour débiaiser l’estimateur de Hill et par Feuerverger and Hall (1999) qui introduisent
un estimateur des moindres carrés. L’utilisation d’un noyau dans l’estimateur de Hill a été étudiée
par Csörgő et al. (1985). Un estimateur efficace de l’indice des valeurs extrêmes a été proposé
par Falk and Marohn (1997). Une liste plus détaillée des différents travaux sur l’estimation de
l’indice des valeurs extrêmes est effectuée par Csörgő and Viharos (1998). Concernant l’étude
du quantile extrême q(αn ), l’estimateur le plus fréquemment utilisé a été proposé par Weissman
(1978). Il est défini par :
H
kn γ̂n
W
q̂n (αn ) = Xn−kn +1,n
.
(4)
nαn
On peut trouver de nombreux autres estimateurs du quantile extrême dans le livre écrit par de Haan
and Ferreira (2006).
2.2.2. Domaine d’attraction de Weibull
Le résultat suivant (voir Gnedenko (1943), (Resnick, 1987, Proposition 1.13)) montre que l’on
passe du domaine d’attraction de Fréchet à celui de Weibull par un simple changement de variable
dans la fonction de répartition.
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
103
Théorème 3. Une fonction de répartition F(.) appartient au domaine d’attraction de Weibull
(avec un indice des valeurs extrêmes γ < 0) si et seulement si son point terminal xF est fini et si la
fonction de répartition F∗ (.) définie par
0
si x < 0
F∗ (x) =
F(xF − 1/x) si x ≥ 0,
appartient au domaine d’attraction de Fréchet avec un indice des valeurs extrêmes −γ > 0.
Ainsi, une fonction de répartition F(.) du domaine d’attraction de Weibull s’écrit pour x ≤ xF :
F(x) = 1 − (xF − x)−1/γ L((xF − x)−1 ), L(.) ∈ RV 0 .
(5)
De manière équivalente, le quantile q(α) associé s’écrit :
q(α) = xF − α −γ `(1/x), `(.) ∈ RV 0 .
(6)
Les suites de normalisation (an ) et (bn ) sont données par an = xF − F̄ ← (1/n) et bn = xF . Ce
domaine d’attraction a été considéré notamment par Falk (1995), Girard et al. (2012) et Hall and
Park (2002) pour estimer le point terminal d’une distribution.
2.2.3. Domaine d’attraction de Gumbel
La caractérisation des fonctions de répartition du domaine d’attraction de Gumbel est plus
complexe. Le résultat ci-dessous est démontré notamment dans (Resnick, 1987, Proposition 1.4).
Théorème 4. Une fonction de répartition F(.) appartient au domaine d’attraction de Gumbel si
et seulement si il existe z < xF ≤ ∞ tel que
Zx
1
F̄(x) = c(x) exp −
dt , z < x < xF ,
(7)
z a(t)
où c(x) → c > 0 lorsque x → xF et a(.) est une fonction positive et dérivable de dérivée a0 (.) telle
que a0 (x) → 0 lorsque x → xF .
Le domaine d’attraction de Gumbel regroupe une grande diversité de lois comptant parmi elles
la plupart des lois usuelles (loi normale, exponentielle, gamma, log-normale). Cette famille
étant difficile à étudier dans toute sa généralité, de nombreux auteurs se sont concentrés sur une
sous-famille : les lois à queue de type Weibull. Leur définition est donnée dans le paragraphe
suivant.
3. Inférence pour les lois à queue de type Weibull
Les lois à queue de type Weibull correspondent au cas particulier où l’on suppose dans (7) que
la dérivée de la fonction a(.) est à variations régulières avec un indice strictement négatif. Plus
précisément, si on suppose que a0 (.) ∈ RV −1/θ où θ > 0 est appelé l’indice de queue de Weibull,
on montre facilement que l’équation (7) s’écrit :
n
o
F̄(x) = exp −x1/θ L(x) , L(.) ∈ RV 0 .
(8)
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
104
L. Gardes & S. Girard
Une fonction de répartition s’écrivant selon le modèle (8) est dite à queue de type Weibull d’indice
θ > 0. L’équation (8) est équivalente à
q(α) = (− log α)θ `(− log α), `(.) ∈ RV 0 ,
(9)
où α ∈ [0, 1]. Cette famille de lois contient par exemple les lois normale, Gamma, exponentielle,
etc . . . Par contre, la loi log-normale qui appartient au domaine d’attraction de Gumbel n’est pas
une loi à queue de type Weibull. Dans la suite, on considère un échantillon X1 , . . . , Xn de variables
aléatoires indépendantes et distribuées selon le modèle (8). Le paragraphe 3.1 est consacré à
l’estimation de l’indice de queue de Weibull. L’estimation des quantiles extrêmes est discutée
dans le paragraphe 3.2.
3.1. Estimation de l’indice de queue de Weibull
Les lois à queue de type Weibull appartiennent évidemment au domaine d’attraction de Gumbel
(i.e. avec un indice des valeurs extrêmes γ = 0). L’indice des valeurs extrêmes ne fournit donc
aucune information sur la vitesse de décroissance de la fonction de survie à l’intérieur de cette
famille de loi. C’est l’indice de queue de Weibull θ qui nous donne cette information : une valeur
de θ proche de zéro (resp. l’infini) correspond à une décroissance rapide (resp. lente) de la queue
de distribution. La connaissance de ce paramètre est donc essentielle si l’on souhaite par exemple
estimer un quantile extrême. Il existe dans la littérature de nombreux estimateurs de l’indice θ .
Berred (1991) propose un estimateur basé sur des valeurs records mais la majorité des estimateurs
utilise les kn plus grandes observations de l’échantillon. Parmi ceux-ci citons Beirlant et al. (2006,
1995, 1996), Broniatowski (1993), Diebolt et al. (2008a), Dierckx et al. (2009), Gardes and Girard
(2006, 2008), Girard (2004) Goegebeur et al. (2010); Goegebeur and Guillou (2010). Le plus
simple d’entre eux a été proposé dans Beirlant et al. (1996). Il est défini par :
,
θ̂nB =
kn −1
kn −1
∑ (log(Xn−i+1,n ) − log(Xn−k +1,n ))
n
i=1
∑ (log log(n/i) − log log(n/kn )) ,
(10)
i=1
et rappelons que (kn ) est une suite d’entiers tels que 1 < kn < n. Son expression est proche de
celle de l’estimateur de l’indice des valeurs extrêmes proposé par Hill (1975) (voir l’équation (3)).
Elle est basée sur la remarque suivante : d’après (9),
log q(α)
log `(log(1/α))
=θ+
.
log log(1/α)
log log(1/α)
Ainsi, comme log(`(x))/ log(x) → 0 lorsque x → ∞ (voir (Bingham et al., 1987, Propriété 1.3.6)),
on en déduit que pour α → 0,
log q(α) ∼ θ log log(1/α).
(11)
Ainsi, les points (log log(n/i), log(Xn−i+1,n )), i = 1, . . . , kn − 1 sont approximativement répartis
sur une droite de pente θ . Nous détaillons dans les paragraphes 3.1.1 et 3.1.2 deux familles d’estimateurs englobant θ̂nB ainsi qu’un estimateur débiaisé de l’indice θ (voir le paragraphe 3.1.3). Les
résultats asymptotiques sont obtenus (entre autres) sous les hypothèses suivantes.
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
105
TABLE 2. Paramètres θ , ρ et fonction b(.) associés aux lois usuelles. Les paramètres α et λ sont respectivement des
paramètres de forme et d’échelle.
Loi
θ
b(x)
ρ
Normale N (µ, σ 2 )
1/2
1 log x
4 x
−1
Gamma Γ(α 6= 1, λ )
1
Weibull W (α, λ )
1/α
(1 − α)
0
log x
x
−1
−∞
(H.1) La suite (kn ) vérifie kn → ∞ et n/kn → ∞ lorsque n → ∞.
(H.2) Il existe un paramètre ρ < 0 et une fonction b(.) vérifiant b(x) → 0 lorsque x → ∞ tels
que pour tout 1 < A < ∞
log(`(λ x)/`(x))
lim sup − 1 = 0,
x→∞ λ ∈[1,A]
b(x)Kρ (λ )
où Kρ (λ ) =
R λ ρ−1
dt et `(.) est la fonction à variations lentes introduite dans (9).
1 t
L’hypothèse (H.1) assure que le nombre de statistiques d’ordre conservées kn est assez grand
(kn → ∞) pour obtenir des estimateurs stables, mais pas trop (n/kn → ∞) pour que les observations
utilisées restent dans la queue de distribution. Le choix de la suite (kn ) est donc un compromis
entre le biais et la variance de l’estimateur.
L’hypothèse (H.2) est très souvent utilisée pour étudier le comportement asymptotique d’estimateurs d’indice ou de quantiles extrêmes. Elle est notamment nécessaire pour démontrer la normalité
asymptotique de l’estimateur de Hill défini en (3). On peut montrer (voir par exemple Geluk and
Haan (1987)) que la fonction b(.) (appelée aussi fonction de biais) est à variations régulières
d’indice ρ < 0. Le paramètre ρ (appelé paramètre du second ordre) contrôle donc la vitesse de
convergence de `(λ x)/`(x) vers 1. Une valeur de ρ proche de 0 implique une faible vitesse de
convergence. Quelques exemples en sont donnés dans la Table 2.
3.1.1. Utilisation de poids
Nous nous focalisons sur la famille d’estimateurs Gardes and Girard (2008) de θ incorporant des
poids dans l’estimateur θ̂nB défini par (10). Les estimateurs obtenus sont donc des combinaisons
linéaires de statistiques d’ordre c’est-à-dire des L-estimateurs. Plus précisément, on considère la
famille d’estimateurs Θ1 = {θ̂n (ζ ), ζ = (ζ1,n , . . . , ζkn −1,n )} avec
,
kn −1
θ̂n (ζ ) =
kn −1
∑ ζi,n (log(Xn−i+1,n ) − log(Xn−k +1,n ))
n
i=1
∑ ζi,n (log log(n/i) − log log(n/kn )) ,
i=1
(12)
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
106
L. Gardes & S. Girard
où ζi,n = W (i/kn ) + εi,n , (εi,n ), i = 1, . . . , kn − 1 étant une suite non-aléatoire. La fonction déterministe W (.) doit satisfaire les deux hypothèses de régularité ci dessous :
(H.3) la fonction W (.) est définie et admet une dérivée continue sur l’intervalle ]0, 1[.
(H.4) Il existe M > 0, 0 ≤ q < 1/2 et p < 1 tels que pour tout x ∈]0, 1[, |W (x)| ≤ Mx−q et
|W 0 (x)| ≤ Mx−p−q .
Ces conditions sont essentielles pour établir la normalité asymptotique des L-estimateurs (voir
par exemple Mason (1981)). On pose :
kεkn,∞ = max |εi,n |, µ(W ) =
1,...,kn −1
2
Z 1Z 1
σ (W ) =
W (x)W (y)
0
0
Z 1
W (x) log(1/x)dx,
0
min(x, y) − xy
dxdy.
xy
Nous rappelons à présent (voir (Gardes and Girard, 2008, Théorème 1)) le résultat de normalité
asymptotique des estimateurs appartenant à cette famille.
Théorème 5. On se place sous le modèle (8) et on suppose que les conditions (H.1) à (H.4)
1/2
1/2
sont satisfaites. Si kn b(log(n/kn )) → Λ ∈ R et kn max{1/ log(n), kεkn,∞ } → 0 lorsque n → ∞
alors,
d
1/2
kn (θ̂n (ζ ) − θ − b(log(n/kn ))) → N (0, θ 2 σ 2 (W )/µ 2 (W )).
Dans le cas où lim inf kεkn,∞ log(n) ≤ 1 avec Λ 6= 0, le Théorème 5 n’est valable que si ρ > −1
ce qui correspond à une vitesse de convergence lente dans la condition (H.2). Donnons à présent
deux choix possibles pour les poids ζi,n , i = 1, . . . , kn − 1.
En prenant ζi,n = 1 pour tout i = 1, . . . , kn − 1 (i.e. W (x) = 1 pour tout x ∈]0, 1[ et εi,n =
0 pour tout i = 1, . . . , kn − 1), on retrouve l’estimateur θ̂nB proposé par Beirlant et al. (1996)
(voir l’équation (10)). Le résultat de normalité asymptotique établi par Girard (2004) est une
conséquence directe du Théorème 5. Nous rappelons ce résultat ci-dessous :
Corollaire 1. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
d
1/2
1/2
1/2
satisfaites. Si kn b(log(n/kn )) → 0 et kn / log(n) → 0 alors kn (θ̂nB − θ ) → N (0, θ 2 ).
En rappelant que les points (log log(n/i), log(Xn−i+1,n )), i = 1, . . . , kn − 1 sont approximativement répartis sur une droite de pente θ , il est possible d’estimer θ par l’estimateur des moindres
carrés. Il est montré dans (Gardes and Girard, 2008, Corollaire 2) que l’estimateur des moindres
carrés appartient à la famille Θ1 avec les poids :
Z
ζi,n = ζi,n
= log log(n/i) −
1 kn −1
∑ log log(n/i) = W (i/kn ) + εi,n ,
kn − 1 i=1
où W (x) = −(log(x) + 1) et, uniformément en i = 1, . . . , kn − 1, εi,n = O(log2 (kn )/ log(n)) +
O(log(kn )/kn ). L’estimateur θ̂n (ζ Z ) ainsi obtenu est similaire à l’estimateur de l’indice des
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
107
valeurs extrêmes de Zipf introduit par Kratz and Resnick (1996) et Schultze and Steinebach
(1996) dans le cas de lois à queue lourde. Nous rappelons ci-dessous le résultat sur la normalité
asymptotique de θ̂n (ζ Z ) (voir (Gardes and Girard, 2008, Corollaire 2)). C’est une conséquence
directe du Théorème 5.
Corollaire 2. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2)
d
1/2
1/2
1/2
sont satisfaites. Si kn b(log(n/kn )) → 0 et kn log2 (kn )/ log(n) → 0 alors kn (θ̂n (ζ Z ) − θ ) →
N (0, 2θ 2 ).
3.1.2. Utilisation d’autres suites de normalisation
Dans l’estimateur θ̂nB (voir l’équation (10)), la somme des écarts entre les logarithmes des
statistiques d’ordre est normalisée par la suite :
(1)
Tn
kn −1
=
∑ (log log(n/i) − log log(n/kn )).
(13)
i=1
(1)
Il est possible de remplacer cette suite (Tn ) par une suite positive quelconque (Tn ). Ceci conduit
à définir la famille d’estimateurs Θ2 = {θ̂n (Tn ), Tn > 0} avec
θ̂n (Tn ) =
1 kn −1
∑ (log(Xn−i+1,n ) − log(Xn−kn +1,n )).
Tn i=1
(14)
En posant
log(1 + x/t)e−x dx
− 1,
Tn
on obtient (Gardes and Girard, 2006, Théorème 2.1) un résultat de normalité asymptotique pour
cette famille d’estimateurs. Ce résultat est rappelé ci-dessous :
un =
kn
R∞
0
Théorème 6. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
1/2
satisfaites. Si Tn kn log(n/kn ) → 1 et kn b(log(n/kn )) → Λ ∈ R lorsque n → ∞ alors
1/2
d
kn (θ̂n (Tn ) − θ − b(log(n/kn )) − θ un ) → N (0, θ 2 ).
La meilleure vitesse de convergence de θ̂n (Tn ) est obtenue lorsque Λ 6= 0. Dans ce cas, on
peut montrer (voir (Gardes and Girard, 2006, Proposition 2.2)) que (kn ) est équivalente à
Λ2 (log n)−2ρ `∗ (log(n)) où `∗ (.) est une fonction à variations lentes. Sous l’hypothèse supplémentaire lim inf kεkn,∞ log(n) ≤ 1, les estimateurs de la famille Θ1 ont la même vitesse de convergence
que ceux de la famille Θ2 . Le Théorème 6 permet de déterminer l’erreur moyenne quadratique
asymptotique (AMSE) de θ̂n (Tn ). Elle est donnée par
AMSE(θ̂n (Tn )) = (θ un + b(log(n/kn )))2 +
θ2
.
kn
(15)
Le terme de variance asymptotique est donc identique pour tous les estimateurs de la famille. Le
biais dépend par contre du choix de la suite (Tn ). Le choix idéal pour cette suite de normalisation
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
108
L. Gardes & S. Girard
serait donc de prendre Tn de telle sorte que θ un + b(log(n/kn )) = 0. Malheureusement, θ et
la fonction de biais b(.) sont inconnus et il est donc impossible de définir une telle suite (Tn ).
Donnons à présent quelques choix possibles pour cette suite.
(1)
Comme nous l’avons déjà mentionné, le choix (Tn ) = (Tn ) (voir l’équation (13)) conduit
(1)
à l’estimateur θ̂nB (voir l’équation (10)). La normalité asymptotique de θ̂n (Tn ) = θ̂nB énoncée
ci-dessous est une conséquence directe du Théorème 6.
Corollaire 3. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
d
1/2
1/2
(1)
satisfaites. Si kn b(log(n/kn )) → 0 et log(kn )/ log(n) → 0 alors kn (θ̂n (Tn )−θ ) → N (0, θ 2 ).
Dans le Corollaire 1 du sous-paragraphe précédent, ce résultat est obtenu sous la condition sup1/2
plémentaire kn / log(n) → 0.
Un choix naturel pour (Tn ) est de prendre la suite annulant une partie du biais asymptotique :
(2)
la partie dépendant de un . Pour ce faire, il suffit de prendre (Tn ) = (Tn ) avec
Z ∞
x
(2)
e−x dx.
Tn = kn
log 1 +
log(n/k
)
0
n
(2)
En remarquant que Tn = n/kn E1 (log(n/kn )), où E1 (z) dénote l’exponentielle intégrale calculée
(2)
au point z (voir (Abramowitz and Stegan, 1972, Chapitre 5, p. 225-233)), le calcul de la suite Tn
est simple à effectuer. Il est aussi intéressant de noter que
(1)
Tn
kn
log(i/kn )
= ∑ log 1 −
log(n/kn )
i=1
(2)
est en fait l’approximation par des sommes de Riemann de Tn car en intégrant par partie on
montre que
Z 1
log(x)
(2)
Tn =
log 1 −
dx.
log(n/kn )
0
On déduit du Théorème 6 le résultat suivant :
Corollaire 4. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
d
1/2
1/2
(2)
satisfaites. Si kn b(log(n/kn )) → 0 alors kn (θ̂n (Tn ) − θ ) → N (0, θ 2 ).
Une des hypothèses du Théorème 6 étant que Tn kn log(n/kn ) → 1, un choix simple est de
(3)
prendre Tn = Tn = (kn log(n/kn ))−1 . La normalité asymptotique de l’estimateur ainsi obtenu est
donnée ci-dessous :
Corollaire 5. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
d
1/2
1/2
1/2
(3)
satisfaites. Si kn b(log(n/kn )) → 0 et kn / log(n/kn ) → 0 alors kn (θ̂n (Tn ) − θ ) → N (0, θ 2 ).
Notez que les Corollaires 3, 4 et 5 sont énoncés dans (Gardes and Girard, 2006, Corollaire 1) et
sont démontrés dans ce même article. Nous allons à présent comparer ces trois estimateurs en
fonction de leur erreur moyenne quadratique asymptotique définie par l’équation (15).
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
109
Proposition 1. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2)
1/2
sont satisfaites. Si kn b(log(n/kn )) → Λ ∈ R, plusieurs situations sont possibles. On pose :
β1 = 2 lim xb(x) et β2 = −4 lim b(log n)
x→∞
n→∞
kn
.
log kn
i) Soit b(.) est asymptotiquement strictement positive.
Si β1 > θ alors, pour n assez grand,
(3)
(2)
(1)
AMSE(θ̂n (Tn )) < AMSE(θ̂n (Tn )) < AMSE(θ̂n (Tn )).
Si β1 < θ alors, pour n assez grand,
(2)
(1)
(3)
AMSE(θ̂n (Tn )) < min(AMSE(θ̂n (Tn )), AMSE(θ̂n (Tn ))).
ii) Soit b(.) est asymptotiquement strictement négative.
Si β2 > θ , alors, pour n assez grand,
(1)
(2)
(3)
AMSE(θ̂n (Tn )) < AMSE(θ̂n (Tn )) < AMSE(θ̂n (Tn )).
Si β2 < θ , alors, pour n assez grand,
(2)
(1)
(3)
AMSE(θ̂n (Tn )) < min(AMSE(θ̂n (Tn )), AMSE(θ̂n (Tn ))).
Cette proposition a été établie dans (Gardes and Girard, 2006, Théorème 3). Comme l’on pouvait
s’y attendre, il n’y a pas d’estimateur qui soit préférable dans toutes les situations. Dans le
(1)
cas i), β1 ne dépend pas de la suite (kn ). Le classement entre les trois estimateurs θ̂n (Tn ),
(2)
(3)
θ̂n (Tn ) et θ̂n (Tn ) dépend donc uniquement de la loi des observations. Si la fonction biais
(2)
b(.) converge rapidement vers zéro alors β1 < θ et ainsi l’utilisation de l’estimateur θ̂n (Tn ) est
(3)
préférable. Au contraire, si b(.) converge lentement vers zéro, β1 > θ et l’estimateur θ̂n (Tn )
sera de meilleure qualité. Dans le cas ii), β2 dépend de la suite (kn ). Si (kn ) est petite (par exemple
(2)
kn ∝ −1/b(log(n))) alors β2 = 0 et l’estimateur θ̂n (Tn ) est préférable. Inversement, si (kn ) est
(1)
grande (par exemple kn ∝ (b(log(n)))−2 ) alors β2 = ∞ et θ̂n (Tn ) sera asymptotiquement le
meilleur estimateur. Enfin, si β1 = θ , on ne peut pas comparer dans la situation i) les estimateurs
(2)
(3)
(3)
(2)
θ̂n (Tn ) et θ̂n (Tn ) car AMSE(θ̂n (Tn )) − AMSE(θ̂n (Tn )) → 0 lorsque n tend vers l’infini. De
(1)
(2)
même, dans la situation ii), on ne peut pas comparer les estimateurs θ̂n (Tn ) et θ̂n (Tn ) si β2 = θ .
Les comparaisons ci-dessus sont uniquement valables asymptotiquement. Afin de voir si elles
sont aussi valides pour une taille d’échantillon finie, nous simulons N = 200 échantillons de taille
(1)
n = 500 d’une loi Γ(0.5, 1). Pour chaque échantillon, nous calculons les estimateurs θ̂n,i (Tn ),
(2)
(3)
θ̂n,i (Tn ) et θ̂n,i (Tn ) (i = 1, . . . , N) pour différentes valeurs de kn . Nous en déduisons les erreurs
en moyenne quadratique empiriques définies par :
1 N
( j)
(θ̂n,i (Tn ) − θ )2 , j = 1, 2, 3.
∑
N i=1
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
110
L. Gardes & S. Girard
Ces erreurs empiriques sont comparées aux erreurs asymptotiques des trois estimateurs données
par l’équation (15). Les résultats sont présentés dans la Figure 2 où l’on s’aperçoit que le
comportement des erreurs empiriques et celui des erreurs asymptotiques sont très similaires. Les
résultats de comparaison des trois estimateurs données dans le Théorème 1 semblent donc aussi
utilisables pour une taille d’échantillon finie. D’autres simulations avec différentes lois ont été
faites (voir Gardes and Girard (2006)) conduisant à la même conclusion.
3.1.3. Un estimateur de θ débiaisé
Considérons à présent un estimateur débiaisé de l’indice de queue de Weibull θ . Il est basé sur
un modèle de régression exponentiel inspiré de ceux proposés par Beirlant et al. (1999, 2002) et
Feuerverger and Hall (1999) afin d’estimer l’indice des valeurs extrêmes pour des lois du domaine
d’attraction de Fréchet. Plus précisément, on définit les variables aléatoires
Z j = j log(n/ j)(log(Xn− j+1,n ) − log(Xn− j,n )), j = 1, . . . , kn .
Le modèle suivant peut être établi (Diebolt et al., 2008a, Corollaire 2.1) :
log(n/kn )
b(log(n/kn )) f j + oP (b(log(n/kn ))), j = 1, . . . , kn
Zj = θ +
log(n/ j)
(16)
où f j , j = 1, . . . , kn sont des variables aléatoires indépendantes de loi exponentielle de paramètre 1 et le terme oP (b(log(n/kn ))) ne dépend pas de j. On obtient à partir du modèle (16)
l’approximation
Z j ≈ θ + b(log(n/kn ))x j + η j , j = 1, . . . , kn
(17)
où η j est un terme d’erreur aléatoire centré et x j = log(n/kn )/ log(n/ j). En estimant les paramètres θ et b(log(n/kn )) du modèle de régression linéaire (17) par la méthode des moindres
carrés ordinaires, on obtient un estimateur de θ débiaisé :
θ̂nD =
1
kn
kn
∑ Zj −
j=1
b̂(log(n/kn ))
kn
kn
∑ x j,
(18)
j=1
où
kn
b̂(log(n/kn )) =
∑
j=1
1
xj −
kn
kn
∑ xj
j=1
!
,
Zj
kn
∑
j=1
1
xj −
kn
kn
∑ xj
!2
.
(19)
j=1
La normalité asymptotique de θ̂nD est donnée par le résultat ci-dessous (voir (Diebolt et al., 2008a,
Théorème 3.1)).
Théorème 7. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
satisfaites. Supposons de plus que la fonction b(.) est telle que x|b(x)| → ∞ lorsque x → ∞ avec
1/2
kn
b(log(n/kn )) → Λ̃ ∈ R.
log(n/kn )
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
111
1/2
log2 (kn )
kn
Supposons enfin que, si Λ̃ = 0,
→ 0 et
→ ∞. On a :
log(n/kn )
log(n/kn )
1/2
kn
d
(θ̂ D − θ ) → N (0, θ 2 ).
log(n/kn ) n
L’hypothèse x|b(x)| → ∞ implique que dans la condition (H.2) la vitesse de convergence est lente
(et plus particulièrement que ρ ≥ −1). Les estimateurs non débiaisés de θ auront donc tendance à
avoir un biais important dans ce cas. On peut montrer (voir Table 2) que les lois normale, Gamma
satisfont cette hypothèse mais pas les lois de Weibull. En prenant Λ 6= 0 dans les Théorèmes 5
et 6 et Λ̃ 6= 0 dans le Théorème 7, on montre que l’estimateur débiaisé θ̂nD (voir l’équation (18))
admet la même vitesse de convergence que les estimateurs des familles Θ1 et Θ2 avec en plus un
biais asymptotique nul.
3.1.4. Illustration sur simulations
Nous effectuons une simulation afin de comparer le comportement de l’estimateur non débiaisé
θ̂nB (voir l’équation (10)) avec celui de l’estimateur débiaisé θ̂nD (voir l’équation (18)). Nous
générons N = 100 échantillons de taille n = 500 selon une loi normale centrée et réduite (pour
laquelle θ = 1/2). En fonction du nombre de statistiques ordonnées kn , nous comparons sur
la Figure 3 les moyennes empiriques des deux estimateurs ainsi que leurs erreurs moyennes
quadratiques empiriques. Nous notons un bon comportement de l’estimateur débiaisé en terme
de biais ainsi qu’en terme de variance. La méthode de débiaisage proposée semble donc efficace
à taille d’échantillon finie. Des simulations sur d’autres lois ont confirmé ce bon comportement
(voir (Diebolt et al., 2008a, Section 4)).
3.1.5. Choix du nombre kn de statistiques d’ordre
En ne tenant pas compte du terme de biais dans le modèle de régression (16), on obtient un
estimateur non débiaisé de θ défini par :
1
kn
kn
∑ Z j.
j=1
L’erreur moyenne quadratique asymptotique (AMSE) de cet estimateur est donnée par (Diebolt
et al., 2008a, Théorème 2.2) :
!2
θ2
b(log(n/kn )) kn log(n/kn )
+
AMSE(kn ) =
.
∑
kn
kn
j=1 log(n/ j)
Un choix possible pour kn est alors de prendre knopt = arg minkn AMSE(kn ). Nous pouvons estimer
\ n ) obtenue en remplaçant θ et b(log(n/kn ) par les estimateurs
cette erreur par la quantité AMSE(k
D
θ̂n et b̂(log(n/kn ) définis précédemment (voir les équations (18) et (19)). Le nombre knopt est
estimé par :
\ n ).
k̂n = arg min AMSE(k
kn
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
112
L. Gardes & S. Girard
AMSE
MSE
0.00
0.05
0.10
0.15
0.20
0.00
0.25
0.05
0.10
0.15
0.20
0.25
0
0
50
50
100
k
k
150
100
200
150
250
(1)
(2)
(3)
F IGURE 2. Comparaison des estimateurs θ̂n (Tn ) (trait plein), θ̂n (Tn ) (tirés) et θ̂n (Tn ) (pointillés). En abscisse,
kn et en ordonnée les erreurs moyenne quadratique empiriques (gauche) et asymptotiques (droite).
F IGURE 3. Comparaison des estimateurs θ̂nD (×) et θ̂nB (). En abscisse, kn et en ordonnée les erreurs en moyenne
quadratique empiriques (gauche) et asymptotiques (droite).
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
113
Comme l’ont fait remarquer récemment Asimit et al. (2010), AMSE(kn ) ∼ θ 2 /kn + b2 (log(n)).
Ainsi, la sélection du nombre d’observations kn n’est pas justifiée théoriquement puisque knopt ∼ n.
Cependant, les simulations effectuées dans (Diebolt et al., 2008a, Section 4) montrent que
l’utilisation de la valeur k̂n pour estimer l’indice θ conduit à de bons résultats. Une méthode
alternative a récemment été proposée Mercadier and Soulier (2011) basée sur les idées de Drees
and Kaufmann (1998) elles-mêmes inspirées d’une variante de la méthode de Lepski et al. (1997).
3.2. Estimation de quantiles extrêmes
Toujours pour des lois à queue de type Weibull, nous nous intéressons à présent au problème
d’estimation d’un quantile extrême q(αn ) lorsque l’ordre αn converge vers zéro. Le principal
estimateur de q(αn ) disponible dans la littérature a été proposé par Beirlant et al. (1996). Il est
basé sur l’approximation (11) qui assure que pour n assez grand, on a sous l’hypothèse (H.1) :
log q(αn ) ≈ θ log log(1/αn ) et log q(kn /n) ≈ θ log log(n/kn ).
En soustrayant membre à membre les deux approximations ci-dessus et en appliquant la fonction
exponentielle, on montre facilement que :
log(1/αn )
q(αn ) ≈ q(kn /n)
log(n/kn )
θ
.
En estimant q(kn /n) par Xn−kn +1,n qui est le quantile associé à la fonction de répartition empirique
et θ par θ̂nB (voir équation (10)), Beirlant et al. (1996) proposent l’estimateur suivant :
B
q̂ (αn ) = Xn−kn +1,n
log(1/αn )
log(n/kn )
θ̂nB
.
La construction de cet estimateur est similaire à celle de l’estimateur proposé par Weissman
(1978) (voir équation (4)) pour des lois du domaine d’attraction de Fréchet. Un autre estimateur
de q(αn ) a été proposé par Beirlant et al. (1995). Il est défini par :
B∗
q̂ (αn ) = Xn−kn +1,n
σ̂n log(kn /(nαn ))
1+
θ̂nB∗ Xn−kn +1,n
!θ̂nB∗
,
avec
σ̂n =
log n/kn
1 kn −1
∑ (Xn−i+1,n − Xn−kn +1,n ) et θ̂nB∗ = Xn−k +1,n σ̂n .
kn − 1 i=1
n
Etant donné que
1+
σ̂n log(kn /(nαn )) log(1/αn )
,
=
log(n/kn )
θ̂nB∗ Xn−kn +1,n
l’estimateur q̂B∗ (αn ) est en fait l’estimateur q̂B (αn ) pour lequel l’indice θ n’est pas estimé par
θ̂nB mais par θ̂nB∗ . L’étude du comportement asymptotique de ces deux estimateurs peut alors être
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
114
L. Gardes & S. Girard
unifiée Gardes and Girard (2005). Plus généralement, intéressons-nous à la famille d’estimateurs
du quantile extrême q(αn ) définie par
Qαn = {q̂(αn , θ̂n ), θ̂n estimateur de θ },
avec
q̂(αn , θ̂n ) = Xn−kn +1,n τnθ̂n , τn =
log(1/αn )
,
log(n/kn )
(20)
où θ̂n est un estimateur quelconque de θ .
3.2.1. Etude de la famille d’estimateurs Qαn
Nous nous proposons d’établir la loi asymptotique des estimateurs de la famille Qαn . Deux
situations peuvent se présenter : soit l’estimateur θ̂n converge rapidement vers θ de telle sorte
que la loi asymptotique de q̂(αn , θ̂n ) est donnée par celle de la statistique d’ordre Xn−kn +1,n . Cette
situation se présente lorsque la condition ci-dessous est satisfaite :
P
1/2
(H.5) Il existe une suite βn telle que log(n/kn )kn (θ̂n − βn − θ ) → 0.
1/2
Soit la vitesse de convergence de θ̂n vers θ est inférieure à log(n/kn )kn et dans ce cas la loi
asymptotique est celle de l’estimateur de l’indice θ . Cette situation est décrite par la condition
(H.6) Il existe deux suites ϑn et βn ainsi qu’une loi non dégénérée D telles que :
d
1/2
ϑn = o(log(n/kn )kn ) et ϑn (θ̂n − βn − θ ) → D.
Dans les deux situations, la suite (βn ) représente le biais asymptotique de l’estimateur de l’indice θ .
Le théorème suivant établit la loi asymptotique des estimateurs de la famille {q̂(αn , θ̂n )} dans les
deux situations décrites ci-dessus. Ce résultat est énoncé et démontré dans (Gardes and Girard,
2005, Théorème 2).
Théorème 8. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
satisfaites. Si τn → τ ∈]1, ∞[ alors :
1/2
• sous la condition (H.5) et si kn log(n/kn )b(log(n/kn )) → 0,
1/2
log(n/kn )kn τ −βn
q̂(αn , θ̂n )
− τnβn
q(αn )
!
d
→ N (0, θ 2 ).
• sous la condition (H.6) et si ϑn b(log(n/kn )) → 0,
ϑn −βn
τ
log(τ)
q̂(αn , θ̂n )
− τnβn
q(αn )
!
d
→ D.
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
115
Le meilleur estimateur du quantile extrême q(αn ) est obtenu en utilisant un estimateur de θ satisfaisant l’hypothèse (H.5) avec βn = 0. Malheureusement, à notre connaissance, un tel estimateur
de θ n’existe pas. A titre d’exemple, l’estimateur de θ proposé par Broniatowski (1993) satisfait
la condition (H.5) mais avec un biais asymptotique βn non nul. Pour la grande majorité des
estimateurs de l’indice θ (notamment ceux introduits dans le paragraphe 3.1), c’est la condition
(H.6) qui est satisfaite avec un biais asymptotique pouvant être annulé.
La condition τn → τ ∈]1, ∞[ implique que l’on peut choisir un ordre αn proportionnel à n−τ . Ainsi,
plus τ est grand plus le quantile estimable est extrême. En contre partie, une grande valeur de τ
augmente la variance asymptotique de l’estimateur dans les deux situations.
On peut montrer que lorsque la condition (H.6) est satisfaite avec un biais asymptotique βn = 0, la
vitesse de convergence de q̂(αn , θ̂n ) est de l’ordre de (log(n))−ρ−ε où ε ∈]0, −ρ[ peut être choisi
aussi petit que l’on veut.
3.2.2. Un estimateur de q(αn ) débiaisé
Pour proposer un estimateur débiaisé du quantile extrême q(αn ), on se base sur le résultat suivant
établi dans Diebolt et al. (2008b) : sous la condition (H.2), si τn → τ ∈]1, ∞[, on a lorsque n → ∞
q(αn ) ∼ q(kn /n)τnθ exp{b(log(n/kn ))Kρ (τn )}.
En estimant q(kn /n) par la statistique d’ordre Xn−kn +1,n , θ par θ̂nD (voir équation (18)), b(log(n/kn ))
par b̂(log(n/kn )) (voir équation (19)) et ρ par un estimateur ρ̂n , on obtient l’estimateur
θ̂ D
Xn−kn +1,n τn n exp{b̂(log(n/kn ))Kρ̂n (τn )}.
Si on néglige le terme de correction exp{b̂(log(n/kn ))Kρ̂n (τn )} dans l’expression ci-dessus, on
retrouve l’estimateur non débiaisé q̂(αn , θ̂nD ) appartenant à la famille Qαn (voir équation (20)).
Concernant le paramètre ρ, plusieurs estimateurs ont été proposés pour des modèles différents
(citons les travaux de Gomes (2002), Gomes et al. (2007), Feuerverger and Hall (1999), Peng
and Yongcheng (2004) et Beirlant et al. (1999)). Le résultat suivant (voir (Diebolt et al., 2008b,
Théorème 1)), montre que l’on peut remplacer ρ̂n par une valeur arbitraire ρ \ < 0 et obtenir un
estimateur
θ̂ D
q̂D (αn ) = Xn−kn +1,n τn n exp{b̂(log(n/kn ))Kρ \ (τn )}
asymtotiquement normal.
Théorème 9. On se place sous le modèle (8) et on suppose que les conditions (H.1) et (H.2) sont
satisfaites. Supposons que la fonction b(.) est telle que x|b(x)| → ∞ lorsque x → ∞ avec
1/2
kn
b(log(n/kn )) → Λ̃ ∈ R.
log(n/kn )
1/2
log2 (kn )
kn
Supposons de plus que, si Λ̃ = 0,
→ 0 et
→ ∞. Alors, si τn → τ ∈]1, ∞[ on
log(n/kn )
log(n/kn )
a:
D
1/2
kn
q̂ (αn )
d
− 1 → N (Λ̃µ(τ), θ 2 σ 2 (τ)),
log(n/kn ) q(αn )
avec σ 2 (τ) = (Kρ \ (τ) − log(τ))2 et µ(τ) = (Kρ \ (τ) − Kρ (τ))2 .
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
116
L. Gardes & S. Girard
Si Λ̃ 6= 0 et si ρ \ = ρ alors l’estimateur q̂D (αn ) est sans biais avec une vitesse de convergence
\
de l’ordre de log−ρ (n)`∗ (log(n)) où `∗ (.) est une fonction à variations lentes. Cette vitesse est
meilleure que celle obtenue pour les estimateurs de la famille Qαn lorsque θ̂n satisfait l’hypothèse
(H.6) avec un biais asymptotique βn = 0. Evidemment un mauvais choix de ρ \ conduit à un
estimateur du quantile extrême biaisé. Notons cependant que les lois à queue de type Weibull
usuelles (loi normale, Gamma) ont un paramètre du second ordre ρ = −1. En pratique, on prendra
donc une valeur ρ \ égale à −1.
4. Pour aller plus loin
Dans cet article, nous nous sommes intéressés à la famille des lois à queue de type Weibull.
Ce type de lois interviennent dans de nombreuses applications (hydrologie notamment), des
publications récentes leur sont consacrées. Citons par exemple Dierckx et al. (2009) qui utilisent
la moyenne des excès au-dessus d’un seuil pour estimer l’indice de queue de Weibull et Goegebeur
and Guillou (2010) qui proposent des tests d’adéquation pour ces types de lois.
Nous avons étudié plusieurs estimateurs de l’indice de queue et de quantiles extrêmes. On
aura pu remarquer la grande similarité entre les estimateurs de l’indice de queue de Weibull
(équation (10) par exemple) avec l’estimateur de Hill (3) dédié à l’indice des valeurs extrêmes
dans le cas de lois à queues lourdes. Pour expliquer ce phénomène, une famille de lois englobant
notamment les lois du domaine d’attraction de Fréchet et les lois à queue de type Weibull a été
introduite récemment Gardes et al. (2011). La fonction de survie de ces lois est donnée par
F̄(x) = exp −Kτ−1 (log(x1/θ `(x)) ,
(21)
où θ > 0, `(.) est une fonction à variations lentes et on rappelle que
Z x
Kτ (x) =
uτ−1 du, τ ∈ [0, 1].
1
Ainsi, si τ = 0, F̄(.) est la fonction de survie d’une loi à queue de type Weibull d’indice θ . Si
τ = 1, la fonction de survie est celle d’une loi du domaine d’attraction de Fréchet avec pour indice
des valeurs extrêmes θ . Les valeurs intermédiaires de τ permettent d’inclure par exemple la loi
lognormale.
Si τ est connu, le paramètre θ du modèle (21) est estimé par
θ̌n =
1 kn −1
1
∑ (log(Xn−i+1,n ) − log(Xn−kn +1,n )),
µ1,τ (log(n/kn )) kn − 1 i=1
avec pour t > 0,
Z ∞
µ1,τ (t) =
0
(Kτ (x + t) − Kτ (t)) e−x dx.
La normalité asymptotique de cet estimateur est établie dans (Gardes et al., 2011, Théorème
1). On retrouve comme cas particuliers les résultats de normalité de l’estimateur de l’indice des
valeurs extrêmes proposé par Hill (1975) et l’estimateur de l’indice de queue de Weibull proposé
par Beirlant et al. (1996). Un estimateur des quantiles extrêmes est également introduit :
q̌n (αn ) = Xn−kn +1,n exp θ̌n [Kτ (log(1/αn )) − Kτ (log(n/kn ))] .
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
Estimation de quantiles extrêmes pour les lois à queue de type Weibull : une synthèse bibliographique
117
et sa normalité asymptotique est établie dans (Gardes et al., 2011, Théorème 2). En pratique, le
paramètre τ est inconnu. Un estimateur est proposé dans Methni et al. (2012). Ses propriétés
asymptotiques sont établies ainsi que les conséquences de son estimation sur la loi limite des
estimateurs θ̌n et q̌n (αn ). Ces travaux ouvrent la porte à la construction de tests d’hypothèses pour
les queues de distributions. Pour un jeu de données réelles, on pourrait notamment décider s’il est
issu d’une loi à queue lourde ou d’une loi à queue de type Weibull.
Références
Abramowitz, M. and Stegan, J. (1972). Handbook of Mathematical Functions with Formulas, Graphs and Mathematical
Tables. Dover, New York.
Asimit, V., Li, D., and Peng, L. (2010). Pitfalls in using Weibull tailed distributions. Journal of Statistical Planning
and Inference, 140 :2018–2024.
Beirlant, J., Bouquiaux, C., and Werker, B. (2006). Semiparametric lower bounds for tail index estimation. Journal of
Statistical Planning and Inference, 136 :705–729.
Beirlant, J., Broniatowski, M., Teugels, J., and Vynckier, P. (1995). The mean residual life function at great age :
applications to tail estimation. Journal of Statistical Planning and Inference, 45 :21–48.
Beirlant, J., Dierckx, G., Goegebeur, Y., and Matthys, G. (1999). Tail index estimation and an exponential regression
model. Extremes, 2 :177–200.
Beirlant, J., Dierckx, G., Guillou, A., and Stǎricǎ, C. (2002). On exponential representations of log-spacings of extreme
order statistics. Extremes, 5 :157–180.
Beirlant, J. and Teugels, J. (1992). Modelling large claims in non-life insurance. Insurance : Mathematics and
Economics, 11 :17–29.
Beirlant, J., Teugels, J., and Vynckier, P. (1996). Practical analysis of extreme values. Leuven University Press,
Leuven, Belgium.
Berred, M. (1991). Record values and the estimation of the Weibull tail-coefficient. Comptes-Rendus de l’Académie
des Sciences, T. 312, Série I :943–946.
Bingham, N., Goldie, C., and Teugels, J. (1987). Regular Variation. Cambridge University Press.
Brodin, E. and Rootzén, H. (2009). Univariate and bivariate gpd methods for predicting extreme wind storm losses.
Insurance : Mathematics and Economics, 44 :345–356.
Broniatowski, M. (1993). On the estimation of the Weibull tail coefficient. Journal of Statistical Planning and
Inference, 35 :349–366.
Csörgő, S., Deheuvels, P., and Mason, D. (1985). Kernel estimates of the tail index of a distribution. The Annals of
Statistics, 13 :1050–1077.
Csörgő, S. and Viharos, L. (1998). Estimating the tail index. In Szyszkowicz, B., editor, Asymptotic Methods in
Probability and Statistics, pages 833–881. TEST, North-Holland, Amsterdam.
de Haan, L. and Ferreira, A. (2006). Extreme value theory : an introduction. Springer.
Diebolt, J., Gardes, L., Girard, S., and Guillou, A. (2008a). Bias-reduced estimators of the Weibull tail-coefficient.
Test, 17 :311–331.
Diebolt, J., Gardes, L., Girard, S., and Guillou, A. (2008b). Bias-reduced extreme quantiles estimators of Weibull
tail-distributions. Journal of Statistical Planning and Inference, 138 :1389–1401.
Dierckx, G., Beirlant, J., Waal, D. D., and Guillou, A. (2009). A new estimation method for Weibull-type tails based
on the mean excess function. Journal of Statistical Planning and Inference, 139(6) :1905–1920.
Ditlevsen, O. (1998). Distribution arbitrariness in structural reliability. In Balkema, editor, Structural Safety and
Reliability, pages 1241–1247. TEST, Rotterdam.
Drees, H. and Kaufmann, E. (1998). Selecting the optimal sample fraction in univariate extreme value estimation.
Stochastic process and Application, 75 :149–172.
Embrechts, P., Klüppelberg, C., and Mikosch, T. (1997). Modelling extremal events. Springer.
Falk, M. (1995). Some best parameter estimates for distributions with finite endpoint. Statistics, 27 :115–125.
Falk, M. and Marohn, F. (1997). Efficient estimation of the shape parameter in Pareto models with partially known
scale. Statistics & Decisions, 15 :229–239.
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238
118
L. Gardes & S. Girard
Feuerverger, A. and Hall, P. (1999). Estimating a tail exponent by modelling departure from a Pareto distribution. The
Annals of Statistics, 27 :760–781.
Gardes, L. and Girard, S. (2005). Estimating extreme quantiles of Weibull tail-distributions. Communication in
Statistics - Theory and Methods, 34 :1065–1080.
Gardes, L. and Girard, S. (2006). Comparison of Weibull tail-coefficient estimators. REVSTAT - Statistical Journal,
4(2) :163–188.
Gardes, L. and Girard, S. (2008). Estimation of the Weibull tail-coefficient with linear combination of upper order
statistics. Journal of Statistical Planning and Inference, 138 :1416–1427.
Gardes, L., Girard, S., and Guillou, A. (2011). Weibull tail-distributions revisited : a new look at some tail estimators.
Journal of Statistical Planning and Inference, 141(1) :429–444.
Geluk, J. and Haan, L. D. (1987). Regular variation, extensions and Tauberian theorems. Center for Mathematics and
Computer Science, Amsterdam, Netherlands.
Girard, S. (2004). A Hill type estimate of the Weibull tail-coefficient. Communication in Statistics - Theory and
Methods, 33(2) :205–234.
Girard, S., Guillou, A., and Stupfler, G. (2012). Estimating an endpoint with high order moments in the Weibull
domain of attraction. Statistics and Probability Letters, 82 :2136–2144.
Gnedenko, B. (1943). Sur la distribution limite du terme maximum d’une série aléatoire. The Annals of Mathematics,
44 :423–453.
Goegebeur, Y., Beirlant, J., and de Wet, T. (2010). Generalized kernel estimators for the Weibull-tail coefficient.
Communications in Statistics - Theory and Methods, 39(20) :3695–3716.
Goegebeur, Y. and Guillou, A. (2010). Goodness-of-fit testing for Weibull-type behavior. Journal of Statistical
Planning and Inference, 140(6) :1417–1436.
Gomes, M. (2002). Asymptotic unbiased estimators of the tail index based on external estimation of the second order
parameter. Extremes, 5(1) :5–31.
Gomes, M., Martins, M., and Neves, M. (2007). Improving second order reduced bias extreme value index estimation.
REVSTAT - Statistical Journal, 5(2) :177–207.
Hall, P. and Park, B. (2002). New methods for bias correction at endpoints and boundaries. The Annals of Statistics,
30(5) :1460–1479.
Hill, B. (1975). A simple general approach to inference about the tail of a distribution. The Annals of Statistics,
3 :1163–1174.
Kratz, M. and Resnick, S. (1996). The qq-estimator and heavy tails. Stochastic Models, 12 :699–724.
Lepski, O., Mammen, E., and Spokoiny, V. (1997). Optimal spatial adaption to inhomogeneous smoothness : an
approach based on kernel estimates with variable bandwidth selectors. The Annals of Statistics, 25 :929–947.
Mason, D. (1981). Asymptotic normality of linear combinations of order statistics with a smooth score function. The
Annals of Statistics, 9(4) :899–908.
Mercadier, C. and Soulier, P. (2011). Optimal rates of convergence in the Weibull model based on kernel-type
estimators. Statistics and Probability Letters, 82 :548–556.
Methni, J. E., Gardes, L., Girard, S., and Guillou, A. (2012). Estimation of extreme quantiles from heavy and light
tailed distributions. Journal of Statistical Planning and Inference, 142(10) :2735–2747.
Peng, L. and Yongcheng, Q. (2004). Estimating the first and second order parameters of a heavy tailed distribution.
Australian and New Zealand Journal of Statistics, 46(2) :305–312.
Resnick, S. (1987). Extreme values, regular variation and point processes. Springer Series in Operations Research and
Financial Engineering.
Rootzén, H. and Tajvidi, T. (2001). Can losses caused by wind storms be predicted from meteorological observations ?
Scandinavian Actuarial Journal, 5 :162–175.
Schultze, J. and Steinebach, J. (1996). On least squares estimates of an exponential tail coefficient. Statistics and
Decisions, 14 :353–372.
Weissman, I. (1978). Estimation of parameters and large quantiles based on the k largest observations. Journal of the
American Statistical Association, 73 :812–815.
Journal de la Société Française de Statistique, Vol. 154 No. 2 98-118
http://www.sfds.asso.fr/journal
© Société Française de Statistique et Société Mathématique de France (2013) ISSN: 2102-6238

Documents pareils