Minimisation de l`entropie relative par méthode de Monte

Transcription

Minimisation de l`entropie relative par méthode de Monte
C. R. Acad. Sci. Paris, t. 332, Série I, p. 345–350, 2001
Probabilités/Probability Theory
Minimisation de l’entropie relative par méthode
de Monte-Carlo
Benjamin JOURDAIN a , Laurent NGUYEN a,b
a
ENPC-CERMICS, 6-8, avenue Blaise-Pascal, cité Descartes, Champs-sur-Marne,
77455 Marne-la-Vallée cedex 2, France
Courriel : [email protected], [email protected]
b
CIC, 6, avenue de Provence, 75009 Paris, France
Courriel : [email protected]
(Reçu le 3 novembre 2000, accepté après révision le 4 janvier 2001)
Résumé.
n
Soit µn = n1
δ la mesure empirique associée à une suite (Xi )i1 de v.a. i.i.d.
i=1 Xi
suivant une probabilité µ sur un espace polonais S. Nous donnons une c.n.s. pour que p.s.,
il existe à partir d’un certain rang
une probabilité νn qui minimise l’entropie relative par
rapport à µn sous la contrainte S f dνn = 0, où f : S → Rd . Puis nous montrons que sous
cette condition, p.s. νn converge étroitement vers la solution généralisée ν du problème
de minimisation de l’entropie relative par rapport à µ sous la même contrainte.  2001
Académie des sciences/Éditions scientifiques et médicales Elsevier SAS
Monte-Carlo approximation of minimum entropy measures
Abstract.
n
Let µn = n1
δ denote the empirical measure associated with a sequence (Xi )i1
i=1 Xi
of r.v. i.i.d. according to a probability measure µ on a Polish space S. We give a necessary
and sufficient condition for the a.s. existence of N such that, for all n N , there is a
probabilitymeasure νn which minimizes the relative entropy with respect to µn under the
constraint S f dνn = 0, where f : S → Rd . Under this condition, we prove that a.s. νn
converges weakly to the generalized solution ν of the minimization of the entropy with
respect to µ constrained problem.  2001 Académie des sciences/Éditions scientifiques et
médicales Elsevier SAS
Abridged English version
This Note is dedicated to the study of the consistency of the calibration method proposed by Avellaneda
et al. [2] in a financial context. From a mathematical point of view, they suggest to solve the following
constrained minimization problem:
(Pn ) find νn ∈ P(S) minimizing H(νn | µn ) under the constraint
f dνn = 0,
S
Note présentée par Marc YOR.
S0764-4442(01)01835-3/FLA
 2001 Académie des sciences/Éditions scientifiques et médicales Elsevier SAS. Tous droits réservés.
345
B. Jourdain, L. Nguyen
where P(S) is the space of probability measures on a Polish space S, f : S → Rd is Borel, and for
dν
dν when ν is
ν, ν ∈ P(S), the relative entropy H(ν | ν ) of ν with respect to ν is equal to S ln dν
absolutely continuous with respect to ν and to +∞ otherwise. To ensure the consistency of the approach
proposed in [2], it is at least necessary that νn converges weakly as n → +∞. Of course, in the study of the
asymptotic behaviour of νn , the following problem:
f dν = 0,
(PL) find ν ∈ P(S) minimizing H(ν | µ) under the constraint
S
appears naturally. By strict convexity of the entropy, uniqueness holds
for (Pn ) and (PL). According to
Csiszar [1], in case there exists η ∈ P(S) with H(η | µ) < +∞ and S f dη = 0, then there are a subspace
E of Rd and θ ∈ E such that 0 < S 1E (f (x)) eθ·f (x) dµ(x) < +∞ and any minimizing sequence for
problem (PL) converges in variation to the Boltzmann distribution
dµθE (x) = 1E f (x) eθ·f (x) dµ(x)
1E f (y) eθ·f (y) dµ(y).
S
The measure
is the only possible solution of (PL). But it may happen that S f dµθE = 0. We then say
that µθE is the generalized solution of (PL).
The next lemma gives a necessary condition such that with positive probability, for some n 1, (Pn ) has
a solution:
L EMMA 1. – If P(∃n 1 and ηn ∈ P(S) such that H(ηn | µn ) < +∞ and S f dηn = 0) > 0, then
there is a subspace E of Rd such that if µf|E denotes the restriction to E of the image of µ by f ,
f 
the interior in E of the convex hull of the support of µf|E ,

 0 ∈ IntE Conv Supp µ|E

 −1
η f (E) = 1 for any η ∈ P(S) absolutely continuous with respect to µ
(C)



 and such that
f dη = 0.
µθE
S
From now on we suppose that condition (C) is satisfied for E. This enables
us to show that there
is a unique θ∗ ∈ E which minimizes the Laplace transform θ ∈ E → Z(θ) = 1E (f (x)) eθ·f (x) dµ(x).
Using [3], we deduce that the generalized solution of (PL) exists and is characterized as follows:
P ROPOSITION 2. – Under (C), the generalized solution of problem (PL) is the probability measure
dµθE∗ (x) = 1E (f (x)) eθ∗ ·x dµ(x)/ S 1E (f (y)) eθ∗ ·y dµ(y).
Moreover, if θ∗ ∈ IntE {θ ∈ E, Z(θ) < +∞} , µθE∗ satisfies the constraint S f dµθE∗ = 0.
Our main result is the following convergence theorem:
T HEOREM 3. – Under (C), a.s., there exists N ∈ N∗ such that, for all n N , the solution νn of (Pn )
exists and the sequence (νn )nN converges weakly to the generalized solution µθE∗ of (PL).
Sketch of the proof. – Using 0 ∈ IntE Conv Supp µf|E , we check that a.s. there exists N ∈ N∗ such
that, for all n N , 0 ∈ IntE Conv {f (Xi ), 1 i n} ∩ E . Moreover, for n N , the solution of (Pn )
exists and is equal to
n
θn ·f (Xi )
δXi
i=1 1E (f (Xi )) e
νn = ,
n
θn ·f (Xi )
1
(f
(X
))
e
i
i=1 E
n
where θn is the unique element of E which minimizes the Laplace transform Zn : θ ∈ E → i=1 1E (f (Xi ))
and the strong law of large numbers, we obtain that
× eθ·f (Xi ) . Combining 0 ∈ IntE Conv Supp µf|E
a.s. the sequence (θn )n is bounded. For fixed ω in the underlying probability space, let θ∞ denote the limit
346
Minimisation de l’entropie relative par méthode de Monte-Carlo
of a converging subsequence that we still index by n for simplicity. The constraint S f dνn = 0 provides an
integrability property which enables us to take the limit n → +∞ in the inequality n1 Zn (θ∗ ) n1 Zn (θn ) to
obtain Z(θ∗ ) Z(θ∞ ). Since θ∗ is the unique element of E which minimizes Z, we deduce that θ∞ = θ∗ .
Hence a.s., θn −→ θ∗ . We conclude by using again the integrability property. ✷
n→+∞
√
Remark 4. – In case S√= R, µ is lognormal with density 1{x>0} exp(− ln(x)2 /2)/x 2π and f (x) =
x − c with c > E(X1 ) = e (example inspired from the Call option in the Black–Scholes model in finance),
the generalized solution of (PL) is µ and does not satisfy the constraint.
Introduction. – Dans un contexte financier, Avellaneda et al. [2] ont proposé une approche de type
Monte-Carlo pour obtenir à partir d’une probabilité a priori µ sur l’espace S (supposé polonais dans la
suite) des scenarii d’évolution possible du marché, une probabilité a posteriori compatible avec les prix de
marché C1 , . . . , Cd de d actifs financiers définis par les fonctions de payoff f1 , . . . , fd : S → R supposées
boréliennes. Pour (Xi )i1 une suite de v.a. i.i.d. suivant µ définie sur (Ω, A, P), ces auteurs
n suggèrent
d’affecter aux n premières variables
X
,
.
.
.
,
X
des
poids
positifs
p
,
1
i
n,
avec
1
n
i
i=1 pi = 1 tels
n
que : pour tout j, 1 j d, Cj = i=1 pi fj (Xi ). Si on considère que le choix de la probabilité a priori
permet d’intégrer l’idée que l’on se fait de l’évolution du marché, il est souhaitable de choisir parmi les
pondérations vérifiant ces contraintes celle qui est la plus
proche de la pondération uniforme pi = 1/n. Le
n
critère proposé à cet effet dans [2] est la minimisation de i=1 pi ln(pi ) qui
revient à minimiser l’entropie
n
relative de νn = i=1 pi δXi par rapport à la mesure empirique µn = n1 ni=1 δXi . On rappelle que pour
dν ν, ν dans l’espace P(S) des probabilités sur S, H(ν | ν ) = S ln dν
dν si ν est absolument continue
par rapport à ν et vaut +∞ sinon. Quitte à retrancher (C1 , . . . , Cd ) à f = (f1 , . . . , fd ), l’approche décrite
plus haut revient à résoudre le problème :
(Pn ) trouver νn ∈ P(S) qui minimise H(νn | µn ) sous la contrainte
f dνn = 0,
S
où 0 désigne l’origine de R . Notons que par stricte convexité de l’entropie, ce problème admet au plus une
solution. L’objet de la présente Note est de déterminer à quelle condition avec probabilité non nulle il existe
N 1 tel que pour tout n N , (Pn ) admet une solution et d’étudier alors le comportement asymptotique
de cette solution lorsque n → +∞. La convergence étroite de la suite (νn )nN est en effet une condition
de robustesse minimale que l’on peut demander à l’approche de [2].
Dans cette étude, le problème limite :
(PL) trouver ν ∈ P(S) qui minimise H(ν | µ) sous la contrainte
f dν = 0
d
S
intervient naturellement. Par stricte convexité,
(PL) admet au plus une solution. D’après Csiszar [1], si il
existe η ∈ P(S) tel que H(η | µ) < +∞ et S f dη = 0, alors il existe un sous-espace E de Rd et θ ∈ E
vérifiant 0 < S 1E (f (x)) eθ·f (x) dµ(x) < +∞ tels que toute suite minimisante pour le problème (PL)
converge au sens de la norme en variation vers la distribution de Boltzmann
θ·f (x)
θ
dµ(x)
1E f (y) eθ·f (y) dµ(y).
dµE (x) = 1E f (x) e
S
Mais il se peut que S f dµθE = 0 ; on dit alors que µθE
Si (PL) admet une solution alors elle est égale à
est la solution généralisée de (PL).
Dans la première partie, nous donnons une condition nécessaire pour qu’avec probabilité strictement
positive, il existe n tel que (Pn ) admet une solution. Dans une seconde partie nous supposons que
µθE .
347
B. Jourdain, L. Nguyen
cette condition est satisfaite. Nous montrons alors que la solution généralisée de (PL) existe et nous la
caractérisons. Puis nous montrons que p.s. il existe N tel que, pour tout n N , (Pn ) admet une solution νn
qui converge étroitement vers la solution généralisée de (PL) lorsque n → +∞.
1. Condition nécessaire d’existence au problème (Pn )
Le lemme suivant donne une condition nécessaire pour qu’avec probabilité non nulle, il existe n tel que
(Pn ) admet une solution :
L EMME 1. – Pour que P(∃n 1 et ηn ∈ P(S) tel que H(ηn | µn ) < +∞ et S f dηn = 0) > 0, il faut
qu’il existe un sous-espace vectoriel E de Rd tel que si µf|E désigne la restriction à E de l’image de µ
par f ,

f f

 0 ∈ IntE Conv Supp µ|E , l’intérieur dans E de l’enveloppe convexe du support de µ|E ,
(C)

f dη = 0, η(f −1 (E)) = 1.
 pour tout η ∈ P(S) absolument continue par rapport à µ tel que
S
Éléments de démonstration. – Soit A = ∃n 1 et ηn ∈ P(S) tel que H(ηn |µn ) < +∞ etSn f dηn =
0 . On suppose
P(A) > 0. Pour ω ∈ A, ηn est absolument continue par rapport à µn , i.e. ηn = i=1 pi δXi
n
(avec pi 0 et i=1 pi = 1).
La construction de E s’effectue par une récurrence descendante sur la dimension d’un sous-espace
d
d
F
nde R que l’on initialise en posant F = R . Supposons que pour P-presque tout ω ∈ A, ηn =
1F (f (Xi ))pi δXi , propriété qui est bien sûr vérifiée à l’initialisation. Alors S f dηn =
i=1
n
i=1 1F (f (Xi ))pi f (Xi ) = 0, ce qui implique que 0 ∈ Conv {f (Xi ), i ∈ [1, n]} ∩ F . Comme p.s., pour
tout m 1,
Conv f (Xi ), i ∈ [1, m] ∩ F ⊂ Conv Supp µf|F ,
on en déduit que pour P-presque tout ω ∈ A,
(1)
0 ∈ Conv f (Xi ), i ∈ [1, n] ∩ F ⊂ Conv Supp µf|F .
f – Si 0 ∈ IntF Conv Supp µ|F
, on pose E = F .
f – Sinon 0 ∈ FrF Conv Supp µ|F
. Soit H un hyperplan d’appui de Conv Supp µf|F
en 0
f d’équation α · y = 0 avec α · y > 0 pour tout y ∈ Conv Supp µ|F H. Pour ω ∈ A tel que (1)
n
n
et ηn = i=1 1F (f (Xi ))pi δXi , comme α · S f dηn = 0 ce qui s’écrit aussi
n i=1 pi 1F (f (Xi ))α ·
f (Xi ) = 0, pi > 0 ⇒ f (Xi ) ∈ H. Ainsi, pour presque tout ω ∈ A, ηn = i=1 pi 1H (f (Xi ))δXi et
l’hypothèse de récurrence est vérifiée pour le sous-espace H avec dim(H) = dim(F ) − 1.
, E est bien
Comme lorsque F est de dimension nulle, Conv Supp µf|F = IntF Conv Supp µf|F
défini
par
ce
procédé.
Notons
que
nous
avons
également
montré
que,
pour
P-presque
tout
ω
∈ A, ηn =
n
1
(f
(X
))p
δ
et
E
i
i
X
i
i=1
ηn f −1 (E) = 1.
(2)
−1
Par une adaptation du raisonnement de récurrence descendante qui
précède, on montre que η(f (E)) = 1
si η est une probabilité absolument continue par rapport à µ t.q. S f dη = 0. ✷
2. Convergence vers la solution de (PL) sous cette condition
On suppose désormais que E est un sous-espace vectoriel de Rd tel que la condition nécessaire (C)
énoncée dans le lemme 1 est vérifiée. On peut vérifier que la somme vectorielle de tous les sous-espaces
de Rd qui satisfont la condition (C) la satisfait aussi, ce qui permet un choix canonique pour E. Comme
348
Minimisation de l’entropie relative par méthode de Monte-Carlo
0 ∈ IntE Conv Supp(µf|E , la transformée de Laplace θ ∈ E → Z(θ) = 1E (f (x)) eθ·f (x) dµ(x) est
strictement convexe sur E. Notons que inf θ∈E Z(θ) Z(0) 1. De toute suite (θn )n d’éléments de E non
bornée on peut extraire une sous-suite (θn )n telle que |θn | → +∞ et θn /|θn | → α. La condition 0 ∈
entraîne alors que limn Z(θn ) = +∞. Donc toute suite minimisante pour Z(θ)
IntE Conv Supp µf|E
est bornée et on peut en extraire une sous suite qui converge vers un élément θ∗ ∈ E. Par le lemme de Fatou,
Z(θ∗ ) = inf θ∈E Z(θ). La stricte convexité de Z(θ) entraîne l’unicité de θ∗ . D’après Jupp et al. [3], on en
déduit que la solution généralisée du problème (PL) où µ est remplacée par µE = µ|f −1 (E) /µ(f −1 (E))
θ∗ ·f (y)
existe et qu’elle est donnée par dµθE∗ (x) = 1E (f (x)) eθ∗ ·f (x) dµ(x)/
dµ(y). En
S 1E (f (y)) e
particulier, il existe une probabilité γ telle que H(γ | µE ) < +∞ et S f dγ = 0. Comme pour toute
probabilité η telle que η(f −1 (E)) = 1, on a H(η | µ) = H(η | µE ) − ln µ(f −1 (E)), on en déduit que
H(γ | µ) < +∞, donc que (PL) admet une solution généralisée. En outre, d’après le lemme 1, une suite
minimisante pour le problème (PL) est constituée de probabilités η telles que η(f −1 (E)) = 1. C’est donc
aussi une suite minimisante pour le problème (PL) où µ est remplacée par µE . Ainsi :
P ROPOSITION 2. – Sous (C), il y a existence de la solution généralisée du problème (PL)
est égale
et elle
θ∗
θ∗
une
condition
suffisante
pour
que
µ
soit
solution
de
(PL),
i.e.
vérifie
f
dµ
= 0, est
à µθE∗ . En outre,
E
E
S
que θ∗ ∈ IntE {θ ∈ E, Z(θ) < +∞} .
Si ϑ ∈ IntE {θ ∈ E, Z(θ) < +∞} , alors Zθ est C∞ au voisinage de ϑ et
∇θ Z(ϑ) = 1E f (x) f (x) eϑ·f (x) dµ(x).
S
La deuxième assertion de la proposition, s’obtient en écrivant la condition d’Euler d’optimalité en θ∗ .
La caractérisation de la solution généralisée de (PL) qui précéde va nous permettre d’obtenir le
comportement asymptotique de la solution de (Pn ) pour n → +∞ :
T HÉORÈME 3. – Sous (C), presque sûrement, il existe un rang N à partir duquel le problème (Pn ) admet
une solution νn et la suite (νn )nN converge étroitement vers la solution généralisée µθE∗ du problème (PL).
Éléments de démonstration. – La propriété 0 ∈ IntE Conv Supp µf|E
permet de montrer l’existence
de A0 tel que P(A0 ) = 1 et, pourtout ω ∈ A0 , il existe N tel que, pour tout n N , 0 ∈
IntE Conv {f (Xi ), 1 i n} ∩ E . En reprenant le raisonnement effectuée pour la proposition 2,
on obtient que pour ω ∈ A0 et n N , la solution
n généralisée du problème (Pn ) analogue à (Pn ) mais
n
avec µn remplacée par i=1 1E (f (Xi ))δXi / i=1 1E (f (Xi )) est
n
θn ·f (Xi )
δXi
i=1 1E (f (Xi )) e
νn = ,
n
θn ·f (Xi )
1
(f
(X
))
e
i
i=1 E
n
où θn est l’unique point où Zn : θ ∈ E → i=1 1E (f (Xi )) eθ·f (Xi ) atteint son minimum. En adaptant la
preuve du lemme 1 (voir (2)), on obtient A1 ⊂ A0 tel que P(A1 ) = 1 et, pour tout ω ∈ A1 , tout m 1 et
tout ηm ∈ P(S) tel que H(ηm | µm ) < +∞ et S f dηm = 0, ηm (f −1 (E)) = 1. Donc, pour tout ω ∈ A1
et tout n N , toute suite minimisante pour (Pn ) est aussi minimisante pour (Pn ), ce qui implique que la
solution généralisée de (Pn ) est νn . Comme, pour tout θ ∈ E, Zn (θ) < +∞, on a S f dνn = 0, i.e. νn est
solution classique de (Pn ).
Comme µ(f −1 (E)) > 0 et que S est polonais, en combinant des résultats sur la méthode du rejet et la
loi forte des grands nombres, on obtient A2 ⊂ A1 avec P(A2 ) = 1 tel que, pour tout ω ∈ A2 ,
n
1E (f (x)) eθ∗ ·f (x) dµ(x)
1E (f (Xi )) eθ∗ ·f (Xi )
Z(θ∗ )
i=1
n
=
,
(3)
−→ S
−1
n→+∞
µ(f (E))
µ(f −1 (E))
i=1 1E (f (Xi ))
n
n
(id,f )
1E (f (Xi ))δ(Xi ,f (Xi ))
1E (f (Xi )) converge étroitement vers µ|f −1 (E) /µ(f −1 (E)), (4)
i=1
i=1
349
B. Jourdain, L. Nguyen
où µ|f −1 (E) désigne l’image de la restriction µ|f −1 (E) de µ à f −1 (E) par x ∈ S → (x, f (x)).
Dans ce qui suit, nous fixons ω ∈ A2 . Nous allons montrer par un raisonnement de type convergence
de M-estimateurs que θn −→ θ∗ . On commence par montrer par l’absurde que (θn )n est bornée. Si
(id,f )
n→+∞
ce n’est pas le cas, on extrait une sous-suite (θn )n avec |θn | → +∞ et θn /|θn | → α. En utilisant
0 ∈ IntE Conv Supp µf|E
et (4), on peut alors montrer que lim supn →+∞ S α · f dνn > 0, ce qui
constitue une contradiction.
Soit maintenant θ∞ la limite d’une sous-suite convergente de (θn )n que l’on indexe toujours par n pour
simplifier les notations. En appliquant le lemme de Skorokhod à (4), on obtient sur un espace de probabilité
auxiliaire (G, G, Q) des variables (Yn , Wn ), n N (resp. (Y, W )) de loi
n
n
(id,f ) 1E f (Xi ) δ(Xi ,f (Xi ))
1E f (Xi ) (resp. µ|f −1 (E) µ f −1 (E) )
i=1
i=1
EQ (θn · Wn eθn ·Wn ) = 0. Comme pour
tel que Q p.s., (Yn , Wn ) → (Y, W ). L’égalité S f dν
n = 0 entraîne
w
Q
θn ·Wn
2/e, puis que la suite de variables
w 0, −w e 1/e on en déduit que supnN E |θn · Wn |e
θn ·Wn
(e
)nN est équiintégrable. Donc pour ϕ : S → R continue bornée,
1E (f (x))ϕ(x) eθ∞ ·f (x) dµ(x)
Q
θn ·Wn
Q
θ∞ ·W
.
(5)
lim E ϕ(Yn ) e
= E ϕ(Y ) e
= S
n→+∞
µ(f −1 (E))
Or, pour n N ,
n
1 (f (Xi )) eθ∗ ·f (Xi )
Zn (θ∗ )
Zn (θn )
i=1
nE
= n
n
= EQ eθn ·Yn .
i=1 1E (f (Xi ))
i=1 1E (f (Xi ))
i=1 1E (f (Xi ))
En utilisant (3) et (5) avec ϕ ≡ 1 pour passer à la limite dans les membres extrêmes de cette inégalité, on
point où Z atteint son minimum,
obtient Z(θ∗ ) Z(θ∞ ). Comme θ∗ est l’unique
θ∞ = θ∗ .Pour ϕ : S → R
continue bornée, on conclut avec (5) que S ϕ dνn = EQ ϕ(Yn ) eθn ·Wn /EQ eθn ·Wn → S ϕ dµθE∗ . ✷
Remarque 4. – Si ϕ : S → R est mesurable bornée, on obtient que P-p.s. S ϕ dνn → S ϕ dµθE∗ , en
raisonnant comme précédemment mais en remplaçant (4) par la convergence étroite de
n
n
1E f (Xi ) δ(ϕ(Xi ),f (Xi ))
1E f (Xi ) .
i=1
i=1
– Dans le cas où θ∗ ∈ IntE {θ ∈ E, Z(θ) < +∞} , avec des hypothèses d’intégrabilité supplémentaires,
il doit être possible d’associer un théorème de la limite centrale aux convergences qui précèdent, ce que
nous nous proposons d’étudier ultérieurement.
√
– Le cas où µ est la loi lognormale sur R (densité
1{x>0} exp(− ln(x)2 /2)/x 2π) et la contrainte est
√
donnée par f (x) = x − c avec c > E(X1 ) = e fournit un exemple (inspiré du Call dans le modèle de
Black–Scholes en finance) où la solution généralisée de (PL) qui est égale à µ, ne satisfait pas la contrainte.
Références bibliographiques
[1] Csiszar I., Sanov property, generalized I-projection and a conditional limit theorem, The Ann. Probab. 12 (3) (1984)
768–793.
[2] Avellaneda M., Buff R., Friedman C., Grandchamp N., Kruk L., Newman J., Weighted Monte-Carlo: A new
technique for calibrating asset–pricing models, Int. J. Theor. and Appl. Finance 4 (1) (2001) 91–119.
[3] Jupp P.E., Mardia K.V., A note on the maximum entropy principle, Scand. J. Statis. 10 (1983) 45–47.
350