1 D´efinition, existence, unicit´e.

Transcription

Université Denis Diderot Paris 7
Espérance conditionnelle
Ces rappels et compléments de cours sont inspirés de [1], [2], [3]. Il va de soi que pour
une bonne connaissance des notions qui suivent, il est absolument indispensable de
s’exercer à la pratique du calcul d’espérances conditionnelles en tous genres. On se
reportera en particulier à la feuille de TD pour cette pratique.
1
Définition, existence, unicité.
On prend le parti de donner la définition générale de l’espérance conditionnelle
valable pour une variable aléatoire réelle (ou un vecteur aléatoire de Rd ) intégrable. On
notera |.| la norme euclidienne de Rd .
La définition est théorique et il est au premier abord difficile de se faire une intuition
simple de sa signification, mais cette définition a le mérite de s’appliquer à toutes les
situations, et elle est souvent la caractérisation appropriée pour démontrer les
propriétés de l’espérance conditionnelle (voir partie 2.2).
Comme on le verra par la suite, dans le cas d’une variable de carré intégrable, cette
définition générale coı̈ncide avec la définition de projeté orthogonal sur le sous-espace
de L2 des variables G-mesurables. Cette deuxième caractérisation, même si elle offre un
cadre plus restreint, a le mérite de rendre l’intuition de l’espérance conditionnelle plus
compréhensible. Ainsi, dans ce cadre L2 , l’espérance conditionnelle de X sachant G
s’avérera tout simplement être le meilleur estimateur G-mesurable de X (”meilleur” au
sens où il minimise la distance L2 à X parmi les variables G-mesurables).
Enfin, dans le cadre du conditionnement vis-à-vis d’une tribu discrète, ou encore dans
le cadre de conditionnement entre des variables qui possèdent une densité jointe, la
définition générale conduit à des expressions simples et directement utilisables de
l’espérance conditionnelle.
1.1
Hypothèses générales et définition de l’espérance conditionnelle
Hypothèse 1.1. Dans la suite on suppose que (Ω, F , P) est un espace probabilisé. On suppose
que X : (Ω, F ) → (Rd , B(Rd )) est intégrable, i.e. que E[|X|] < ∞. Enfin, on suppose que G est
une sous-tribu de F .
Dans ce qui suit, on raisonne toujours ”à indistinguabilité près”, i.e. deux variables qui
coı̈ncident sauf sur un espace de mesure nulle sont considérées comme identiques.
Définition 1.2. On définit l’espérance conditionnelle de X sachant G et on note E[X | G] toute
variable aléatoire Y qui vérifie
1
Y est G-mesurable
∀A ∈ G,
E[1A X] = E[1A Y].
(1)
(2)
Notation : On écrira souvent E[X | Z] en lieu et place de E[X | σ(Z)], ou encore
E[X | Z1 , Z2 , ...] en lieu et place de E[X | σ(Z1 , Z2 , ...)].
Le cas de la dimension d quelconque est en réalité essentiellement similaire au cas
d = 1, ainsi pour ne pas alourdir les notations, on va supposer dans la suite (sauf
mention contraire) que d = 1 et donc que X est une variable aléatoire réelle intégrable.
Peut-être est-il bon de rappeler, qu’une variable aléatoire réelle Y est G-mesurable si
elle vérifie
∀B ∈ B(R), Y−1 (B) ∈ G.
Comme il se trouve que l’ensemble d’intervalles {] − ∞, a[, a ∈ R} engendre la tribu
borélienne, il suffit en fait (pour assurer la G-mesurabilité d’une variable Y, i.e. la
propriété (1) ci-dessus) de vérifier que
∀a ∈ R
1.2
Y−1 (] − ∞, a[) = {Y < a} ∈ G.
Intégrabilité, positivité
Lemme 1.3. Toute variable Y qui vérifie les propriétés (1), (2) est intégrable, et vérifie
E[Y] = E[X].
Preuve : Soit A+ = {Y > 0}. Puisque Y vérifie (1), A ∈ G, et donc d’après (2), on obtient
0 ≤ E[Y1A+ ] = E[X1A+ ] ≤ E[|X|1A+ ].
De même, Soit A− = {Y < 0}. Puisque Y vérifie (1), A− ∈ G, et donc d’après (2), on obtient
0 ≤ E[−Y1A− ] = E[−X1A− ] ≤ E[|X|1A− ].
Finalement
E[|Y|] = E[Y1A+ − Y1A− ] ≤ E[|X|] < ∞.
Par ailleurs, puisque Ω ∈ G on a, toujours grâce à (2),
E[Y] = E[Y1Ω ] = E[X1Ω ] = E[X].
Lemme 1.4. Si X ≥ 0 p.s. et Y vérifie les propriétés (1), (2), alors Y ≥ 0 p.s.
Preuve : En gardant la notation A− = {Y < 0} ∈ G de la preuve précédente,
E[X1A− ] = E[Y1A− ]
Or X1A− ≥ 0 p.s., par hypothèse, tandis que Y1A− ≤ 0 par définition de A− . On en déduit
que Y1A− = 0 p.s., c’est-à-dire que Y ≥ 0 p.s.
2
1.3
Le cas L2
Hypothèse 1.5. On suppose dans ce paragraphe que X est de carré intégrable, i.e. E[X2 ] < ∞
(pour d > 1 on demanderait ici E[|X|2 ] < ∞).
L’espace L2 = {Z : E[Z2 ] < ∞} est un espace préhilbertien, c’est-à-dire que cet espace
vectoriel de dimension infinie est muni d’un produit scalaire. Le produit scalaire dans
cet espace n’est autre que
hZ1 , Z2 i = E[Z1 Z2 ]
De plus, E = {Z : E[Z2 ] < ∞,
Z est G-mesurable} est un sous espace fermé de L2 .
Remarque 1.6. Notre Hypothèse 1.5 se résume à dire que X ∈ L2 .
Le projeté orthogonal ΠE (X) de X sur E existe et est unique. Bien entendu il définit une
variable G-mesurable (c’est simplement la définition de E), et donc ΠE (X) vérifie (1).
Mais de plus, le fait qu’il s’agisse d’un projeté orthogonal assure que
∀Z ∈ E, hX − ΠE (X), Zi = 0,
et par linéarité de l’espérance, ceci peut être réécrit
∀Z ∈ E, E[XZ] = E[ΠE (X)Z]
Reste à noter que pour tout A ∈ G, 1A est bien un élément de E, ce qui permet de
conclure que ΠE (X) satisfait (2), il est donc par définition un candidat de l’espérance
conditionnelle de X sachant G.
Supposons alors que Y ∈ L2 vérifie (1), (2). On a alors hY − ΠE (X), Zi = 0 pour tout
Z ∈ E, mais comme Y − ΠE (X) ∈ E on obtient
E[(Y − ΠE (X))2 ] = 0,
i.e. P(Y = ΠE (X)) = 1.
Conclusion : Sous l’hypothèse 1.5, l’espérance conditionnelle existe et est unique, et
elle n’est autre que le projeté orthogonal de X sur l’espace des variables G-mesurables.
L’espérance conditionnelle est donc dans ce cas l’unique variable G-mesurable qui
minimise la distance entre X et les variables G-mesurables.
En d’autres termes, E[X | G] est le meilleur prédicteur G-mesurable de X au sens où il
minimise
h
i
E (X − E[X | G])2 .
Ceci devrait vous rappeler l’estimateur des moindres carrés que vous connaissez du
cours de statistiques, et bien évidemment, ce n’est pas un hasard (voir la section sur le
cas gaussien ci-après).
3
1.4
Existence et unicité de l’espérance conditionnelle, le cas général
Proposition 1. L’espérance conditionnelle de X ∈ L1 (Ω, F , P) existe et est unique.
Remarque 1.7. On parle ici toujours, bien entendu, d’unicité à indistinguabilité près.
Commençons, pour prouver la proposition, par établir l’unicité.
Preuve de l’unicité : Supposons que Y, Y0 vérifient (1), (2) Rappelons (cf le
paragraphe 1.2) que Y, Y0 sont intégrables.
Fixons ε > 0 et posons Aε = {Y − Y0 ≥ ε}. D’après le fait que Y et Y0 vérifient (1), Aε ∈ G
et donc d’après (2) et la linéarité de l’espérance
0 = E[X1Aε ] − E[X1Aε ] = E[(Y − Y0 )1Aε ] ≥ εP(Aε ),
ce qui entraı̂ne que P(Aε ) = 0.
Comme
T ce raisonnement est valable ∀ε > 0, on déduit que
0 = P( ε>0 Aε ) = P(Y − Y0 > 0) i.e. Y < Y0 p.s.
Par symétrie des rôles de Y, Y0 on obtient de même Y0 < Y p.s. et on conclut que
P(Y = Y0 ) = 1.
Ceci achève la preuve de l’unicité. Pour l’existence, on propose deux preuves
d’inspiration distinctes. La première est directe, et fait appel au théorème de
Radon-Nykodym. La deuxième utilise un argument de densité et le résultat déjà
prouvé pour les variables de carré intégrable (cf la section 1.3).
Première preuve de l’existence (via Radon-Nykodym) :
Supposons tout d’abord X ∈ L1 , X ≥ 0. On définit alors la mesure (finie) Q sur (Ω, G)
telle que
Q(A) = E[X1A ], ∀A ∈ G.
Lemme 1.8. On a
Q << P,
et on peut donc définir sur (Ω, G) la variable
Y :=
dQ
.
dP
En effet, si A ∈ G vérifie P(A) = 0, alors pour tout M > 0
E[X1A ] = E[X10≤X≤M 1A ] + E[X1X>M 1A ]
≤ MP(A) + E[X1X>M ].
Pour tout M > 0 le premier terme de la somme ci-dessus est nul car P(A) = 0. Par le
théorème de convergence dominée (on domine par la variable X qui est intégrable), le
deuxième tend vers 0 lorsque M → ∞, ce qui implique finalement Q(A) = 0. On a donc
démontré que Q << P, le théorème de Radon-Nykodym permet de conclure la preuve
du lemme.
4
La variable Y ainsi introduite est (par construction) G-mesurable, et de plus elle vérifie
∀A ∈ G, E[Y1A ] = EQ [A] = E[X1A ].
La variable Y vérifie donc les propriétés (1) et (2) de la définition de l’espérance
conditionnelle, ce qui achève la preuve de l’existence dans le cas d’une variable
positive.
Lorsque X ∈ L1 est quelconque, on pose X = X+ − X− , où bien sûr, X+ = max(X, 0) et
X− = max(−X, 0) sont des variables intégrables et positives. On voit alors facilement
qu’en posant
Y = E[X+ | G] − E[X− | G],
on obtient une variable aléatoire qui vérifie les deux propriétés requises, et on conclut
que Y := E[X | G].
Deuxième preuve de l’existence (via les variables L2 ) :
Comme dans la première preuve on commence par supposer X ∈ L1 , X ≥ 0.
La suite (Xn := X ∧ n, n ≥ 0) est une suite de variables bornées (en particulier elles sont
de carré intégrable) et Xn croı̂t presque sûrement vers X. D’après le paragraphe 1.3, on
peut donc considérer Yn = ΠE (Xn ) = E[Xn | G]. C’est d’après le lemme 1.4, une suite
croissante de variables positives, et bien sûr G-mesurables. On pose alors
Y := lim Yn .
n→∞
Cette variable est G-mesurable (comme limite de telles variables). Fixons A ∈ G. En
utilisant le théorème de convergence monotone on obtient que lorsque n → ∞
E[1A Yn ] → E[1A Y],
E[1A Xn ] → E[1A X].
Mais d’après (2) les deux suites ci-dessus coıincident, leurs limites coı̈ncident donc
également et comme le raisonnement est valable quelque soit A ∈ G on conclut que
Y = E[X | G].
La fin de la preuve est identique : pour une variable X ∈ L1 quelconque on vérifie que
Y = E[X+ | G] − E[X− | G],
satisfait bien les deux propriétés requises, et on conclut que Y := E[X | G].
2
2.1
Exemples fondamentaux d’espérance conditionnelle,
propriétés de l’espérance conditionnelle
Exemples fondamentaux
Exemple 2.1. Si X est G-mesurable, alors
E[X | G] = X.
5
Preuve : Par hypothèse, X vérifie (1), et il est immédiat de s’assurer que X vérifie (2).
Exemple 2.2. Si X est indépendant de G, alors
E[X | G] = E[X].
Preuve : La variable E[X] est constante, elle est donc H-mesurable pour toute tribu H,
en particulier elle est donc G-mesurable et la propriété (1) est vérifiée. Soit A ∈ G ; X et
1A sont deux variables indépendantes et donc
E[1A X] = P(A)E[X].
D’autre part, puisque la variable E[X] est constante, on a bien sûr
E[1A E[X]] = E[X]P[A].
Comme le raisonnement est valable quelque soit A ∈ G, on conclut que E[X] vérifie (2).
Exemple 2.3. Soit I un ensemble dénombrable et (Ωi , i ∈ I) une partition de Ω. On pose
G = σ(Ωi , i ∈ I). On a alors
X E[X1Ω ]
i
1Ωi .
E[X | G] =
P(Ω
)
i
i∈I:P(Ω )>0
i
Remarque 2.4. Quitte à adopter la convention
E[X1Ωi ]
P(Ωi )
= 0 lorsque P(Ωi ) = 0, on a
X E[X1Ω ]
E[X1Ωi ]
i
1Ωi =
1Ωi .
P(Ω
)
P(Ω
)
i
i
i∈I
i∈I:P(Ω )>0
X
i
P
E[X1Ω ]
Preuve : Notons Y := i∈I:P(Ωi )>0 P(Ωi )i 1Ωi . Clairement Y est G-mesurable et vérifie donc
(1).
Soit i ∈ I tel que P(Ωi ) > 0. Puisque les (Ωi , i ∈ I) sont disjoints, on a
"
#
E[X1Ωi ]
E 1Ωi Y = E
1Ωi
P(Ωi )
E[X1Ωi ]
=
E[1Ωi ]
P(Ωi )
= E[X1Ωi ].
Notons d’autre part que lorsque P(Ωi ) = 0 on a toujours E[1Ωi Y] = 0 = E[1Ωi X].
Finalement,
E[1Ωi Y] = E[1Ωi X]
∀i ∈ I
Enfin, puisque
(Ωi , i ∈ I) est une partition, on sait que pour tout A ∈ G, il existe J ⊂ I tel
S
que A = i∈J Ωi . On déduit donc de l’égalité ci-dessus et de la linéarité de l’espérance
que
E [1A Y] = E[1A X],
ce qui achève la vérification de (2).
6
Exemple 2.5. Soient X, Y deux variables réelles de densité jointe f , i.e. pour tout B ∈ B(R2 ),
Z
P((X, Y) ∈ B) =
f (x, y)dxdy.
B
Soit g : R → R borélienne telle que E[|g(X)|] < ∞. On a alors E[g(X) | Y] = φ(Y), où
φ : R → R est une quelconque fonction borélienne telle que ∀y ∈ R,
Z
Z
φ(y)
f (x, y)dx =
g(x) f (x, y)dx.
R
R
Notons qu’on peut se contenter de définir φ de la façon suivante :
R
−1
R
R


si φ(y) R f (x, y)dx , 0
 R g(x) f (x, y)dx φ(y) R f (x, y)dx
φ(y) = 

0
sinon.
Preuve : Posons Z = φ(Y). Puisque φ est borélienne il va de soi que Z est
σ(Y)-mesurable, et vérifie donc (1).
Soit A ∈ σ(Y), de sorte qu’il existe B ∈ B(R) tel que A = {Y ∈ B}. Or
Z
E[φ(Y)1A ] =
φ(y) fY (y)1B (y)dy,
R
R
où, bien entendu, pour y ∈ R, fY (y) = R f (x, y)dx. Donc, par définition de φ, et Fubini,
Z Z
E[φ(Y)1A ] =
g(x) f (x, y)1B (y)dxdy = E[g(X)1B (Y)],
R
R
où on a utilisé la définition de la densité jointe pour obtenir la dernière égalité. La
variable Z vérifie donc (2), ce qui achève la preuve.
Exemple 2.6. On suppose que les variables X, Y sont indépendantes. Soit h : R2 → R
borélienne telle que E[|h(X, Y)|] < ∞. Alors
E[h(X, Y) | Y] = ψ(Y), où ∀y ∈ R, ψ(y) = E[h(X, y)].
Preuve : Comme précedemment, Z := ψ(Y) vérifie immédiatemment (1).
Soit A ∈ σ(Y), i.e. il existe B ∈ B(R) tel que A = {Y ∈ B}. En notant PY la loi de Y, on
obtient
Z
E[ψ(Y)1A ] =
ψ(y)1B (y)dPY (y)
R
et par définition de ψ, en notant PX la loi de X, on a
!
Z Z
E[ψ(Y)1A ] =
h(x, y)dPX (x) 1B (y)dPY (y).
R
R
7
L’indépendance de X et de Y siginifie précisément que la loi jointe de (X, Y) n’est autre
que la loi produit PX ⊗ PY ; et par Fubini on en déduit donc
Z
E[ψ(Y)1A ] =
h(x, y)1B (y)dP(X,Y) (x, y) = E[h(X, Y)1A ],
R2
ce qui achève la preuve de (2).
Remarque 2.7. On retrouve bien sûr Exemple 2.2 comme cas particulier de Exemple 2.6 (en
posant simplement h(X, Y) = X).
2.2
Propriétés de l’espérance conditionnelle : énoncés
Remarque 2.8. Toutes les propriétés qui suivent sont vraies p.s., puisque l’espérance
conditionnelle est définie de façon unique à indistinguabilité près. Pour éviter d’alourdir les
énoncés on ne rappellera pas cette ”restriction”.
Propriété 2.9. Linéarité :
Soient a, b des rééls, X intégrable,
E[aX + b | G] = aE[X | G] + b.
Propriété 2.10. Positivité :
Si X ≥ 0, intégrable, E[X | G] ≥ 0.
Propriété 2.11. dite propriété de tour : Si X intégrable,
a. E[E[X | G]] = E[X].
b. Si G2 ⊂ G1 ,
E[E[X | G1 ] | G2 ] = E[X | G2 ],
E[E[X | G2 ] | G1 ] = E[X | G2 ].
Propriété 2.12. Chebychev conditionnel :
Soit X une v.a.r. de carré intégrable,
P(|X| ≥ a | G) ≤ a−2 E[X2 | G].
Propriété 2.13. Convergence monotone conditionnelle :
Soit (Xn , n ≥ 0) une suite croissante de v.a.r. intégrables, qui converge vers une variable X
que l’on suppose intégrable. Alors
E[Xn | G] −→ E[X | G].
n→∞
Propriété 2.14. Fatou conditionnel :
Soit (Xn , n ≥ 0) une suite de v.a.r. positives et intégrables, telle que lim infn→∞ Xn est une
variable intégrable, alors
E[lim inf Xn | G] ≤ lim inf E[Xn | G].
n→∞
n→∞
8
Propriété 2.15. Convergence dominée conditionnelle :
Soit (Xn , n ≥ 0) une suite de v.a.r. intégrables qui converge en probabilité vers X, et on suppose
qu’il existe U intégrable telle que ∀n ≥ 0; |Xn | ≤ U. Alors
lim E[Xn | G] = E[X | G].
n→∞
Propriété 2.16. Jensen conditionnel :
Si φ est convexe et X, φ(X) sont intégrables alors
φ(E[X | G]) ≤ E[φ(X) | G].
Remarque 2.17. En particulier si X ∈ Lp , la propriété précédente implique que
|E[X | G]|p ≤ E[|X[p | G],
et d’après Propriété 2.11 on déduit que
||E[X | G]||p ≤ ||X||p .
Propriété 2.18. Cauchy conditionnel :
Soient X et Y des v.a.r. de carré intégrable. Alors
E[XY | G]2 ≤ E[X2 | G]E[Y2 | G].
Propriété 2.19. Si X est G-mesurable et si E[|XY|] < ∞ alors
E[XY | G] = XE[Y | G].
Propriété 2.20. formule de Bayes généralisée :
pour G ∈ G
R
P(A | G)dP
P(G | A) = R G
.
P(A
|
G)dP
Ω
Propriété 2.21. Moindre carré (moyen) :
Si X est de carré intégrable, E[X | G] est la variable Y G-mesurable qui minimise E[(X − Y)2 ].
Propriété 2.22. Pythagore :
Si X est de carré intégrable et G2 ⊂ G1 alors
E[(X − E[X | G2 ])2 ] = E[(X − E[X | G1 ])2 ] + E[(E[X | G1 ] − E[X | G2 ])2 ].
Propriété 2.23. Si X est de carré intégrable et si Var[X | G] := E[X2 | G] − E[X | G]2 ,
Var[X] = E [Var[X | G]] + Var [E[X | G]] .
9
2.3
Preuves des propriétés
1. Le membre de droit est clairement G-mesurable, et il vérifie (2) grâce à la linéarité
de l’espérance. On conclut par unicité.
2. On avait déjà enoncé et démontré cette propriété dans la partie précédente (cf
Lemme 1.4).
3. a. est simplement (2) appliqué à A = Ω, qui est bien un élément de G.
La deuxième égalité de b. est une simple application de l’Exemple 2.1. Quant à la
première égalité, elle nous fournit un candidat G2 mesurable (Y := E[X | G2 ])
pour E[E[X | G1 ] | G2 ]. Or si A ∈ G2 (d’après l’hypothèse G2 ⊂ G1 , A appartient à
G1 également), on peut utiliser (2) à deux reprises (dans la première égalité
ci-dessous, pour l’espérance conditionnelle vis-à-vis de G2 , et dans la deuxième
égalité ci-dessous, pour l’espérance conditionnelle vis-à-vis de G1 , puisque
A ∈ G1 ) pour obtenir
E[Y1A ] = E[X1A ] = E[E[X | G1 ]1A ],
ce qui assure le résultat.
4. Reprendre la preuve de l’inégalité traditionnelle de Chebychev pour se rendre
compte qu’il s’agit là d’une simple conséquence de la positivité de l’espérance
conditionnelle (Propriété 2.10).
5. Posons Yn = X − Xn , qui est positive, et intégrable pour tout n puisque X, Xn le
sont. La suite Zn := E[Yn | G] (qui n’est autre que E[X | G] − E[Yn | G] d’après la
Propriété 2.9 de linárité) est donc d’après Propriété 2.10, une suite décroissante de
v.a.r. positives et intégrables, elle converge donc vers une variable Z positive,
intégrable. De plus, d’après le théorème de convergence monotone traditionnel,
E[Yn ] → 0 lorsque n → ∞. Ainsi, pour A ∈ G, lorsque n → ∞
E[1A Yn ] ≤ E[Yn ] → 0. Mais d’après (2),
E[1A Yn ] = E[Zn 1A ].
Ceci étant valable pour tout A ∈ G et Z étant G-mesurable, positive, on conclut
par l’argument habituel que Z = 0, ce qui achève la démonstration.
6. C’est la même preuve que celle de Fatou traditionnel, en utilisant le théorème de
convergence monotone conditionnel en lieu et place du théorème de convergence
monotone habituel.
7. La preuve du résultat non conditionnel s’adapte ici également sans heurts, cette
fois on utilise Fatou conditionnel en lieu et place de Fatou habituel.
8. Le résultat est évident si φ est affine en utilisant Propriété 2.9. Dans le cas général,
il suffit de voir une fonction convexe comme le supremum des fonctions affines
qui la minorent :
φ(x) = sup{ f (x) : f (·) = a · +b, f ≤ φ}
10
Or pour de tels φ, f (·) = a · +b, φ ≥ f , on a bien sûr par la Propriété 2.10
E[φ(X) | G] ≥ E[aX + b | G] = f (E[X | G])
et on conclut en passant au supremum sur toutes les fonctions f affines majorées
par φ.
9. Cette inégalité découle de l’observation que pour tout θ ∈ R, d’après
Propriétés 2.9, 2.10
0 ≤ E[(X + θY)2 | G] = E[X2 | G] + 2θE[XY | G] + θ2 E[Y2 | G],
et que donc le discriminant de ce polynôme de la variable θ est négatif.
10. Remarquons que Z = XE[Y | G] fournit un cadidat G mesurable pour E[XY | G].
Reste à vérifier (2). Commençons par le cas où Y = 1B pour un certain B
indépendant de G. On a alors pour A ∈ G,
E[XY1A ] = E[X1A 1B ] = E[X1A ]P(B) = E(XP(B)1A ),
comme souhaité.
Par linéarité, on étend le résultat aux variables Y étagées, indépendantes de G.
Lorsque Y est positive, indépendante de G, on peut approcher Y par une suite de
fonctions étagées positives, indépendantes de G et conclure grâce au théorème de
convergence monotone conditionnel Propriété 2.13.
Enfin si Y est seulement supposée indépendante de G, il suffit de la décomposer
en Y+ − Y− (qui sont toutes deux indépendantes de G), utiliser le résultat
précédent et à nouveau la linéarité.
11. Par définition P[A | G] = E[1A | G] et donc d’après (2),
Z
P(A ∩ G) = E[1A 1G ] = E[E[1A | G]1G ] =
E[1A | G]dP.
G
De manière similaire (en remplaçant G par Ω dans le raisonnement précédent),
on obtient
Z
P(A) =
Ω
E[1A | G]dP,
ce qui permet de conclure.
Remarque 2.24. Dans le cas où G est engendrée par une partition dénombrable
{Ωi , i ∈ I}, et G = Ω j pour un certain j ∈ I, utilisons l’Exemple 2.3 pour voir que la
formule de Bayes généralisée se réduit alors à la formule de Bayes usuelle
P(Ω j | A) = P
P(A∩Ω j )
P(Ω j )
P(Ω j )
P(A∩Ωi )
i∈I P(Ωi ) P(Ωi )
11
=P
P(A | Ω j )P(Ω j )
i∈I P(A | Ωi )P(Ωi )
12. On a déjà enoncé et démontré cette propriété dans la partie précédente.
13. D’après la partie précédente, il s’agit bien du théorème de Pythagore, appliqué
dans l’espace euclidien L2 (Ω, F , P) et ses sous-espaces des variables
G1 (respectivement G2 )-mesurables.
14. Par définition
h
i
E [Var[X | G]] = E E[X2 | G] − E[X | G]2
h
i
= E[X2 ] − E E[X | G]2
h
i
= E (X − E[X | G])2 ,
où, pour obtenir la dernière égalité, on a utilisé (2) pour voir que
i
h
E[XE[X | G]] = E E[X | G]2 .
Il suffit alors d’appliquer la Propriété 2.22 avec G1 = G, G2 = {Ω, ∅}, de sorte que
E[X | G2 ] = E[X], Var[X | G2 ] = Var[X], pour obtenir
Var[X] = E[(X − E[X | G])2 ] + Var[E[X | G]],
ce qui, d’après ce qui précède, est le résultat souhaité.
3
3.1
Le cadre gaussien
Quelques rappels
On commence par se contenter de rappeler quelques définitions et résultats sur les lois
gaussiennes multivariés. On peut par exemple trouver les preuves des résultats
mentionnés dans ce paragraphe dans le chapitre 4 de [2], ou encore dans le chapitre 3
du cours polycopié [3].
On note Sn (R) l’espace des matrices symétriques et inversibles, de taille n × n, à
coefficients réels. D’autre part on note ·T la transposée (d’un vecteur ou d’une matrice).
Enfin, on note h·, ·i le produit scalaire euclidien sur Rn (de sorte que hx, yi = xT y) et
rappelons que |.| désigne la norme euclidienne sur Rn .
Définition 3.1. On dit que le vecteur X ∈ Rn suit la loi gaussienne multivariée
(non-dégénérée) de moyenne µ ∈ Rn et de matrice de covariance (inversible) M ∈ Sn (R) si la loi
de X possède une densité fX vis-à-vis de la mesure de Lebesgue sur Rn qui s’écrit
fX (x) =
1
T
−1
exp
−(x
−
µ)
M
(x
−
µ)
.
(2π)n/2 |det(M)|1/2
On note dans ce cas X ∼ N(µ, M).
12
Proposition 1. Soit X ∼ N(µ, M). Alors pour tout a ∈ Rn ,
1 T
T
ΦX (a) := E(exp(ia X) = exp ia µ − a Ma .
2
T
Réciproquement, si X possède une telle fonction caractéristique pour une certaine matrice M,
alors X ∼ N(µ, M).
La proposition ci-dessus permet d’étendre la définition précd́ente au cas dégénéré
det(M) = 0. Mais il faut bien noter que dans ce cas, la loi de X ∈ Rn ne possède plus une
densité vis-à-vis de la mesure de Lebesgue sur Rn . En fait, si M est de rang k < n, on
peut établir qu’il existe un sous-e.v. H ⊂ Rn de dimension n − k tel que pour tout a ∈ H,
aT X est presque sûrement constant.
Définition 3.2. On dit que X ∈ Rn est un vecteur gaussien si ∀y ∈ Rn , hX, yi suit une loi
gaussienne.
Proposition 2. Soit X ∼ N(µ, M). Alors X est un vecteur gaussien.
Réciproquement, si X est un vecteur gaussien, et si la matrice de covariance de ses coordonnées
est inversible, alors X suit une loi gaussienne multivariée.
Propriété 3.3. Soit X ∼ N(µ, M).
a. Soit a ∈ Rn . Alors aT X suit une loi normale de moyenne aT µ et de variance aT Ma.
b. Une transformation affine de X est toujours un vecteur gaussien. Plus précisément, si A est
une matrice p × n, et b ∈ Rp AX + b (vecteur alátoire de Rp ) ∼ N(Aµ + b, AMAT ).
Propriété 3.4. Soient un vecteur aléatoire gaussien (X, Y) ∈ Rp+q . Les vecteurs
X ∈ Rp , Y ∈ Rq sont indépendants si et seulement si leur matrice de covariance croisées
E[(X − E[X])T (Y − E[Y])] est une matrice nulle.
Remarque 3.5. Cette proposition se généralise facilement au cas où l’on considère un vecteur
gaussien se décomposant en k vecteurs de matrice de covariances croisées toutes nulles.
Mais il faut bien faire attention : l’hypothèse que le vecteur aléatoire initial (X, Y) est
un vecteur gaussien est absolument fondamentale pour cette caractérisation d’indépendance
(remarquer que ceci revient à supposer que la loi jointe est gaussienne). Elle n’est certainement
pas valable pour un vecteur aléatoire quelconque (et même si ce vecteur a toutes ses coordonnées
gaussiennes !).
Penser à l’exemple X ∼ N(0, 1), Y = εX où ε ∼ Ber(1/2) et ε est indépendant de X. Il est facile
que Y ∼ N(0, 1). De plus,
cov(X, Y) = E[X2 1ε=1 ] − E[X2 1ε=1 ] = E[X2 ](P(ε = 1) − P(ε = −1)) = 0,
où on a utilisé l’indépendance de X et ε à la deuxième égalité ci-dessus.
13
3.2
Calcul d’espérances conditionnelles dans le cadre gaussien
!
ξ
Proposition 3. Soit un vecteur normal X ∼ N(µ, M) tel que X =
,
θ
!
!
µ
Mξξ Mξθ
ξ ∈ Rk , θ ∈ Rl , avec p = k + l, µ = θ et M =
, où Mξξ est une matrice k × k,
µξ
Mθξ Mθθ
Mθθ est une matrice l × l, et Mξθ = MTθξ est une matrice k × l. Supposons que det(M) > 0.
Alors :
(i) Presque sûrement,
E(θ|ξ) = µθ + Mθξ M−1
(ξ − µξ ),
ξξ
Mξθ .
V(θ | ξ) = Mθθ − Mθξ M−1
ξξ
(3)
(ii) La loi conditionnelle de θ sachant ξ est une loi gaussienne
N(µθ + Mθξ M−1
(ξ − µξ ), Mθθ − Mθξ M−1
Mξθ ).
ξξ
ξξ
(iii) Les vecteurs aléatoires ξ et θ − Mθξ M−1
ξ sont indépendants.
ξξ
Preuve : On se contente de montrer la proposition dans le cas µ = 0, il est ensuite facile
de généraliser le résultat au cas général en ajoutant les constantes appropriées.
Soit L2ξ (Rl , P) l’espace des vecteurs aléatoires de norme carrée intégrable (à l
coordonnées), σ(ξ)-mesurables ; qui est un sous espace de L2ξ (Rl , P), les vecteurs
aléatoires de norme carrée intégrable.
Lemme 3.6. Mθξ M−1
ξ n’est autre que la projection de θ sur L2ξ (Rl , P).
ξξ
Notons tout d’abord que η := θ − Mθξ M−1
ξ est orthogonal à ξ, puique la matrice de
ξξ
covariances croisées de η et ξ est
−1
Cov(η, ξ) = Cov(θ, ξ) − Cov(Mθξ M−1
ξξ ξ, ξ) = Mθξ − Mθξ Mξξ Mξξ = 0.
D’après Proposition 3.4, ceci assure la partie (iii) de la Proposition. Pour une fonction g
mesurable telle que E[|g(ξ)||θ|] < ∞, on obtient donc gâce à l’indépendance de ξ et η
que
E[g(ξ)η] = E[g(ξ)η] + E[g(ξ)(θ − η)]
= E[g(ξ)]E[η] + E[g(ξ)(θ − η)]
= E[g(ξ)(θ − η)],
où on a utilisé le fait que η est centré pour obtenir la deuxième égalité. La variable θ − η
vérifie donc (1).
ξ est σ(ξ)-mesurable, il s’agit bien de l’espérance
Comme θ − η = Mθξ M−1
ξξ
conditionnelle de θ sachant ξ.
14
Pour la variance conditionnelle, on utilise la σ(ξ)-mesurabilité de θ − η et
l’Exemple 2.1 ; l’indépendance de η et ξ et l’Exemple 2.2 pour écrire
Var[θ | ξ] = Var[η | ξ] = Var[η].
Cette variance se calcule facilement grâce à Propriété 3.3 et on obtient le résultat
souhaité, et on conclut la preuve de (i).
Rappelons notre décomposition clé :
θ = η + Mθξ M−1
ξξ ξ,
autrement dit θ est somme de vecteurs gaussiens centrés, le premier étant indépendant
de σ(ξ), le deuxième étant σ(ξ)-mesurable. La loi du premier terme de la somme n’est
donc pas affectée par le conditionnement, tandis qu’au contraire le conditionnement
rend la deuxième variable ”constante”. La loi conditionnelle de θ sachant ξ est donc
une N(Mθξ M−1
ξ, Var(η)), ce qui achève la preuve de (ii).
ξξ
Remarque 3.7. Pour faire les calculs dans la pratique ; si les vecteurs n’ont que peu de
coordonnées, on peut se contenter de déterminer la décomposition, ce qui revient à trouver η
comme l’unique transformation affine de (θ, ξ) qui est indépendante de ξ.
Références
[1] R. Durrett, Probability Theory and Examples, 3rd ed.
[2] G. Grimmett and D. Stirzaker, Probability and Random Processes.
[3] A. Tsybakov, Statistique appliquée, polycopié de cours,
(http ://www.math.jussieu.fr/s̃almon/enseignement/ENSAE/StatAppli tsybakov.pdf)
15

1 D´efinition, existence, unicit´e.

Transcription

Documents pareils

Définition de l`intégrale

Encadrement décimal des racines carrées

Programme - A2Knetwork.org

Intégration - Examen Terminal

Examen du 01/06/2016 - Ceremade - Université Paris

Calcul de la mensualité d`un crédit

Feuille pour la lecon d`oral 201, Espaces de fonctions. Exemples et

Fonctions exponentielles - cours - Terminale STG

Enoncé du TD 1 - Paris School of Economics