1 D´efinition, existence, unicit´e.

Transcription

1 D´efinition, existence, unicit´e.
Université Denis Diderot Paris 7
Espérance conditionnelle
Ces rappels et compléments de cours sont inspirés de [1], [2], [3]. Il va de soi que pour
une bonne connaissance des notions qui suivent, il est absolument indispensable de
s’exercer à la pratique du calcul d’espérances conditionnelles en tous genres. On se
reportera en particulier à la feuille de TD pour cette pratique.
1
Définition, existence, unicité.
On prend le parti de donner la définition générale de l’espérance conditionnelle
valable pour une variable aléatoire réelle (ou un vecteur aléatoire de Rd ) intégrable. On
notera |.| la norme euclidienne de Rd .
La définition est théorique et il est au premier abord difficile de se faire une intuition
simple de sa signification, mais cette définition a le mérite de s’appliquer à toutes les
situations, et elle est souvent la caractérisation appropriée pour démontrer les
propriétés de l’espérance conditionnelle (voir partie 2.2).
Comme on le verra par la suite, dans le cas d’une variable de carré intégrable, cette
définition générale coı̈ncide avec la définition de projeté orthogonal sur le sous-espace
de L2 des variables G-mesurables. Cette deuxième caractérisation, même si elle offre un
cadre plus restreint, a le mérite de rendre l’intuition de l’espérance conditionnelle plus
compréhensible. Ainsi, dans ce cadre L2 , l’espérance conditionnelle de X sachant G
s’avérera tout simplement être le meilleur estimateur G-mesurable de X (”meilleur” au
sens où il minimise la distance L2 à X parmi les variables G-mesurables).
Enfin, dans le cadre du conditionnement vis-à-vis d’une tribu discrète, ou encore dans
le cadre de conditionnement entre des variables qui possèdent une densité jointe, la
définition générale conduit à des expressions simples et directement utilisables de
l’espérance conditionnelle.
1.1
Hypothèses générales et définition de l’espérance conditionnelle
Hypothèse 1.1. Dans la suite on suppose que (Ω, F , P) est un espace probabilisé. On suppose
que X : (Ω, F ) → (Rd , B(Rd )) est intégrable, i.e. que E[|X|] < ∞. Enfin, on suppose que G est
une sous-tribu de F .
Dans ce qui suit, on raisonne toujours ”à indistinguabilité près”, i.e. deux variables qui
coı̈ncident sauf sur un espace de mesure nulle sont considérées comme identiques.
Définition 1.2. On définit l’espérance conditionnelle de X sachant G et on note E[X | G] toute
variable aléatoire Y qui vérifie
1
Y est G-mesurable
∀A ∈ G,
E[1A X] = E[1A Y].
(1)
(2)
Notation : On écrira souvent E[X | Z] en lieu et place de E[X | σ(Z)], ou encore
E[X | Z1 , Z2 , ...] en lieu et place de E[X | σ(Z1 , Z2 , ...)].
Le cas de la dimension d quelconque est en réalité essentiellement similaire au cas
d = 1, ainsi pour ne pas alourdir les notations, on va supposer dans la suite (sauf
mention contraire) que d = 1 et donc que X est une variable aléatoire réelle intégrable.
Peut-être est-il bon de rappeler, qu’une variable aléatoire réelle Y est G-mesurable si
elle vérifie
∀B ∈ B(R), Y−1 (B) ∈ G.
Comme il se trouve que l’ensemble d’intervalles {] − ∞, a[, a ∈ R} engendre la tribu
borélienne, il suffit en fait (pour assurer la G-mesurabilité d’une variable Y, i.e. la
propriété (1) ci-dessus) de vérifier que
∀a ∈ R
1.2
Y−1 (] − ∞, a[) = {Y < a} ∈ G.
Intégrabilité, positivité
Lemme 1.3. Toute variable Y qui vérifie les propriétés (1), (2) est intégrable, et vérifie
E[Y] = E[X].
Preuve : Soit A+ = {Y > 0}. Puisque Y vérifie (1), A ∈ G, et donc d’après (2), on obtient
0 ≤ E[Y1A+ ] = E[X1A+ ] ≤ E[|X|1A+ ].
De même, Soit A− = {Y < 0}. Puisque Y vérifie (1), A− ∈ G, et donc d’après (2), on obtient
0 ≤ E[−Y1A− ] = E[−X1A− ] ≤ E[|X|1A− ].
Finalement
E[|Y|] = E[Y1A+ − Y1A− ] ≤ E[|X|] < ∞.
Par ailleurs, puisque Ω ∈ G on a, toujours grâce à (2),
E[Y] = E[Y1Ω ] = E[X1Ω ] = E[X].
Lemme 1.4. Si X ≥ 0 p.s. et Y vérifie les propriétés (1), (2), alors Y ≥ 0 p.s.
Preuve : En gardant la notation A− = {Y < 0} ∈ G de la preuve précédente,
E[X1A− ] = E[Y1A− ]
Or X1A− ≥ 0 p.s., par hypothèse, tandis que Y1A− ≤ 0 par définition de A− . On en déduit
que Y1A− = 0 p.s., c’est-à-dire que Y ≥ 0 p.s.
2
1.3
Le cas L2
Hypothèse 1.5. On suppose dans ce paragraphe que X est de carré intégrable, i.e. E[X2 ] < ∞
(pour d > 1 on demanderait ici E[|X|2 ] < ∞).
L’espace L2 = {Z : E[Z2 ] < ∞} est un espace préhilbertien, c’est-à-dire que cet espace
vectoriel de dimension infinie est muni d’un produit scalaire. Le produit scalaire dans
cet espace n’est autre que
hZ1 , Z2 i = E[Z1 Z2 ]
De plus, E = {Z : E[Z2 ] < ∞,
Z est G-mesurable} est un sous espace fermé de L2 .
Remarque 1.6. Notre Hypothèse 1.5 se résume à dire que X ∈ L2 .
Le projeté orthogonal ΠE (X) de X sur E existe et est unique. Bien entendu il définit une
variable G-mesurable (c’est simplement la définition de E), et donc ΠE (X) vérifie (1).
Mais de plus, le fait qu’il s’agisse d’un projeté orthogonal assure que
∀Z ∈ E, hX − ΠE (X), Zi = 0,
et par linéarité de l’espérance, ceci peut être réécrit
∀Z ∈ E, E[XZ] = E[ΠE (X)Z]
Reste à noter que pour tout A ∈ G, 1A est bien un élément de E, ce qui permet de
conclure que ΠE (X) satisfait (2), il est donc par définition un candidat de l’espérance
conditionnelle de X sachant G.
Supposons alors que Y ∈ L2 vérifie (1), (2). On a alors hY − ΠE (X), Zi = 0 pour tout
Z ∈ E, mais comme Y − ΠE (X) ∈ E on obtient
E[(Y − ΠE (X))2 ] = 0,
i.e. P(Y = ΠE (X)) = 1.
Conclusion : Sous l’hypothèse 1.5, l’espérance conditionnelle existe et est unique, et
elle n’est autre que le projeté orthogonal de X sur l’espace des variables G-mesurables.
L’espérance conditionnelle est donc dans ce cas l’unique variable G-mesurable qui
minimise la distance entre X et les variables G-mesurables.
En d’autres termes, E[X | G] est le meilleur prédicteur G-mesurable de X au sens où il
minimise
h
i
E (X − E[X | G])2 .
Ceci devrait vous rappeler l’estimateur des moindres carrés que vous connaissez du
cours de statistiques, et bien évidemment, ce n’est pas un hasard (voir la section sur le
cas gaussien ci-après).
3
1.4
Existence et unicité de l’espérance conditionnelle, le cas général
Proposition 1. L’espérance conditionnelle de X ∈ L1 (Ω, F , P) existe et est unique.
Remarque 1.7. On parle ici toujours, bien entendu, d’unicité à indistinguabilité près.
Commençons, pour prouver la proposition, par établir l’unicité.
Preuve de l’unicité : Supposons que Y, Y0 vérifient (1), (2) Rappelons (cf le
paragraphe 1.2) que Y, Y0 sont intégrables.
Fixons ε > 0 et posons Aε = {Y − Y0 ≥ ε}. D’après le fait que Y et Y0 vérifient (1), Aε ∈ G
et donc d’après (2) et la linéarité de l’espérance
0 = E[X1Aε ] − E[X1Aε ] = E[(Y − Y0 )1Aε ] ≥ εP(Aε ),
ce qui entraı̂ne que P(Aε ) = 0.
Comme
T ce raisonnement est valable ∀ε > 0, on déduit que
0 = P( ε>0 Aε ) = P(Y − Y0 > 0) i.e. Y < Y0 p.s.
Par symétrie des rôles de Y, Y0 on obtient de même Y0 < Y p.s. et on conclut que
P(Y = Y0 ) = 1.
Ceci achève la preuve de l’unicité. Pour l’existence, on propose deux preuves
d’inspiration distinctes. La première est directe, et fait appel au théorème de
Radon-Nykodym. La deuxième utilise un argument de densité et le résultat déjà
prouvé pour les variables de carré intégrable (cf la section 1.3).
Première preuve de l’existence (via Radon-Nykodym) :
Supposons tout d’abord X ∈ L1 , X ≥ 0. On définit alors la mesure (finie) Q sur (Ω, G)
telle que
Q(A) = E[X1A ], ∀A ∈ G.
Lemme 1.8. On a
Q << P,
et on peut donc définir sur (Ω, G) la variable
Y :=
dQ
.
dP
En effet, si A ∈ G vérifie P(A) = 0, alors pour tout M > 0
E[X1A ] = E[X10≤X≤M 1A ] + E[X1X>M 1A ]
≤ MP(A) + E[X1X>M ].
Pour tout M > 0 le premier terme de la somme ci-dessus est nul car P(A) = 0. Par le
théorème de convergence dominée (on domine par la variable X qui est intégrable), le
deuxième tend vers 0 lorsque M → ∞, ce qui implique finalement Q(A) = 0. On a donc
démontré que Q << P, le théorème de Radon-Nykodym permet de conclure la preuve
du lemme.
4
La variable Y ainsi introduite est (par construction) G-mesurable, et de plus elle vérifie
∀A ∈ G, E[Y1A ] = EQ [A] = E[X1A ].
La variable Y vérifie donc les propriétés (1) et (2) de la définition de l’espérance
conditionnelle, ce qui achève la preuve de l’existence dans le cas d’une variable
positive.
Lorsque X ∈ L1 est quelconque, on pose X = X+ − X− , où bien sûr, X+ = max(X, 0) et
X− = max(−X, 0) sont des variables intégrables et positives. On voit alors facilement
qu’en posant
Y = E[X+ | G] − E[X− | G],
on obtient une variable aléatoire qui vérifie les deux propriétés requises, et on conclut
que Y := E[X | G].
Deuxième preuve de l’existence (via les variables L2 ) :
Comme dans la première preuve on commence par supposer X ∈ L1 , X ≥ 0.
La suite (Xn := X ∧ n, n ≥ 0) est une suite de variables bornées (en particulier elles sont
de carré intégrable) et Xn croı̂t presque sûrement vers X. D’après le paragraphe 1.3, on
peut donc considérer Yn = ΠE (Xn ) = E[Xn | G]. C’est d’après le lemme 1.4, une suite
croissante de variables positives, et bien sûr G-mesurables. On pose alors
Y := lim Yn .
n→∞
Cette variable est G-mesurable (comme limite de telles variables). Fixons A ∈ G. En
utilisant le théorème de convergence monotone on obtient que lorsque n → ∞
E[1A Yn ] → E[1A Y],
E[1A Xn ] → E[1A X].
Mais d’après (2) les deux suites ci-dessus coıincident, leurs limites coı̈ncident donc
également et comme le raisonnement est valable quelque soit A ∈ G on conclut que
Y = E[X | G].
La fin de la preuve est identique : pour une variable X ∈ L1 quelconque on vérifie que
Y = E[X+ | G] − E[X− | G],
satisfait bien les deux propriétés requises, et on conclut que Y := E[X | G].
2
2.1
Exemples fondamentaux d’espérance conditionnelle,
propriétés de l’espérance conditionnelle
Exemples fondamentaux
Exemple 2.1. Si X est G-mesurable, alors
E[X | G] = X.
5
Preuve : Par hypothèse, X vérifie (1), et il est immédiat de s’assurer que X vérifie (2).
Exemple 2.2. Si X est indépendant de G, alors
E[X | G] = E[X].
Preuve : La variable E[X] est constante, elle est donc H-mesurable pour toute tribu H,
en particulier elle est donc G-mesurable et la propriété (1) est vérifiée. Soit A ∈ G ; X et
1A sont deux variables indépendantes et donc
E[1A X] = P(A)E[X].
D’autre part, puisque la variable E[X] est constante, on a bien sûr
E[1A E[X]] = E[X]P[A].
Comme le raisonnement est valable quelque soit A ∈ G, on conclut que E[X] vérifie (2).
Exemple 2.3. Soit I un ensemble dénombrable et (Ωi , i ∈ I) une partition de Ω. On pose
G = σ(Ωi , i ∈ I). On a alors
X E[X1Ω ]
i
1Ωi .
E[X | G] =
P(Ω
)
i
i∈I:P(Ω )>0
i
Remarque 2.4. Quitte à adopter la convention
E[X1Ωi ]
P(Ωi )
= 0 lorsque P(Ωi ) = 0, on a
X E[X1Ω ]
E[X1Ωi ]
i
1Ωi =
1Ωi .
P(Ω
)
P(Ω
)
i
i
i∈I
i∈I:P(Ω )>0
X
i
P
E[X1Ω ]
Preuve : Notons Y := i∈I:P(Ωi )>0 P(Ωi )i 1Ωi . Clairement Y est G-mesurable et vérifie donc
(1).
Soit i ∈ I tel que P(Ωi ) > 0. Puisque les (Ωi , i ∈ I) sont disjoints, on a
"
#
E[X1Ωi ]
E 1Ωi Y = E
1Ωi
P(Ωi )
E[X1Ωi ]
=
E[1Ωi ]
P(Ωi )
= E[X1Ωi ].
Notons d’autre part que lorsque P(Ωi ) = 0 on a toujours E[1Ωi Y] = 0 = E[1Ωi X].
Finalement,
E[1Ωi Y] = E[1Ωi X]
∀i ∈ I
Enfin, puisque
(Ωi , i ∈ I) est une partition, on sait que pour tout A ∈ G, il existe J ⊂ I tel
S
que A = i∈J Ωi . On déduit donc de l’égalité ci-dessus et de la linéarité de l’espérance
que
E [1A Y] = E[1A X],
ce qui achève la vérification de (2).
6
Exemple 2.5. Soient X, Y deux variables réelles de densité jointe f , i.e. pour tout B ∈ B(R2 ),
Z
P((X, Y) ∈ B) =
f (x, y)dxdy.
B
Soit g : R → R borélienne telle que E[|g(X)|] < ∞. On a alors E[g(X) | Y] = φ(Y), où
φ : R → R est une quelconque fonction borélienne telle que ∀y ∈ R,
Z
Z
φ(y)
f (x, y)dx =
g(x) f (x, y)dx.
R
R
Notons qu’on peut se contenter de définir φ de la façon suivante :
R
−1
R
R


si φ(y) R f (x, y)dx , 0
 R g(x) f (x, y)dx φ(y) R f (x, y)dx
φ(y) = 

0
sinon.
Preuve : Posons Z = φ(Y). Puisque φ est borélienne il va de soi que Z est
σ(Y)-mesurable, et vérifie donc (1).
Soit A ∈ σ(Y), de sorte qu’il existe B ∈ B(R) tel que A = {Y ∈ B}. Or
Z
E[φ(Y)1A ] =
φ(y) fY (y)1B (y)dy,
R
R
où, bien entendu, pour y ∈ R, fY (y) = R f (x, y)dx. Donc, par définition de φ, et Fubini,
Z Z
E[φ(Y)1A ] =
g(x) f (x, y)1B (y)dxdy = E[g(X)1B (Y)],
R
R
où on a utilisé la définition de la densité jointe pour obtenir la dernière égalité. La
variable Z vérifie donc (2), ce qui achève la preuve.
Exemple 2.6. On suppose que les variables X, Y sont indépendantes. Soit h : R2 → R
borélienne telle que E[|h(X, Y)|] < ∞. Alors
E[h(X, Y) | Y] = ψ(Y), où ∀y ∈ R, ψ(y) = E[h(X, y)].
Preuve : Comme précedemment, Z := ψ(Y) vérifie immédiatemment (1).
Soit A ∈ σ(Y), i.e. il existe B ∈ B(R) tel que A = {Y ∈ B}. En notant PY la loi de Y, on
obtient
Z
E[ψ(Y)1A ] =
ψ(y)1B (y)dPY (y)
R
et par définition de ψ, en notant PX la loi de X, on a
!
Z Z
E[ψ(Y)1A ] =
h(x, y)dPX (x) 1B (y)dPY (y).
R
R
7
L’indépendance de X et de Y siginifie précisément que la loi jointe de (X, Y) n’est autre
que la loi produit PX ⊗ PY ; et par Fubini on en déduit donc
Z
E[ψ(Y)1A ] =
h(x, y)1B (y)dP(X,Y) (x, y) = E[h(X, Y)1A ],
R2
ce qui achève la preuve de (2).
Remarque 2.7. On retrouve bien sûr Exemple 2.2 comme cas particulier de Exemple 2.6 (en
posant simplement h(X, Y) = X).
2.2
Propriétés de l’espérance conditionnelle : énoncés
Remarque 2.8. Toutes les propriétés qui suivent sont vraies p.s., puisque l’espérance
conditionnelle est définie de façon unique à indistinguabilité près. Pour éviter d’alourdir les
énoncés on ne rappellera pas cette ”restriction”.
Propriété 2.9. Linéarité :
Soient a, b des rééls, X intégrable,
E[aX + b | G] = aE[X | G] + b.
Propriété 2.10. Positivité :
Si X ≥ 0, intégrable, E[X | G] ≥ 0.
Propriété 2.11. dite propriété de tour : Si X intégrable,
a. E[E[X | G]] = E[X].
b. Si G2 ⊂ G1 ,
E[E[X | G1 ] | G2 ] = E[X | G2 ],
E[E[X | G2 ] | G1 ] = E[X | G2 ].
Propriété 2.12. Chebychev conditionnel :
Soit X une v.a.r. de carré intégrable,
P(|X| ≥ a | G) ≤ a−2 E[X2 | G].
Propriété 2.13. Convergence monotone conditionnelle :
Soit (Xn , n ≥ 0) une suite croissante de v.a.r. intégrables, qui converge vers une variable X
que l’on suppose intégrable. Alors
E[Xn | G] −→ E[X | G].
n→∞
Propriété 2.14. Fatou conditionnel :
Soit (Xn , n ≥ 0) une suite de v.a.r. positives et intégrables, telle que lim infn→∞ Xn est une
variable intégrable, alors
E[lim inf Xn | G] ≤ lim inf E[Xn | G].
n→∞
n→∞
8
Propriété 2.15. Convergence dominée conditionnelle :
Soit (Xn , n ≥ 0) une suite de v.a.r. intégrables qui converge en probabilité vers X, et on suppose
qu’il existe U intégrable telle que ∀n ≥ 0; |Xn | ≤ U. Alors
lim E[Xn | G] = E[X | G].
n→∞
Propriété 2.16. Jensen conditionnel :
Si φ est convexe et X, φ(X) sont intégrables alors
φ(E[X | G]) ≤ E[φ(X) | G].
Remarque 2.17. En particulier si X ∈ Lp , la propriété précédente implique que
|E[X | G]|p ≤ E[|X[p | G],
et d’après Propriété 2.11 on déduit que
||E[X | G]||p ≤ ||X||p .
Propriété 2.18. Cauchy conditionnel :
Soient X et Y des v.a.r. de carré intégrable. Alors
E[XY | G]2 ≤ E[X2 | G]E[Y2 | G].
Propriété 2.19. Si X est G-mesurable et si E[|XY|] < ∞ alors
E[XY | G] = XE[Y | G].
Propriété 2.20. formule de Bayes généralisée :
pour G ∈ G
R
P(A | G)dP
P(G | A) = R G
.
P(A
|
G)dP
Ω
Propriété 2.21. Moindre carré (moyen) :
Si X est de carré intégrable, E[X | G] est la variable Y G-mesurable qui minimise E[(X − Y)2 ].
Propriété 2.22. Pythagore :
Si X est de carré intégrable et G2 ⊂ G1 alors
E[(X − E[X | G2 ])2 ] = E[(X − E[X | G1 ])2 ] + E[(E[X | G1 ] − E[X | G2 ])2 ].
Propriété 2.23. Si X est de carré intégrable et si Var[X | G] := E[X2 | G] − E[X | G]2 ,
Var[X] = E [Var[X | G]] + Var [E[X | G]] .
9
2.3
Preuves des propriétés
1. Le membre de droit est clairement G-mesurable, et il vérifie (2) grâce à la linéarité
de l’espérance. On conclut par unicité.
2. On avait déjà enoncé et démontré cette propriété dans la partie précédente (cf
Lemme 1.4).
3. a. est simplement (2) appliqué à A = Ω, qui est bien un élément de G.
La deuxième égalité de b. est une simple application de l’Exemple 2.1. Quant à la
première égalité, elle nous fournit un candidat G2 mesurable (Y := E[X | G2 ])
pour E[E[X | G1 ] | G2 ]. Or si A ∈ G2 (d’après l’hypothèse G2 ⊂ G1 , A appartient à
G1 également), on peut utiliser (2) à deux reprises (dans la première égalité
ci-dessous, pour l’espérance conditionnelle vis-à-vis de G2 , et dans la deuxième
égalité ci-dessous, pour l’espérance conditionnelle vis-à-vis de G1 , puisque
A ∈ G1 ) pour obtenir
E[Y1A ] = E[X1A ] = E[E[X | G1 ]1A ],
ce qui assure le résultat.
4. Reprendre la preuve de l’inégalité traditionnelle de Chebychev pour se rendre
compte qu’il s’agit là d’une simple conséquence de la positivité de l’espérance
conditionnelle (Propriété 2.10).
5. Posons Yn = X − Xn , qui est positive, et intégrable pour tout n puisque X, Xn le
sont. La suite Zn := E[Yn | G] (qui n’est autre que E[X | G] − E[Yn | G] d’après la
Propriété 2.9 de linárité) est donc d’après Propriété 2.10, une suite décroissante de
v.a.r. positives et intégrables, elle converge donc vers une variable Z positive,
intégrable. De plus, d’après le théorème de convergence monotone traditionnel,
E[Yn ] → 0 lorsque n → ∞. Ainsi, pour A ∈ G, lorsque n → ∞
E[1A Yn ] ≤ E[Yn ] → 0. Mais d’après (2),
E[1A Yn ] = E[Zn 1A ].
Ceci étant valable pour tout A ∈ G et Z étant G-mesurable, positive, on conclut
par l’argument habituel que Z = 0, ce qui achève la démonstration.
6. C’est la même preuve que celle de Fatou traditionnel, en utilisant le théorème de
convergence monotone conditionnel en lieu et place du théorème de convergence
monotone habituel.
7. La preuve du résultat non conditionnel s’adapte ici également sans heurts, cette
fois on utilise Fatou conditionnel en lieu et place de Fatou habituel.
8. Le résultat est évident si φ est affine en utilisant Propriété 2.9. Dans le cas général,
il suffit de voir une fonction convexe comme le supremum des fonctions affines
qui la minorent :
φ(x) = sup{ f (x) : f (·) = a · +b, f ≤ φ}
10
Or pour de tels φ, f (·) = a · +b, φ ≥ f , on a bien sûr par la Propriété 2.10
E[φ(X) | G] ≥ E[aX + b | G] = f (E[X | G])
et on conclut en passant au supremum sur toutes les fonctions f affines majorées
par φ.
9. Cette inégalité découle de l’observation que pour tout θ ∈ R, d’après
Propriétés 2.9, 2.10
0 ≤ E[(X + θY)2 | G] = E[X2 | G] + 2θE[XY | G] + θ2 E[Y2 | G],
et que donc le discriminant de ce polynôme de la variable θ est négatif.
10. Remarquons que Z = XE[Y | G] fournit un cadidat G mesurable pour E[XY | G].
Reste à vérifier (2). Commençons par le cas où Y = 1B pour un certain B
indépendant de G. On a alors pour A ∈ G,
E[XY1A ] = E[X1A 1B ] = E[X1A ]P(B) = E(XP(B)1A ),
comme souhaité.
Par linéarité, on étend le résultat aux variables Y étagées, indépendantes de G.
Lorsque Y est positive, indépendante de G, on peut approcher Y par une suite de
fonctions étagées positives, indépendantes de G et conclure grâce au théorème de
convergence monotone conditionnel Propriété 2.13.
Enfin si Y est seulement supposée indépendante de G, il suffit de la décomposer
en Y+ − Y− (qui sont toutes deux indépendantes de G), utiliser le résultat
précédent et à nouveau la linéarité.
11. Par définition P[A | G] = E[1A | G] et donc d’après (2),
Z
P(A ∩ G) = E[1A 1G ] = E[E[1A | G]1G ] =
E[1A | G]dP.
G
De manière similaire (en remplaçant G par Ω dans le raisonnement précédent),
on obtient
Z
P(A) =
Ω
E[1A | G]dP,
ce qui permet de conclure.
Remarque 2.24. Dans le cas où G est engendrée par une partition dénombrable
{Ωi , i ∈ I}, et G = Ω j pour un certain j ∈ I, utilisons l’Exemple 2.3 pour voir que la
formule de Bayes généralisée se réduit alors à la formule de Bayes usuelle
P(Ω j | A) = P
P(A∩Ω j )
P(Ω j )
P(Ω j )
P(A∩Ωi )
i∈I P(Ωi ) P(Ωi )
11
=P
P(A | Ω j )P(Ω j )
i∈I P(A | Ωi )P(Ωi )
12. On a déjà enoncé et démontré cette propriété dans la partie précédente.
13. D’après la partie précédente, il s’agit bien du théorème de Pythagore, appliqué
dans l’espace euclidien L2 (Ω, F , P) et ses sous-espaces des variables
G1 (respectivement G2 )-mesurables.
14. Par définition
h
i
E [Var[X | G]] = E E[X2 | G] − E[X | G]2
h
i
= E[X2 ] − E E[X | G]2
h
i
= E (X − E[X | G])2 ,
où, pour obtenir la dernière égalité, on a utilisé (2) pour voir que
i
h
E[XE[X | G]] = E E[X | G]2 .
Il suffit alors d’appliquer la Propriété 2.22 avec G1 = G, G2 = {Ω, ∅}, de sorte que
E[X | G2 ] = E[X], Var[X | G2 ] = Var[X], pour obtenir
Var[X] = E[(X − E[X | G])2 ] + Var[E[X | G]],
ce qui, d’après ce qui précède, est le résultat souhaité.
3
3.1
Le cadre gaussien
Quelques rappels
On commence par se contenter de rappeler quelques définitions et résultats sur les lois
gaussiennes multivariés. On peut par exemple trouver les preuves des résultats
mentionnés dans ce paragraphe dans le chapitre 4 de [2], ou encore dans le chapitre 3
du cours polycopié [3].
On note Sn (R) l’espace des matrices symétriques et inversibles, de taille n × n, à
coefficients réels. D’autre part on note ·T la transposée (d’un vecteur ou d’une matrice).
Enfin, on note h·, ·i le produit scalaire euclidien sur Rn (de sorte que hx, yi = xT y) et
rappelons que |.| désigne la norme euclidienne sur Rn .
Définition 3.1. On dit que le vecteur X ∈ Rn suit la loi gaussienne multivariée
(non-dégénérée) de moyenne µ ∈ Rn et de matrice de covariance (inversible) M ∈ Sn (R) si la loi
de X possède une densité fX vis-à-vis de la mesure de Lebesgue sur Rn qui s’écrit
fX (x) =
1
T
−1
exp
−(x
−
µ)
M
(x
−
µ)
.
(2π)n/2 |det(M)|1/2
On note dans ce cas X ∼ N(µ, M).
12
Proposition 1. Soit X ∼ N(µ, M). Alors pour tout a ∈ Rn ,
1 T
T
ΦX (a) := E(exp(ia X) = exp ia µ − a Ma .
2
T
Réciproquement, si X possède une telle fonction caractéristique pour une certaine matrice M,
alors X ∼ N(µ, M).
La proposition ci-dessus permet d’étendre la définition précd́ente au cas dégénéré
det(M) = 0. Mais il faut bien noter que dans ce cas, la loi de X ∈ Rn ne possède plus une
densité vis-à-vis de la mesure de Lebesgue sur Rn . En fait, si M est de rang k < n, on
peut établir qu’il existe un sous-e.v. H ⊂ Rn de dimension n − k tel que pour tout a ∈ H,
aT X est presque sûrement constant.
Définition 3.2. On dit que X ∈ Rn est un vecteur gaussien si ∀y ∈ Rn , hX, yi suit une loi
gaussienne.
Proposition 2. Soit X ∼ N(µ, M). Alors X est un vecteur gaussien.
Réciproquement, si X est un vecteur gaussien, et si la matrice de covariance de ses coordonnées
est inversible, alors X suit une loi gaussienne multivariée.
Propriété 3.3. Soit X ∼ N(µ, M).
a. Soit a ∈ Rn . Alors aT X suit une loi normale de moyenne aT µ et de variance aT Ma.
b. Une transformation affine de X est toujours un vecteur gaussien. Plus précisément, si A est
une matrice p × n, et b ∈ Rp AX + b (vecteur alátoire de Rp ) ∼ N(Aµ + b, AMAT ).
Propriété 3.4. Soient un vecteur aléatoire gaussien (X, Y) ∈ Rp+q . Les vecteurs
X ∈ Rp , Y ∈ Rq sont indépendants si et seulement si leur matrice de covariance croisées
E[(X − E[X])T (Y − E[Y])] est une matrice nulle.
Remarque 3.5. Cette proposition se généralise facilement au cas où l’on considère un vecteur
gaussien se décomposant en k vecteurs de matrice de covariances croisées toutes nulles.
Mais il faut bien faire attention : l’hypothèse que le vecteur aléatoire initial (X, Y) est
un vecteur gaussien est absolument fondamentale pour cette caractérisation d’indépendance
(remarquer que ceci revient à supposer que la loi jointe est gaussienne). Elle n’est certainement
pas valable pour un vecteur aléatoire quelconque (et même si ce vecteur a toutes ses coordonnées
gaussiennes !).
Penser à l’exemple X ∼ N(0, 1), Y = εX où ε ∼ Ber(1/2) et ε est indépendant de X. Il est facile
que Y ∼ N(0, 1). De plus,
cov(X, Y) = E[X2 1ε=1 ] − E[X2 1ε=1 ] = E[X2 ](P(ε = 1) − P(ε = −1)) = 0,
où on a utilisé l’indépendance de X et ε à la deuxième égalité ci-dessus.
13
3.2
Calcul d’espérances conditionnelles dans le cadre gaussien
!
ξ
Proposition 3. Soit un vecteur normal X ∼ N(µ, M) tel que X =
,
θ
!
!
µ
Mξξ Mξθ
ξ ∈ Rk , θ ∈ Rl , avec p = k + l, µ = θ et M =
, où Mξξ est une matrice k × k,
µξ
Mθξ Mθθ
Mθθ est une matrice l × l, et Mξθ = MTθξ est une matrice k × l. Supposons que det(M) > 0.
Alors :
(i) Presque sûrement,
E(θ|ξ) = µθ + Mθξ M−1
(ξ − µξ ),
ξξ
Mξθ .
V(θ | ξ) = Mθθ − Mθξ M−1
ξξ
(3)
(ii) La loi conditionnelle de θ sachant ξ est une loi gaussienne
N(µθ + Mθξ M−1
(ξ − µξ ), Mθθ − Mθξ M−1
Mξθ ).
ξξ
ξξ
(iii) Les vecteurs aléatoires ξ et θ − Mθξ M−1
ξ sont indépendants.
ξξ
Preuve : On se contente de montrer la proposition dans le cas µ = 0, il est ensuite facile
de généraliser le résultat au cas général en ajoutant les constantes appropriées.
Soit L2ξ (Rl , P) l’espace des vecteurs aléatoires de norme carrée intégrable (à l
coordonnées), σ(ξ)-mesurables ; qui est un sous espace de L2ξ (Rl , P), les vecteurs
aléatoires de norme carrée intégrable.
Lemme 3.6. Mθξ M−1
ξ n’est autre que la projection de θ sur L2ξ (Rl , P).
ξξ
Notons tout d’abord que η := θ − Mθξ M−1
ξ est orthogonal à ξ, puique la matrice de
ξξ
covariances croisées de η et ξ est
−1
Cov(η, ξ) = Cov(θ, ξ) − Cov(Mθξ M−1
ξξ ξ, ξ) = Mθξ − Mθξ Mξξ Mξξ = 0.
D’après Proposition 3.4, ceci assure la partie (iii) de la Proposition. Pour une fonction g
mesurable telle que E[|g(ξ)||θ|] < ∞, on obtient donc gâce à l’indépendance de ξ et η
que
E[g(ξ)η] = E[g(ξ)η] + E[g(ξ)(θ − η)]
= E[g(ξ)]E[η] + E[g(ξ)(θ − η)]
= E[g(ξ)(θ − η)],
où on a utilisé le fait que η est centré pour obtenir la deuxième égalité. La variable θ − η
vérifie donc (1).
ξ est σ(ξ)-mesurable, il s’agit bien de l’espérance
Comme θ − η = Mθξ M−1
ξξ
conditionnelle de θ sachant ξ.
14
Pour la variance conditionnelle, on utilise la σ(ξ)-mesurabilité de θ − η et
l’Exemple 2.1 ; l’indépendance de η et ξ et l’Exemple 2.2 pour écrire
Var[θ | ξ] = Var[η | ξ] = Var[η].
Cette variance se calcule facilement grâce à Propriété 3.3 et on obtient le résultat
souhaité, et on conclut la preuve de (i).
Rappelons notre décomposition clé :
θ = η + Mθξ M−1
ξξ ξ,
autrement dit θ est somme de vecteurs gaussiens centrés, le premier étant indépendant
de σ(ξ), le deuxième étant σ(ξ)-mesurable. La loi du premier terme de la somme n’est
donc pas affectée par le conditionnement, tandis qu’au contraire le conditionnement
rend la deuxième variable ”constante”. La loi conditionnelle de θ sachant ξ est donc
une N(Mθξ M−1
ξ, Var(η)), ce qui achève la preuve de (ii).
ξξ
Remarque 3.7. Pour faire les calculs dans la pratique ; si les vecteurs n’ont que peu de
coordonnées, on peut se contenter de déterminer la décomposition, ce qui revient à trouver η
comme l’unique transformation affine de (θ, ξ) qui est indépendante de ξ.
Références
[1] R. Durrett, Probability Theory and Examples, 3rd ed.
[2] G. Grimmett and D. Stirzaker, Probability and Random Processes.
[3] A. Tsybakov, Statistique appliquée, polycopié de cours,
(http ://www.math.jussieu.fr/s̃almon/enseignement/ENSAE/StatAppli tsybakov.pdf)
15

Documents pareils