1 D´efinition, existence, unicit´e.
Transcription
1 D´efinition, existence, unicit´e.
Université Denis Diderot Paris 7 Espérance conditionnelle Ces rappels et compléments de cours sont inspirés de [1], [2], [3]. Il va de soi que pour une bonne connaissance des notions qui suivent, il est absolument indispensable de s’exercer à la pratique du calcul d’espérances conditionnelles en tous genres. On se reportera en particulier à la feuille de TD pour cette pratique. 1 Définition, existence, unicité. On prend le parti de donner la définition générale de l’espérance conditionnelle valable pour une variable aléatoire réelle (ou un vecteur aléatoire de Rd ) intégrable. On notera |.| la norme euclidienne de Rd . La définition est théorique et il est au premier abord difficile de se faire une intuition simple de sa signification, mais cette définition a le mérite de s’appliquer à toutes les situations, et elle est souvent la caractérisation appropriée pour démontrer les propriétés de l’espérance conditionnelle (voir partie 2.2). Comme on le verra par la suite, dans le cas d’une variable de carré intégrable, cette définition générale coı̈ncide avec la définition de projeté orthogonal sur le sous-espace de L2 des variables G-mesurables. Cette deuxième caractérisation, même si elle offre un cadre plus restreint, a le mérite de rendre l’intuition de l’espérance conditionnelle plus compréhensible. Ainsi, dans ce cadre L2 , l’espérance conditionnelle de X sachant G s’avérera tout simplement être le meilleur estimateur G-mesurable de X (”meilleur” au sens où il minimise la distance L2 à X parmi les variables G-mesurables). Enfin, dans le cadre du conditionnement vis-à-vis d’une tribu discrète, ou encore dans le cadre de conditionnement entre des variables qui possèdent une densité jointe, la définition générale conduit à des expressions simples et directement utilisables de l’espérance conditionnelle. 1.1 Hypothèses générales et définition de l’espérance conditionnelle Hypothèse 1.1. Dans la suite on suppose que (Ω, F , P) est un espace probabilisé. On suppose que X : (Ω, F ) → (Rd , B(Rd )) est intégrable, i.e. que E[|X|] < ∞. Enfin, on suppose que G est une sous-tribu de F . Dans ce qui suit, on raisonne toujours ”à indistinguabilité près”, i.e. deux variables qui coı̈ncident sauf sur un espace de mesure nulle sont considérées comme identiques. Définition 1.2. On définit l’espérance conditionnelle de X sachant G et on note E[X | G] toute variable aléatoire Y qui vérifie 1 Y est G-mesurable ∀A ∈ G, E[1A X] = E[1A Y]. (1) (2) Notation : On écrira souvent E[X | Z] en lieu et place de E[X | σ(Z)], ou encore E[X | Z1 , Z2 , ...] en lieu et place de E[X | σ(Z1 , Z2 , ...)]. Le cas de la dimension d quelconque est en réalité essentiellement similaire au cas d = 1, ainsi pour ne pas alourdir les notations, on va supposer dans la suite (sauf mention contraire) que d = 1 et donc que X est une variable aléatoire réelle intégrable. Peut-être est-il bon de rappeler, qu’une variable aléatoire réelle Y est G-mesurable si elle vérifie ∀B ∈ B(R), Y−1 (B) ∈ G. Comme il se trouve que l’ensemble d’intervalles {] − ∞, a[, a ∈ R} engendre la tribu borélienne, il suffit en fait (pour assurer la G-mesurabilité d’une variable Y, i.e. la propriété (1) ci-dessus) de vérifier que ∀a ∈ R 1.2 Y−1 (] − ∞, a[) = {Y < a} ∈ G. Intégrabilité, positivité Lemme 1.3. Toute variable Y qui vérifie les propriétés (1), (2) est intégrable, et vérifie E[Y] = E[X]. Preuve : Soit A+ = {Y > 0}. Puisque Y vérifie (1), A ∈ G, et donc d’après (2), on obtient 0 ≤ E[Y1A+ ] = E[X1A+ ] ≤ E[|X|1A+ ]. De même, Soit A− = {Y < 0}. Puisque Y vérifie (1), A− ∈ G, et donc d’après (2), on obtient 0 ≤ E[−Y1A− ] = E[−X1A− ] ≤ E[|X|1A− ]. Finalement E[|Y|] = E[Y1A+ − Y1A− ] ≤ E[|X|] < ∞. Par ailleurs, puisque Ω ∈ G on a, toujours grâce à (2), E[Y] = E[Y1Ω ] = E[X1Ω ] = E[X]. Lemme 1.4. Si X ≥ 0 p.s. et Y vérifie les propriétés (1), (2), alors Y ≥ 0 p.s. Preuve : En gardant la notation A− = {Y < 0} ∈ G de la preuve précédente, E[X1A− ] = E[Y1A− ] Or X1A− ≥ 0 p.s., par hypothèse, tandis que Y1A− ≤ 0 par définition de A− . On en déduit que Y1A− = 0 p.s., c’est-à-dire que Y ≥ 0 p.s. 2 1.3 Le cas L2 Hypothèse 1.5. On suppose dans ce paragraphe que X est de carré intégrable, i.e. E[X2 ] < ∞ (pour d > 1 on demanderait ici E[|X|2 ] < ∞). L’espace L2 = {Z : E[Z2 ] < ∞} est un espace préhilbertien, c’est-à-dire que cet espace vectoriel de dimension infinie est muni d’un produit scalaire. Le produit scalaire dans cet espace n’est autre que hZ1 , Z2 i = E[Z1 Z2 ] De plus, E = {Z : E[Z2 ] < ∞, Z est G-mesurable} est un sous espace fermé de L2 . Remarque 1.6. Notre Hypothèse 1.5 se résume à dire que X ∈ L2 . Le projeté orthogonal ΠE (X) de X sur E existe et est unique. Bien entendu il définit une variable G-mesurable (c’est simplement la définition de E), et donc ΠE (X) vérifie (1). Mais de plus, le fait qu’il s’agisse d’un projeté orthogonal assure que ∀Z ∈ E, hX − ΠE (X), Zi = 0, et par linéarité de l’espérance, ceci peut être réécrit ∀Z ∈ E, E[XZ] = E[ΠE (X)Z] Reste à noter que pour tout A ∈ G, 1A est bien un élément de E, ce qui permet de conclure que ΠE (X) satisfait (2), il est donc par définition un candidat de l’espérance conditionnelle de X sachant G. Supposons alors que Y ∈ L2 vérifie (1), (2). On a alors hY − ΠE (X), Zi = 0 pour tout Z ∈ E, mais comme Y − ΠE (X) ∈ E on obtient E[(Y − ΠE (X))2 ] = 0, i.e. P(Y = ΠE (X)) = 1. Conclusion : Sous l’hypothèse 1.5, l’espérance conditionnelle existe et est unique, et elle n’est autre que le projeté orthogonal de X sur l’espace des variables G-mesurables. L’espérance conditionnelle est donc dans ce cas l’unique variable G-mesurable qui minimise la distance entre X et les variables G-mesurables. En d’autres termes, E[X | G] est le meilleur prédicteur G-mesurable de X au sens où il minimise h i E (X − E[X | G])2 . Ceci devrait vous rappeler l’estimateur des moindres carrés que vous connaissez du cours de statistiques, et bien évidemment, ce n’est pas un hasard (voir la section sur le cas gaussien ci-après). 3 1.4 Existence et unicité de l’espérance conditionnelle, le cas général Proposition 1. L’espérance conditionnelle de X ∈ L1 (Ω, F , P) existe et est unique. Remarque 1.7. On parle ici toujours, bien entendu, d’unicité à indistinguabilité près. Commençons, pour prouver la proposition, par établir l’unicité. Preuve de l’unicité : Supposons que Y, Y0 vérifient (1), (2) Rappelons (cf le paragraphe 1.2) que Y, Y0 sont intégrables. Fixons ε > 0 et posons Aε = {Y − Y0 ≥ ε}. D’après le fait que Y et Y0 vérifient (1), Aε ∈ G et donc d’après (2) et la linéarité de l’espérance 0 = E[X1Aε ] − E[X1Aε ] = E[(Y − Y0 )1Aε ] ≥ εP(Aε ), ce qui entraı̂ne que P(Aε ) = 0. Comme T ce raisonnement est valable ∀ε > 0, on déduit que 0 = P( ε>0 Aε ) = P(Y − Y0 > 0) i.e. Y < Y0 p.s. Par symétrie des rôles de Y, Y0 on obtient de même Y0 < Y p.s. et on conclut que P(Y = Y0 ) = 1. Ceci achève la preuve de l’unicité. Pour l’existence, on propose deux preuves d’inspiration distinctes. La première est directe, et fait appel au théorème de Radon-Nykodym. La deuxième utilise un argument de densité et le résultat déjà prouvé pour les variables de carré intégrable (cf la section 1.3). Première preuve de l’existence (via Radon-Nykodym) : Supposons tout d’abord X ∈ L1 , X ≥ 0. On définit alors la mesure (finie) Q sur (Ω, G) telle que Q(A) = E[X1A ], ∀A ∈ G. Lemme 1.8. On a Q << P, et on peut donc définir sur (Ω, G) la variable Y := dQ . dP En effet, si A ∈ G vérifie P(A) = 0, alors pour tout M > 0 E[X1A ] = E[X10≤X≤M 1A ] + E[X1X>M 1A ] ≤ MP(A) + E[X1X>M ]. Pour tout M > 0 le premier terme de la somme ci-dessus est nul car P(A) = 0. Par le théorème de convergence dominée (on domine par la variable X qui est intégrable), le deuxième tend vers 0 lorsque M → ∞, ce qui implique finalement Q(A) = 0. On a donc démontré que Q << P, le théorème de Radon-Nykodym permet de conclure la preuve du lemme. 4 La variable Y ainsi introduite est (par construction) G-mesurable, et de plus elle vérifie ∀A ∈ G, E[Y1A ] = EQ [A] = E[X1A ]. La variable Y vérifie donc les propriétés (1) et (2) de la définition de l’espérance conditionnelle, ce qui achève la preuve de l’existence dans le cas d’une variable positive. Lorsque X ∈ L1 est quelconque, on pose X = X+ − X− , où bien sûr, X+ = max(X, 0) et X− = max(−X, 0) sont des variables intégrables et positives. On voit alors facilement qu’en posant Y = E[X+ | G] − E[X− | G], on obtient une variable aléatoire qui vérifie les deux propriétés requises, et on conclut que Y := E[X | G]. Deuxième preuve de l’existence (via les variables L2 ) : Comme dans la première preuve on commence par supposer X ∈ L1 , X ≥ 0. La suite (Xn := X ∧ n, n ≥ 0) est une suite de variables bornées (en particulier elles sont de carré intégrable) et Xn croı̂t presque sûrement vers X. D’après le paragraphe 1.3, on peut donc considérer Yn = ΠE (Xn ) = E[Xn | G]. C’est d’après le lemme 1.4, une suite croissante de variables positives, et bien sûr G-mesurables. On pose alors Y := lim Yn . n→∞ Cette variable est G-mesurable (comme limite de telles variables). Fixons A ∈ G. En utilisant le théorème de convergence monotone on obtient que lorsque n → ∞ E[1A Yn ] → E[1A Y], E[1A Xn ] → E[1A X]. Mais d’après (2) les deux suites ci-dessus coıincident, leurs limites coı̈ncident donc également et comme le raisonnement est valable quelque soit A ∈ G on conclut que Y = E[X | G]. La fin de la preuve est identique : pour une variable X ∈ L1 quelconque on vérifie que Y = E[X+ | G] − E[X− | G], satisfait bien les deux propriétés requises, et on conclut que Y := E[X | G]. 2 2.1 Exemples fondamentaux d’espérance conditionnelle, propriétés de l’espérance conditionnelle Exemples fondamentaux Exemple 2.1. Si X est G-mesurable, alors E[X | G] = X. 5 Preuve : Par hypothèse, X vérifie (1), et il est immédiat de s’assurer que X vérifie (2). Exemple 2.2. Si X est indépendant de G, alors E[X | G] = E[X]. Preuve : La variable E[X] est constante, elle est donc H-mesurable pour toute tribu H, en particulier elle est donc G-mesurable et la propriété (1) est vérifiée. Soit A ∈ G ; X et 1A sont deux variables indépendantes et donc E[1A X] = P(A)E[X]. D’autre part, puisque la variable E[X] est constante, on a bien sûr E[1A E[X]] = E[X]P[A]. Comme le raisonnement est valable quelque soit A ∈ G, on conclut que E[X] vérifie (2). Exemple 2.3. Soit I un ensemble dénombrable et (Ωi , i ∈ I) une partition de Ω. On pose G = σ(Ωi , i ∈ I). On a alors X E[X1Ω ] i 1Ωi . E[X | G] = P(Ω ) i i∈I:P(Ω )>0 i Remarque 2.4. Quitte à adopter la convention E[X1Ωi ] P(Ωi ) = 0 lorsque P(Ωi ) = 0, on a X E[X1Ω ] E[X1Ωi ] i 1Ωi = 1Ωi . P(Ω ) P(Ω ) i i i∈I i∈I:P(Ω )>0 X i P E[X1Ω ] Preuve : Notons Y := i∈I:P(Ωi )>0 P(Ωi )i 1Ωi . Clairement Y est G-mesurable et vérifie donc (1). Soit i ∈ I tel que P(Ωi ) > 0. Puisque les (Ωi , i ∈ I) sont disjoints, on a " # E[X1Ωi ] E 1Ωi Y = E 1Ωi P(Ωi ) E[X1Ωi ] = E[1Ωi ] P(Ωi ) = E[X1Ωi ]. Notons d’autre part que lorsque P(Ωi ) = 0 on a toujours E[1Ωi Y] = 0 = E[1Ωi X]. Finalement, E[1Ωi Y] = E[1Ωi X] ∀i ∈ I Enfin, puisque (Ωi , i ∈ I) est une partition, on sait que pour tout A ∈ G, il existe J ⊂ I tel S que A = i∈J Ωi . On déduit donc de l’égalité ci-dessus et de la linéarité de l’espérance que E [1A Y] = E[1A X], ce qui achève la vérification de (2). 6 Exemple 2.5. Soient X, Y deux variables réelles de densité jointe f , i.e. pour tout B ∈ B(R2 ), Z P((X, Y) ∈ B) = f (x, y)dxdy. B Soit g : R → R borélienne telle que E[|g(X)|] < ∞. On a alors E[g(X) | Y] = φ(Y), où φ : R → R est une quelconque fonction borélienne telle que ∀y ∈ R, Z Z φ(y) f (x, y)dx = g(x) f (x, y)dx. R R Notons qu’on peut se contenter de définir φ de la façon suivante : R −1 R R si φ(y) R f (x, y)dx , 0 R g(x) f (x, y)dx φ(y) R f (x, y)dx φ(y) = 0 sinon. Preuve : Posons Z = φ(Y). Puisque φ est borélienne il va de soi que Z est σ(Y)-mesurable, et vérifie donc (1). Soit A ∈ σ(Y), de sorte qu’il existe B ∈ B(R) tel que A = {Y ∈ B}. Or Z E[φ(Y)1A ] = φ(y) fY (y)1B (y)dy, R R où, bien entendu, pour y ∈ R, fY (y) = R f (x, y)dx. Donc, par définition de φ, et Fubini, Z Z E[φ(Y)1A ] = g(x) f (x, y)1B (y)dxdy = E[g(X)1B (Y)], R R où on a utilisé la définition de la densité jointe pour obtenir la dernière égalité. La variable Z vérifie donc (2), ce qui achève la preuve. Exemple 2.6. On suppose que les variables X, Y sont indépendantes. Soit h : R2 → R borélienne telle que E[|h(X, Y)|] < ∞. Alors E[h(X, Y) | Y] = ψ(Y), où ∀y ∈ R, ψ(y) = E[h(X, y)]. Preuve : Comme précedemment, Z := ψ(Y) vérifie immédiatemment (1). Soit A ∈ σ(Y), i.e. il existe B ∈ B(R) tel que A = {Y ∈ B}. En notant PY la loi de Y, on obtient Z E[ψ(Y)1A ] = ψ(y)1B (y)dPY (y) R et par définition de ψ, en notant PX la loi de X, on a ! Z Z E[ψ(Y)1A ] = h(x, y)dPX (x) 1B (y)dPY (y). R R 7 L’indépendance de X et de Y siginifie précisément que la loi jointe de (X, Y) n’est autre que la loi produit PX ⊗ PY ; et par Fubini on en déduit donc Z E[ψ(Y)1A ] = h(x, y)1B (y)dP(X,Y) (x, y) = E[h(X, Y)1A ], R2 ce qui achève la preuve de (2). Remarque 2.7. On retrouve bien sûr Exemple 2.2 comme cas particulier de Exemple 2.6 (en posant simplement h(X, Y) = X). 2.2 Propriétés de l’espérance conditionnelle : énoncés Remarque 2.8. Toutes les propriétés qui suivent sont vraies p.s., puisque l’espérance conditionnelle est définie de façon unique à indistinguabilité près. Pour éviter d’alourdir les énoncés on ne rappellera pas cette ”restriction”. Propriété 2.9. Linéarité : Soient a, b des rééls, X intégrable, E[aX + b | G] = aE[X | G] + b. Propriété 2.10. Positivité : Si X ≥ 0, intégrable, E[X | G] ≥ 0. Propriété 2.11. dite propriété de tour : Si X intégrable, a. E[E[X | G]] = E[X]. b. Si G2 ⊂ G1 , E[E[X | G1 ] | G2 ] = E[X | G2 ], E[E[X | G2 ] | G1 ] = E[X | G2 ]. Propriété 2.12. Chebychev conditionnel : Soit X une v.a.r. de carré intégrable, P(|X| ≥ a | G) ≤ a−2 E[X2 | G]. Propriété 2.13. Convergence monotone conditionnelle : Soit (Xn , n ≥ 0) une suite croissante de v.a.r. intégrables, qui converge vers une variable X que l’on suppose intégrable. Alors E[Xn | G] −→ E[X | G]. n→∞ Propriété 2.14. Fatou conditionnel : Soit (Xn , n ≥ 0) une suite de v.a.r. positives et intégrables, telle que lim infn→∞ Xn est une variable intégrable, alors E[lim inf Xn | G] ≤ lim inf E[Xn | G]. n→∞ n→∞ 8 Propriété 2.15. Convergence dominée conditionnelle : Soit (Xn , n ≥ 0) une suite de v.a.r. intégrables qui converge en probabilité vers X, et on suppose qu’il existe U intégrable telle que ∀n ≥ 0; |Xn | ≤ U. Alors lim E[Xn | G] = E[X | G]. n→∞ Propriété 2.16. Jensen conditionnel : Si φ est convexe et X, φ(X) sont intégrables alors φ(E[X | G]) ≤ E[φ(X) | G]. Remarque 2.17. En particulier si X ∈ Lp , la propriété précédente implique que |E[X | G]|p ≤ E[|X[p | G], et d’après Propriété 2.11 on déduit que ||E[X | G]||p ≤ ||X||p . Propriété 2.18. Cauchy conditionnel : Soient X et Y des v.a.r. de carré intégrable. Alors E[XY | G]2 ≤ E[X2 | G]E[Y2 | G]. Propriété 2.19. Si X est G-mesurable et si E[|XY|] < ∞ alors E[XY | G] = XE[Y | G]. Propriété 2.20. formule de Bayes généralisée : pour G ∈ G R P(A | G)dP P(G | A) = R G . P(A | G)dP Ω Propriété 2.21. Moindre carré (moyen) : Si X est de carré intégrable, E[X | G] est la variable Y G-mesurable qui minimise E[(X − Y)2 ]. Propriété 2.22. Pythagore : Si X est de carré intégrable et G2 ⊂ G1 alors E[(X − E[X | G2 ])2 ] = E[(X − E[X | G1 ])2 ] + E[(E[X | G1 ] − E[X | G2 ])2 ]. Propriété 2.23. Si X est de carré intégrable et si Var[X | G] := E[X2 | G] − E[X | G]2 , Var[X] = E [Var[X | G]] + Var [E[X | G]] . 9 2.3 Preuves des propriétés 1. Le membre de droit est clairement G-mesurable, et il vérifie (2) grâce à la linéarité de l’espérance. On conclut par unicité. 2. On avait déjà enoncé et démontré cette propriété dans la partie précédente (cf Lemme 1.4). 3. a. est simplement (2) appliqué à A = Ω, qui est bien un élément de G. La deuxième égalité de b. est une simple application de l’Exemple 2.1. Quant à la première égalité, elle nous fournit un candidat G2 mesurable (Y := E[X | G2 ]) pour E[E[X | G1 ] | G2 ]. Or si A ∈ G2 (d’après l’hypothèse G2 ⊂ G1 , A appartient à G1 également), on peut utiliser (2) à deux reprises (dans la première égalité ci-dessous, pour l’espérance conditionnelle vis-à-vis de G2 , et dans la deuxième égalité ci-dessous, pour l’espérance conditionnelle vis-à-vis de G1 , puisque A ∈ G1 ) pour obtenir E[Y1A ] = E[X1A ] = E[E[X | G1 ]1A ], ce qui assure le résultat. 4. Reprendre la preuve de l’inégalité traditionnelle de Chebychev pour se rendre compte qu’il s’agit là d’une simple conséquence de la positivité de l’espérance conditionnelle (Propriété 2.10). 5. Posons Yn = X − Xn , qui est positive, et intégrable pour tout n puisque X, Xn le sont. La suite Zn := E[Yn | G] (qui n’est autre que E[X | G] − E[Yn | G] d’après la Propriété 2.9 de linárité) est donc d’après Propriété 2.10, une suite décroissante de v.a.r. positives et intégrables, elle converge donc vers une variable Z positive, intégrable. De plus, d’après le théorème de convergence monotone traditionnel, E[Yn ] → 0 lorsque n → ∞. Ainsi, pour A ∈ G, lorsque n → ∞ E[1A Yn ] ≤ E[Yn ] → 0. Mais d’après (2), E[1A Yn ] = E[Zn 1A ]. Ceci étant valable pour tout A ∈ G et Z étant G-mesurable, positive, on conclut par l’argument habituel que Z = 0, ce qui achève la démonstration. 6. C’est la même preuve que celle de Fatou traditionnel, en utilisant le théorème de convergence monotone conditionnel en lieu et place du théorème de convergence monotone habituel. 7. La preuve du résultat non conditionnel s’adapte ici également sans heurts, cette fois on utilise Fatou conditionnel en lieu et place de Fatou habituel. 8. Le résultat est évident si φ est affine en utilisant Propriété 2.9. Dans le cas général, il suffit de voir une fonction convexe comme le supremum des fonctions affines qui la minorent : φ(x) = sup{ f (x) : f (·) = a · +b, f ≤ φ} 10 Or pour de tels φ, f (·) = a · +b, φ ≥ f , on a bien sûr par la Propriété 2.10 E[φ(X) | G] ≥ E[aX + b | G] = f (E[X | G]) et on conclut en passant au supremum sur toutes les fonctions f affines majorées par φ. 9. Cette inégalité découle de l’observation que pour tout θ ∈ R, d’après Propriétés 2.9, 2.10 0 ≤ E[(X + θY)2 | G] = E[X2 | G] + 2θE[XY | G] + θ2 E[Y2 | G], et que donc le discriminant de ce polynôme de la variable θ est négatif. 10. Remarquons que Z = XE[Y | G] fournit un cadidat G mesurable pour E[XY | G]. Reste à vérifier (2). Commençons par le cas où Y = 1B pour un certain B indépendant de G. On a alors pour A ∈ G, E[XY1A ] = E[X1A 1B ] = E[X1A ]P(B) = E(XP(B)1A ), comme souhaité. Par linéarité, on étend le résultat aux variables Y étagées, indépendantes de G. Lorsque Y est positive, indépendante de G, on peut approcher Y par une suite de fonctions étagées positives, indépendantes de G et conclure grâce au théorème de convergence monotone conditionnel Propriété 2.13. Enfin si Y est seulement supposée indépendante de G, il suffit de la décomposer en Y+ − Y− (qui sont toutes deux indépendantes de G), utiliser le résultat précédent et à nouveau la linéarité. 11. Par définition P[A | G] = E[1A | G] et donc d’après (2), Z P(A ∩ G) = E[1A 1G ] = E[E[1A | G]1G ] = E[1A | G]dP. G De manière similaire (en remplaçant G par Ω dans le raisonnement précédent), on obtient Z P(A) = Ω E[1A | G]dP, ce qui permet de conclure. Remarque 2.24. Dans le cas où G est engendrée par une partition dénombrable {Ωi , i ∈ I}, et G = Ω j pour un certain j ∈ I, utilisons l’Exemple 2.3 pour voir que la formule de Bayes généralisée se réduit alors à la formule de Bayes usuelle P(Ω j | A) = P P(A∩Ω j ) P(Ω j ) P(Ω j ) P(A∩Ωi ) i∈I P(Ωi ) P(Ωi ) 11 =P P(A | Ω j )P(Ω j ) i∈I P(A | Ωi )P(Ωi ) 12. On a déjà enoncé et démontré cette propriété dans la partie précédente. 13. D’après la partie précédente, il s’agit bien du théorème de Pythagore, appliqué dans l’espace euclidien L2 (Ω, F , P) et ses sous-espaces des variables G1 (respectivement G2 )-mesurables. 14. Par définition h i E [Var[X | G]] = E E[X2 | G] − E[X | G]2 h i = E[X2 ] − E E[X | G]2 h i = E (X − E[X | G])2 , où, pour obtenir la dernière égalité, on a utilisé (2) pour voir que i h E[XE[X | G]] = E E[X | G]2 . Il suffit alors d’appliquer la Propriété 2.22 avec G1 = G, G2 = {Ω, ∅}, de sorte que E[X | G2 ] = E[X], Var[X | G2 ] = Var[X], pour obtenir Var[X] = E[(X − E[X | G])2 ] + Var[E[X | G]], ce qui, d’après ce qui précède, est le résultat souhaité. 3 3.1 Le cadre gaussien Quelques rappels On commence par se contenter de rappeler quelques définitions et résultats sur les lois gaussiennes multivariés. On peut par exemple trouver les preuves des résultats mentionnés dans ce paragraphe dans le chapitre 4 de [2], ou encore dans le chapitre 3 du cours polycopié [3]. On note Sn (R) l’espace des matrices symétriques et inversibles, de taille n × n, à coefficients réels. D’autre part on note ·T la transposée (d’un vecteur ou d’une matrice). Enfin, on note h·, ·i le produit scalaire euclidien sur Rn (de sorte que hx, yi = xT y) et rappelons que |.| désigne la norme euclidienne sur Rn . Définition 3.1. On dit que le vecteur X ∈ Rn suit la loi gaussienne multivariée (non-dégénérée) de moyenne µ ∈ Rn et de matrice de covariance (inversible) M ∈ Sn (R) si la loi de X possède une densité fX vis-à-vis de la mesure de Lebesgue sur Rn qui s’écrit fX (x) = 1 T −1 exp −(x − µ) M (x − µ) . (2π)n/2 |det(M)|1/2 On note dans ce cas X ∼ N(µ, M). 12 Proposition 1. Soit X ∼ N(µ, M). Alors pour tout a ∈ Rn , 1 T T ΦX (a) := E(exp(ia X) = exp ia µ − a Ma . 2 T Réciproquement, si X possède une telle fonction caractéristique pour une certaine matrice M, alors X ∼ N(µ, M). La proposition ci-dessus permet d’étendre la définition précd́ente au cas dégénéré det(M) = 0. Mais il faut bien noter que dans ce cas, la loi de X ∈ Rn ne possède plus une densité vis-à-vis de la mesure de Lebesgue sur Rn . En fait, si M est de rang k < n, on peut établir qu’il existe un sous-e.v. H ⊂ Rn de dimension n − k tel que pour tout a ∈ H, aT X est presque sûrement constant. Définition 3.2. On dit que X ∈ Rn est un vecteur gaussien si ∀y ∈ Rn , hX, yi suit une loi gaussienne. Proposition 2. Soit X ∼ N(µ, M). Alors X est un vecteur gaussien. Réciproquement, si X est un vecteur gaussien, et si la matrice de covariance de ses coordonnées est inversible, alors X suit une loi gaussienne multivariée. Propriété 3.3. Soit X ∼ N(µ, M). a. Soit a ∈ Rn . Alors aT X suit une loi normale de moyenne aT µ et de variance aT Ma. b. Une transformation affine de X est toujours un vecteur gaussien. Plus précisément, si A est une matrice p × n, et b ∈ Rp AX + b (vecteur alátoire de Rp ) ∼ N(Aµ + b, AMAT ). Propriété 3.4. Soient un vecteur aléatoire gaussien (X, Y) ∈ Rp+q . Les vecteurs X ∈ Rp , Y ∈ Rq sont indépendants si et seulement si leur matrice de covariance croisées E[(X − E[X])T (Y − E[Y])] est une matrice nulle. Remarque 3.5. Cette proposition se généralise facilement au cas où l’on considère un vecteur gaussien se décomposant en k vecteurs de matrice de covariances croisées toutes nulles. Mais il faut bien faire attention : l’hypothèse que le vecteur aléatoire initial (X, Y) est un vecteur gaussien est absolument fondamentale pour cette caractérisation d’indépendance (remarquer que ceci revient à supposer que la loi jointe est gaussienne). Elle n’est certainement pas valable pour un vecteur aléatoire quelconque (et même si ce vecteur a toutes ses coordonnées gaussiennes !). Penser à l’exemple X ∼ N(0, 1), Y = εX où ε ∼ Ber(1/2) et ε est indépendant de X. Il est facile que Y ∼ N(0, 1). De plus, cov(X, Y) = E[X2 1ε=1 ] − E[X2 1ε=1 ] = E[X2 ](P(ε = 1) − P(ε = −1)) = 0, où on a utilisé l’indépendance de X et ε à la deuxième égalité ci-dessus. 13 3.2 Calcul d’espérances conditionnelles dans le cadre gaussien ! ξ Proposition 3. Soit un vecteur normal X ∼ N(µ, M) tel que X = , θ ! ! µ Mξξ Mξθ ξ ∈ Rk , θ ∈ Rl , avec p = k + l, µ = θ et M = , où Mξξ est une matrice k × k, µξ Mθξ Mθθ Mθθ est une matrice l × l, et Mξθ = MTθξ est une matrice k × l. Supposons que det(M) > 0. Alors : (i) Presque sûrement, E(θ|ξ) = µθ + Mθξ M−1 (ξ − µξ ), ξξ Mξθ . V(θ | ξ) = Mθθ − Mθξ M−1 ξξ (3) (ii) La loi conditionnelle de θ sachant ξ est une loi gaussienne N(µθ + Mθξ M−1 (ξ − µξ ), Mθθ − Mθξ M−1 Mξθ ). ξξ ξξ (iii) Les vecteurs aléatoires ξ et θ − Mθξ M−1 ξ sont indépendants. ξξ Preuve : On se contente de montrer la proposition dans le cas µ = 0, il est ensuite facile de généraliser le résultat au cas général en ajoutant les constantes appropriées. Soit L2ξ (Rl , P) l’espace des vecteurs aléatoires de norme carrée intégrable (à l coordonnées), σ(ξ)-mesurables ; qui est un sous espace de L2ξ (Rl , P), les vecteurs aléatoires de norme carrée intégrable. Lemme 3.6. Mθξ M−1 ξ n’est autre que la projection de θ sur L2ξ (Rl , P). ξξ Notons tout d’abord que η := θ − Mθξ M−1 ξ est orthogonal à ξ, puique la matrice de ξξ covariances croisées de η et ξ est −1 Cov(η, ξ) = Cov(θ, ξ) − Cov(Mθξ M−1 ξξ ξ, ξ) = Mθξ − Mθξ Mξξ Mξξ = 0. D’après Proposition 3.4, ceci assure la partie (iii) de la Proposition. Pour une fonction g mesurable telle que E[|g(ξ)||θ|] < ∞, on obtient donc gâce à l’indépendance de ξ et η que E[g(ξ)η] = E[g(ξ)η] + E[g(ξ)(θ − η)] = E[g(ξ)]E[η] + E[g(ξ)(θ − η)] = E[g(ξ)(θ − η)], où on a utilisé le fait que η est centré pour obtenir la deuxième égalité. La variable θ − η vérifie donc (1). ξ est σ(ξ)-mesurable, il s’agit bien de l’espérance Comme θ − η = Mθξ M−1 ξξ conditionnelle de θ sachant ξ. 14 Pour la variance conditionnelle, on utilise la σ(ξ)-mesurabilité de θ − η et l’Exemple 2.1 ; l’indépendance de η et ξ et l’Exemple 2.2 pour écrire Var[θ | ξ] = Var[η | ξ] = Var[η]. Cette variance se calcule facilement grâce à Propriété 3.3 et on obtient le résultat souhaité, et on conclut la preuve de (i). Rappelons notre décomposition clé : θ = η + Mθξ M−1 ξξ ξ, autrement dit θ est somme de vecteurs gaussiens centrés, le premier étant indépendant de σ(ξ), le deuxième étant σ(ξ)-mesurable. La loi du premier terme de la somme n’est donc pas affectée par le conditionnement, tandis qu’au contraire le conditionnement rend la deuxième variable ”constante”. La loi conditionnelle de θ sachant ξ est donc une N(Mθξ M−1 ξ, Var(η)), ce qui achève la preuve de (ii). ξξ Remarque 3.7. Pour faire les calculs dans la pratique ; si les vecteurs n’ont que peu de coordonnées, on peut se contenter de déterminer la décomposition, ce qui revient à trouver η comme l’unique transformation affine de (θ, ξ) qui est indépendante de ξ. Références [1] R. Durrett, Probability Theory and Examples, 3rd ed. [2] G. Grimmett and D. Stirzaker, Probability and Random Processes. [3] A. Tsybakov, Statistique appliquée, polycopié de cours, (http ://www.math.jussieu.fr/s̃almon/enseignement/ENSAE/StatAppli tsybakov.pdf) 15