Cours de probabilités, master 1
Transcription
Cours de probabilités, master 1
Cours de probabilités, master 1 Yves Coudène 19 janvier 2015 2 Table des matières Introduction 5 Notations 6 1 Formalisme de Kolmogorov 1.1 Le cas discret : Ω fini ou dénombrable . 1.2 Le cas continu : Ω = R ou Rd . . . . . 1.3 Le cas des espaces produits . . . . . . . 1.4 Exercices . . . . . . . . . . . . . . . . . . . . . 7 7 8 9 11 . . . . . . 13 13 13 15 16 19 21 . . . . 23 23 24 25 28 . . . . 29 29 30 36 40 5 Convergence de suites de variables aléatoires 5.1 Les différents types de convergence. . . . . . . . . . . . . . . . . . 5.2 Fonction caractéristique et transformée de Fourier . . . . . . . . . 5.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . 41 41 43 45 . . . . 2 Variables aléatoires 2.1 Définition d’une variable aléatoire . . . . 2.2 Espérance et variance . . . . . . . . . . . 2.3 Inégalités . . . . . . . . . . . . . . . . . 2.4 Loi d’une variable aléatoire . . . . . . . . 2.5 Loi d’un multiplet de variables aléatoires 2.6 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Indépendance 3.1 Indépendance d’événements et de variables aléatoires 3.2 Lemme de Borel-Cantelli . . . . . . . . . . . . . . . . 3.3 Loi d’un multiplet de variables indépendantes . . . . 3.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . 4 Loi 4.1 4.2 4.3 4.4 des grands nombres Loi faible des grands nombres Loi forte des grands nombres . Illustration numérique . . . . Exercices . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 TABLE DES MATIÈRES 5.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Théorème de la limite centrée 6.1 Fonction caractéristique de la loi normale 6.2 Théorème de la limite centrée . . . . . . 6.3 Illustration numérique . . . . . . . . . . 6.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 . . . . 53 53 54 56 61 7 Espérance conditionnelle 7.1 Définition de la notion d’espérance conditionnelle . . . 7.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Propriétés de l’espérance conditionnelle . . . . . . . . . 7.4 Conditionnement relativement à une variable aléatoire 7.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 63 64 66 69 74 8 Théorie des martingales 8.1 La notion de martingale . . . . . . . . . . . 8.2 Convergence des martingales . . . . . . . . . 8.3 Séries de variables aléatoires indépendantes 8.4 Convergence des espérances conditionnelles . 8.5 Temps d’arrêt . . . . . . . . . . . . . . . . . 8.6 Illustration par une marche aléatoire . . . . 8.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 75 78 80 83 86 87 90 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . A Rappels d’intégration A.1 Théorèmes de convergence . . . . . . A.2 Intégrales dépendant d’un paramètre A.3 Intégrales multiples . . . . . . . . . . A.4 Espaces Lp . . . . . . . . . . . . . . . A.5 Inégalités . . . . . . . . . . . . . . . A.6 Formule d’inversion de Fourier . . . . A.7 Exercices . . . . . . . . . . . . . . . . A.8 Contre-exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 91 92 93 94 94 95 98 99 B Formulaire B.1 Loi d’une variable aléatoire . . . . . B.2 Inégalités . . . . . . . . . . . . . . B.3 Couples de variables aléatoires . . . B.4 Convergence de variables aléatoires B.5 Théorèmes limites . . . . . . . . . . B.6 Espérance conditionnelle . . . . . . B.7 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 101 102 103 104 104 105 106 C Références . . . . . . . 107 Introduction Ces notes proviennent d’un cours de Master première année donné à l’université de Brest sur la période 2011-2014. Le cours était composé de douze séances de deux heures et portait sur les théorèmes de convergence en théorie des probabilités. La frappe du texte a bénéficié de l’aide de Sabine Chanthara, je l’en remercie vivement. Ce cours est destiné à des étudiants ayant déjà suivi un cours d’intégrale de Lebesgue. Une annexe en fin d’ouvrage rappelle les résultats d’intégration qui sont utilisés dans le corps de ce texte. Il est aussi important d’être familier avec les bases de la théorie hilbertienne que nous appliquons à l’espace L2 à plusieurs reprises, par exemple pour définir la notion d’espérance conditionnelle. Enfin, un minimum de familiarité avec la théorie des probabilités discrètes, comme on peut la voir au lycée, est fortement conseillé. On s’est concentré sur les théorèmes de convergence classiques, essentiellement dans le cadre indépendant : loi faible et forte des grands nombres, théorème de la limite centrée, convergence des martingales bornées dans L2 , théorème des trois séries, loi du 0-1 de Kolmogorov. Un résumé des théorèmes et des formules présentés dans le cours se trouve en annexe. Le texte est organisé de façon à parvenir assez rapidement à la preuve de la loi forte des grands nombres, au chapitre 4, qui est faite pour des variables de carré intégrable. Le cas intégrable est traité plus tard, dans le chapitre concernant les martingales, comme corollaire des théorèmes de convergence pour ces martingales. Le second objectif est le théorème de la limite centrée, atteint au chapitre 6. Il faut pour cela étudier en détail les différents types de convergence et les relations qui s’établissent entre eux. On termine par la notion de martingale, qui permet de démontrer quelques résultats classiques de convergence, comme le théorème des trois séries et la loi du 0-1 de Kolmogorov. La théorie des martingales et des temps d’arrêt est illustrée par une marche aléatoire symétrique sur l’espace des entiers. La théorie des chaı̂nes de Markov n’est pas abordée dans ce texte. De même, on ne parle pas de sous et de sur-martingales, et la notion de convergence étroite est étudiée pour des mesures de probabilité définies sur R uniquement, ce qui permet quelques simplifications dans les preuves. 5 6 TABLE DES MATIÈRES Notations Les ensembles des nombres entiers, entiers relatifs, rationnels, réels et complexes sont notés respectivement N, Z, Q, R, C. On travaille en genéral sur un espace probabilisé (Ω, T , P ). 1A . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction indicatrice de A B(x, r) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . boule ouverte de centre x de rayon r C ∞ . . . . . . . . . . . . . . . . . . . . . . . . . ensemble des fonctions indéfiniment différentiables Cov(X, Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . covariance de X et Y δω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de Dirac au point ω E(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance de X E(X | F ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . espérance conditionnelle de X sachant F F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu FX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . fonction de répartition Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .espace des classes de fonctions Lp lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . limite supérieure lim . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .limite inférieure µ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure N∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . nombres entiers non nuls Ω . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ensemble de résultats ◦ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . composition ø . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .ensemble vide P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . mesure de probabilité PX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi de la variable aléatoire X P(X,Y ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . loi du couple (X, Y ) P (A | F ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . probabilité conditionnelle de A sachant F P ⊗ Q . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .produit des probabilités P et Q p.s. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . presque partout Sn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . somme de X1 à Xn σ(X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . écart-type de X T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . tribu T1 ⊗ T2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit des tribus T1 et T2 m ∧ n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .minimum de m et n V (X) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variance de X X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . variable aléatoire hX, Y i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . produit scalaire dans L2 kXkp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . norme Lp de X Chapitre 1 Formalisme de Kolmogorov Nous désignons par épreuve une expérience ou une observation réalisée dans des conditions bien définies (protocole expérimental) reproductible, et dont le résultat est l’un des éléments d’un ensemble déterminé (univers). Le but de la théorie des probabilités est d’associer à certains sous-ensembles de cet univers, appelés événements, un nombre réel compris entre 0 et 1, qui reflète notre degré de confiance dans la réalisation de l’événement une fois que l’épreuve a eu lieu. La théorie moderne des probabilités est formalisée par Kolmogorov en 1933, en se basant sur la théorie de la mesure. La notion clef est celle d’espace probabilisé. Définition 1 Un espace probabilisé (Ω, T , P ) est la donnée : – d’un ensemble Ω appelé univers, dont les éléments sont appelés résultats, – d’une tribu T de parties de Ω, dont les éléments sont appelés événements, – d’une mesure P définie sur la tribu T , qui satisfait P (Ω) = 1. Commençons par décrire trois exemples importants d’espaces probabilisés. 1.1 Le cas discret : Ω fini ou dénombrable Pour T , on prend l’ensemble des parties de Ω : T = P(Ω). Se donner une probabilité P : T → [0, 1] revient à se donner une famille de nombres réels pω , ω ∈ Ω, qui satisfait – 0 ≤ pω ≤ 1 pour tout ω ∈ Ω, – X pω = 1. ω∈Ω La correspondance entre P et les pω est donnée par pω = P ({ω}), P (A) = X ω∈A 7 pω . 8 CHAPITRE 1. FORMALISME DE KOLMOGOROV Notons δω la mesure de Dirac au point ω : ∀A ∈ T , δω (A) = si ω ∈ A sinon 1 0 X On peut exprimer la probabilité P comme une somme de Dirac : P = pω δω . ω∈Ω On a alors, pour g : Ω → R mesurable, positif ou P -intégrable, Z Ω g dP = X pω g(ω). ω∈Ω Exemples • Loi uniforme sur Ω = {1, 2, ..., n} : pω = 1/n, P (A) = #A . #Ω Le lancé d’un dé à 6 faces bien équilibré est modélisé par un tel espace probabilisé ( n = 6). • Loi binomiale de paramètres n ∈ N∗ , p ∈ [0, 1], sur Ω = {0, ..., n} : pk = P ({k}) = Cnk pk (1 − p)n−k pour k ∈ {0, ..., n}. pk est la probabilité d’obtenir k succès exactement au cours de n tirages indépendants, sachant que la probabilité de succès lors d’un tirage est égale à p. • Loi de Poisson sur Ω = N de paramètre λ > 0 : pk = P ({k}) = 1.2 λk −λ e pour k ∈ N. k! Le cas continu : Ω = R ou Rd Ici T est la tribu engendrée par les intervalles de R ou les rectangles de Rd . Ses éléments sont appelés boréliens. On peut définir une mesure de probabilité sur Ω à partir d’une densité f : Ω → R+ satisfaisant les conditions suivantes : – f est borélienne, – ∀ω ∈ Ω, f (ω) ≥ 0, R – Ω f dλ = 1. On a noté la mesure de Lebesgue sur Ω avec un λ. La mesure de probabilité P associée à la densité f est donnée par P (A) = Z A f dλ = Z A f (x)dx. 1.3. LE CAS DES ESPACES PRODUITS 9 On a alors pour toute fonction mesurable g : Ω → R positive ou P -intégrable, Z Ω g dP = Z Ω g(x)f (x) dx. Exemples – Probabilité uniforme sur [a, b], avec a, b ∈ R , a < b : f= 1 1[a,b] b−a – Loi de Laplace-Gauss ou loi normale de paramètres m ∈ R , σ > 0 : f (x) = √ (x−m)2 1 e− 2σ2 2πσ 2 Elle est dite centrée si m = 0 et σ = 1. – Probabilité exponentielle de paramètre l > 0 : f (x) = l elx 1R+ (x) 1.3 Le cas des espaces produits On s’intéresse à une épreuve modélisée par un espace probabilisé (Ω, T , P ) et on veut répéter cette épreuve plusieurs fois de manière indépendante, disons n fois, n ∈ N∗ . Pour cela, on considère : • l’univers Ωn = Ω × Ω × ... × Ω, ses éléments sont des multiplets (ω1 , ω2 , ..., ωn ) ∈ Ωn . L’élément ω1 est le résultat obtenu lors de la première épreuve, ω2 lors de la seconde épreuve etc. • La tribu produit T ⊗ T ⊗ ...T = T ⊗n . C’est la tribu engendrée par les parties de Ωn de la forme A1 × A2 × ... × An , avec Ai ∈ T pour tout i. • Dans le cas indépendant, la mesure produit P ⊗ ... ⊗ P sur cette tribu. Cette mesure P ⊗n est l’unique mesure vérifiant P ⊗n (A1 × A2 × ... × An ) = P (A1 )P (A2 )...P (An ) pour tout A1 , ..., An ∈ T . On va chercher à étudier le comportement asymptotique d’une répétition d’épreuves, effectuées de manière indépendante, quand n tend vers l’infini. Pour cela, nous introduisons un nouvel espace probabilisé. • L’univers ΩN est l’ensemble de toutes les suites d’éléments de Ω. 10 CHAPITRE 1. FORMALISME DE KOLMOGOROV • On se place sur la tribu produit T ⊗N . C’est la tribu de parties de ΩN engendrée par les cylindres de la forme CA0 ,...,An = {(ωi )i∈N | ∀i = 0...n, ωi ∈ Ai } avec n ∈ N et A0 , ..., An ∈ T . • Dans le cas indépendant, on considère sur T ⊗N la mesure produit P ⊗N , caractérisée de la façon suivante : Théorème 1 (Kolmogorov) Soit (Ω, T , P ) un espace probabilisé. Alors il existe une unique mesure de probabilité sur T ⊗N , notée P ⊗N , qui satisfait P (CA0 ,...,An ) = P (A0 )P (A1 )...P (An ) pour tout n ∈ N et A0 , ..., An ∈ T . L’exemple le plus simple est donné par la répétition un nombre arbitrairement grand de fois du lancer d’une pièce de monnaie. L’univers est donné par l’ensemble de toutes les suites de pile ou face : {pile, f ace}N . Cet ensemble est muni de la tribu engendrée par tous les sous-ensembles de la forme {(ωi )i∈N | ω0 ∈ A0 , ..., ωm ∈ Am } avec m ∈ N et Ai ∈ {pile, f ace} pour i allant de 0 à m. Si la pièce est bien équilibrée, on peut prendre comme probabilité le produit P ⊗N , où P ({f ace}) = P ({pile}) = 1/2. 11 1.4. EXERCICES 1.4 Exercices exercice 1 Soit (An )n∈N une suite d’événements deux à deux disjoints sur un espace probabilisé (Ω, T , P ). Montrer que lim P (An ) = 0. n→∞ exercice 2 Soit A1 , ..., An des événements tels que P (Ak ) > 1 − n1 pour tout k de 1 à n. Montrer qu’il existe un résultat ω ∈ Ω qui appartient à tous les Ak . Soit (Ak )k∈N une suite d’événements. Montrer que si P (Ak ) ne converge pas vers 0, alors il existe un résultat qui appartient à une infinité de Ak . exercice 3 Soit c > 0 et A1 , ..., An ⊂ Ω des événements tels que P (Ai ) ≥ c pour tout i. Montrer qu’il existe deux indices j, k distincts tels que P (Aj ∩ Ak ) ≥ Indication : s’intéresser à l’intégrale de ( P nc2 − c . n−1 1Ai )2 et utiliser une inégalité fameuse. exercice 4 Soit P une mesure de probabilité définie sur la tribu des boréliens de Rd et B(x, r) la boule euclidienne de rayon r centrée en x ∈ Rd . – Montrer que P (B(0, r)) converge vers 1 quand r tend vers l’infini. – Soit r0 ≥ 0 et xn ∈ Rd une suite telle que kxn k −−−−→ ∞. Montrer que n→∞ P (B(xn , r0 )) −−−−→ 0. n→∞ exercice 5 Parmi ces fonctions, quelles sont celles qui sont des densités de probabilité ? f (x) = 1 1 π 1+x2 f (x) = 21 e−|x| f (x) = e−x 1[0,∞[ (x) f (x) = x2 1[0,1] (x) f (x) = sin(x) 1[0,3π/2] (x) f (x) = (1 + cos(x)) 1[0,π] (x) exercice 6 Pour tout borélien A ⊂ R, on pose 1 µ(A) = √ 2 π Z A 2 e−x dx + 1A (0)/2 – Montrer que µ est une mesure de probabilité. On vérifiera en particulier qu’elle est bien σ-additive. R – Soit f : R → R une fonction borélienne bornée. Donner une formule pour f dµ. 12 CHAPITRE 1. FORMALISME DE KOLMOGOROV Chapitre 2 Variables aléatoires En pratique, on s’intéresse à certaines quantités numériques attachées aux résultats obtenus à l’issue de notre épreuve. Pour modéliser cela, on introduit la notion de variable aléatoire. 2.1 Définition d’une variable aléatoire Définition 2 Soit (Ω, T , P ) un espace probabilisé. Par définition, une variable aléatoire X : Ω → R est une fonction mesurable définie sur Ω, à valeurs réelles : pour tout intervalle I ⊂ R, l’image réciproque X −1 (I) de cet intervalle est dans T. Pour A ⊂ R borélien, on pose X −1 (A) = {ω ∈ Ω | X(ω) ∈ A} = (X ∈ A) −1 X ([a, b]) = (a ≤ X ≤ b) X −1 ([a, ∞[) = (a ≤ X) = (X ≥ a) On a alors P (X −1(A)) = P (X ∈ A). C’est la probabilité d’obtenir, à l’issue de l’épreuve, un résultat pour lequel la valeur de X est dans A. La quantité P (X ∈ A) est bien définie dès que A est borélien car l’image réciproque d’un borélien par une application mesurable est mesurable (c’est-à-dire est dans T ). 2.2 Espérance et variance R Définition 3 Une variable aléatoire X est dite intégrable si Ω |X| dP < +∞. Dans ce cas l’intégrale de X est bien définie, c’est l’espérance de X. E(X) = Z 13 Ω X dP. 14 CHAPITRE 2. VARIABLES ALÉATOIRES R La variable aléatoire X est dite de carré intégrable si Ω X 2 dP < +∞. Dans ce cas X est intégrable et on définit la variance de X par la formule V (X) = E (X − E(X))2 . On remarque qu’une variable aléatoire de carré intégrable est intégrable en intégrant l’inégalité 2X ≤ 1 + X 2 . On peut aussi faire appel à l’inégalité de CauchySchwarz : pour toutes variables aléatoires X, Y : Ω → R, Z Ω |XY | dP ≤ sZ Ω X 2 dP sZ Ω Y 2 dP . En prenant Y = 1 dans cette formule, on obtient la majoration E(|X|) ≤ Développons le carré qui apparaı̂t dans la définition de la variance. q E(X 2 ). E (X − E(X))2 = E X 2 − 2XE(X) + E(X)2 = E(X 2 ) − 2E(X)2 + E(X)2 . Nous avons obtenu la formule suivante, très utile pour calculer V (X) : Proposition 1 V (X) = E(X 2 ) − E(X)2 . X Dans le cas discret, la variable aléatoire X est intégrable si pω |X(ω)| < +∞ ω∈Ω et dans ce cas X E(X) = pω X(ω). ω∈Ω Dans le cas continu, en notant f la densité de P , la variable aléatoire X est R intégrable si Rd |X(ω)|f (ω)dω < +∞ et dans ce cas E(X) = Z Rd X(ω)f (ω)dω. Propriétés : Soit λ ∈ R et X, Y deux variables aléatoires intégrables. – E(λX + Y ) = λE(X) + E(Y ). (linéarité) – Si X ≤ Y , c’est-à-dire si pour tout ω ∈ Ω, X(ω) ≤ Y (ω), alors E(X) ≤ E(Y ). (monotonie) – Pour tout événement A ∈ T , P (A) = E(1A ). – Soit (Xn ) une suite de variables aléatoires qui converge de manière croissante vers X : pour presque tout ω ∈ Ω, (Xn (ω))n∈N est croissante et Xn (ω) → X(ω). Alors E(Xn ) −−−−→ E(X). n→∞ 15 2.3. INÉGALITÉS – Soit (Xn ) une suite de variable aléatoires qui converge vers X presque partout. On suppose qu’il existe Y intégrable telle que |Xn | ≤ Y pour tout n ∈ N. Alors E(Xn ) −−−−→ E(X). n→∞ – V (λX) = λ2 V (X). – V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ) en notant Cov(X, Y ) = E(XY ) − E(X)E(Y ) la covariance de X, Y qui est bien définie dès que X, Y sont de carrés intégrables. Ces propriétés sont des conséquences immédiates des définitions. Les deux théorèmes de passage à la limite découlent du théorème de convergence croissante et du théorème de convergence dominée. 2.3 Inégalités On s’intéresse maintenant à deux inégalités classiques qui donnent quelques informations sur la manière dont les valeurs d’une variable aléatoire se répartissent. Théorème 2 (Inégalité de Markov) Soit (Ω, T , P ) un espace probabilisé, Y : Ω → R+ une variable aléatoire positive. Alors, pour tout λ > 0, P (Y ≥ λ) ≤ E(Y ) . λ Preuve On a l’inégalité λ1(Y ≥λ) ≤ Y ce qui donne, par monotonie, E(λ1(Y ≥λ) ) ≤ E(Y ). On conclut en remarquant que E(λ1(Y ≥λ) ) = λ E(1(Y ≥λ) ) = λ P (Y ≥ λ). Théorème 3 (Inégalité de Bienaymé-Tchebichev) Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable aléatoire de carré intégrable. Alors, pour tout t > 0, V (X) P (|X − E(X)| ≥ t) ≤ . t2 16 CHAPITRE 2. VARIABLES ALÉATOIRES Cette inégalité peut se récrire à l’aide de l’écart-type σ(X) = suit : 1 P X∈ / ] E(X) − tσ(X), E(X) + tσ(X) [ ≤ 2 t q V (X) comme Application Si X est de carré intégrable, la probabilité d’obtenir à l’issue de l’épreuve une valeur à plus de 10 fois l’écart-type de l’espérance est inférieure à 1/100. Preuve L’égalité de Bienaymé-Tchebichev se déduit de l’inégalité de Markov en prenant Y = (X − E(X))2 et λ = t2 dans cette inégalité. On a alors P (Y ≥ λ) = P ((X − E(X))2 ≥ t2 ) = P (|X − E(X)| ≥ t), E((X − E(X))2 ) V (X) E(Y ) = = . 2 λ t t2 La formule est démontrée. 2.4 Loi d’une variable aléatoire À chaque variable aléatoire X définie sur un espace probabilisé (Ω, T , P ), on peut associer une probabilité PX qui rend compte de la distribution de ses valeurs, en procédant de la façon suivante. Définition 4 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable aléatoire. La loi de X est la probabilité définie sur la tribu des boréliens de R par la formule : PX (A) = P (X ∈ A) = P (X −1(A)) pour tout A ⊂ R borélien. La variable aléatoire X est dite discrète si sa loi PX est discrète : il existe un ensemble fini ou dénombrable D ⊂ R tel que PX (D) = 1. Indiçons ses éléments par un ensemble I ⊂ N : D = {xi }x∈I . On est presque sûr d’obtenir un résultat qui se trouve dans cet ensemble de valeurs {xi }i∈I et on peut écrire PX = X pxi δxi i∈I où pxi est la probabilité d’obtenir la valeur xi : P (X = xi ) = pxi . 17 2.4. LOI D’UNE VARIABLE ALÉATOIRE La variable aléatoire X est dite continue si PX est une loi continue, auquel cas sa densité est notée fX . C’est une fonction borélienne positive dont l’intégrale vaut un. On a alors PX (A) = P (X ∈ A) = Z A fX (x) dx pour tout A ⊂ R borélien. Dans ce cas, la probabilité P (X = x) est bien sûr nulle pour tout x ∈ R. L’espérance et la variance d’une variable aléatoire peuvent s’exprimer en fonction de sa loi uniquement. En conséquence, deux variables qui ont même loi ont même espérance et même variance. Proposition 2 Si X est intégrable, E(X) = Z x dPX (x). R Si X est de carré intégrable, V (X) = Z R (x − E(X))2 dPX (x). Cette proposition se déduit de la formule de transfert. Proposition 3 (formule de transfert) Soit g : R → R borélienne, positive ou PX -intégrable. Alors Z Ω g(X) dP = Z R g(x) dPX (x). Preuve de la formule de transfert – C’est vrai pour g = 1A , A borélien de R : Z Z 1A (X) dP = P (X ∈ A) = P (X −1(A)), 1A (x) dPX (x) = PX (A) = P (X ∈ A). – C’est vrai pour les combinaisons linéaires de fonctions indicatrices g = par linéarité de l’intégrale. P c i 1A i – Une combinaison linéaire de fonctions indicatrices s’appelle une fonction étagée. Toute fonction positive mesurable peut être approchée de manière croissante par une suite de fonctions étagées. Pour g ≥ 0, borélienne, on prend gn → g , gn étagées, et on passe à la limite Z gn (X) dP −−−−→ n→∞ Z g(X) dP 18 CHAPITRE 2. VARIABLES ALÉATOIRES Z gn (x) dPX (x) −−−−→ n→∞ Z g(x) dPX (x) en appliquant le théorème de convergence croissante, si bien que R g(x) dPX (x). R g(X) dP = – Pour g intégrable, on écrit g comme la différence de deux fonctions positives intégrables et on utilise la linéarité de l’intégrale pour conclure. Exemple Si X est variable aléatoire obéissant à une loi exponentielle de paramètre l > 0 , PX est associée à la densité fX (x) = le−lx 1R+ (x) et on a : PX ([a, b]) = P (X ∈ [a, b]) = Z [a,b] fX (x) dx = Z b a lelx dx dès que 0 ≤ a ≤ b. Il est parfois plus pratique de travailler avec des fonctions plutôt qu’avec des lois de probabilité. Ceci nous amène à la notion de fonction de répartition. Définition 5 La fonction de répartition de X est définie par FX (x) = P (X ≤ x). On a alors l’égalité, pour tout a, b ∈ R, P (X ∈ ]a, b]) = FX (b) − FX (a). Comme une mesure de probabilité définie sur la tribu des boréliens de R est uniquement déterminée par ses valeurs sur les intervalles, la fonction de répartition caractérise la loi de X de manière unique : si deux variables aléatoires ont même fonction de répartition, elles ont même loi. FX = FY ⇔ PX = PY . La fonction de répartition possède les propriétés suivantes : – elle est croissante, à valeur dans l’intervalle [0, 1], – lim FX (x) = 0, x→−∞ lim FX (x) = 1, x→+∞ – elle est continue à droite et possède une limite à gauche en tout point, – l’ensemble des points de discontinuité de FX est composé des x ∈ R tels que P (X = x) > 0, il est donc dénombrable. 2.5. LOI D’UN MULTIPLET DE VARIABLES ALÉATOIRES 2.5 19 Loi d’un multiplet de variables aléatoires Les considérations précédentes se généralisent à des couples et des multiplets de variables aléatoires. Soient X1 , ...Xn des variables aléatoires à valeurs réelles. On peut considérer ces variables comme une unique variable aléatoire à valeurs dans Rn . (X1 , X2 , ..., Xn ) : Ω → Rn . On pose, pour A borélien de Rn et A1 , ..., An des boréliens de R, ((X1 , ..., Xn ) ∈ A) = {ω ∈ Ω | (X1 (ω), X2(ω), ..., Xn (ω)) ∈ A}, (X1 ∈ A1 , ..., Xn ∈ An ) = ((X1 , ..., Xn ) ∈ A1 × ... × An ) = {ω \∈ Ω | X1 (ω) ∈ A1 , ..., Xn (ω) ∈ An } (Xi ∈ Ai ). = 1≤i≤n Définition 6 Soit (Ω, T , P ) un espace probabilisé, X1 , ..., Xn des variables aléatoires. La loi du multiplet (X1 , ..., Xn ) est la mesure de probabilité définie sur la tribu des boréliens de Rn par la formule : P(X1 ,...,Xn) (A) = P ((X1 , ..., Xn ) ∈ A) = P ({ω ∈ Ω | (X1 (ω), ..., Xn(ω)) ∈ A}) pour tout A ⊂ Rn borélien. La loi du multiplet est discrète si la loi de P(X1 ,...,Xn) est discrète : il existe un ensemble fini ou dénombrable D ⊂ Rn tel que P(X1 ,...,Xn) (D) = 1. Elle est dite continue si P(X1 ,...,Xn) est une loi continue, auquel cas sa densité est notée fX1 ,...,Xn . Cette densité est une fonction borélienne, définie de Rn dans R+ , positive, d’intégrale 1, et nous avons la relation P ((X1 , ..., Xn ) ∈ A) = P(X1 ,...,Xn) (A) = Z A fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxn . La formule de transfert se généralise à n variables. Proposition 4 (Formule de transfert) Soit g : Rn → R borélienne, positive ou P(X1 ,...,Xn) -intégrable. Alors Z Ω g(X1 , ..., Xn ) dP = Z Rn g(x1 , ..., xn ) dPX1 ,...,Xn (x1 , ..., xn ). La preuve est similaire à celle faite précédemment dans le cas d’une variable, on procède en approchant g par une fonction étagée. Les lois individuelles des Xi peuvent se déduire de la loi du multiplet en remarquant que P (Xi ∈ A) = P (X1 ∈ Ω, ..., Xi−1 ∈ Ω, Xi ∈ A, Xi+1 ∈ Ω, ..., Xn ∈ Ω) = P(X1 ,...,Xn) (Ω × ... × Ω × A × Ω × ... × Ω). 20 CHAPITRE 2. VARIABLES ALÉATOIRES On dit que les lois PXi sont les lois marginales de la distribution (X1 , ..., Xn ). Dans le cas continu, la densité des Xi se déduisent de celle du multiplet grâce à la formule suivante : PXi (I) = Z Z I Rn−1 fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn ) dxi où I est un intervalle ou un borélien de R, si bien que fXi (xi ) = Z Rn−1 fX1 ,...,Xn (x1 , ..., xn ) dx1 ...dxi−1 dxi+1 ...dxn . 21 2.6. EXERCICES 2.6 Exercices exercice 1 Soit X une variable aléatoire strictement positive telle que X et 1/X sont intégrables. Montrer que E(X)E(1/X) ≥ 1. exercice 2 Soit X une variable aléatoire de carré intégrable. Montrer que pour tout c ∈ R, V (X) ≤ E((X − c)2 ). Soit a, b ∈ R. Montrer que P (X ≥ a) ≤ E((X + b)2 ) (a + b)2 En déduire l’inégalité de Cantelli, valide pour tout t > 0 : P X − E(X) ≥ t σ(X) ≤ 1 . 1 + t2 exercice 3 Soit X une variable aléatoire telle que 0 ≤ X ≤ 1. Montrer que V (X) ≤ 1/4. À quelle condition a-t-on égalité ? exercice 4 Soit X une variable aléatoire satisfaisant P (X = x) = 0 pour tout x ∈ R et FX sa fonction de répartition. Montrer que la variable aléatoire FX (X) obéit à la loi uniforme sur ]0, 1[. Étant donnée une variable aléatoire Y de loi uniforme sur ]0, 1[ et ν une mesure de probabilité sur la tribu des boréliens de R, construire une variable aléatoire X de loi ν en composant Y par une fonction bien choisie. exercice 5 Soit X une variable aléatoire intégrable. Montrer les assertions suivantes. – lim Z N →∞ (|X|>N ) |X| dP = 0. – Pour tout ε > 0, il existe δ > 0 tel que pour tout A ∈ T , P (A) ≤ δ implique Z A |X| dP ≤ ε. exercice 6 Soit X une variable aléatoire réelle positive, de fonction de répartition FX . Montrer que pour 0 < p < ∞, E(X p ) = Z 0 ∞ p tp−1 P (X > t) dt = Z 0 ∞ p tp−1 (1 − FX (t)) dt. Soit X1 , X2 , ...Xn des variables aléatoires indépendantes de loi uniforme sur [0, 1]. Calculez E(min(X1 , X2 , ...Xn )) et E(max(X1 , X2 , ...Xn )). 22 CHAPITRE 2. VARIABLES ALÉATOIRES Chapitre 3 Indépendance On a vu comment modéliser une épreuve répétée un nombre fini ou infini de fois de manière indépendante, en prenant pour univers un espace produit et pour probabilité une probabilité produit. On va préciser cette notion d’indépendance en l’appliquant à des événements, des tribus ou des variables aléatoires. 3.1 Indépendance d’événements et de variables aléatoires On commence par définir la notion d’événements indépendants. Définition 7 Soit (Ω, T , P ) un espace probabilisé. Deux événements A, B ∈ T sont dits indépendants entre eux si P (A ∩ B) = P (A)P (B). Soit (Ai )i∈I une famille d’événements. Ces événements sont dits indépendants dans leur ensemble si ∀S ⊂ I fini, P \ i∈S Ai = Y P (Ai ). i∈S Exemple Pour une famille de trois événements {A1 , A2 , A3 }, I = {1, 2, 3}, S = {1} P (A1 ) = P (A1 ) S = {2} P (A2 ) = P (A2 ) S = {3} P (A3 ) = P (A3 ) S = {1, 2} P (A1 ∩ A2 ) = P (A1 )P (A2 ) S = {1, 3} P (A1 ∩ A3 ) = P (A1 )P (A3 ) S = {2, 3} P (A2 ∩ A3 ) = P (A2 )P (A3 ) S = {1, 2, 3} P (A1 ∩ A2 ∩ A3 ) = P (A1 )P (A2 )P (A3 ) sont les conditions à vérifier pour avoir l’indépendance de A1 , A2 et A3 dans leur ensemble. 23 24 CHAPITRE 3. INDÉPENDANCE Définition 8 Deux variables aléatoires X, Y : Ω → R sont indépendantes entre elles si pour tous boréliens A, B ⊂ R, les événements (X ∈ A) et (Y ∈ B) sont indépendants entre eux : P (X ∈ A) ∩ (Y ∈ B) = P (X ∈ A) P (Y ∈ B). Soit (Xi )i∈I une famille de variables aléatoires. Elle sont dites indépendantes entre elles si pour tout sous-ensemble S ⊂ I fini et (Ai )i∈S des boréliens de R, les événements (Xi ∈ Ai ) sont indépendants dans leur ensemble : P \ i∈S (Xi ∈ Ai ) = Y i∈S P (Xi ∈ Ai ). Introduisons les notations suivantes pour alléger les formules : (X ∈ A, Y ∈ B) = (X ∈ A) ∩ (Y ∈ B) = {ω ∈ Ω | X(ω) ∈ A et Y (ω) ∈ B} Xi ∈ Ai , i ∈ S = \ i∈S (Xi ∈ Ai ) (X1 ∈ A1 , X2 ∈ A2 , ..., Xn ∈ An ) = (X1 ∈ A1 ) ∩ (X2 ∈ A2 )... ∩ (Xn ∈ An ) Définition 9 Deux tribus T1 ⊂ T , T2 ⊂ T sont indépendantes entre elles si pour tout A ∈ T1 et B ∈ T2 , A et B sont indépendants entre eux. Soit (Ti )i∈I une famille de tribus incluses dans T . Elle sont dites indépendantes entre elles si pour tout sous-ensemble S ⊂ I fini et toute famille (Ai )i∈S satisfaisant Ai ∈ Ti pour tout i ∈ S, les événements Ai sont indépendants dans leur ensemble : \ Y P Ai = P (Ai ). i∈S 3.2 i∈S Lemme de Borel-Cantelli Voici une première application de la notion d’indépendance d’événements. Lemme 1 (Borel-Cantelli) Soit (Ω, T , P ) un espace probabilisé et (Ai )i∈N une suite d’événements. Si X i∈N Si X P (Ai ) < +∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini de Ai . P (Ai ) = +∞, et si les Ai sont indépendants dans leur ensemble, alors i∈N presque tout ω ∈ Ω appartient à une infinité de Ai . On définit la limite supérieure de la suite d’ensembles Ai comme suit : lim Ai = i∈N \ [ N ∈N i≥N Ai = {ω ∈ Ω | ω appartient à une infinité de Ai }. 25 3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES Le lemme se reformule alors de la façon suivante : X i∈N X P (Ai ) < +∞ implique P lim Ai = 0. i∈N P (Ai ) = +∞ et (Ai )i∈N indépendants implique P lim Ai = 1. i∈N i∈N Preuve du lemme X Nous avons la relation #{i ∈ N | ω ∈ Ai } = 1Ai (ω). Intégrons cette égalité : i∈N Z #{i ∈ N | ω ∈ Ai } dP (ω) = Z X 1Ai dP = i∈N XZ 1Ai dP = X P (Ai ) < +∞. i∈N i∈N La fonction ω 7→ #{i ∈ N | ω ∈ Ai } est intégrable, donc finie presque partout ; pour presque tout ω ∈ Ω, #{i ∈ N | ω ∈ Ai } < +∞. Supposons à présent les (Ai ) indépendants et M, N ∈ N, N ≤ M. P M \ Aci = i=N M Y P (Aci ) = i=N M Y i=N (1 − P (Ai )) ≤ e− d’après la majoration 1 − x ≤ e−x , valide pour tout x ∈ R. Nous avons donc P M \ i=N Aci ≤ e− PM i=N PM i=N P (Ai ) 2 1.5 P (Ai ) 1 0.5 et en passant à la limite sur M, P \ i≥N Ceci entraı̂ne P ( 0 Aci = 0. [ \ -1 -0.5 0 0.5 1 1.5 2 -0.5 Aci ) = 0 puis en passant au complémentaire, N ∈N i≥N P (lim Ai ) = P \ [ N ∈N i≥N 3.3 Ai = 1. Loi d’un multiplet de variables indépendantes Calculons l’espérance d’un produit de variables aléatoires indépendantes. Proposition 5 Soit (Ω, T , P ) un espace probabilisé, X, Y : Ω → R deux variables aléatoires. On se donne f, g : R → R des fonctions boréliennes telles que 26 CHAPITRE 3. INDÉPENDANCE f (X) et g(Y ) soient intégrables. On suppose X et Y indépendantes entre elles. Alors E(f (X)g(Y )) = E(f (X))E(g(Y )). Ceci se généralise à un nombre quelconque de variables aléatoires (Xi )i=1...n indépendantes entre elles : E n Y fi (Xi ) = i=1 n Y E(fi (Xi )) i=1 où les fi : R → R sont des fonctions boréliennes telles que les fi (Xi ) sont intégrables. Preuve Si f et g sont des fonctions indicatrices, f = 1A , g = 1B , E(f (X)g(Y )) = = = = = = E(1A (X)1B (Y )) = E(1(X∈A) 1(Y ∈B) ) E(1(X∈A)∩(Y ∈B) ) = E(1(X∈A, Y ∈B) ) P (X ∈ A, Y ∈ B) P (X ∈ A)P (Y ∈ B) par indépendance, E(1A (X))E(1B (Y )) E(f (X))E(g(Y )). On procède ensuite comme pour la preuve de la formule de transfert : on vérifie la formule pour les fonctions étagées, par linéarité, puis on vérifie la formule pour f, g ≥ 0 en les approchant de manière croissante par des fonctions étagées, et enfin pourf, g intégrables en les écrivant comme différence de fonctions positives intégrables. Le cas d’un nombre quelconque de variables indépendantes s’en déduit de la même façon. Rappelons que la covariance de deux variables aléatoires est égale à l’espérance du produit des variables moins le produit des espérances. On obtient le corollaire suivant : Corollaire 1 Soit X1 ,..., Xn des variables aléatoires de carré intégrable, indépendantes entre elles. Alors Cov(Xi , Xj ) = 0 si i 6= j, V n X i=1 Xi = n X V (Xi ). i=1 Complément On montre que la loi d’un couple ou d’un multiplet de variables aléatoires indépendantes entre elles est égale au produit des lois de chacune des variables aléatoires. 3.3. LOI D’UN MULTIPLET DE VARIABLES INDÉPENDANTES 27 Proposition 6 Soit X, Y deux variables aléatoires indépendantes entre elles. Alors P(X,Y ) = PX ⊗ PY , E(h(X, Y )) = Z Ω h(X, Y ) dP = Z R2 h(x, y) dPX (x) dPY (y) pour toute fonction h : R2 → R borélienne, positive ou P(X,Y ) -intégrable. Soit X1 ,..., Xn des variables aléatoires indépendantes entre elles. Alors P(X1 ,...,Xn) = PX1 ⊗ PX2 ⊗ ... ⊗ PXn , E(h(X1 , ..., Xn )) = Z Rn h(x1 , ..., xn ) dPX1 (x1 )...dPXn (xn ) pour toute fonction h : Rn → R borélienne, positive ou P(X1 ,...,Xn) -intégrable. La preuve se ramène à celle de la proposition précédente en utilisant le fait que toute fonction borélienne bornée h : R2 → R peut s’approcher en norme L1 (R2 , P(X,Y ) + PX ⊗ PY ) par une combinaison linéaire de fonctions de la forme (x, y) 7→ f (x)g(y), avec f et g boréliennes bornées. On généralise ensuite aux fonctions boréliennes positives en utilisant le théorème de convergence croissante puis aux fonctions intégrables. Le raisonnement est le même pour un multiplet de variables aléatoires. 28 3.4 CHAPITRE 3. INDÉPENDANCE Exercices exercice 1 Soit X une variable aléatoire intégrable. Montrer que si X est indépendante d’elle-même, elle est constante p.s. : il existe un réel C tel que P (X = C) = 1. exercice 2 Soit An , n ∈ N, des événements. Montrer que lim P (An ) ≤ P limAn . lim 1An = 1limAn , exercice 3 Soit X une variable aléatoire ; la tribu associée à X est définie par TX = {X −1 (A) | A ⊂ R borélien}. Montrer que deux variables aléatoires X et Y sont indépendantes si et seulement si TX et TY sont indépendantes. exercice 4 Montrer que si X et Y sont deux variables aléatoires indépendantes de densités fX et fY , le couple (X, Y ) admet pour densité la fonction (x, y) 7→ fX (x)fY (y). exercice 5 Soient X et Y deux variables aléatoires indépendantes. On suppose que X admet une densité fX . Montrer que la somme X + Y admet aussi une densité qui est égale à Z fX (t − y) dPY (y). fX+Y (t) = R Montrer que si X et Y admettent des densités fX et fY , la densité de X + Y est R égale à la convolée de fX et fY : fX+Y (t) = R fX (t − y) fY (y) dy. exercice 6 Soit X1 , ...Xn des variables aléatoires centrées, indépendantes entre elles, de cubes P P intégrables. On pose Sn = nk=1 Xk . Montrer que E(Sn3 ) = nk=1 Xk3 . exercice 7 Soient (Xi )i∈N une suite de variables aléatoires indépendantes. On suppose que PXi = PXj pour i, j ∈ N et P (Xk = x) = 0 pour x ∈ R et k ∈ N. On pose An = {ω ∈ Ω | ∀ k < n, Xk (ω) < Xn (ω)}. Si An est réalisé, on dit qu’on a obtenu un record à l’étape n. – Montrer que P (Xi = Xj ) = 0 si i 6= j. – Montrer que les An sont indépendants entre eux et que P (An ) = n1 . – En déduire que presque sûrement, on observe une infinité de records. Chapitre 4 Loi des grands nombres On va s’intéresser au comportement asymptotique d’une suite de variables aléatoires. On se donne un espace probabilisé (Ω, T , P ) et pour chaque entier n ∈ N une variable aléatoire Xn : Ω → R. Définition 10 La suite de variables aléatoires (Xi )i∈N est dite identiquement distribuée si tous les Xi ont même loi : ∀i, j ∈ N, PXi = PXj . En d’autres termes, pour tout borélien A ⊂ R, P (Xi ∈ A) = P (Xj ∈ A) et pour toute f : R → R borélienne positive ou intégrable par rapport à PX0 , E(f (Xi )) = E(f (Xj )). En particulier, E(Xi ) = E(Xj ) si les Xi sont intégrables, E(Xi2 ) = E(Xj2 ) et V (Xi ) = V (Xj ) si les Xi sont de carrés intégrables. 4.1 Loi faible des grands nombres Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles, identiquement distribuées (v.a i.i.d). On pose Sn = n X Xi = X1 + X2 + ... + Xn . i=1 n (ω) Pour ω ∈ Ω, la quantité Snn (ω) = X1 (ω)+X2 (ω)+...+X est la moyenne empirique n calculée sur l’échantillon donné par le résultat ω ∈ Ω. On cherche à étudier le comportement asymptotique de la moyenne Snn . 29 30 CHAPITRE 4. LOI DES GRANDS NOMBRES Théorème 4 (loi faible des grands nombres) Soit (Xi )i∈N une suite de variables aléatoires indépendantes entre elles, identiquement distribuées, de carrés intégrables. Alors pour tout ε > 0, S n P − E(X0 ) > ε −−−−→ 0. n→∞ n La preuve du théorème repose sur le lemme suivant : Lemme 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes, identiquement distribuées. Alors E(Sn ) = nE(X0 ), V (Sn ) = nV (X0 ). Preuve du lemme E(Sn ) = E(X1 + X2 + ... + Xn ) = E(X1 ) + E(X2 ) + ... + E(Xn ) par linéarité. V (Sn ) = V (X1 + ... + Xn ) = V (X1 ) + ... + V (Xn ) + 2 où Cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ). P i<j Cov(Xi , Xj ), La covariance de deux variables aléatoires est nulle dans le cas indépendant. D’où V (Sn ) = V (X1 ) + ... + V (Xn ) = n V (X0 ). Preuve du théorème D’après le lemme, E(Sn /n) = E(X0 ), V (Sn /n) = V (X0 )/n, √ σ(Sn /n) = σ(X0 )/ n. On applique alors l’inégalité de Bienaymé-Tchebichev : S n P n − E( V (S /n) Sn σ(X0 )2 n ) > ε ≤ = −− −−→ 0. n→∞ n ε2 nε2 Remarque On peut montrer que la loi faible des grands nombres est encore vraie pour des variables aléatoires indépendantes, identiquement distribuées, intégrables. 4.2 Loi forte des grands nombres Théorème 5 (loi forte des grands nombres) Soit (Xi )i∈N une suite de variables aléatoires intégrables, indépendantes entre elles, identiquement distribuées P et Sn = ni=1 Xi . Alors pour presque tout ω ∈ Ω , Sn (ω) −−−−→ E(X0 ). n→∞ n 31 4.2. LOI FORTE DES GRANDS NOMBRES En d’autres termes, l’ensemble {ω ∈ Ω | dont la probabilité vaut 1. Sn (ω) −−−−→ E(X0 )} n n→∞ est un ensemble Vocabulaire On dit qu’une propriété est vraie presque sûrement si elle est satisfaite pour presque tout ω ∈ Ω. Nous utiliserons dans la suite l’abréviation p.s. pour le terme presque sûrement. Énonçons un premier corollaire de la loi forte des grands nombres, qui sera démontré dans la suite. Ce corollaire montre que la probabilité d’un événement est presque sûrement égale à la limite du nombre de fois où il est réalisé sur le nombre total de fois où l’épreuve est répétée, lorsque le nombre de répétitions tend vers l’infini. Corollaire 2 Soit (Xi )i∈N une suite de variables aléatoires indépendantes identiquement distribuées et soit A un borélien de R. Alors #{i ≤ n | Xi (ω) ∈ A} −− −−→ P (X0 ∈ A) n→∞ n presque sûrement. Illustrons la loi forte des grands nombres sur un exemple avant de la démontrer. Exemple On lance une pièce de monnaie bien équilibrée un grand nombre de fois de manière indépendante. Pour modéliser ces épreuves, on commence par considérer la probabilité P̃ définie sur P({pile, f ace}) par P̃ ({f ace}) = P̃ ({pile}) = 1/2 et on pose : – Ω = {pile, f ace}N , – T = P({pile, f ace})⊗N , – P = P̃ ⊗N . Les éléments de Ω sont des suites infinies de pile ou face. On définit maintenant une variable aléatoire X : {pile, f ace} → R par X(pile) = 0, X(f ace) = 1 et on pose pour tout i ∈ N : Xi ((ωk )k∈N ) = X(ωi ) = 1 si ωi = pile 0 si ωi = f ace Soit ω = (ωk )k∈N ∈ Ω. L’élément ωk de la suite ω est le résultat obtenu au k ième lancer. La quantité Xk (ω) vaut 1 si ce résultat est face, 0 si il est égal à pile. Définissons également Sn X1 (ω) + ... + Xn (ω) X(ω1 ) + X(ω2 ) + ... + X(ωn ) (ω) = = . n n n C’est la moyenne des valeurs prises par X au cours des n premières épreuves. C’est le nombre moyen de fois où Face a été obtenu au cours des n premiers lancers. 32 CHAPITRE 4. LOI DES GRANDS NOMBRES Proposition 7 Les variables aléatoires Xi sont indépendantes dans leur ensemble, identiquement distribuées, intégrables. Preuve P (X0 ∈ A0 , ..., Xn ∈ An ) = P̃ ⊗N ({ω ∈ Ω | X(ω0 ) ∈ A0 , ..., X(ωn ) ∈ An }) = P̃ ⊗N (CX −1 (A0 ),...,X −1(An ) ) = n Y P̃ (X −1 (Ai )). i=0 De plus, P (X0 ∈ A0 ) = P (CX −1 (A0 ) ) = P̃ (X −1 (A0 )). Nous avons également P (Xi ∈ Ai ) = = = = = P ({ω ∈ Ω | ωi ∈ X −1 (Ai )}) P (CΩ,...,Ω,X −1(Ai ) ) P̃ ⊗N(CΩ,...,Ω,X −1(Ai ) ) P̃ (Ω)...P̃ (Ω)P̃ (X −1 (Ai )) P̃ (X −1 (Ai )) D’où P (X0 ∈ A0 , ..., Xn ∈ An ) = P (X0 ∈ A0 )...P (Xn ∈ An ) pour tout n ∈ N. On vient de démontrer que les Xi sont indépendants. On a aussi vu que P (Xi ∈ A) = P̃ (X −1 (A)). La loi PXi ne dépend donc pas de i et PXi = PXj pour tout i, j. Ceci termine la démonstration de la proposition. Dans notre exemple, nous avons PXi = 21 (δ0 + δ1 ) ce qui implique l’égalité E(X1 ) = Z R x dPX1 (x) = 0 × 1/2 + 1 × 1/2 = 1/2. On peut maintenant appliquer la loi forte des grands nombres : pour presque tout ω ∈ Ω, #{i ≤ n | ωi = f ace} −−−−→ 1/2 n→∞ n ou encore n o 1 − − → 1/2 = 1. P̃ ⊗N (ωi )i∈N ∈ {pile, f ace}N | #{i ≤ n | ωi = f ace} −− n→∞ n La fréquence d’apparition de face au cours d’une infinité de lancers est égale à 1/2 presque sûrement, lorsque la pièce est bien équilibrée. Nous allons démontrer la loi forte des grands nombres à partir du lemme suivant : Lemme 3 Soit (Yi ) une suite de variables aléatoires. Si pour tout ε > 0, ∞ X i=1 P (|Yi | > ε) < ∞ alors la suite (Yi )i∈N converge presque sûrement vers 0 : pour presque tout ω ∈ Ω, Yi (ω) −−−−→ 0. i→∞ 4.2. LOI FORTE DES GRANDS NOMBRES 33 Le lemme montre que P ({ω ∈ Ω | Yi (ω) −−−−→ 0}) = 1. i→∞ Preuve du lemme On applique le lemme de Borel-Cantelli. La quantité ε étant fixée, on pose Ai = (|Yi | > ε). P Comme P (Ai ) < ∞, presque tout ω ∈ Ω n’appartient qu’à un nombre fini de Ai . Notons par Cε cet ensemble. Nous avons P (Cε ) = 1. ∀ω ∈ Cε , ∃N ∈ N, ∀n ≥ N, ω ∈ / An et |Yn (ω)| < ε. On prend ε = 1/k, k ∈ N∗ et on considère l’intersection des C1/k . C= \ C1/k , P (C) = 1. k∈N∗ Pour tout ω ∈ C et tout k ∈ N∗ , le point ω est dans C1/k , si bien qu’il existe N ∈ N tel que pour tout n ≥ N, |Yn (ω)| < 1/k. Ceci montre que lim Yn (ω) = 0, n→∞ comme souhaité. Preuve de la loi forte des grands nombres Pour simplifier, nous allons supposer que les Xi sont de carré intégrable dans la preuve. On donnera une preuve dans le cas intégrable plus tard, dans le chapitre consacré à la convergence de séries de variables aléatoires. Nous avons, pour tout i, E(Xi ) = E(X1 ). Quitte à remplacer les Xi par Xi − E(Xi ), on peut supposer E(Xi ) = 0. On dit qu’on centre les variables aléatoires. On veut montrer que Snn converge presque sûrement vers 0. Essayons d’appliquer le lemme précédent. Rappelons l’égalité E( Sii ) = E(X1 ) = 0. S V (S /i) V (X1 ) i i P > ε ≤ = i ε2 i ε2 ∞ X n=1 S i >ε P i X S 2 i 2 ≤ par Bienaymé-Tchebichev. ∞ 1 V (X1 ) X = +∞. 2 ε i=1 i La condition du lemme, avec Yi = Si /i, n’est pas vérifiée. Remplaçons i par i2 : S Yi = ii22 . Nous avons maintenant i P P i >ε ≤ V (X1 ) X 1 . 2 ε i i La série i12 est convergente (sa limite vaut π 2 /6). Le lemme précédent donne la S convergence de la suite ii22 : Si2 −−−−→ 0 i2 i→∞ p.s. 34 CHAPITRE 4. LOI DES GRANDS NOMBRES Pour chaque n ∈ N∗ , on prend i ∈ N √le plus grand possible, tel que i2 ≤ n. L’entier i est égal à la partie entière de n et on a les encadrements : i2 ≤ n ≤ (i + 1)2 − 1, Sn = i2 ≤ n ≤ i2 + 2i, n X 2 Xk = k=1 S n n i X Xk + k=1 S 2 i + 2 ≤ i √ 0 ≤ n − i2 ≤ 2i ≤ 2 n. n X Xk k=i2 +1 n 1 X Xk . n k=i2 +1 Pour majorer le dernier terme, on raisonne comme précédemment : ! n n X 1 X 1 2 V (X1 ) n − i2 P Xk > ε ≤ 2 2 V . Xk ≤ 2 2 V (X1 ) ≤ 3/2 n k=i2 +1 nε nε n ε2 k=i2 +1 La série P 1 n3/2 est convergente. D’après le lemme, n 1 X Xk −−−−→ 0 i→∞ n k=i2 +1 p.s. Le résultat est démontré. Preuve du corollaire On applique la loi des grands nombres à la suite (1A ◦ Xi ). E(1A ◦ X1 ) = E(1X −1 (A) ) = E(1(X1 ∈A) ) = P (X1 ∈ A). 1 n Sn 1X 1 = 1A (Xk (ω)) = #{k ∈ {1, ..., n} | Xk (ω) ∈ A} n n k=1 n Cette quantité converge vers E(1A ◦ X1 ) d’après la loi forte des grands nombres. Complément Donnons une généralisation aisée de la loi des grands nombres qui s’avère utile en pratique. Proposition 8 Soit (Xi )i∈N une suite de variables aléatoires indépendantes identiquement distribuées. Soit m ∈ N∗ et f : Rm → R une fonction qui est P(X1 ,...,Xm) -intégrable. Alors pour presque tout ω ∈ Ω, N 1 X f (Xk , ..., Xk+m−1 ) −−−−→ E(f (X1 , ..., Xm )). N →∞ N k=1 35 4.2. LOI FORTE DES GRANDS NOMBRES Preuve On pose Yk = f (Xk , ...Xk+m−1 ) ; les variables Yk ne sont pas indépendantes dans leur ensemble. Par contre, les variables Y1 , Ym+1 , Y2m+1 , Y3m+1 ... sont indépendantes entre elles. Plus généralement, pour chaque r ∈ {1, ..., m}, les variables (Ymk+r )k∈N sont intégrables, indépendantes et identiquement distribuées. On peut donc appliquer la loi des grands nombres à ces m suites de variables aléatoires et faire la somme des résultats, ce qui donne mn m X 1X Yk −−−−→ E(Yi ). n→∞ n k=1 i=1 Comme les variables Xi sont indépendantes identiquement distribuées, nous avons R E(Yi ) = E(f (Xi , ..., Xm+i−1 )) = R f (x1 , ..., xm ) dPXi (x1 )...dPXm+i−1 (xm ) = f (x1 , ..., xm ) dPX1 (x1 )...dPX1 (xm ) = E(f (X1 , ..., Xm )). Ceci montre le résultat pour N multiple de m. Si N n’est pas multiple de m, on peut l’écrire sous la forme N = mn + i avec 0 < i < m. On remarque alors que chacun des termes Ymn+i /n converge vers 0 presque sûrement quand n tend vers l’infini, d’après la loi des grands nombres : n X n − 1 1 n−1 Ymn+i 1 X = Ymk+i − Ymk+i −−−−→ E(Yi ) − E(Yi ) = 0. n→∞ n n k=1 n n − 1 k=1 La proposition s’ensuit. Application On revient à l’exemple de pile ou face. Prenons – Ω = {pile, face}⊗N , – T = P({pile, face})⊗N , – P = ( 21 δpile + 21 δf ace )⊗N . D’après la loi des grands nombres, 1 1 #{k ∈ {1, ..., n} | ωk = f ace} −−−−→ n→∞ n 2 pour presque tout ω ∈ Ω. En particulier, pour presque tout ω ∈ Ω, face apparaı̂t une infinité de fois dans la suite Ω. Soit (a1 , ..., am ) ∈ {pile, f ace}m . Prenons f = 1{(a1 ,...,am)} . Nous obtenons E(f (X1 , ..., Xm )) = P (X1 = a1 , ..., Xm = am ) = P (X1 = a1 )...P (Xn = am ) = 1/2m. 36 CHAPITRE 4. LOI DES GRANDS NOMBRES Appliquons la proposition précédente. 1 1 #{k ∈ {1, ..., n} | (ωk , ..., ωk+m−1 ) = (a1 , ..., am )} −−−−→ m p.s. n→∞ 2 n Notons par Ω(a1 ,...,am) l’ensemble des ω ∈ Ω pour lesquels on a cette convergence. Cet ensemble est de probabilité 1. On en déduit P \ \ m∈N∗ (a1 ,...,am )∈{pile,f ace}m Ω(a1 ,...,am) = 1 Presque tout ω ∈ Ω appartient à tous les Ω(a1 ,...,am) . Cela signifie que dans presque toute suite ω ∈ Ω, tous les mots (a1 , ..., am ) apparaissent une infinité de fois dans la suite ω avec fréquence 1/2m , pour tout m ∈ N∗ . 4.3 Illustration numérique Pour illustrer la loi des grands nombres, on considère plusieurs suites numériques, chacune consistant en mille chiffres obtenus de plusieurs façons. La première a été obtenue en lançant mille fois un dé à dix faces. 9 0 7 6 1 3 9 1 6 5 1 9 5 0 3 1 8 6 8 3 8 7 0 1 2 3 8 2 9 6 5 9 9 0 3 7 4 6 1 8 7 4 0 3 2 9 3 8 1 2 4 9 1 4 3 2 1 5 0 2 9 6 1 9 4 7 8 8 1 0 2 0 3 6 7 0 3 9 8 0 1 7 9 5 3 7 5 8 3 9 6 2 0 7 7 0 1 9 8 3 6 3 8 6 6 4 5 2 1 2 2 0 1 7 7 1 3 6 5 07195535784992102510127330048080104635643112613277 60253370520040446582273287202454964251060455589123 14658403228676939400824895557805458285668455707010 36658934273243541786038200065107168643136855285740 76079838316958557190903288695159609196578777924861 25238482302773470337694269961537648365779868125424 72833211867012011187724228546934680589558020249827 52682924838992331531538655796668993817284434717033 63363770560318893260304325365517406339397982702148 43469379600499246127875102622335428427940885511253 15945488704499450024160185760765216686835250151698 07953779077260810545709190679594122819054332016053 43874509773142256208446793582069591398295534817669 00866805445751385073444135898053722773518657599238 89658234574692703913076451170825777013536742159577 19079737095497673616541864589023496340392506392105 7656373237561356720507209316694679109441467880686 7 5 9 9 9 9 3 2 8 1 0 8 5 7 9 2 5 9 3 7 2 8 1 1 6 2 8 3 2 7 0 7 La seconde est obtenue en utilisant un ordinateur et un générateur de nombres aléatoires. 0 4 9 8 1 8 5 0 4 6 8 9 3 7 6 6 0 8 9 2 8 2 9 7 8 0 0 4 9 1 9 9 4 1 4 1 7 6 4 0 5 4 7 2 7 6 8 7 1 3 0 8 7 1 3 5 5 5 3 0 8 5 1 9 9 4 2 2 3 5 7 7 7 9 6 9 2 3 5 0 1 1 6 4 6 7 3 6 5 2 1 2 6 5 9 1 1 4 2 0 3 3 0 4 8 5 7 6 6 0 3 7 0 4 8 1 6 3 3 24592033294113072055009313425642463292168997476190 77267238897625707122976490684065302293384854139192 11397466600327680402779174058748690387597709752501 25059823435107768209518057889837034466213544751592 96817113492421921923840639504736194034314431873600 60584226532439043455300579734169799238925012559236 62061213722328986841721798524656340464293346098822 51840808482435025872404021592385467879066595396687 21762789994979875954905548833577698111700049957468 22972303303753357773391974551636647343300820036885 69727168283391699730986204781767202822204930136335 84437364228724886016021614322705702333811808553020 65315580534744055220030588691391259941562092607300 91143118429907218938624903376109882540701521511774 30091407194844714177277059194319510975738921377904 22721077246682417815472143525538002064919575074911 9878675571367879838239809354806954174212966077024 2 7 6 9 7 5 4 1 0 7 9 8 7 6 5 5 2 6 2 3 3 6 4 3 9 1 5 8 9 3 6 6 4.3. ILLUSTRATION NUMÉRIQUE 37 La troisième est constituée des mille premières décimales de π. 1 4 4 5 3 4 5 9 8 3 7 2 1 8 0 6 1 4 5 7 5 1 1 9 5 5 9 6 1 1 3 8 1 9 1 9 0 9 6 2 0 9 7 5 6 4 2 7 2 7 5 5 2 9 6 5 7 3 1 5 2 9 6 1 2 5 1 7 9 3 3 4 2 3 6 9 2 2 4 8 2 9 3 7 7 2 0 8 4 7 7 0 5 7 4 0 4 9 7 3 7 8 6 7 4 6 1 2 0 3 2 7 5 4 0 8 4 6 1 53589793238462643383279502884197169399375105820974 81640628620899862803482534211706798214808651328230 46095505822317253594081284811174502841027019385211 22948954930381964428810975665933446128475648233786 20190914564856692346034861045432664821339360726024 45870066063155881748815209209628292540917153643678 11330530548820466521384146951941511609433057270365 09218611738193261179310511854807446237996274956735 48912279381830119491298336733624406566430860213949 37190702179860943702770539217176293176752384674818 13200056812714526356082778577134275778960917363717 09012249534301465495853710507922796892589235420199 21960864034418159813629774771309960518707211349999 04995105973173281609631859502445945534690830264252 46850352619311881710100031378387528865875332083814 69147303598253490428755468731159562863882353787593 8577805321712268066130019278766111959092164201989 9 6 0 7 9 9 7 1 4 4 8 5 9 2 2 7 4 6 5 8 1 2 5 8 6 6 7 6 9 3 0 5 La quatrième est obtenue en conservant les cinq derniers chiffres de deux cents numéros de téléphone successifs d’un annuaire téléphonique. 4 3 4 9 0 9 5 4 2 7 5 3 5 5 1 5 0 1 0 0 8 7 4 8 9 1 6 7 8 5 7 0 9 6 0 8 5 0 3 1 5 4 7 2 8 4 8 7 5 1 0 1 0 9 5 9 5 0 0 5 9 5 5 2 5 6 6 1 4 2 6 7 7 4 4 1 9 5 6 3 0 7 3 0 9 9 0 1 6 9 5 7 1 2 9 5 3 0 3 6 0 2 1 5 9 5 8 8 9 5 3 3 9 5 4 1 5 4 0 40157016237489617851229127535103544941913308790788 91525179198338901696427991309520468231697440533929 02708577775484231826460352117856492509675856651369 94106851138596548584589557409855100072855942558990 52980290409851009383738406459144938515956159162856 25821722509842771150086545908277157578642452501556 74345971059895928535931542068592273922794045590959 38958262875495859206683645900357302018765684685437 98450996988564428995441515273448995874061928395268 64580395803359356020818912959386853855043680319642 61305058575675897194589895625406985434567945926379 53449803437743893673356867830528579245956086593815 11019075755014997404514391064952639924575974482821 34731300920899735436854378989209892993686614102505 87439114153085468595378433265882223289236284318927 99794869822055448157631761858165894376857761372853 8958553782665752532830679143755719593059587659128 4 1 1 5 7 9 4 5 4 3 2 4 3 7 5 2 2 9 7 5 6 1 8 6 5 9 6 1 8 4 8 4 La cinquième s’obtient en concaténant les nombres entiers dans l’ordre croissant en partant de un. 1 3 4 9 5 3 1 4 9 2 3 5 2 2 1 3 1 2 5 6 4 1 5 5 1 4 1 2 3 7 2 2 3 3 3 3 5 9 1 1 5 7 1 4 3 2 3 9 3 2 5 4 6 6 5 6 3 1 5 9 2 4 5 2 3 1 3 2 5 3 6 9 1 6 5 1 5 1 2 4 7 2 3 3 3 6 7 6 6 1 1 6 7 1 5 3 2 4 9 3 3 5 7 3 7 9 7 3 1 6 9 2 5 5 2 4 1 3 3 89101112131415161718192021222324252627282930313233 83940414243444546474849505152535455565758596061626 68697071727374757677787980818283848586878889909192 79899100101102103104105106107108109110111112113114 11811912012112212312412512612712812913013113213313 71381391401411421431441451461471481491501511521531 57158159160161162163164165166167168169170171172173 17717817918018118218318418518618718818919019119219 61971981992002012022032042052062072082092102112122 16217218219220221222223224225226227228229230231232 23623723823924024124224324424524624724824925025125 52562572582592602612622632642652662672682692702712 75276277278279280281282283284285286287288289290291 29529629729829930030130230330430530630730830931031 43153163173183193203213223233243253263273283293303 34335336337338339340341342343344345346347348349350 3543553563573583593603613623633643653663673683693 3 3 9 1 4 5 1 3 1 2 2 7 2 1 3 3 4 6 3 1 1 4 7 1 3 3 2 2 9 3 1 5 La sixième est obtenue en concaténant le nombre d’habitants de chacune des communes de l’Ain, ordonnées par ordre alphabétique (2012, Abergement-Clémenciat → Vonnas) et en conservant les mille premiers chiffres. 38 7 4 8 9 6 5 0 5 1 7 1 1 2 2 8 1 0 9 1 4 4 1 2 1 1 5 5 3 2 1 7 5 2 8 CHAPITRE 4. LOI DES GRANDS NOMBRES 1 2 4 5 4 2 2 3 1 8 6 6 0 8 1 4 2 2 1 1 6 2 1 6 0 4 3 4 9 0 0 5 3 3 3 8 4 1 0 8 7 0 8 6 2 1 5 1 0 8 9 9 7 7 1 8 1 5 1 7 1 2 1 1 8 6 1 2 1 5 4 2 1 9 4 4 5 2 1 2 0 1 1 0 2 47961660116255775834710873933191653566497422432211 31593211890289056868089238453259119369298350544281 75527146435562748319302962309953134214612793724999 48809525932176274271748148544863020101224421191145 24807096448367373682899421933353321416675166730650 15971591679551381465147217714311872093120109452795 61531224250122887109867962551427527213843791766204 58734427422488698821226395476192910272211181799189 42242943325890536520121474201968460810049591491097 21761999806119536214208174069853146051150119174238 71111033532552189203696011792671081271302156627231 73155538881011581263034406432682109431219932257132 26165024596406741315133124875168822147392215592742 65483411246668247671724539101003351324621066253374 63865325481542128951544138263230536591167371237164 14417885059038678013854545024321641734272223151702 2743240765915781802766814833711898444299597760114 4 7 1 1 9 5 2 3 9 3 1 1 0 7 3 8 0 3 4 8 8 7 8 8 1 2 4 6 0 5 1 8 La dernière est “faite maison”. On a demandé à une personne de réciter mille chiffres successivement sans réfléchir. Voilà le résultat. 1 4 2 0 4 2 0 4 4 2 5 7 9 1 1 1 1 4 5 5 3 5 9 2 2 3 1 1 9 3 9 2 0 4 2 0 2 5 4 5 5 7 2 4 1 6 4 6 5 4 2 9 1 8 4 2 7 5 4 1 2 1 9 1 7 4 2 4 5 5 9 2 2 8 4 5 0 4 2 8 1 5 3 1 5 7 9 5 3 1 4 3 6 5 3 1 1 1 1 5 7 2 8 4 6 5 4 1 0 2 9 4 3 2 4 2 2 2 3 41601453332878452444442145541240000000001002003004 57859167404044055678814579147953325245425444224425 75421157240130402469514523425102456798552425456514 42456891051456105012014524142798312142412439114512 98749784251298576421140101425414169999105241424524 60145333287842568974212454487823335410614875924101 21689107154501412451220152016201720182019202458101 14987414521002504142524987652145210421255215169879 05420000000000142979542179854312042175024154979411 44503210214424518952114987241924951298567192495261 14567891042123412598764142434445464748494104246801 45211000241521721019876543210979598952415251002416 25132186754123456799114250524215794215205224125415 24152456871024527141245298752125179879152452168910 16248444200704251792421789125432102803203802648567 41257941521496798475214142515149762152421524945521 4241268934672416522416242592324165003472164219671 0 4 5 1 1 4 0 7 4 4 3 2 2 1 8 4 1 4 2 2 4 2 5 5 7 2 5 8 5 1 9 2 Le tableau qui suit donne, pour chacune des suites qui viennent d’être présentées, le nombre d’occurrences de chacun des dix chiffres dans la suite ainsi que de quelques nombres à deux chiffres pris au hasard : 00, 11, 32, 66, 69 et 77. 0 1 2 3 4 5 6 7 8 9 00 11 32 66 69 77 1 104 89 98 107 86 112 100 108 99 97 10 8 11 11 12 16 2 107 94 108 106 99 92 87 112 89 106 12 10 9 11 9 13 3 93 116 103 102 93 97 94 95 101 106 7 16 9 11 6 9 4 85 82 80 87 96 164 80 83 113 130 8 6 4 4 8 8 5 66 177 177 148 77 77 77 67 67 67 3 25 25 5 5 4 6 73 171 132 95 104 93 83 83 84 82 5 25 16 10 5 3 7 92 161 167 39 183 131 45 61 51 70 26 13 10 0 4 0 1 2 3 4 dé à dix faces générateur de nombres aléatoires décimales de π numéros de téléphone 5 6 7 nombres entiers par ordre croissant nombre d’habitants par commune récitation 4.3. ILLUSTRATION NUMÉRIQUE 39 Pour les trois premières suites, les occurrences sont proches des valeurs asymptotiques produites par une suite indépendante identiquement distribuée. Chaque chiffre apparaı̂t avec une fréquence proche du dixième, tandis que les mots de deux lettres ont une fréquence proche du centième. On n’est pas surpris que les deux premières suites se comportent conformément à la loi des grands nombres. La question reste ouverte de démontrer qu’il en va vraiment de même pour la troisième suite constituée par les décimales de π. On ne sait même pas si tous les chiffres apparaissent une infinité de fois dans le développement décimal de π. Les chiffres 5 et 9 sont sur-représentés dans la quatrième suite, sans qu’il soit possible d’en déterminer la raison. On pourrait s’attendre à ce que l’annuaire produise des valeurs aléatoires uniformément distribuées mais cet exemple ne permet pas de confirmer cette intuition. Il faudrait une analyse plus fine pour déterminer si c’est l’échantillon qui est particulier ou si un ordre se cache derrière la répartition des numéros. La cinquième suite présente des disparités importantes, avec le chiffre 1 très largement représenté tandis que le 0 est peu fréquent. On n’est pas surpris que le chiffre 1 apparaisse souvent dans la liste des premiers entiers naturels. Le nombre dont les décimales sont obtenues en faisant la liste de tous les entiers par ordre croissant s’appelle la constante de Champernowne. On peut montrer que la fréquence de chacun des chiffres finit par converger vers un dixième, contrairement à ce que pourrait laisser penser les premiers termes de la suite. De manière étonnante, on peut même montrer que la constante de Champernowne est un nombre normal : pour tout entier n > 0, tous les mots constitués de n chiffres apparaissent dans la suite de ses décimales avec une fréquence égale à 10−n . La sixième suite présente aussi des variations importantes avec le chiffre 1 qui apparaı̂t le plus fréquemment. Ce phénomène est parfois observé quand on étudie des données statistiques concernant des populations humaines et provient de la croissance exponentielle de ces populations. Il est relié à la loi de Benford. Cette loi est bien vérifiée par le nombre d’habitants des trente six mille communes de France et on l’observe déjà sur l’échantillon que nous avons considéré. Finalement, la septième suite est loin d’être uniformément répartie, avec le chiffre 3 sous-représenté tandis que le 4 revient fréquemment. Elle montre à quel point il est difficile pour un être humain de simuler le hasard. L’absence de certains mots de longueur deux est typique dans ce genre d’expérimentation et permet de repérer aisément les suites qui sont le produit d’une intervention humaine plutôt que d’un procédé aléatoire. 40 4.4 CHAPITRE 4. LOI DES GRANDS NOMBRES Exercices Dans les exercices qui suivent, (Xn )n∈N est une suite de variables aléatoires inP dépendantes identiquement distribuées et Sn = nk=1 Xk . exercice 1 Xn On suppose les (Xn ) intégrables. Montrer que −−−−→ 0 p.s. n n→∞ p.s. Si de plus l’espérance des Xk est strictement positive, alors Sn −−−−→ +∞. n→∞ exercice 2 On suppose les (Xn ) de carrés intégrables. Montrer que les suites suivantes convergent presque sûrement vers une limite qu’on calculera. n 1X Xk2 , n k=1 n 1X Xk Xk+1, n k=1 X 2 Xi Xj , n(n − 1) 1≤i<j≤n Pn k=1 Xk . 2 k=1 Xk Pn exercice 3 1 p.s. Soit x ∈ R. Montrer la convergence #{1 ≤ k ≤ n | Xk (ω) ≤ x} −−−−→ FX0 (x). n→∞ n exercice 4 Soit f : [0, 1] → R continue. Montrer que la suite un = Z 1 0 ... Z 1 0 f x 1 + ... + xn dx1 ...dxn n admet une limite que l’on précisera. exercice 5 P Soit (pk )k=1..r des nombres réels strictement positifs tels que pk = 1. On suppose que la loi des Xn est donnée par P (Xi = k) = pk . On considère les variables aléatoires Πn (ω) = pX1 (ω) pX2 (ω) ...pXn (ω) . Montrer que r X 1 ln(Πn ) −−−−→ pk ln(pk ) p.s. n→∞ n k=1 exercice 6 On suppose les Xn centrés de carrés intégrables. En inspectant la preuve de la loi forte des grands nombres, montrer qu’on peut trouver α > 0 tel que Sn p.s. −−−−→ 0. 1−α n→∞ n Montrer l’égalité n X Xk 1 1 1 Sk + = − Sn . k k k + 1 n + 1 k=1 k=1 n X En déduire que la série P Xk k converge presque sûrement. Chapitre 5 Convergence de suites de variables aléatoires 5.1 Les différents types de convergence. Les résultats précédents font appel à différentes notions de convergence. On va préciser ces notions et étudier les relations qu’elles entretiennent entre elles. Rappelons la définition des normes Lp , p ≥ 1. Soit (Ω, T , P ) un espace probabilisé. Pour p ∈ [1, +∞[, la norme Lp de la variable aléatoire Y : Ω → R est définie par kY kp = ( Z |Y |p dP )1/p . La norme L∞ de Y est définie par kY k∞ = inf{C > 0 | ∃ Ω′ tel que P (Ω′ ) = 1 et |Y (ω)| ≤ C pour tout ω ∈ Ω′ } Définition 11 Soient Yn , Y des variables aléatoires définies sur (Ω, T , P ) et p ∈ [1, +∞]. – La suite Yn converge en norme Lp vers Y si kYn − Y kp −−−−→ 0. n→∞ – La suite Yn converge en probabilité vers Y si ∀ ε > 0, P (|Yn − Y | > ε) −−−−→ 0. n→∞ – La suite Yn converge presque sûrement vers Y si pour presque tout ω ∈ Ω, Yn (ω) −−−−→ Y (ω). n→∞ – La suite Yn converge en loi vers Y si pour toute fonction f : R → R continue bornée, 41 Z f dPYn −−−−→ n→∞ Z f dPY . 42CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES Proposition 9 Soient p, q ∈ R tels que 1 ≤ p ≤ q ≤ ∞. On a les implications CV L∞ ⇒ CV Lq ⇒ CV Lp ⇒ CV L1 ⇒ CV en proba ⇒ CV en loi. CV L∞ ⇒ CV p.s. ⇒ CV en proba. CV L∞ ⇒ CV en proba ⇒ CV p.s. d’une sous-suite. Remarque La convergence L2 implique la convergence en probabilité. C’est comme cela que nous avons démontré la loi faible des grands nombres. Celle-ci affirme que Snn converge vers E(X0 ) en probabilité, si les (Xi ) sont indépendantes, identiquement distribuées. On avait obtenu ce résultat en montrant que V ( Snn ) −−−−→ 0. D’après n→∞ la relation suivante, cela est équivalent à la convergence L2 : V S 2 2 S S S 2 Sn n n n n =E −E =E − E(X0 ) = − E(X0 ) . 2 n n n n n Démonstration de la proposition • CV Lq ⇒ CV Lp si p ≤ q. Démontrons l’égalité kY kp ≤ kY kq en utilisant l’inégalité de Hölder : pour tout p, q ≥ 1 tels que 1/p + 1/q = 1, Z |Y Z| dP ≤ kY kp kZkq . On prend Y constant égal à 1 dans cette inégalité, auquel cas kY kp = 1 et kZk1 ≤ kZkq . Ceci démontre le résultat pour p = 1. Pour p général, on remplace q par q/p et Z par Y p , ce qui donne : Z Y p dP ≤ Z Y pq/p dP p/q , kY kp ≤ kY kq . • CV L∞ ⇒ CV Lp . On a pour presque tout ω ∈ Ω, |Y (ω)| ≤ kY k∞ . En intégrant, on obtient kY kpp = Z p |Y (ω)| dP (ω) ≤ Z kY kp∞ dP = kY kp∞ . • CV L1 ⇒ CV en proba L1 C’est une conséquence de l’inégalité de Markov. Si Yn −−−−→ Y , n→∞ P (|Yn − Y | > ε) ≤ kYn − Y k1 E(|Yn − Y |) = −−−−→ 0 n→∞ ε ε 5.2. FONCTION CARACTÉRISTIQUE ET TRANSFORMÉE DE FOURIER43 • CV L∞ ⇒ CV p.s. L∞ Si Yn −−−−→ Y , il existe Ω′ ⊂ Ω de probabilité 1 tel que n→∞ sup |Yn (ω) − Y (ω)| −−−−→ 0. n→∞ ω∈Ω′ On en déduit, pour tout ω ∈ Ω′ , Yn (ω) −−−−→ Y (ω). n→∞ • CV en proba ⇒ CV p.s. d’une sous-suite Nous savons que pour tout ε > 0, P (|Yn − Y | > ε) −−−−→ 0. n→∞ Pour tout k ∈ N, on peut donc trouver nk ∈ N aussi grand qu’on veut, tel que P (|Ynk − Y | > 1/k) ≤ 1/2k . On a alors ∞ X k=0 P (|Ynk − Y | > 1/k) < ∞ On applique le lemme de Borel-Cantelli : pour presque tout ω ∈ Ω, hormis pour un nombre fini d’indices k, |Ynk (ω) − Y (ω)| < 1/k. La suite Ynk converge vers Y presque sûrement. • CV p.s. ⇒ CV en proba Nous avons les deux conditions suivantes : – 1(|Yn −Y |>ε) (ω) −−−−→ 0 pour presque tout ω ∈ Ω car |Yn (ω) − Y (ω)| −−−−→ 0. n→∞ n→∞ – |1(|Yn −Y |>ε) | ≤ 1Ω et 1Ω est intégrable, ne dépend pas de n. On peut appliquer le théorème de convergence dominée : lim P (|Yn − Y | > ε) = lim n→∞ n→∞ Z 1(|Yn −Y |>ε) dP = Z lim 1(|Yn −Y |>ε) dP = 0 n→∞ L’implication CV en proba ⇒ CV en loi sera démontrée dans la suite. 5.2 Fonction caractéristique et transformée de Fourier Pour étudier plus en détail la convergence en loi, on va utiliser la notion de fonction caractéristique d’une variable aléatoire et de transformée de Fourier d’une mesure de probabilité. Définition 12 La fonction caractéristique d’une variable aléatoire Y : Ω → R est définie par ϕY (t) = E(eitY ) = Z Ω eitY dP = Z R eity dPY (y). 44CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES La transformée de Fourier d’une mesure de probabilité µ définie sur la tribu des boréliens de R est définie par b µ(t) = Z eitx dµ(x). R On a donc l’égalité ϕY (t) = PbY (t). Propriétés – |ϕY (t)| ≤ 1 pour tout t ∈ R, – ϕY (0) = 1, – t 7→ ϕY (t) est continue sur R, – si Y est intégrable, alors t 7→ ϕY (t) est dérivable et ϕ′Y (0) = iE(Y ), – si Y est de carré intégrable, t 7→ ϕY (t) est de classe C 2 et ϕ′′Y (0) = −E(Y 2 ). La continuité et la dérivabilité découlent des théorèmes de continuité et de dérivabilité sous le signe intégrable. Par exemple, si X est intégrable, on a la majoration ce qui implique ϕ′Y (t) = d dt ∂ itY e = |iY eitY | ≤ |Y | ∂t R Ω eitY dP = R ∂ itY Ω ∂t e dP = R Ω iY eitY dP. La loi d’une variable aléatoire est complètement caractérisée par sa fonction caractéristique. Proposition 10 Deux variables aléatoires qui ont même fonction caractéristique ont même loi : ϕX = ϕY implique PX = PY . Ce théorème est admis et ne sera pas utilisé dans la suite. On passe maintenant à quelques calculs explicites de fonctions caractéristiques. Cas discret La variable aléatoire Y prend un nombre fini ou dénombrable de valeurs yk , k ∈ I, avec I = {1, ..., n} ou I = N. ϕY (t) = E(eitY ) = X eityk P (Y = yk ). k∈I • Loi de Bernoulli de paramètre p ∈ [0, 1] Si Y obéit à une telle loi, P (Y = 0) = 1 − p, P (Y = 1) = p. On a alors ϕY (t) = eit×0 P (Y = 0) + eit×1 P (Y = 1), ϕY (t) = 1 − p + peit . • Loi uniforme sur {1, ..., n} , n ∈ N∗ 45 5.3. CONVERGENCE EN LOI Si Y obéit à une telle loi, P (Y = k) = 1/n pour k ∈ {1, ..., n}, ce qui implique Pn−1 it k P P (e ) . ϕY (t) = nk=1 eitk P (Y = k) = nk=1 n1 (eit )k = n1 eit k=0 ϕY (t) = 1 it 1 − eitn e n 1 − eit si t ∈ / 2πZ. Cas continu La variable aléatoire Y est associée à la densité fY : R → R+ si bien que R P (Y ∈ A) = A fY (y) dy. ϕY (t) = E(eitY ) = • Loi uniforme sur [a, b], a < b. ϕY (t) = R R 1 eity b−a 1[a,b] (y) dy = Z eity dPY (y) = 1 R b ity e b−a a ϕY (t) = dy = eitb − eita it (b − a) Z eity fY (y) dy. 1 eity b [ ] . b−a it a si t 6= 0. • Loi exponentielle de paramètre l > 0 ϕY (t) = R R eity le−ly 1R (y) dy = R +∞ 0 le(it−l)y dy = [le(it−l)y /(it − l)]+∞ 0 . ϕY (t) = l . l − it Remarque on utilise parfois à la place de la fonction caractéristique la notion de fonction génératrice. Définition 13 On considère l’ensemble des z ∈ C pour lesquels la fonction z Y est intégrable. La fonction génératrice d’une variable aléatoire Y est définie sur cet ensemble par l’expression z 7→ E(z Y ) Attention, elle n’est pas forcément définie pour tout z ∈ C, la fonction z 7→ z Y n’étant pas forcément intégrable. Lorsque z = eit , elle est bien intégrable et on retrouve la fonction caractéristique de la variable Y . 5.3 Convergence en loi Rappelons que Yn converge en loi vers Y si pour toute fonction f : R → R continue bornée, Z Z f dPYn −−−−→ f dPY . n→∞ 46CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES Définition 14 Soit µn et µ des mesures de probabilité définies sur la tribu des boréliens de R. Nous dirons que µn converge étroitement vers µ si pour toute Z R fonction f : R → R continue bornée, f dµn −−−−→ f dµ. n→∞ La suite Yn converge en loi vers Y si et seulement si PYn converge étroitement vers PY . On va relier la convergence en loi à la convergence simple des fonctions caractéristiques, dans le but de démontrer le théorème de la limite centrée. Théorème 6 Soit µ, µn , n ∈ N, des mesures de probabilité définies sur la tribu des boréliens de R. Les propriétés suivantes sont équivalentes : – – – Z Z Z f dµn −−−−→ n→∞ f dµn −−−−→ n→∞ f dµn −− −−→ n→∞ Z Z Z f dµ pour toute fonction f continue bornée, f dµ pour toute fonction f C ∞ à support compact, f dµ pour toute fonction f de la forme eitx , t ∈ R. Le premier point correspond à la convergence étroite des µn vers µ. Le dernier point correspond à la convergence des transformées de Fourier des µn . On en déduit le corollaire suivant. Corollaire 3 Soit µ, µn des mesures de probabilité définies sur la tribu des boréb liens de R. Si pour tout t ∈ R , µb n (t) −−−−→ µ(t) , alors µn converge vers µ n→∞ étroitement. Soit (Yn ) une suite de variables aléatoires. Si pour tout t ∈ R, ϕYn (t) −−−−→ ϕY (t), n→∞ alors Yn converge vers Y en loi. Rappelons que f : R → R est à support compact s’il existe A > 0 tel que f est nulle hors de [−A, A]. Un exemple de fonction C ∞ à support compact est donné par − 1 f (x) = e 1−x2 1[−1,1] (x). 0.5 0.4 0.3 0.2 0.1 0 -1 -0.1 0 -0.5 0.5 1 Pour démontrer le théorème, nous allons avoir besoin de la formule d’inversion de Fourier. Soit f : R → R une fonction intégrable par rapport à la mesure de Lebesgue. Sa transformée de Fourier est définie par fb(t) = Z e−itx f (x) dx. R On montre que cette fonction est continue en appliquant le théorème de continuité sous le signe intégral. 47 5.3. CONVERGENCE EN LOI Théorème 7 (formule d’inversion de Fourier) Soit f une fonction C ∞ à support compact. Alors f (x) = 1 2π Z R eitx fb(t) dt pour tout x ∈ R. La preuve du théorème est donnée en annexe, sous des hypothèses un peu plus générales. La formule d’inversion de Fourier implique la relation suivante entre µ et sa transformée de Fourier. Corollaire 4 Soit µ une mesure de probabilité définie sur la tribu des boréliens de R et f : R → R une fonction C ∞ à support compact. Alors Z Z 1 f (x) dµ(x) = 2π b fb(t) µ(t) dt. Preuve du corollaire Z f (x) dµ(x) = R Z R 1 2π Z eitx fb(t) dt dµ(x) R Z Z 1 eitx fb(t) dµ(x) dt 2π R R Z Z 1 itx b f (t) = e dµ(x) dt 2π R R Z 1 fb(t) µb n (t) dt. = 2π R = Ici on a utilisé le théorème de Fubini pour intervertir les deux intégrales. Pour RR justifier l’emploi de ce théorème, remarquons que l’intégrale R2 |eitx fb(t)| dµ(x) dt est finie : Z Z R R |eitx fb(t)| dµ(x) dt = Z dµ(x) R Z |fb(t)| dt = R La preuve est terminée. R Z R |fb(t)| dt < ∞. R On commence par démontrer que f dµn −→ f dµ pour toute f C ∞ à support b compact si µb n (t) −→ µ(t) pour tout t ∈ R. D’après le corollaire précédent, Z f (x) dµn (x) = Z 1 2π Z Z fb(t) µb n (t) dt, 1 b fb(t) µ(t) dt. 2π Il suffit d’appliquer le théorème de convergence dominée pour conclure : Z f (x) dµ(x) = fb(t) µb n (t) dt −−−−→ n→∞ Z b fb(t) µ(t) dt. 48CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES b L’emploi du théorème de convergence dominée est justifié ici car µb n (t) −−−−→ µ(t) n→∞ pour tout t ∈ R par hypothèse et fb µb n est majorée par fb qui est intégrable. R R On cherche à présent à démontrer que si f dµn −→ f dµ pour toute fonction ∞ C à support compact, il en va de même pour toute fonction continue bornée. Lemme 4 Pour tout ε > 0, il existe A > 0 tel que pour tout n ∈ N, µn ([−A, A]) ≥ 1 − ε. Une suite de mesures de probabilité qui vérifie cette propriété est dite tendue. Preuve du lemme Soit g une fonction C ∞ telle que 1 • 0 ≤ g ≤ 1, • g = 1 sur [−A + 1, A − 1], • g = 0 sur [−A, A]c . 0 Fixons ε > 0. Comme µ([−A + 1, A − 1]) −−−−→ µ(R) = 1, on peut choisir A0 tel A→∞ que µ[−A0 + 1, A0 − 1] > 1 − ε. µn ([−A0 , A0 ]) ≥ Z gdµn −−−−→ n→∞ Z gdµ ≥ µ([−A0 + 1, A0 − 1]) > 1 − ε. On peut donc trouver n0 ∈ N tel que pour tout n ≥ n0 , µn ([−A0 , A0 ]) ≥ 1 − ε. De plus, pour chaque k ∈ {0, ..., n0 }, on peut trouver un ensemble Ak tel que µk ([−Ak , Ak ]) ≥ 1 − ε. Pour tout A supérieur à max{A0 , ..., An0 }, on a ∀n ∈ N, µn ([−A, A]) ≥ 1 − ε. Le lemme est démontré. Soit f continue bornée. Sur [−A−2, A+2] , on peut approcher f uniformément par une fonction C ∞ en faisant appel au théorème de Stone-Weierstraß ou en convolant avec une fonction C ∞ . Cette approximation peut être prolongée en une fonction C ∞ à support compact définie sur R tout entier en la multipliant par une fonction de classe C ∞ , comprise entre 0 et 1, qui vaut 1 sur [−A, A] et 0 hors de [−A − 1, A + 1]. Pour tout ε > 0 on peut donc trouver f˜ C ∞ à support compact telle que sup |f (x) − f˜(x)| < ε. x∈[−A,A] 49 5.3. CONVERGENCE EN LOI R R On veut montrer que | f dµn − f dµ| est inférieur à ε pour tout n suffisamment grand. On décompose comme suit : Z f dµn − Z f dµ ≤ Z f dµn − Z Z f˜dµn + f˜dµn − Z Z f˜dµ + f˜dµ − Z f dµ R ˜ dµn −→ R f˜ dµ. On peut trouver • Comme f˜ est C ∞ à support compact, f R R N ∈ N tel que pour tout n ≥ N, | f˜dµn − f˜dµ| < ε. R R R ˜ |f − f˜| dµn + • | f dµn − f˜dµn | ≤ c |f − f | dµn [−A,A] [−A,A] ≤ ε µn ([−A, A]) + (supR |f | + supR |f˜|) µn ([−A, A]c ) ≤ ε + (supR |f | + supR |f˜|) ε. Cette majoration est valide pour tout n ∈ N. R • Le terme | f − f˜ dµ | se majore de la même façon. Finalement, on remarque que sup |f˜| ≤ sup |f | + ε ≤ sup |f | + 1 sur R par construction. On a donc, pour tout n ≥ N, Z f dµn − Z Le théorème est démontré. f dµ ≤ (4 + 2 sup |f |) ε. Proposition 11 Soient µn , µ des mesures de probabilités définies sur la tribu des boréliens de R. On suppose que µn converge étroitement vers µ. Alors pour tout a, b ∈ R tels que µ({a}) = 0 et µ({b}) = 0, on a µn ([a, b]) −−−−→ µ([a, b]). n→∞ De même, pour tout x ∈ R tel que µ({x}) = 0, µn ([x, +∞[) −−−−→ µ([x, +∞[), n→∞ µn (] − ∞, x]) −−−−→ µ(] − ∞, x]). n→∞ Appliquons cette proposition à une suite de variables aléatoires. Corollaire 5 Soient (Xn )n∈N et X des variables aléatoires définies sur un espace probabilisé (Ω, T , P ) telles que Xn converge en loi vers X. Alors pour tout a, b ∈ R tels que P (X = a) = P (X = b) = 0, P (a ≤ Xn ≤ b) −− −−→ P (a ≤ X ≤ b). n→∞ De plus, les fonctions de répartition des Xn convergent vers la fonction de répartition de X en tout point x ∈ R tel que P (X = x) = 0 : FXn (x) −−−−→ FX (x) si P (X = x) = 0. n→∞ 50CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES Remarque On peut démontrer que la convergence des fonctions de répartition en tout point x tel que P (X = x) = 0 est en fait équivalente à la convergence en loi de la suite Xn vers X. Preuve Il s’agit d’approcher 1[a,b] par des fonctions continues bornées. Soit hm la fonction continue bornée, affine par morceaux telle que : • hm = 1 sur [a + m1 , b − m1 ], • hm = 0 hors de [a, b]. • la pente de hm vaut m sur [a, a + m1 ] et −m sur [b − m1 , b]. Soit gm la fonction continue bornée, affine par morceaux, telle que • gm = 1 sur [a, b], • gm = 0 hors de [a − m1 , b + m1 ], • la pente de gm vaut m sur [a − m1 , a] et −m sur [b, b + m1 ]. Nous avons la majoration 0 ≤ gm − hm ≤ 1[a− 1 ,a+ 1 ] + 1[b− 1 ,b+ 1 ] si bien que m 0≤ Z gm − hm dµ ≤ µ h 1 1 a− ,a+ m m m i +µ m m h 1 1i b − ,b+ m m Ce dernier terme converge vers µ({a}) + µ({b}), quantité qui est nulle par hyR pothèse. Fixons ε > 0 et choisissons n ∈ N tel que gm − hm dµ ≤ ε. La suite µn converge vers µ étroitement et hm ≤ 1[a,b] ≤ gm , nous avons donc pour tout n suffisamment grand, Z hm dµ − ε ≤ Z hm dµn ≤ µn ([a, b]) ≤ Z gm dµn ≤ Z Nous avons aussi, en vertu des inégalités hm ≤ 1[a,b] ≤ gm et Z gm dµ − ε ≤ Z hm dµ ≤ µ([a, b]) ≤ Z gm dµ ≤ Z gm dµ + ε. R gm − hm dµ ≤ ε, hm dµ + ε, ce qui donne le résultat recherché : µ([a, b]) − 2ε ≤ µn ([a, b]) ≤ µ([a, b]) + 2ε. On termine ce chapitre par la preuve d’un résultat énoncé précédemment. 51 5.3. CONVERGENCE EN LOI Théorème 8 Soit Xn , X des variables aléatoires. Si Xn converge vers X en probabilité, alors Xn converge vers X en loi. Preuve Soit f : R → R C ∞ à support compact. Par le théorème des valeurs intermédiaires, pour tout x, y ∈ R, |f (x) − f (y)| ≤ sup |f ′| |x − y|. R On veut montrer que la différence R R | f dPXn − f dPX | R R R f dPXn − f dPX tend vers 0 quand n −→ ∞. R = | f (Xn ) dP − f (X) dP | ≤ ≤ R R |f (Xn ) − f (X)| dP |Xn −X|>δ |f (Xn ) − f (X)| dP + R |Xn −X|<δ |f (Xn ) − f (X)| dP ≤ 2 supR |f | P (|Xn − X| > δ) + supR |f ′ | δ. Comme Xn converge vers X en probabilité, P (|Xn − X| > δ) −−−−→ 0. n→∞ Pour tout ε > 0 , on choisit δ telle que sup |f ′ | δ < ε/2. Il existe alors N ∈ N tel que pour tout n ≥ N, P (|Xn − X| > δ) ≤ R R ε 4 supR |f | ce qui implique | f dPXn − f dPX | < ε. Le théorème est démontré. 52CHAPITRE 5. CONVERGENCE DE SUITES DE VARIABLES ALÉATOIRES 5.4 Exercices exercice 1 Montrer qu’une suite de variables aléatoires (Xn ) converge en loi vers zéro si et seulement si les lois PXn convergent étroitement vers la mesure de Dirac en zéro. exercice 2 Soit g une fonction C 1 à support compact et X une variable aléatoire. Montrer que E(g(X)) = − Z R FX (t) g ′(t) dt. Soit (Xn ) une suite de variables aléatoires telle que FXn (x) converge vers FX (x) pour tout x satisfaisant P (X = x) = 0. Montrer que Xn converge en loi vers X. exercice 3 Soit (Ω, T , P ) un espace probabilisé. On considère sur l’ensemble descouples de |X−Y | fonctions mesurables de Ω dans R l’expression d(X, Y ) = E 1+|X−Y | . Montrer que cela définit une distance si on identifie les fonctions qui coı̈ncident presque partout. Montrer que la convergence relativement à cette distance est proba équivalente à la convergence en loi : Xn −−−−→ X ⇔ d(Xn , X) −−−−→ 0. n→∞ n→∞ exercice 4 Soit (Ai ) une suite d’événements indépendants dans leur ensemble. proba – Montrer que 1Ai −−−−→ 0 si et seulement si P (Ai ) → 0. i→∞ p.s. – Montrer que 1Ai −−−−→ 0 si et seulement si la série i→∞ X P (Ai ) est convergente. i∈N exercice 5 Étudier la convergence en loi des suites (Xn )n∈N∗ suivantes : – P (Xn = 1 + n1 ) = 21 = P (Xn = 1 − n1 ). – P (Xn = 0) = 1 − n1 et P (Xn = 1) = n1 . , 1}. – Xn de loi uniforme sur {0, n1 , n2 , ..., n−1 n exercice 6 Soit Sn,p une variable aléatoire qui obéit à une loi binomiale de paramètres n, p. – Calculer la fonction caractéristique de Sn,p . Cette fonction est notée ϕn,p . – La suite ϕn, 1 converge-t-elle simplement lorsque n tend vers +∞ ? n – Calculer la fonction caractéristique de la loi de Poisson de paramètre λ > 0. – Que peut-on dire de la suite Sn, 1 ? n exercice 7 Soit (Xn ) et (Yn ) deux suites de variables aléatoires et a ∈ R. Montrer que loi proba n→∞ n→∞ Xn −−−−→ a si et seulement si Xn −−−−→ a. loi loi loi n→∞ n→∞ n→∞ Xn −−−−→ X et Yn −−−−→ 0 implique Xn + Yn −−−−→ X. Chapitre 6 Théorème de la limite centrée Pour démontrer le théorème de la limite centrée, nous allons utiliser la caractérisation de la convergence en loi par le biais des fonctions caractéristiques. On commence par calculer la fonction caractéristique de la loi normale. 6.1 Fonction caractéristique de la loi normale Théorème 9 Soit Y une variable aléatoire qui obéit à une loi normale centrée 2 normalisée (m = 0, σ = 1). Sa densité est donnée par fY (y) = √12π e−y /2 et sa fonction caractéristique vaut 2 /2 ϕY (t) = e−t . Preuve R 2 Par définition, ϕY (t) = R eity √12π e−y /2 dy. On sait que eity = Z ity −y 2 /2 e e dy = R = P+∞ k=0 Z (ity)k k! +∞ X (ity)k −y2 /2 e dy k! R k=0 +∞ XZ k=0 R = pour y ∈ R. Remplaçons dans l’intégrale précédente. (it)k k −y2 /2 y e dy k! +∞ X (it)k k! k=0 Z y k e−y 2 /2 dy. R Pour justifier l’interversion signe somme intégrale, il faut vérifier que la quantité R P∞ (ity)k y2 /2 | dy est finie. 0 | k! e R Z +∞ −∞ e−y 2 /2 ∞ X 0 |ty|k dy = k! Z +∞ −∞ 53 e−y 2 /2 e|ty| dy < +∞. 54 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE Il faut maintenant calculer Ik = R R y k e−y 2/2 dy. Lorsque k est impair, la fonction y 7→ y k e− y 2/2 est une fonction impaire, si bien que son intégrale est nulle : I2l+1 = 0 pour tout l ∈ N. Pour k pair, k = 2l , on fait une intégration par partie pour obtenir une relation de récurrence. I2l+2 = Z y 2l+1 −y 2 /2 ye Nous savons que I0 = dy = [y R −y Re 2l+1 2 /2 −y 2 /2 (−e dy = )]+∞ −∞ + √ Z (2l + 1)y 2le−y 2 /2 dy = (2l + 1)I2l 2π, si bien que √ I2l = (2l − 1)(2l − 3)...3 × 1 × 2π. La quantité I2l est divisée par (2l)! dans l’expression de la fonction caractéristique. √ (2l − 1)(2l − 3)...1 I2l = 2π (2l)! (2l)(2l − 1)(2l − 2)(2l − 3)...1 √ 1 2π = (2l)(2l − 2)(2l − 4)...2 √ 1 1 2π = l 2 l(l − 1)(l − 2)...1 1 √ 2π. = l 2 l! Nous pouvons calculer ϕY : 1 ϕY (t) = √ 2π Z eity e−y 2 /2 dy = +∞ X (it)2l l=0 ∞ X (−t2 )l I2l −t2 /2 √ = = e . (2l)! 2π l=0 2l l! La formule est démontrée. 6.2 Théorème de la limite centrée Théorème 10 Soit (Ω, T , P ) un espace probabilité, (Xn )n∈N une suite de variables aléatoires indépendantes, identiquement distribuées, de carrés intégrables P et de variance non nulle. On pose Sn = ni=1 Xi . Alors la loi de la variable aléatoire √ n Sn − E(X0 ) σ(X0 ) n converge étroitement vers une loi normale d’espérance nulle et d’écart-type 1. En particulier, pour tout intervalle [a, b] ∈ R, √ Z b n Sn 1 2 P a≤ − E(X0 ) ≤ b −−−−→ √ e−x /2 dx. n→∞ σ(X0 ) n 2π a 55 6.2. THÉORÈME DE LA LIMITE CENTRÉE Remarque L’événement ci-dessus peut s’écrire comme suit : a≤ √ n ( Sn σ(X0 ) n − E(X0 )) ≤ b = = √ n ( Snn σ(X 0) √ 0) ≤ E(X0 ) + a σ(X n Lorsque n est grand, la probabilité que " est proche de √1 2π • Pour t = 1, 96, • Pour t = 2, 58, Rt −t √1 2π √1 2π − E(X0 )) ∈ [a, b] Sn n Sn n 2 /2 √ 0) ≤ E(X0 ) + b σ(X n soit dans l’intervalle σ(X0 ) σ(X0 ) E(X0 ) − t √ , E(X0 ) + t √ n n e−x # dx. Rt −x2 /2 dx −t e R t −x2 /2 dx −t e = 0, 95. = 0, 99. Il y a donc à peu près 99% de hchance, lorsque n est grand, d’avoir unei moyenne √ 0 ) , E(X0 ) + 2, 58 σ(X √ 0) . empirique Snn dans l’intervalle E(X0 ) − 2, 58 σ(X n n Il est d’usage de noter la convergence des lois d’une suite de variables aléatoires Yn vers la loi normale de paramètres m, σ comme suit : loi Yn −−−−→ N (m, σ 2 ) n→∞ Dans le cas où les Xi sont indépendantes identiquement distribuées d’espérance nulle et d’écart-type égal à un, le théorème de la limite centrée peut se résumer comme suit : S loi √n −−−−→ N (0, 1). n→∞ n Preuve du théorème Quitte à remplacer les Xi par Xi − E(Xi ), on peut supposer que les Xi sont centrées : E(Xi ) = 0. Quitte à diviser par σ(Xi ), on peut aussi supposer que Sn converge vers la loi normale. Il suffit σ(Xi ) = 1. On veut montrer que la loi de √ n donc de montrer que 2 /2 ϕ √Sn (t) −−−−→ e−t n Calculons : n→∞ pour tout t ∈ R. 56 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE Sn it √ n ϕ √Sn (t) = E e n = E e = E = it √ n n Y n Y Pn 1 e Xk it √ X n k k=1 k=1 E e = E e = ϕ X0 it √ X n k it √ X n 0 √t n n n par indépendance, car les Xi sont de même loi, . Pour calculer la limite de cette expression quand n tend vers +∞ , on fait un développement limité. Comme X0 est de carré intégrable, ϕX0 est C 2 et on a : ϕX0 (t) = Z itX0 e dP, ϕ′X0 (t) = Z itX0 iX0 e dP, ϕ′X0 (0) = iE(X0 ) = 0, ϕX0 (0) = 1, 2 ϕ′′X0 (t) = Z −X02 eitX0 dP, ϕ′′X0 (0) = −E(X02 ) = −1. D’après la formule de Taylor, ϕX0 (x) = 1 − x2 + x2 ε0 (x), avec ε0 (x) −→ 0 lorsque x → 0. Ceci implique : t n t2 t n t2 ϕ √Sn (t) = ϕX0 √ + ε0 ( √ ) , = 1− n n 2n 2n n n ln 1 − t2 t2 t t2 t 1 1 1 t2 t2 + ε0 ( √ ) = n − + ε0 ( √ ) + ε1 ( √ ) = − + ε2 ( √ ), 2n n n 2n n n n n 2 n 2 2 t2 t n t2 − t +ε ( √1 ) − t2 . − − → e + ε0 ( √ ) = e 2 2 n −− n→∞ n 2n n n Le théorème de la limite centrée est démontré. ϕ √Sn (t) = 1 − 6.3 Illustration numérique Nous allons illustrer le théorème de la limite centrée à l’aide des graphes des fréquences de la suite Sn . Soit X une variable aléatoire discrète. Le graphe des fréquences de X correspond au graphe de la fonction x 7→ P (X = x), où x varie parmi les nombres réels tels que P (X = x) > 0. Considérons le lancer d’un dé à six faces, modélisé par une variable aléatoire X0 qui suit une loi uniforme sur l’ensemble {1, 2, 3, 4, 5, 6} : P (X0 = k) = 1/6 pour k entier compris entre 1 et 6. On répète le lancer n fois, n ∈ N∗ , ce qui se décrit par une suite de variables aléatoires X1 , ... Xn indépendantes entre elles et P ayant même loi que X0 . On pose Sn = nk=1 Xk . Voici les graphes des fréquences de X0 et S2 = X1 + X2 . 57 6.3. ILLUSTRATION NUMÉRIQUE 1 0.16 0.14 0.5 0.12 0.1 0 0.08 0.06 −0.5 0.04 0 2 4 6 8 0 Graphe des fréquences de X0 2 4 6 8 10 12 14 Graphe des fréquences de S2 = X1 + X2 On calcule le graphe des fréquences de Sn pour tout n par récurrence en utilisant la formule X P (Xn+1 = l)P (Sn = k − l) P (Sn+1 = k) = j où la somme porte sur l’ensemble des valeurs l que prend Xn+1 . Si n est suffisamment grand, le graphe des fréquences devrait se rapprocher d’une gaussienne, pour peu qu’il soit convenablement renormalisé. Dans les figures qui suivent, on s’est restreint sur l’axe des abscisses aux valeurs de k qui sont à moins de trois fois l’écart-type de l’espérance de Sn . 0.12 0.1 0.1 0.08 0.08 0.06 0.06 0.04 0.04 0.02 0.02 0 0 5 10 15 5 10 Graphe de S3 15 20 Graphe de S4 0.1 0.06 0.08 0.06 0.04 0.04 0.02 0.02 0 0 10 15 20 Graphe de S5 25 20 25 30 35 40 45 Graphe de S10 50 58 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE 0.06 0.05 0.05 0.04 0.04 0.03 0.03 0.0 0.02 0.01 0.01 0 0 40 60 50 70 0 50 Graphe de S15 0 80 90 Graphe de S20 Dès n = 5, on voit les probabilités s’ordonner selon la fameuse courbe en cloche, dont la densité est donnée par la gaussienne. Il est intéressant de regarder ce qu’on obtient lorsqu’on part d’une loi qui k2 présente plusieurs maxima. Prenons pour X0 la loi P (X0 = k) = 770 pour k compris entre −10 et 10. Le graphe des fréquences de X0 est ci-dessous. P (X0 = k) = k2 , 770 k ∈ {−10, −9, .., 9, 10} 0.08 0.12 0.1 0.06 0.08 0.06 0.04 0.04 0.02 0.0 0 0 −10 10 20 30 −10 0 10 Graphe de X0 20 30 40 50 Graphe de S2 0.025 0.015 0.02 0.01 0.015 0.01 0.005 0.005 0 0 20 40 60 80 Graphe de S5 100 40 60 80 100 120 140 Graphe de S10 160 59 6.3. ILLUSTRATION NUMÉRIQUE 0.012 0.012 0.01 0.01 0.008 0.008 0.006 0.006 0.004 0.004 0.002 0.002 0 0 100 150 200 150 Graphe de S15 200 250 300 Graphe de S20 La gaussienne met plus de temps à apparaı̂tre. Les premiers graphes présentent des oscillations qui s’amortissent quand n devient grand. Un autre cas intéressant est donné par une loi fortement dissymétrique. Considérons un X0 pour lequel P (X0 = 1) = 0, 95 P (X0 = 2) = P (X0 = 3) = P (X0 = 4) = P (X0 = 5) = P (X0 = 6) = 0, 01. 0.8 0.4 0.6 0.3 0.4 0.2 0.2 0.1 0 0 0 1 2 3 4 5 6 10 7 Graphe de X0 12 14 16 18 20 22 24 Graphe de S2 0.2 0.08 0.15 0.06 0.1 0.04 0.05 0.02 0 25 30 35 40 Graphe de S5 45 0 4 0 60 6 Graphe de S10 70 60 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE 0.0 0.06 0.0 0.04 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0 0 70 80 0 Graphe de S15 100 100 110 120 130 Graphe de S20 Comme nous pouvons le voir sur ces graphiques, la dissymétrie est encore présente pour n = 100. Cet exemple doit donc inciter à la prudence quant aux valeurs de n pour lesquelles l’approximation donnée par la loi normale est pertinente. Il est d’usage en statistique de faire cette approximation dès que n = 30, mais cela n’est pas toujours valide en pratique. 61 6.4. EXERCICES 6.4 Exercices exercice 1 Soit Xk une suite de variables aléatoires indépendantes suivant chacune une loi P de Poisson de paramètre un. Quelle est la loi de la somme 1≤k≤n Xk ? Considérons pour chaque n ∈ N∗ une variable aléatoire Yn suivant une loi de Poisson de paramètre n ∈ N∗ . Montrer que Yn − n loi √ −− −−→ N (0, 1). n→∞ n exercice 2 Soit Y , Yn et Zn des variables aléatoires telles que Yn converge en loi vers Y et Zn converge presque sûrement vers une constante c ∈ R. Montrer que Yn Zn converge en loi vers cY . Indication : Yn et Zn sont tendues. Soit (Xn )n≥1 une suite de variables aléatoires indépendantes identiquement distribuées, de carrés intégrables, centrées. Montrer que n X k=1 Xk X n Xk2 k=1 1/2 −−−−→ N (0, 1). n→∞ exercice 3 Soit (Xn )n≥1 une suite de variables aléatoires indépendantes identiquement distribuées, positives, de carrés intégrables et telles que E(Xn ) = 1, σ(Xn ) = 1. Montrer que q √ loi 2 Sn − n −−−−→ N (0, 1). n→∞ exercice 4 P Soit (Xn ) une suite de variables aléatoires indépendantes, Sn = nk=1 Xk . Étudier la convergence en loi de Sn /σ(Sn ) dans les cas suivants : √ √ – P (Xk = k ) = P (Xk = − k ) = 12 – P (Xk = k) = P (Xk = −k) = 21 – P (Xk = √1k ) = P (Xk = − √1k ) = 12 ∞ – P (Xk = ak ) = P (Xk = −ak ) = 21 , où (ak )k∈N∗ est bornée et X a2k = +∞. k=1 exercice 5 Soit ϕ la fonction caractéristique d’une variable aléatoire réelle X non constante. On suppose que ϕ est réelle et positive. – Montrer que ϕ(t) = R R cos(tx) dPX (x). – Montrer que pour tout u ∈ R, cos(u) ≤ 1 − – Montrer la minoration pour t ∈ R : 1−ϕ(t) t2 u2 2 ≥ + 1 2 u4 . 24 R [− 1t , 1t ] x2 1− t2 x2 12 dPX (x). – Montrer qu’il existe δ > 0 et ǫ > 0 tels que pour tout t ∈ ]−δ, δ[ , |ϕ(t)| ≤ 1−εt2 . p – En déduire que pour tout p > 2, la fonction t 7→ e−|t| n’est la fonction caractéristique d’aucune mesure de probabilité. 62 CHAPITRE 6. THÉORÈME DE LA LIMITE CENTRÉE Chapitre 7 Espérance conditionnelle Nous allons introduire un nouveau concept pour mesurer l’indépendance de deux variables aléatoires ou d’une variable aléatoire et d’une tribu. 7.1 Définition de la notion d’espérance conditionnelle Définition 15 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable aléatoire intégrable et F ⊂ T une tribu. Alors il existe une unique fonction intégrable E(X | F ), appelée l’espérance conditionnelle de X sachant F , qui satisfait les deux conditions suivantes : – E(X | F ) est F -mesurable, – pour toute variable aléatoire Y qui est F -mesurable bornée, E(E(X | F ) Y ) = E(XY ). L’unicité est à comprendre “presque partout”. Deux fonctions qui satisfont les conditions précédentes sont égales presque partout. Définition 16 La probabilité conditionnelle d’un événement A ⊂ Ω relativement à la tribu F est la fonction définie par P (A | F ) = E(1A | F ). Attention, P (A | F ) est une fonction définie presque partout sur Ω. Il n’est pas garanti qu’il y ait, pour presque tout ω ∈ Ω, une mesure de probabilité µω définie sur T telle que µω (A) = P (A | F )(ω). 63 64 CHAPITRE 7. ESPÉRANCE CONDITIONNELLE Preuve de l’existence de E(X | F ) On commence par le cas où X est de carré intégrable. L’espace L2 (Ω, T , P ) est muni d’un produit scalaire : hX, Y i = Z X Y dP = E(XY ). On a donc une notion d’orthogonalité et de projection orthogonale. Considérons le sous-espace fermé L2 (Ω, F , P ) constitué des fonctions de carré intégrable qui sont F -mesurables. L’espérance conditionnelle de X est la projection orthogonale de X sur ce sous-espace. Cette projection orthogonale appartient au sous-espace si bien que E(X | F ) est F -mesurable. C’est la première condition. La variable aléatoire X − E(X | F ) est orthogonale à tous les éléments Y de L (Ω, F , P ) : hX − E(X | F ), Y i = 0 2 Autrement dit, E((X − E(X | F )) Y ) = 0. C’est la seconde condition. Ces deux conditions caractérisent de manière unique la projection orthogonale. On peut généraliser cela aux variables aléatoires positives. Soit X ≥ 0, on pose Xl = min(X, l). La variable aléatoire Xl est borné donc de carré intégrable et Xl converge en croissant vers X. On va vérifier dans la suite que E(Xl | F ) est une fonction positive et que la suite E(Xl | F ) est croissante. On définit alors E(X | F ) = lim E(Xl | F ) ∈ [0, +∞]. l→∞ En utilisant le théorème de convergence croissante, on montre que E(X | F ) satisfait les conditions voulues pour tout Y ≥ 0. Pour les variables aléatoires intégrables, on les écrit comme différence de variables aléatoires intégrables positives, pour lesquelles on a vu comment définir l’espérance conditionnelle. Le passage du cadre L2 au cadre des variables aléatoires positives puis intégrables est justifié par les propriétés de l’espérance conditionnelle qui vont être détaillées après les exemples qui suivent. 7.2 Exemples Tribu associée à une partition finie On considère une partition finie (Ei )i=1..n de Ω : –Ω= n [ Ei i=1 – Ei ∩ Ej = ø pour tout i, j tels que i 6= j. 65 7.2. EXEMPLES – P (Ei ) 6= 0 pour tout i. On peut associer à cette partition une tribu F= n[ i∈S o Ei | S ⊂ {1, ..., n} . C’est l’ensemble des parties de Ω qui peuvent s’écrire comme union d’éléments de la partition. Proposition 12 E(X | F )(ω) = n X i=1 Z n X E(X 1Ei ) 1 1Ei (ω) = X dP 1Ei (ω) P (Ei ) i=1 P (Ei ) Ei P (A | F )(ω) = avec la notation P (A | B) = n X i=1 P (A | Ei ) 1Ei (ω) P (A∩B) . P (B) On a donc P (A | F )(ω) = P (A | Ei ) si ω ∈ Ei . Preuve de la proposition P E(X 1Ei ) On montre que la variable aléatoire 1Ei satisfait les deux propriétés qui P (Ei ) définissent l’espérance conditionnelle. Commençons par vérifier que toute fonction F -mesurable est combinaison linéaire des fonctions indicatrices des Ei . Pour cela, montrons qu’une telle fonction f est constante sur chacun des Ei . Soit x, y ∈ Ei , l’ensemble f −1 ({f (x)}) est dans F et contient x, il contient donc Ei . Le point y ∈ Ei est dans cet ensemble, par conséquent f (y) = f (x). L’espérance conditionnelle E(X | F ) est F -mesurable, nous venons de voir P qu’elle est de la forme E(X | F ) = ck 1Ek , où les ck restent à déterminer. On utilise la deuxième propriété définissant l’espérance conditionnelle en prenant Y = 1Ei pour un certain i. E(E(X | F ) Y ) = = = E(XY ) = P E(( ck 1Ek )1Ei ) E(ci 1Ei ) ci P (Ei ) E(X 1Ei ). Ces deux expressions sont égales, ce qui donne ci = E(X 1Ei ) P (Ei ) comme souhaité. Le cas d’un espace produit On considère l’espace produit Ω = Ω1 × Ω2 muni de la probabilité P = P1 ⊗ P2 et la tribu F = {A × Ω2 | A ⊂ Ω1 }. Vérifions qu’une fonction f est mesurable par rapport à F si et seulement si elle ne dépend que de la première coordonnée. 66 CHAPITRE 7. ESPÉRANCE CONDITIONNELLE Soit (ω1 , ω2 ) ∈ Ω ; posons f (ω1 , ω2 ) = t. Nous avons (ω1 , ω2) ∈ f −1 ({t}) ∈ F . Il existe donc A ⊂ Ω1 tel que f −1 ({t}) = A×Ω2 . Le résultat (ω1 , ω2 ) est dans A×Ω2 et ω1 est dans A. Pour tout ω ∈ Ω2 , (ω1 , ω) appartient à A × Ω2 = f −1 ({t}), si bien que f (ω1 , ω) = t = f (ω1 , ω2 ). Calculons l’espérance conditionnelle d’une variable aléatoire X relativement à la tribu F . Proposition 13 E(X | F )(ω1 ) = R X(ω1 , ω2 ) dP2(ω2 ). Preuve Nous savons que E(X | F )(ω1 , ω2 ) est de la forme f (ω1 ) pour une certaine fonction f par F -mesurabilité. On doit avoir de plus pour tout Y : Ω1 → R R E(E(X | F ) Y ) = f (ω1 )Y (ω1 ) dP1 (ω1 ) dP2 (ω2 ) R = f (ω1 )Y (ω1 ) dP1 (ω1 ). Ceci doit être égal à E(XY ) = donc l’égalité, pour tout Y , Z f (ω1 )Y (ω1 ) dP1 (ω1 ) = ce qui implique f (ω1 ) = 7.3 R R X(ω1, ω2 )Y (ω1 ) dP1(ω1 ) dP2 (ω2 ). Nous avons Z Z X(ω1 , ω2 )dP2 (ω2 ) Y (ω1 ) dP1 (ω1 ) X(ω1 , ω2 ) dP2(ω2 ). Propriétés de l’espérance conditionnelle L’espérance conditionnelle jouit d’un certain nombre de propriétés proches de celles de l’intégrale. Soient X, Y deux variables aléatoires intégrables ou positives et F une tribu. Proposition 14 – E(X | {ø, Ω}) = E(X), – E(E(X | F )) = E(X). E(X | T ) = X, E(1 | F ) = 1. – Si X est F -mesurable, alors E(X | F ) = X. – Si X est indépendante de F , alors E(X | F ) = E(X). – Linéarité : pour tout λ ∈ R, E(λX + Y | F ) = λE(X | F ) + E(Y | F ). – Positivité : si X ≥ 0 alors E(X | F ) ≥ 0. – Monotonie : si X ≤ Y alors E(X | F ) ≤ E(Y | F ). – Pour tout Y F -mesurable, positive si X est positive, bornée si X est intégrable, E(Y X | F ) = Y E(X | F ). 7.3. PROPRIÉTÉS DE L’ESPÉRANCE CONDITIONNELLE 67 – Si X est dans Lp et 1 ≤ p ≤ ∞, alors kE(X | F )kp ≤ kXkp . – Si F1 ⊂ F2 , alors E(E(X | F1 ) | F2 ) = E(X | F1 ), E(E(X | F2 ) | F1 ) = E(X | F1 ). Preuve Toutes ces propriétés sont d’abord démontrées pour des variables aléatoires de carré intégrables en utilisant le fait que l’espérance conditionnelle est une projection orthogonale. Elles sont ensuite généralisées aux variables aléatoires positives par un argument de convergence croissante, et enfin aux variables aléatoires intégrables en les décomposant comme différence de deux fonctions croissantes intégrables. – La variable E(X | T ) est la projection de X sur L2 (Ω, T , P ), cette projection est égale à l’identité. Pour E(X | {ø, Ω}), toute fonction mesurable relativement à la tribu {ø, Ω} est constante. La variable E(X | {ø, Ω}) est donc constante. Prenons Y = 1, nous avons E(E(X | F )) = E(X), cette constante vaut donc E(X). – Si X est F -mesurable, X est dans L2 (Ω, F , P ), elle est donc égale à sa projection sur L2 (Ω, F , P ) : E(X | F ) = X. – Si X est indépendante de F , elle est indépendante de toute variable aléatoire Y F -mesurable. Nous avons alors E(E(X | F ) Y ) = E(XY ) = E(X)E(Y ) = E(E(X | F )) E(Y ). Prenons Y = E(X | F ) qui est bien F -mesurable. Nous avons E(E(X | F )2) = E(E(X | F ))2 ou encore V (E(X | F )) = 0. Ceci montre que E(X | F ) est constante p.s. En conséquence, E(X | F ) = E(X). – Linéarité : c’est la linéarité de la projection orthogonale. – Positivité : soit X ≥ 0 ; on prend Y = 1(E(X|F )<0) . E(E(X | F ) Y ) = E(E(X | F ) 1(E(X|F )<0) ) ≤ 0 E(XY ) = E(X1(E(X|F )<0) ) ≥ 0 Ces deux expressions sont égales, elles sont donc toutes les deux nulles, ce qui implique E(X | F ) 1(E(X|F )<0) = 0 p.s. et par conséquent E(X | F ) ≥ 0 p.s. 68 CHAPITRE 7. ESPÉRANCE CONDITIONNELLE – Monotonie : soit Y, Z tels que Y ≥ Z. D’après le point précédent, E(Y | F ) − E(Z | F ) = E(Y − Z | F ) ≥ 0. – Soit Y F -mesurable. La fonction Y E(X | F ) est aussi F -mesurable. De plus pour tout Z F -mesurable, E(ZY E(X | F )) = E(ZY X) car ZY est F -mesurable. La fonction Y E(X | F ) satisfait donc les deux propriétés caractérisant E(Y X | F ) et nous avons l’égalité E(Y X | F ) = Y E(X | F ) p.s. – Soit F1 ⊂ F2 . La fonction E(X | F1 ) est F2 -mesurable si bien que E E(X | F1 ) | F2 = E(X | F1 ). Démontrons l’égalité E E(X | F2 ) | F1 = E(X | F1 ). La fonction E E(X | F2 ) | F1 est F1 -mesurable. De plus, pour tout Y F1 mesurable, Y est à la fois F1 et F2 -mesurable et d’après la propriété précédente, E Y E E(X | F2 ) | F1 = E E E(Y X | F2 ) | F1 = E E(Y X | F2 ) = E(Y X) Ce sont les deux propriétés qui caractérisent E(X | F1 ). La majoration de la norme Lp de E(X | F ) découle de l’inégalité de Jensen, qui fait l’objet de la proposition qui suit. Proposition 15 (Inégalité de Jensen) Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable aléatoire et ϕ : R → R une fonction convexe. On suppose que X et ϕ(X) sont intégrables ou positives. Alors ϕ E(X | F ) ≤ E ϕ(X) | F presque sûrement. Preuve Une fonction convexe est continue, admet des dérivées à gauche et à droite en chaque point et on a l’inégalité pour tout x, x0 ∈ R, ′ ϕ(x) ≥ ϕ(x0 ) + ϕ+ (x0 )(x − x0 ) où ϕ′+ (x0 )est la dérivée à droite en x0 . Le graphe de ϕ se trouve au-dessus de ses tangentes. - - - - 7.4. CONDITIONNEMENT RELATIVEMENT À UNE VARIABLE ALÉATOIRE69 Appliquons cette inégalité pour x = X(ω) et x0 = E(X | F )(ω). ϕ(X) ≥ ϕ(E(X | F )) + ϕ′+ (E(X | F ))(X − E(X | F )) On prend maintenant l’espérance conditionnelle des deux termes de cette inégalité. E ϕ(X) | F ≥ E ϕ E(X | F ) | F + E ′ X −E(X | F ) ϕ′+ E(X | F ) | F Les fonctions ϕ E(X | F ) et ϕ+ E(X | F ) sont F -mesurables si bien que E ϕ E(X | F ) | F = ϕ E(X | F ) , E ′ X −E(X | F ) ϕ+ E(X | F ) L’inégalité est démontrée. ′ = ϕ+ E(X | F ) E X −E(X | F ) | F = 0. Exemple Les fonctions x 7→ |x|, x 7→ ex , x → 7 |x|p pour p ≥ 1 sont convexes. Appliquons l’inégalité de Jensen à la fonction x → 7 |x|p . |E(X | F )|p ≤ E(|X|p | F ). Utilisons la monotonie de l’espérance : kE(X | F )kpp = E |E(X | F )|p ≤ E E(|X|p | F ) = E(|X|p ) = kXkpp . Nous avons démontré l’inégalité recherchée entre la norme Lp d’une variable aléatoire et celle de son espérance conditionnelle. 7.4 Conditionnement relativement à une variable aléatoire On commence par associer à toute variable aléatoire X une tribu dont les éléments sont composés d’union de lignes de niveau de X. Définition 17 Soit (Ω, T , P ) un espace probabilisé, X : Ω → R une variable aléatoire. La tribu associée à X, notée TX ou S(X), est définie par : TX = S(X) = {X −1 (A) ∈ T | A borélien de R} Proposition 16 Une variable aléatoire Y : Ω → R est TX -mesurable si et seulement si il existe une fonction f : R → R borélienne telle que Y = f ◦ X. 70 CHAPITRE 7. ESPÉRANCE CONDITIONNELLE Preuve Si Y = f (X), pour tout A borélien, l’ensemble Y −1 (A) = X −1 (f −1 (A)) est bien dans TX . Soit Y une variable aléatoire TX -mesurable. Montrons que Y est de la forme f (X) pour une certaine fonction f borélienne. • Traitons le cas où Y est étagée : Y = n X i=1 ci 1Ai , Ai ∈ TX . Pour chaque i, on peut trouver un borélien Bi ⊂ R tel que Ai = X −1 (Bi ). Y = X ci 1X −1 (Bi ) = X ci 1Bi ◦ X = ( X ci 1Bi ) ◦ X La variable aléatoire Y est bien de la forme h ◦ X avec h = P ci 1Bi . • Passons au cas où Y ≥ 0. On peut l’approcher de manière croissante par une suite de fonctions étagées (Yn )n∈N qui sont TX -mesurables, donc de la forme hn ◦ X. Nous avons : Yn = hn ◦ X ≤ (sup hn ) ◦ X = sup(hn ◦ X) = sup Yn = Y n n Comme Yn converge vers Y , on en déduit Y = (supn hn ) ◦ X et Y est bien une fonction de X. • Toute variable aléatoire TX -mesurable peut s’écrire comme différence de deux fonctions TX -mesurables positives de la forme h◦X. La proposition est démontrée. Nous somme en mesure de définir l’espérance conditionnelle d’une variable aléatoire relativement à une autre variable aléatoire. Définition 18 Soit X, Y deux variables aléatoires définies sur Ω. L’espérance conditionnelle de Y relativement à X, notée E(Y | X), est définie par E(Y | X) = E Y | TX . Soit A ∈ T . La probabilité conditionnelle de A relativement à X est définie par P (A | X) = E(1A | X) = E(1A | TX ). La fonction E(Y | X) est TX -mesurable. Elle peut donc s’exprimer comme une fonction de X. Cette fonction est notée E(Y | X = x). C’est l’espérance de Y sachant que X a pris la valeur x et on a pour P -presque tout ω ∈ Ω, E(Y | X)(ω) = E Y | X = X(ω) , 7.4. CONDITIONNEMENT RELATIVEMENT À UNE VARIABLE ALÉATOIRE71 P (A | X)(ω) = P A | X = X(ω) . Notons que l’espérance conditionnelle E(Y | X = x) est une fonction de R dans R qui est définie PX -presque partout. De fait, deux fonctions f et g sont égales PX -presque partout si et seulement si f ◦X et g◦X sont égales P -presque partout, d’après la formule de transfert. On peut exprimer E(Y | X) en fonction de la loi du couple (X, Y ). Rappelons que cette loi est donnée par la formule P(X,Y ) (A) = P (X, Y ) ∈ A = P {ω ∈ Ω | (X(ω), Y (ω)) ∈ A} pour tout sous-ensemble borélien A ⊂ R2 . La mesure P(X,Y ) est une mesure de probabilité définie sur la tribu des boréliens de R2 . Elle est dite à densité si on peut trouver fX,Y : R2 → R+ , d’intégrale un sur R2 , telle que P(X,Y ) (A) = Z A A ⊂ R2 . fX,Y (x, y) dxdy, Soit g : R → R une fonction borélienne telle que g(y) est positive ou intégrable. L’espérance conditionnelle E(g(Y ) | X) est uniquement déterminée par le fait qu’elle est TX -mesurable et qu’elle satisfait l’égalité E E(g(Y ) | X) Z = E g(Y ) Z pour tout Z TX -mesurable, c’est-à-dire pour tout Z de la forme f (X). La fonction x 7→ E(g(Y ) | X = x) est donc uniquement déterminée par la relation : Z f (x) E(g(Y ) | X = x) dPX (x) = Z f (X) g(Y )dP = Z f (x) g(y) dP(X,Y ) (x, y). Cas d’une loi P(X,Y ) à densité Cherchons à donner une expression pour l’espérance conditionnelle dans le cas à densité. Lorsque P(X,Y ) admet une densité fX,Y , la loi PX admet la densité fX (x) = Z R fX,Y (x, y) dy. En remplaçant dans l’expression précédente, on doit avoir pour tout f : R → R borélienne bornée, Z f (x) E(g(Y ) | X = x) Z fX,Y (x, y)dy dx = Z f (x) Z g(y) fX,Y (x, y) dy dx. Comme cette relation doit être vérifiée pour toute fonction f , on en déduit la proposition suivante. 72 CHAPITRE 7. ESPÉRANCE CONDITIONNELLE Proposition 17 Soit X, Y deux variables aléatoires telles que le couple (X, Y ) admette une densité fX,Y et soit g : R → R une fonction borélienne positive ou PY -intégrable. Alors, pour PX -presque tout x ∈ R, E(g(Y ) | X = x) = R R g(y)fX,Y (x, y) dy . R fX,Y (x, y) dy R Cas d’une loi PX discrète Étudions maintenant le cas où P (X = x0 ) > 0 pour un certain x0 ∈ R, ce qui se produit par exemple si X est une variable aléatoire discrète. Prenons pour f la fonction indicatrice du singleton {x0 }. Nous avons la relation : P (X = x0 )E(g(Y ) | X = x0 ) = = = R {x0 } R Ω R E(g(Y ) | X = x) dPX (x) g(Y (ω)) 1(X=x0 ) (ω) dP (ω) (X=x0 ) g(Y (ω)) dP (ω). On retrouve l’expression habituelle de l’espérance conditionnelle pour les variables aléatoires discrètes. Proposition 18 Soit X, Y deux variables aléatoires et g : R → R une fonction borélienne positive ou PY -intégrable. Pour tout x ∈ R tel que P (X = x) > 0, E(g(Y ) | X = x) = Z E(g(Y ) 1(X=x) ) 1 = g(Y ) dP. P (X = x) P (X = x) (X=x) On termine par une formule qui permet de calculer la probabilité d’un événement à partir des probabilités conditionnelles. Proposition 19 Soit X une variable aléatoire, A ∈ T et I ⊂ R un intervalle ou un borélien de R. Alors P A ∩ X −1 (I) = P (A) = Z R Z I P (A | X = x) dPX (x), P (A | X = x) dPX (x). Ces formules découlent des égalités R I E(1A | X = x) dPX (x) = E(1(X∈I) E(1A | X)) = E(1(X∈I) 1A ) = P (A ∩ (X ∈ I)). 7.4. CONDITIONNEMENT RELATIVEMENT À UNE VARIABLE ALÉATOIRE73 Généralisation à n variables Les considérations précédentes se généralisent à un nombre quelconque de variables aléatoires. Définition 19 Soient X1 , ..., Xn des variables aléatoires définies sur Ω. La tribu engendrée par les Xi est notée TX1 ,...,Xn ou S(X1 , ..., Xn ). TX1 ,...,Xn = S(X1 , ..., Xn ) = {(X1 , ..., Xn )−1 (A) | A ⊂ Rn borélien} On pose E(Y | X1 , X2 , ..., Xn ) = E Y | TX1 ,X2 ,...,Xn . On démontre comme précédemment que toute fonction TX1 ,X2 ,...,Xn -mesurable est de la forme f (X1 , X2 , ..., Xn ) où f : Rn → R est borélienne. On a donc une fonction (x1 , ..., xn ) 7→ E(Y | X1 = x1 , ..., Xn = xn ) définie de Rn dans R qui, composée avec (X1 , X2 , ..., Xn ), redonne E(Y | X1 , X2 , ..., Xn ). 74 7.5 CHAPITRE 7. ESPÉRANCE CONDITIONNELLE Exercices exercice 1 On considère un espace probabilisé (Ω, T , P ), une tribu F ⊂ T et deux événements A ∈ T , F ∈ F . Montrer la formule suivante : R P (A | F ) dP . Ω P (A | F ) dP P (F | A) = RF Quelle formule obtient-on lorsque F est associée à une partition ` Ei = Ω ? exercice 2 Soit X une variable aléatoire de carré intégrable. Montrer que E(X 2 | X+1) = X 2 . exercice 3 Soit X : Ω → R+ une variable aléatoire positive définie sur (Ω, T , P ) et F ⊂ T une tribu. Montrer que presque sûrement, X > 0 implique E(X | F ) > 0. exercice 4 Soit X, Y deux variables aléatoires telle que le couple (X, Y ) suit une loi uniforme sur le disque unité : fX,Y (x, y) = π1 1[0,1] (x2 + y 2 ). Calculer E(X 2 | Y ). exercice 5 Soit X une variable aléatoire de densité fX . On considère sa valeur absolue |X|. – Montrer que |X| admet la densité f|X| (x) = fX (x) + fX (−x) 1R+ (x). – Montrer que E g(X) | |X| = x = g(x)fX (x) + g(−x)fX (−x) fX (x) + fX (−x) p.s. exercice 6 On considère une variable aléatoire suivant une loi exponentielle de paramètre λ. Sa densité est donc donnée par : f (x) = λ e−λx 1[0,∞[ (x) – Pour s, t > 0, calculez P (X ≥ t) et P (X ≥ t + s | X ≥ s). On dit que la loi exponentielle est sans mémoire. – Montrer que cette propriété est aussi vraie pour une variable aléatoire discrète suivant une loi géométrique de paramètre p. exercice 7 Soit X une variable aléatoire de carré intégrable définie sur (Ω, T , P ), F ⊂ T 2 une tribu et un nombre réel t > 0. Montrer que P (|X| ≥ t | F ) ≤ E(Xt2 |F ) . exercice 8 Soit X une variable aléatoire de carré intégrable définie sur (Ω, T , P ) et F ⊂ T une tribu. On définit la variance conditionnelle de X relativement à F comme suit : V (X | F ) = E(X 2 | F ) − E(X | F )2 Montrer que V (X) = E(V (X | F )) + V (E(X | F )). Chapitre 8 Théorie des martingales Pour obtenir des théorèmes de convergence pour les séries de variables aléatoires indépendantes, nous allons introduire le concept de martingale. 8.1 La notion de martingale Définition 20 Soit (Ω, T , P ) un espace probabilisé, Fn ⊂ T des tribus, n ∈ N. On dit que les Fn forment une filtration si elles constituent une suite croissante pour l’inclusion : Fn ⊂ Fn+1 pour tout n ∈ N. Une suite de variables aléatoires (Mn ) est dite adaptée à la filtration Fn si Mn est Fn -mesurable pour tout n ∈ N. La suite (Mn )n∈N est une martingale relativement à la filtration Fn si – les Mn sont intégrables, – la suite (Mn ) est adaptée à Fn , – E(Mn+1 | Fn ) = Mn pour tout n ∈ N. Si la filtration Fn n’est pas spécifiée, on prend Fn = TM1 ,...,Mn . Lorsque la suite est composée de fonctions de carrés intégrables, la variable Mn s’obtient en projetant orthogonalement Mn+1 sur L2 (Ω, Fn ). Montrons que la projection de Mn+k , k > 0, sur L2 (Ω, Fn ) est aussi égale à Mn . Proposition 20 Pour tout k > 0, E(Mn+k | Fn ) = Mn . Cette proposition se démontre par récurrence sur k. Supposons là vérifiée pour k > 0 et démontrons là pour k + 1. Comme Fn ⊂ Fn+k , E(Mn+k+1 | Fn ) = E(E(Mn+k+1 | Fn+k ) | Fn ) = E(Mn+k | Fn ) = Mn . La proposition est démontrée. 75 76 CHAPITRE 8. THÉORIE DES MARTINGALES Donnons quelques exemples de martingales. Premier exemple Soit (Xk )k∈N une suite de variables aléatoires indépendantes entre elles et centrées (E(Xn ) = 0 pour tout n ∈ N). Posons Sn = X1 + X2 + ... + Xn . Alors la suite (Sn )n∈N est une martingale relativement à la filtration Fn = TX1 ,X2 ,...,Xn . Preuve La variable aléatoire Sn est bien intégrable et Fn -mesurable. E(Sn+1 | Fn ) = = = = = E(Sn+1 | X1 , ..., Xn ) E(Xn+1 + Sn | X1 , ..., Xn ) E(Xn+1 | X1 , ..., Xn ) + E(Sn | X1 , ..., Xn ) E(Xn+1 ) + Sn Sn C’est la relation voulue. Remarquons qu’on a l’égalité TX1 ,X2 ,...,Xn = TS1 ,S2 ,...,Sn car les Xi s’expriment en fonction des Si et réciproquement. La suite (Sn ) est une martingale aussi bien par rapport aux (Xi ) qu’aux (Si ). Second exemple Soit M une variable aléatoire intégrable et (Fn ) une filtration. La suite Mn = E(M | Fn ) est une martingale. Preuve E(Mn+1 | Fn ) = E E(M | Fn+1) | Fn = E(M | Fn ) = Mn . Troisième exemple On considère sur l’espace Ω = [0, 1[, muni de la mesure de Lebesgue, les fonctions Mn (x) = 2n 1[0,1/2n [ (x). n −1 2a h k k + 1h , . 2n 2n k=0 La suite (Mn ) est une martingale relativement à la filtration Fn . On prend pour Fn la tribu associée à la partition [0, 1[ = Preuve Z 1 |Mn (x)| dx = 1. Les fonctions Mn sont intégrables : 0 La variable aléatoire Mn est mesurable relativement à la tribu Fn car elle est constante sur chacun des éléments de la partition associée à Fn . On a vu précédemment une formule explicite pour l’espérance conditionnelle relativement aux Fn . 77 8.1. LA NOTION DE MARTINGALE Notons Ik = h k k+1 , 2n 2n E(Mn+1 | Fn ) = h X k ∈ Fn . E(Mn+1 1Ik ) 1Ik = 2n E 2n+1 1[0, 1 [ 1I0 = 2n 1I0 = Mn . P (Ik ) 2n+1 La suite Mn satisfait bien les propriétés qui définissent les martingales. Quatrième exemple Voici un autre exemple en lien avec les jeux de hasard. Proposition 21 Soit (Mn )n∈N une martingale et (Hn )n∈N une suite de variables aléatoires telle que Hn est Fn−1-mesurable pour tout n ≥ 1. On suppose que Hn est bornée pour chaque n ∈ N. On pose G0 = 0 et Gn = n X m=1 Hm (Mm − Mm−1 ) Alors (Gn )n∈N est une martingale. Preuve P E(Gn+1 | Fn ) = E( n+1 Hm (Mm − Mm−1 | Fn ) 1 P = E(Hn+1 (Mn+1 − Mn ) | Fn ) + E( n1 Hm (Mm − Mm−1 ) | Fn ) = Hn+1 E(Mn+1 − Mn | Fn ) + E(Gn | Fn ) = Gn . De plus Gn est bien Fn -mesurable et Gn est intégrable. Prenons (Xn )n∈N∗ une suite de variables aléatoires indépendantes identiquement distribuées telle que P (Xn = −1) = P (Xn = 1) = 1/2 et définissons M0 = 0, Mn = n X Xi , H1 = 1, i=1 2Hn−1 si Xn−1 = −1 1 sinon. Il s’agit ici de modéliser une succession de mises à la roulette. On suppose que rouge et noir sortent chacun avec probabilité 1/2. La variable Xn vaut 1 si le joueur gagne au tirage n et vaut −1 sinon. La quantité Hn est la mise engagée par le joueur au nième tirage, elle est fonction des résultats observés au cours des précédents tirages. Dans la martingale classique, le joueur double sa mise s’il a perdu au tirage précédent ; sinon il mise 1 euro. La valeur Gn représente le gain (ou la perte) à l’étape n. Notons F0 la fortune initiale du joueur. Après avoir joué n fois, sa fortune vaut Fn = Gn + F0 . C’est une martingale. Hn = Proposition 22 Soit Mn une martingale. Alors E(Mn ) = E(Mn−1 ) = ... = E(M1 ) = E(M0 ). 78 CHAPITRE 8. THÉORIE DES MARTINGALES Preuve E(Mn ) = E(E(Mn+1 | Fn )) = E(Mn+1 ) pour tout n ∈ N. Dans l’exemple précédent, nous avons E(Fn ) = E(F0 ). Le joueur ne peut pas augmenter l’espérance de sa fortune par une stratégie Hn judicieuse. 8.2 Convergence des martingales On va montrer qu’une martingale est convergente dès qu’elle est bornée en norme L2 . Définition 21 Une martingale (Mn ) est dite bornée dans L2 si il existe C > 0 telle que pour tout n ∈ N, kMn k2 ≤ C. Théorème 11 (convergence L2 ) Toute martingale bornée dans L2 converge au sens de la norme L2 et presque sûrement : il existe une variable aléatoire M de carré intégrable telle que L2 Mn −−−−→ M, n→∞ p.s. Mn −− −−→ M. n→∞ Remarque On a alors Mn = E(M | Fn ). On peut montrer que ce théorème se généralise à Lp pour p ∈]1, ∞[. Preuve de la convergence L2 Posons Yi = Mi − Mi−1 si bien que Mn = n X Yi + M0 . i=1 Vérifions que la famille des Yi est orthogonale. Comme Mn est une martingale, E(Yi | Fi−1) = E(Mi | Fi−1 ) + E(Mi−1 | Fi−1 ) = Mi−1 − Mi−1 = 0 La variable Yj est Fi−1 -mesurable pour tout j < i, ce qui donne hYi , Yj i = E(Yi Yj ) = E(E(Yi | Fi−1 ) Yj ) = E(0) = 0. On a donc : n X i=1 E(Yi2 ) = E n X i=1 Yi2 = E (Mn − M0 )2 = E(Mn2 ) − E(M02 ) ≤ C. Cette série à termes positifs est bornée, elle converge. Elle est donc de Cauchy. On en déduit que la suite Mi est aussi de Cauchy pour la norme L2 : kMn − Mm k22 = E((Mn − Mm )2 ) = E X n i=m+1 Yi 2 = n X m+1 E(Yi2 ) 79 8.2. CONVERGENCE DES MARTINGALES P pour n ∈ N et m ≥ n. La série E(Yi2 ) étant de Cauchy, la dernière somme est inférieure à ε dès que m et n sont suffisamment grands. La suite (Mn ) est bien de Cauchy pour la norme L2 , elle converge donc. Pour démontrer la convergence presque sûre, on utilise le lemme suivant : Lemme 5 (inégalité maximale) Soit (Mn )n∈N une martingale. Alors pour tout N ∈ N et tout λ > 0, P max |Mi | ≥ λ ≤ 0≤i≤N E(MN2 ) . λ2 Preuve du lemme On s’intéresse au premier indice pour lequel la martingale dépasse λ. A0 = (|M0 | ≥ λ) A1 = (|M0 | < λ, |M1 | ≥ λ) Aj = (|M0 | < λ, ..., |Mj−1 | < λ, |Mj | ≥ λ) Nous avons alors max |Mi | ≥ λ = 0≤i≤N N a Aj . j=0 Cherchons à minorer E(MN2 1Aj ) en insérant le terme Mj dans le carré. E(MN2 1Aj ) = E((MN − Mj )2 1Aj ) + E(Mj2 1Aj ) + 2E((MN − Mj )Mj 1Aj ). Le premier terme à droite de l’égalité est positif, tandis que le second terme est supérieur à E(λ2 1Aj ) car Mj est supérieur à λ sur Aj . Vérifions que le dernier terme est nul en utilisant le fait que Mn est une martingale : E(MN Mj 1Aj ) = E(E(MN Mj 1Aj | Fj )) = E(Mj 1Aj E(MN | Fj )) = E(Mj 1Aj Mj ) car Mj et 1Aj sont Fj -mesurables. On en déduit E((MN −Mj )Mj 1Aj ) = 0 comme souhaité. Au final, E(MN2 1Aj ) ≥ λ2 E(1Aj ) = λ2 P (Aj ). On conclut en faisant la somme pour j allant de 0 à n. E(MN2 ) ≥ E(MN2 X 1A j ) ≥ λ 2 P ( a Aj ) = λ2 P (max |Mi | ≥ λ). Preuve de la convergence presque sûre On a vu que pour tout ε > 0, il existe N tel que pour tout m, n ≥ N E((Mn − Mm )2 ) < ε. 80 CHAPITRE 8. THÉORIE DES MARTINGALES On peut donc construire par récurrence une suite croissante ni telle que n0 = 0 et E((Mni − Mni−1 )2 ) ≤ 1/2i . Soit n ∈ N et i le plus grand entier tel que ni ≤ n. Nous avons l’encadrement ni ≤ n < ni+1 . Décomposons la martingale Mn comme suit : Mn = (Mn − Mni ) + i X (Mnj − Mnj−1 ) + M0 . j=1 Appliquons l’inégalité maximale à la martingale M̃n = Mn+ni , N = ni+1 − ni et λ = i12 : P max ni ≤n≤ni+1 2 |Mn − Mni | ≥ 1/i E((Mni+1 − Mni )2 ) i2 ≤ i. ≤ 1/i2 2 La série de terme général i2 /2i converge, on peut appliquer le lemme de BorelCantelli : presque sûrement, pour i assez grand, max ni ≤n≤ni+1 |Mn − Mni | ≤ 1 −−−−→ 0. i2 i→∞ En particulier, pour n = ni+1 et i supérieur à un certain i0 ∈ N dépendant de ω, |Mni+1 − Mni | ≤ 1 . i2 P P La série i≥i0 |Mni+1 − Mni | ≤ i0 1/i2 est de nature convergente, ce qui montre P que la série Mni+1 −Mni est absolument convergente. Le théorème est démontré. 8.3 Séries de variables aléatoires indépendantes Le premier résultat que nous pouvons déduire du théorème de convergence des martingales bornées dans L2 est un critère pour la convergence presque sûre d’une série de variables aléatoires indépendantes. Corollaire 6 Soit (Xi ) une suite de variables aléatoires indépendantes centrées (E(Xi ) = 0 pour tout i) et de carrés intégrables. On suppose que X i∈N Alors la série P V (Xi ) < ∞. Xi converge presque sûrement et en norme L2 . 81 8.3. SÉRIES DE VARIABLES ALÉATOIRES INDÉPENDANTES Preuve Nous avons vu précédemment que sous les hypothèses du corollaire, la suite Sn = Pn i=1 Xi est une martingale. Remarquons que l’espérance de Sn est nulle : E(Sn ) = n X E(Xi ) = 0. 1 Sa variance est donc égale au carré de sa norme L2 que nous évaluons comme suit : kSn k22 = E(Sn2 ) = V (Sn ) = V ( n X Xi ) = 1 n X 1 V (Xi ) ≤ ∞ X V (Xi ). 1 La martingale Sn est bornée dans L2 , elle converge presque sûrement et dans L2 . Exemple k P P La série harmonique k1 est divergente. La série alternée (−1) est convergente. k Qu’en est-il lorsque nous choisissons les signes des termes de la série de manière aléatoire ? Proposition 23 Soit (εk ) une suite de variables aléatoires indépendantes identiquement distribuées telles que P (εk = 1) = P (εk = −1) = 1/2. Alors la série X k εk converge presque sûrement. k Cela se déduit du corollaire. Il suffit de remarquer d’abord que E( εii ) = 0 puis que ∞ ∞ ∞ ε X X X 1 1 k = V (εk ) = < ∞. V 2 2 k k=1 k k=1 k k=1 Comme exemple d’une telle suite de variables aléatoires, on peut prendre Ω = {−1, 1}⊗N, On a alors P n P = 1 1 ⊗N δ−1 + δ1 , 2 2 εi (xk )k∈N = xi . X (xi )i∈N ∈ Ω o xk converge = 1. k≥1 k P On se pose maintenant la question générale de la convergence d’une série Xi lorsque les Xi sont indépendantes entre elles. Le théorème suivant est dû à A. Kolmogorov. 82 CHAPITRE 8. THÉORIE DES MARTINGALES Théorème 12 (théorème des trois séries) Soit (Xi )i∈N une suite de variables P aléatoires indépendantes entre elles. Posons Yi = Xi 1(|Xi |≤1) . Alors la série Xi converge presque sûrement si et seulement si les trois séries suivantes convergent : – – – P P P P (|Xi | ≥ 1), E(Yi ), V (Yi ). Preuve Ce théorème se déduit du corollaire précédent. On se contente de démontrer que P la convergence des trois séries implique la convergence presque sûre de Xi . P Comme P (|Xi | ≥ 1) converge, nous pouvons appliquer le lemme de BorelCantelli : pour presque tout ω, il existe i0 tel que pour tout i ≥ i0 , |Xi (ω)| ≤ 1. P P On a alors Yi (ω) = Xi (ω). Les séries Xi et Yi sont donc de même nature. P Posons Ỹi = Yi − E(Yi ). Comme E(Yi ) converge, il suffit de démontrer la P convergence presque sûre de Ỹi . Les Ỹi sont centrées et leur variance est égale à celle des Yi : kỸi k22 = V (Ỹi ) = V (Yi ). P P On sait que la série V (Ỹi ) = V (Yi ) converge. Le corollaire s’applique, la série P Ỹi est convergente presque sûrement et le théorème est démontré. Complément Donnons une preuve de la loi des grands nombres dérivée des théorèmes précédents et valide pour toute suite de variables aléatoires (Xn )n∈N indépendantes identiquement distribuées intégrables. On considère les variables Yk = Xk 1(|Xk |≤k) . Montrons que la série convergente. P V (Yk ) k2 est Z ∞ X x E(Yk2 ) X 1 Z ∞ 2 x 1{x≤k} dP|Xk | (x) = = 1 x dP|X0 | (x). 2 0 2 {k≥x} k2 0 k≥1 k k≥1 k k≥1 X La somme qui apparaı̂t sous l’intégrale dans le dernier terme est majorée par P 2 k≥1 k12 pour x ∈ [0, 2]. Pour x ≥ 2, on effectue une comparaison série-intégrale. X x 1 ≤ {k≥x} 2 k≥x k≥1 k X Z x dt ≤ k−1 t2 k Z ∞ x−1 x x dt ≤ ≤ 2. 2 t x−1 Nous avons de plus V (Yk − E(Yk )) = V (Yk ) ≤ E(Yk2 ), si bien que la série P Yk −E(Yk ) P k) ) est convergente. La série converge donc presque sûV ( Yk −E(Y k k rement, en vertu du théorème vu précédemment. 83 8.4. CONVERGENCE DES ESPÉRANCES CONDITIONNELLES P De manière générale, pour toute suite (xk ) telle que xii converge, la moyenne P 1 xk converge vers 0. Cela découle de la formule suivante n n k n X n xi 1X xi X 1X = xi − n k=1 i=1 i n i=1 i=1 i qui se démontre en intervertissant les deux signes sommes. On en déduit n 1 X p.s. (Yk − E(Yk )) −−−−→ 0. n→∞ n k=1 R Par convergence dominée, la suite E(Yk ) = x1{|x|≤k} dPX0 (x) converge vers P E(X0 ). Il en va donc de même pour n1 E(Yk ). Il reste à remarquer que ∞ X k=1 P (Yk 6= Xk ) = ∞ X k=1 P (|X0| ≥ k) = Z X ∞ k=1 1{k≤x} dP|X0 | (x) ≤ Z x dP|X0| (x) < ∞ D’après le lemme de Borel-Cantelli, pour presque tout ω, les suites Xk (ω) et Yk (ω) P P coı̈ncident à partir d’un certain rang et la différence n1 Xk (ω) − n1 Yk (ω) tend vers 0. Le résultat est démontré. 8.4 Convergence des espérances conditionnelles Théorème 13 Soit (Ω, T , P ) un espace probabilisé et Fn ⊂ T une suite de tribus croissante pour l’inclusion telle que T soit engendrée par tous les Fn . Alors pour tout X : Ω → R de carré intégrable, E(X | Fn ) −−−−→ X presque sûrement et en norme L2 . n→∞ Remarque Ce théorème est encore vrai si X est juste intégrable, on a alors convergence presque sûrement et en norme L1 . Preuve On a vu précédemment que la suite E(X|Fn ) est une martingale. On sait aussi qu’elle est bornée dans L2 : kE(X | Fn )k2 ≤ kXk2 . Elle converge donc presque sûrement et en norme L2 , notons X̃ sa limite et montrons que X̃ = X. Soit n0 ∈ N et n ≥ n0 . kE(X − X̃ | Fn0 )k2 = kE(E(X | Fn ) − X̃ | Fn0 )k2 ≤ kE(X | Fn ) − X̃k2 −−−−→ 0 n→∞ On a donc pour tout n0 ∈ N et A ∈ Fn0 , E(X − X̃ | Fn0 ) = 0. Ceci implique : Z A X − X̃ dP = E(1A (X − X̃)) = E(1A E(X − X̃ | Fn0 )) = 0. On en déduit que X = X̃ en posant A = d’intégration suivant. S n∈N Fn et en appliquant le résultat 84 CHAPITRE 8. THÉORIE DES MARTINGALES Proposition 24 Soit (Ω, T , P ) un espace probabilisé, Y : Ω → R intégrable, R A ⊂ T une algèbre de parties de T . Si A Y dP = 0 pour tout A ∈ A, alors Y = 0 presque sûrement. Donnons deux applications du théorème de convergence précédent. Notons T(Xk , k≥N ) ou S(Xk , k ≥ N) la tribu engendrée par toutes les variables Xk , k ≥ N. Théorème 14 (Loi du 0-1 de Kolmogorov) Soit (Xk )k∈N une suite de variables aléatoires indépendantes et A∈ \ N ∈N T(Xk , k≥N ) . Alors la probabilité de l’événement A vaut 0 ou 1 : P (A) ∈ {0, 1}. Preuve Pour n ∈ N, l’événement A appartient à la tribu T(Xk ,k≥n+1) . Il est donc indépendant de X0 , X1 , ..., Xn . On en déduit P (A) = P (A | X0 , ..., Xn ). Les tribus Fn = TX0 ,...,Xn sont croissantes et engendrent F = T(Xk , k≥0) . On peut appliquer le théorème précédent en se plaçant sur l’espace (Ω, F , P ) : P (A) = P (A | X0 , ..., Xn ) = E(1A | Fn ) −−−−→ 1A n→∞ p.s. On peut donc trouver ω ∈ Ω tel que P (A) = 1A (ω) ∈ {0, 1}. Exemple Soit (Xn )n∈N une suite de variables aléatoires indépendantes et A = {ω ∈ Ω | P k≥0 Xk converge}. On peut écrire A sous la forme suivante, pour tout N ∈ N : A = {ω ∈ Ω | X k≥N Xk converge} ∈ T(Xk ,k≥N ). D’après la loi du 0-1, l’événement A a pour probabilité 0 ou 1. Par conséquent, ou P bien pour presque tout ω ∈ Ω, la série Xk (ω) converge, ou bien pour presque P tout ω ∈ Ω, la série Xk (ω) diverge. Posons Sn = Pn k=1 Xk . Par le même raisonnement, l’ensemble {ω ∈ Ω | la suite (Sn (ω))n∈N∗ est bornée} a comme probabilité 0 ou 1. De fait, N étant donné, la suite (Sn (ω))n≥1 est bornée P si et seulement si la suite ( nk=N Xk (ω))n≥N est bornée et cette dernière suite ne dépend que de Xk pour k ≥ N. Comme autre application, montrons qu’on peut approcher presque partout toute fonction de carré intégrable définie sur [0, 1[ par des fonctions en escalier explicites. 8.4. CONVERGENCE DES ESPÉRANCES CONDITIONNELLES 85 Proposition 25 Soit f ∈ L2 ([0, 1[, dx). Alors n −1 2X k=0 2n Z k+1 2n k 2n p.s. −− −−→ f f (x) dx 1[ kn , k+1 n [ n→∞ 2 2 n −1 Preuve 2a [ . On a vu On prend pour Fn la tribu associée à la partition [0, 1[ = [ 2kn , k+1 2n k=0 précédemment que E(f | Fn ) = n −1 2X k=0 2n Z k+1 2n k 2n f (x) dx 1[ kn , k+1 . n [ 2 2 [ , n ∈ N et k ∈ {0, ..., 2n − 1}, enDe plus, les intervalles de la forme [ 2kn , k+1 2n gendrent la tribu des boréliens. Le théorème précédent montre que E(f | Fn ) → f p.s. et en norme L2 . Complément Une martingale (Mn ) est dite bornée dans L1 s’il existe C ≥ 0 tel que pour tout n ∈ N, kMn k1 ≤ C. On peut montrer qu’une telle martingale converge presque sûrement mais on n’a pas forcément la convergence en norme L1 . Cette convergence a lieu en norme L1 si et seulement si (Mn ) satisfait la condition suivante : sup E(|Mn | 1|Mn|≥λ) ) −−−−→ 0. λ→∞ n∈N Une suite de variable aléatoires (Mn ) qui satisfait cette condition est dite équiintégrable. Voici un exemple d’une telle suite. Considérons une variable aléatoire X intégrable et Fn une filtration. Alors la suite E(X | Fn ) est une martingale équiintégrable. C’est une conséquence du calcul suivant. R (|E(X|Fn )|≥λ) |E(X | Fn )| dP R ≤ (E(|X| | Fn )≥λ) E(|X| | Fn ) dP R ≤ (E(|X| | Fn )≥λ) |X| dP √ R ≤ (|X|≥√λ) |X| dP + λ P E(|X| | Fn ) > λ ≤ R √ (|X|≥ λ) |X| dP + E(|X|) √ λ La première inégalité provient de la majoration |E(X | F )| ≤ E(|X| | F ) et de la croissance de la fonction x 7→ x1x≥λ . La dernière majoration provient de l’inégalité de Markov. Comme application, on peut montrer que la suite E(X | Fn ) converge vers X aussi bien en norme L1 que presque sûrement lorsque les Fn engendrent toute la tribu T et que X est intégrable. 86 8.5 CHAPITRE 8. THÉORIE DES MARTINGALES Temps d’arrêt Définition 22 Soit (Fn ) une filtration. Une variable aléatoire τ : Ω → N ∪ {∞} est un temps d’arrêt relativement à la filtration Fn si l’événement (τ = n) est dans Fn pour tout n ∈ N. Remarque On a alors (τ ≤ n) ∈ Fn pour tout n ∈ N car (τ ≤ n) = a 0≤k≤n (τ = k) ∈ [ 0≤k≤n Fk = Fn . Théorème 15 Soit (Mn ) une martingale et τ un temps d’arrêt. On pose (n ∧ τ )(ω) = min(n, τ (ω)), (Mn∧τ )(ω) = M(n∧τ )(ω) (ω). Alors (Mn∧τ ) est une martingale. Remarque Considérons un résultat ω ∈ Ω pour lequel τ (ω) est fini. Nous avons Mn∧τ (ω) = Mn (ω) Mτ (ω) (ω) si n ≤ τ (ω) si n ≥ τ (ω) Nous voyons que si τ (ω) < ∞, la suite (Mn∧τ )(ω) est stationnaire, c’est-à-dire constante à partir d’un certain rang. La suite (Mn∧τ )n∈N converge sur l’ensemble (τ < ∞) vers la variable aléatoire ω 7→ Mτ (ω) (ω), notée Mτ . Sur l’ensemble (τ = ∞), elle coı̈ncide avec la suite (Mn ). Exemple On revient à l’exemple de la fortune Fn d’un joueur qui joue au casino. On a vu que c’est une martingale et que E(Fn ) = E(F0 ). Le joueur peut-il augmenter l’espérance de sa fortune en s’arrêtant de jouer au bon moment ? Reprenons l’exemple de la martingale consistant à doubler la mise si on est perdant. Plutôt que de jouer un nombre de fois n fixé, le joueur décide de s’arrêter au premier gain s’il y a effectivement un gain qui se produit au cours des n tirages. La variable τ (ω) = min{k ∈ N∗ | Xk (ω) = 1} est un temps d’arrêt : (τ = n) = (X1 = −1, ..., Xn−1 = −1, Xn = 1) ∈ TX1 ,...,Xn . La fortune du joueur est maintenant égale à Fn∧τ . C’est une martingale, nous avons donc E(Fn∧τ ) = E(F0∧τ ) = E(F0 ) = F0 . On ne peut pas améliorer les gains par cette méthode. 8.6. ILLUSTRATION PAR UNE MARCHE ALÉATOIRE 87 Preuve du théorème On pose Hn = 1(τ ≥n) . Cette fonction est Fn−1 -mesurable : Posons Gn = Nous avons Pn (τ ≥ n) = (τ < n)c = (τ ≤ n − 1)c ∈ Fn−1 . m=1 Hm (Mm − Mm−1 ) = Pn m=1 1(m≤τ ) (Mm − Mm−1 ). Gn (ω) = Mτ (ω) (ω) − M0 (ω) si n ≥ τ (ω), = Mn (ω) − M0 (ω) si n ≤ τ (ω). ce qui montre que Gn = Mn∧τ − M0 et nous avons vu plus haut que Gn est une martingale. 8.6 Illustration par une marche aléatoire On se donne une suite de variables aléatoires (Xk )k∈N∗ indépendantes identiquement distribuées telle que P P (Xk = 1) = P (Xk = −1) = 1/2. Posons Sn = nk=1 Xk . La suite (Sn (ω))n∈N est ici interprétée comme un déplacement sur l’ensemble des entiers Z. L’entier Sn (ω) correspond à la position de la marche au temps n, en considérant que nous sommes à l’origine au temps 0. Si nous sommes à la position Sn au temps n, nous avons une chance sur deux de nous déplacer d’un pas vers la droite au temps n + 1, et une chance sur deux de nous déplacer d’un pas vers la gauche : P (Sn+1 = Sn + 1) = P (Xn+1 = 1) = 1/2, P (Sn+1 = Sn − 1) = P (Xn+1 = −1) = 1/2. On parle ici d’une marche aléatoire symétrique sur Z. Voici une présentation imagée de cette marche aléatoire et des problématiques associées. Un individu passablement éméché se déplace sur un chemin, de réverbères en réverbères, de manière aléatoire, avec probabilité 1/2 de partir vers la gauche 88 CHAPITRE 8. THÉORIE DES MARTINGALES ou la droite à chaque étape. Sa maison se trouve en −a, le bar en b avec a, b ∈ N∗ . Deux questions se posent : - Parviendra-t-il à atteindre sa maison ou à retourner au bar ? - Quelle est la probabilité qu’il atteigne la maison avant le bar ? Théorème 16 Presque sûrement, la marche atteint −a ou b : P ({ω ∈ Ω | ∃ n ∈ N∗ tel que Sn = −a ou Sn = b}) = 1. La probabilité que la marche atteigne −a avant b est égale à b a+b : P ({ω | ∃ n ∈ N∗ tel que −a < Sk (ω) < b pour tout k < n et Sn (ω) = −a}) = b . a+b preuve Posons τ (ω) = inf{k ∈ N∗ | Sk = −a ou Sk = b} si la suite (Sn (ω)) atteint effectivement −a ou b et τ (ω) = +∞ sinon. Cette variable aléatoire τ est un temps d’arrêt à valeurs dans N ∪ {∞}. La preuve du théorème se fait en deux temps. On commence par vérifier que τ est fini presque sûrement : P (τ < ∞) = 1. La variable aléatoire ω 7→ Sτ (ω) (ω) est alors bien définie, on la note Sτ , elle ne prend que les deux valeurs −a et b. On montre ensuite que cette variable est d’espérance nulle : E(Sτ ) = 0. On a alors le système de deux équations P (Sτ = −a) + P (Sτ = b) = 1 −a P (Sτ = −a) + b P (Sτ = b) = E(Sτ ) = 0 qu’il suffit de résoudre pour trouver la probabilité P (Sτ = −a). Montrons que τ est fini presque sûrement. On a vu précédemment que l’événement {ω ∈ Ω | la suite (Sn (ω))n∈N∗ est bornée} a pour probabilité 0 ou 1. C’est une conséquence de la loi du 0-1. On veut montrer que cette probabilité vaut 0. Si cela n’est pas le cas, pour presque tout ω ∈ Ω, la suite (Sn (ω)) est bornée, ce qui implique Sn (ω) √ −−−−→ 0, n n→∞ et pour toute f continue bornée, par convergence dominée, Z R f dP √Sn n Z Sn = f √ (ω) dP (ω) −−−−→ n→∞ n Ω Z f (0) dP = f (0) = Z f (ω)dδ0(ω). 8.6. ILLUSTRATION PAR UNE MARCHE ALÉATOIRE 89 Sn converge en loi vers la mesure de Dirac en zéro, ce qui contredit La suite √ n le théorème de la limite centrée. La suite n’est pas bornée, elle atteint −a ou b presque sûrement. Nous savons maintenant que la variable Sτ est bien définie, montrons que son espérance est nulle. p.s. Sn∧τ −− −−→ Sτ et − a ≤ Sn∧τ ≤ b pour tout n ∈ N∗ . n→∞ Appliquons le théorème de convergence dominée : E(Sτ ) = lim E(Sn∧τ ). n→∞ Comme (Sn∧τ ) est une martingale, nous avons E(Sn∧τ ) = E(S1∧τ ) = E(S1 ) = 0, ce qui montre que E(Sτ ) = 0. Le théorème est démontré. Complément Donnons une autre preuve des deux résultats P (τ < ∞) = 1 et E(Sτ ) = 0 en utilisant le théorème de convergence des martingales plutôt que la loi du 0-1. Nous savons que la suite (Sn∧τ ) est une martingale dont l’espérance est nulle et qui est toujours comprise entre −a et b. Elle est donc bornée dans L2 et converge en norme L2 vers une certaine variable aléatoire Y . Par l’inégalité de CauchySchwarz, la convergence L2 implique la convergence des espérances : E(Y ) = lim E(Sn∧τ ) = 0. n→∞ Sur l’ensemble (τ = ∞), nous avons pour presque tout ω et pour tout n, Sn∧τ (ω) = Sn (ω), −a < Sn (ω) < b. La suite Sn converge donc vers Y en norme L2 sur (τ = ∞) et la suite |Sn+1 − Sn | doit converger vers 0 sur cet ensemble. Comme elle est constante égale à un, on en déduit que l’ensemble (τ = ∞) est négligeable et Y = Sτ presque sûrement. 90 8.7 CHAPITRE 8. THÉORIE DES MARTINGALES Exercices exercice 1 Soit (Xn ) une suite de variables aléatoires indépendantes identiquement disP tribuées centrées de carrés intégrables. On pose Sn = nk=1 Xk . Montrer que pour tout ε > 0, la série suivante converge presque sûrement : X k≥2 En déduire que la suite Sn √ n ln(n)1/2+ε √ |Xk | k ln(k)1/2+ε est bornée, puis qu’elle converge vers zéro. exercice 2 Soit (Mk )k∈N une martingale relativement à une filtration (Fk ). On suppose les Mk de carrés intégrables. Montrer que si les Mk sont indépendants entre eux, chacun des Mk est constant presque partout. exercice 3 Soit (Xi )i∈N une suite de variables aléatoires positives, indépendantes entre elles, telles que E(Xi ) = 1 pour tout i. On pose Mn = X1 X2 ...Xn . – Montrer que Mn est une martingale. – En déduire que Mn converge presque sûrement. La limite est notée M. On suppose maintenant que P (Xi = 1/2) = P (Xi = 3/2) = 1/2. Posons – Montrer que τn n τn (ω) = Card{1 ≤ k ≤ n | Xk (ω) = 3/2}. converge presque sûrement vers une limite qu’on calculera. – Vérifier que Mn = 3τn /2n . – En déduire que M = 0 presque sûrement puis que E ∞ Y i=1 ! Xi 6= ∞ Y E(Xi ). i=1 exercice 4 Soit a un entier strictement positif, (Xi )i∈N∗ une suite de variables aléatoires indépendantes identiquement distribuées, telles que P (Xi = 1) = P (Xi = −1) = P 1/2. On pose Sn = ni=1 Xi , Fn = TX1 ,...,Xn et on s’intéresse au premier entier τ tel que Sτ est égal à a en valeur absolue : τ (ω) = inf{k ∈ N | |Sk (ω)| = a}. – Montrer que la suite Mn = (Sn )2 − n est une martingale relativement aux (Fn ). – Montrer que τ est un temps d’arrêt relativement aux (Fn ). – Montrer que E(Mn∧τ ) = 0 pour tout n ∈ N∗ . – Montrer la convergence E(n ∧ τ )−− −−→ E(τ ). n→∞ – Montrer que pour presque tout ω ∈ Ω, il existe k ∈ N∗ tel que |Sk (ω)| = a. En déduire que |Sn∧τ | ≤ a pour tout n ∈ N∗ et (Sn∧τ )2 −− −−→ a2 p.s. n→∞ – Déduire de ce qui précède que E(τ ) = a2 . Annexe A Rappels d’intégration On rappelle dans cette annexe un certain nombre de résultats d’intégration utilisés dans le cours. Le cadre est l’intégrale de Lebesgue. On adopte les notations probabilistes : (Ω, T , P ) est un espace probabilisé, c’est-à-dire un espace mesuré pour lequel P (Ω) = 1. A.1 Théorèmes de convergence Théorème 17 (convergence croissante) Soit fn : Ω → R+ une suite de fonctions mesurables positives. On suppose que pour presque tout ω ∈ Ω, la suite (fn (ω))n∈N est croissante et on note f (ω) la limite de cette suite. Alors lim n→∞ Z Ω fn (ω) dP (ω) = Z Ω f (ω) dP (ω). Commentaire : la valeur des intégrales peut être égale à +∞. Cas particulier : en appliquant ce théorème à une suite de fonctions indicatrices 1An , où (An )n∈N est une suite d’ensembles croissante pour l’inclusion, alors P ∞ [ 0 An = lim P (An ). n Théorème 18 (lemme de Fatou) Soit fn : Ω → R+ une suite de fonctions mesurables positives. Alors Z lim inf fn (ω) dP (ω) ≤ lim inf Ω n→∞ n→∞ Z Ω fn (ω) dP (ω). Théorème 19 (convergence dominée) Soit fn : Ω → R une suite de fonctions mesurables qui converge presque partout vers une fonction f . On suppose que pour presque tout ω ∈ Ω, la suite fn (ω) est dominée par une fonction g : Ω → R+ intégrable : |fn (ω)| ≤ g(ω) pour presque tout ω ∈ Ω. 91 92 ANNEXE A. RAPPELS D’INTÉGRATION Alors lim Z n→∞ Ω Z fn (ω) dP (ω) = Ω f (ω) dP (ω). Commentaire : Nous avons supposé P (Ω) = 1 si bien que toute suite fn bornée est dominée par une fonction constante, qui est intégrable. Le théorème s’applique donc à une telle suite. Théorème 20 (interversion somme intégrale, cas positif) Soit fn : Ω → R+ une suite de fonctions mesurables positives. Alors Z X ∞ fn (ω) dP (ω) = Ω n=0 ∞ Z X n=0 Ω fn (ω) dP (ω). Commentaire : la somme de la série peut être égale à +∞. Théorème 21 (interversion somme intégrale, cas intégrable) Soit fn : Ω → R une suite de fonctions mesurables. On suppose que ∞ Z X n=0 Alors Z X ∞ Ω |fn (ω)| dP (ω) < +∞. fn (ω) dP (ω) = Ω n=0 ∞ Z X n=0 Ω fn (ω) dP (ω). Commentaire : la série qui apparaı̂t dans le second terme est convergente. A.2 Intégrales dépendant d’un paramètre Théorème 22 (continuité sous le signe intégral) Soit I un intervalle de R. Soit f : I × Ω → R une fonction mesurable telle que – pour P -presque tout ω ∈ Ω, t 7→ f (t, ω) est continue sur I, – il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I, |f (t, ω)| ≤ g(ω) Alors la fonction t 7→ R Ω lim t→t0 pour presque tout ω ∈ Ω. f (t, ω) dP (ω) est continue sur I : pour tout t0 ∈ I Z Ω f (t, ω) dP (ω) = Z Ω f (t0 , ω) dP (ω). 93 A.3. INTÉGRALES MULTIPLES Théorème 23 (dérivée sous le signe intégral) Soit I un intervalle de R et f : I × Ω → R une fonction mesurable telle que – pour tout t ∈ I, ω 7→ f (t, ω) est intégrable, – pour P -presque tout ω ∈ Ω, t 7→ f (t, ω) est dérivable en tout point t ∈ I, – il existe une fonction intégrable g : Ω → R telle que pour tout t ∈ I, ∂ f (t, ω) ∂t ≤ g(ω) pour presque tout ω ∈ Ω. Alors en tout point t ∈ I, d dt A.3 Z Ω f (t, ω) dP (ω) = Z ∂ f (t, ω) dP (ω). ∂t Ω Intégrales multiples Ici, (Ω1 , T1 , P1 ) et (Ω2 , T2 , P2 ) sont des espaces probabilisés. Théorème 24 (Fubini, cas positif) Soit f : Ω1 × Ω2 → R+ une fonction T1 ⊗ T2 -mesurable positive. Alors RR Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) = = R R Ω1 f (ω1 , ω2 ) dP1 (ω1 ) dP2 (ω2 ) Ω2 R R Ω1 Ω2 f (ω1 , ω2) dP2 (ω2 ) dP1 (ω1 ) Commentaire : les intégrales peuvent valoir +∞. Théorème 25 (Fubini, cas intégrable) Soit f : Ω1 × Ω2 → R une fonction T1 ⊗ T2 -mesurable. On suppose que Z Z Ω1 ×Ω2 |f (ω1 , ω2)| dP1 ⊗ P2 (ω1 , ω2 ) < +∞. Alors RR Ω1 ×Ω2 f (ω1 , ω2 ) dP1 ⊗ P2 (ω1 , ω2 ) = = R R Ω2 Ω1 R R Ω1 f (ω1 , ω2 )dP1 (ω1 ) dP2 (ω2 ) Ω2 f (ω1 , ω2 )dP2 (ω2 ) dP1 (ω1 ). Commentaire : la fonction f est dans L1 (Ω1 × Ω2 ). Théorème 26 (changement de variables) Soient U, V deux ouverts de Rd , ϕ : U → V un difféomorphisme de classe C 1 , f : V → R une application mesurable relativement à la mesure de Lebesgue sur V . On suppose f positive ou intégrable. Alors Z Z f (ϕ(u))Jϕ(u) du = f (v) dv U V où Jϕ(u) est le jacobien de ϕ : Jϕ(u) = |det(du ϕ)|. Commentaire : pour le changement de variables en coordonnées polaires, u = (r, θ), v = ϕ(u) = ϕ(r, θ) = (r cos(θ), r sin(θ)), du = drdθ et Jϕ(r, θ) = r. 94 A.4 ANNEXE A. RAPPELS D’INTÉGRATION Espaces Lp Rappel : ||f ||p = Z Ω |f |p dP 1/p pour 1 ≤ p < ∞. ||f ||∞ = inf{M ≥ 0 | pour presque tout ω ∈ Ω, |f (ω)| ≤ M}. Théorème 27 (convergence normale dans Lp ) Soit p ∈ [1, ∞] et (fn ) une suite de fonctions dans Lp (Ω). On suppose que X n∈N ||fn ||p < ∞. P Alors la série fn converge presque partout et en norme Lp vers une certaine fonction f ∈ Lp (Ω). Théorème 28 (inclusion des espaces Lp ) Soit p, q ∈ R tels que 1 ≤ p ≤ q ≤ ∞. Alors L∞ (Ω) ⊂ Lq (Ω) ⊂ Lp (Ω) ⊂ L1 (Ω). De plus, pour tout f : Ω → R mesurable, ||f ||1 ≤ ||f ||p ≤ ||f ||q ≤ ||f ||∞. Commentaire : le cas p = 2 est important : L∞ (Ω) ⊂ L2 (Ω) ⊂ L1 (Ω). Théorème 29 (extraction de sous-suites) Soit (fn )n∈N une suite de fonctions de Lp (Ω) qui converge au sens de la norme Lp vers une certaine fonction f dans Lp (Ω). Alors il existe une sous-suite nk telle que fnk converge presque partout vers f . Commentaire : en général, la convergence Lp n’implique pas la convergence presque partout. A.5 Inégalités Théorème 30 (inégalité de Minkowski) Soit p ∈ [1, ∞] et f, g ∈ Lp (Ω). Alors ||f + g||p ≤ ||f ||p + ||g||p. Commentaire : c’est l’inégalité triangulaire pour les normes Lp . 95 A.6. FORMULE D’INVERSION DE FOURIER Théorème 31 (inégalité de Cauchy-Schwarz) Soit f, g ∈ L2 (Ω). Alors f g est intégrable et Z f g dP ≤ ||f ||2 ||g||2. Ω Commentaire : on a égalité si et seulement si f et g sont proportionnelles. Théorème 32 (inégalité de Hölder) Soit p, q ∈ [1, ∞] tels que 1/p + 1/q = 1/r ainsi que f ∈ Lp (Ω), g ∈ Lq (Ω). Alors f g est dans Lr (Ω) et ||f g||r ≤ ||f ||p ||g||q . Commentaire : l’inégalité de Cauchy-Schwarz correspond à p = q = 2, r = 1. Théorème 33 (inégalité de Jensen) Rappelons que P (Ω) = 1. Soit ϕ : R → R une fonction convexe et f : Ω → R telle que f et ϕ ◦ f sont intégrables. Alors ϕ A.6 Z Ω f dP ≤ Z Ω ϕ ◦ f dP Formule d’inversion de Fourier Le théorème suivant est une version ponctuelle de la formule d’inversion de Fourier ; c’est l’analogue du théorème de Dirichlet pour les séries de Fourier. On donne un énoncé est un peu plus général que celui utilisé dans le cours. La convention utilisée pour la transformée de Fourier est la suivante : fˆ(t) = Z e−itx f (x)dx. R Lorsque f est intégrable, sa transformée fˆ est continue. Elle tend vers 0 en l’infini, en vertu du lemme de Riemann-Lebesgue. 1 Lemme 6 (Riemann-Lebesgue) Soit f ∈ L . Alors lim Z t→∞ R e−itx f (x) dx = 0. Ce lemme se démontre par un calcul explicite lorsque f est la fonction indicatrice d’un intervalle. Dans le cas général, il suffit d’approcher en norme L1 la fonction f par une combinaison linéaire de fonctions indicatrices. Théorème 34 (formule d’inversion de Fourier) Soit f ∈ L1 (R) et t ∈ R. On suppose que f admet une limite à gauche et une limite à droite en t, notées f (t− ) et f (t+ ). On suppose également que f est dérivable à droite et à gauche en t. Alors, Z A dx 1 − + eitx fˆ(x) f (t ) + f (t ) = lim . A→∞ −A 2 2π 96 ANNEXE A. RAPPELS D’INTÉGRATION Lorsque f est intégrable de classe C 1 et que fˆ est intégrable, la formule devient f (t) = Z 1 2π R eitx fˆ(x) dx pour tout t ∈ R. Remarquons que fˆ est intégrable dès que f est C 2 et f ′′ est intégrable. En effet, fˆ est alors continue et majorée par une constante multipliée par t12 , comme le montre l’égalité 1 fˆ(t) = − 2 fc′′ (t), t ∈ R∗ , t qui s’obtient par une intégration par partie. En particulier, la formule d’inversion est vraie pour toute fonction C ∞ à support compact. Preuve de la formule d’inversion Quitte à translater la variable, on peut supposer t = 0. On a Z dx Z dx dx Z 2 sin Ax d ˆ 1[−A,A](x)f (x) = = f (x) . 1[−A,A](x)f (x) 2π 2π x 2π R R R On va montrer que Z lim A→∞ ∞ 0 ! dx 1 2 sin Ax f (x) − f (0+ ) = 0. x 2π 2 Faisons le changement de variable y = Ax et remarquons que Z ∞ 0 Z sin Ax dx = x Z ∞ 0 π sin y dy = , y 2 Z ∞ 2 sin Ax f (x) − f (0+ ) dx dx 1 et qu’ainsi 2 sin(Ax) f (x) − f (0+ ) = . x 2π 2 x 2π 0 0 Sans le facteur 1/x, il suffirait d’appliquer le lemme de Riemann-Lebesgue. On découpe en deux l’intégrale pour analyser ce qui se passe près de 0 et loin de 0. ∞ Près de 0, on utilise l’hypothèse suivante : f (x) = f (0+ ) + xf ′ (0+ ) + x ε(x), avec lim ε(x) = 0. x→0 + (0 ) est borné sur ]0, δ]. La fonction Par conséquent, il existe δ > 0 tel que f (x)−f x + f (x)−f (0 ) 1]0,δ] (x) est intégrable et par le lemme de Riemann-Lebesgue, x lim Z δ A→+∞ 0 sin(Ax) f (x) − f (0+ ) dx = 0. x Loin de 0, sur [δ, +∞[, on a 0 < 1/x < 1/δ, et la fonction intégrable. Par Riemann-Lebesgue, lim Z A→+∞ δ ∞ sin(Ax) f (x) dx = 0. x f (x) x 1[δ,∞[(x) est A.6. FORMULE D’INVERSION DE FOURIER 97 Enfin, par définition des intégrales généralisées, on a : lim Z A→+∞ δ ∞ Z ∞ sin(Ax) sin y + f (0 ) dx = lim dy f (0+ ) = 0. A→+∞ x y Aδ On démontre de même que lim la preuve. Z 0 A→∞ −∞ dx 1 2 sin Ax f (x) = f (0− ), ce qui termine x 2π 2 98 A.7 ANNEXE A. RAPPELS D’INTÉGRATION Exercices exercice 1 Z n x n 1− Calculer n→∞ lim dx. n 0 exercice 2 Z Soit f : [0, 1] → R une fonction mesurée. Calculer lim n→∞ 0 exercice 3 Montrer l’égalité Z 1 0 Z 1 0 1 1 dx. 1 + n f (x)2 ∞ X 1 1 dx dy = . 2 1 − xy n=1 n exercice 4 Soit t > 0, calculer l’intégrale Z 0 En déduire la valeur de ∞ sin x 2 R ∞ sin x 2 0 x x e−tx dx. dx. exercice 5 Calculer de deux manières différentes l’intégrale En déduire la valeur de l’intégrale R∞ 0 ln(x) (x2 −1) dx. exercice 6 On considère la série suivante, pour x ∈ [0, 1], X 1 n q 2n |x − sin(n)| Z 0 ∞Z ∞ 0 1 dxdy. (1 + y)(1 + x2 y) . Montrer qu’elle converge pour presque tout x ∈ [0, 1], mais qu’elle diverge pour un ensemble dense de x ∈ [0, 1]. exercice 7 Z 1Z Calculer l’intégrale 0 0 1 1 dx dy en effectuant le changement de variables 1 − xy x = cos θ − t y = cos θ + t exercice 8 On se place sur R+ muni de la mesure de Lebesgue et on considère 1 . f (x) = x (1 + |ln(x)|)2 Montrer que : – f ∈ L1 ([1, ∞[) et f ∈ / Lp ([1, ∞[) si p < 1. – f ∈ L1 ([0, 1]) et f ∈ / Lp ([0, 1]) si p > 1. – f ∈ L1 ([0, ∞[) et f ∈ / Lp ([0, ∞[) si p 6= 1. 99 A.8. CONTRE-EXEMPLES A.8 Contre-exemples Vérifier les assertions suivantes en calculant les deux termes de chacune des inégalités. Expliquer pourquoi les théorèmes classiques ne s’appliquent pas dans chacun des cas. Linéarité : Z 1 1 − dx x(x + 1) x 1 0 6= Z 0 1 Z 1 dx − x(x + 1) 0 1 1 dx x Interversion limite intégrale : lim n→∞ Z 0 1 n nx dx 6= Z 1 lim nxn n→∞ 0 dx Interversion somme intégrale : Z 0 1 +∞ X k=0 xk − x2k − x2k+1 dx 6= +∞ X k=0 Z 1 xk − x2k − x2k+1 dx 0 Continuité sous le signe intégral : lim t→0 Z 0 ∞ |t| dx 1 + t2 x2 6= Z 6= Z ∞ lim t→0 0 |t| 1 + t2 x2 dx Intégrales multiples : Z 1 ∞ Z 1 ∞ ! x−y dx dy max (x3 , y 3) 1 ∞ Z 1 ∞ ! x−y dy dx max (x3 , y 3) 100 ANNEXE A. RAPPELS D’INTÉGRATION Annexe B Formulaire On collecte dans cette annexe les formules vues dans le cours. B.1 Loi d’une variable aléatoire Loi d’une variable aléatoire X PX (A) = P (X ∈ A) = P (X −1(A)) Espérance E(X) = Z Ω X dP = Z x dPX (x) R Variance V (X) = E (X − E(X)) V (X) = E(X 2 )−E(X)2 = 2 Z Z = 2 Ω (X − E(X)) dP = Z X 2 dP − Ω Formule de transfert E(g(X)) = Z Ω Ω X dP g(X) dP = 2 Z R = Z Z R R (x − E(X))2 dPX (x) g(x) dPX (x) Fonction de répartition FX (x) = P (X ≤ x) = Z x −∞ dPX (x) Fonction caractéristique itX ϕX (t) = E(e )= Z itX Ω e 101 dP = Z R Z x2 dPX (x)− eitx dPX (x) R x dPX (x) 2 102 ANNEXE B. FORMULAIRE Cas discret X PX = pxk δxk , Z R V (X) = X k∈I x dPX (x) = E(g(X)) = Ω X xk P (X = xk ) k∈I X (xk − E(X))2 P (X = xk ) = Z px k xk ∈A k∈I E(X) = X PX (A) = g(X) dP = Z k∈I x2k P (X = xk ) − g(x) dPX (x) = R X X xk P (X = xk ) k∈I g(xk )P (X = xk ) k∈I X FX (x) = P (X = xk ) xk ≤x ϕX (t) = X eitxk P (X = xk ) k Cas continu dPX (x) = fX (x) dx, PX (A) = Z E(X) = R V (X) = Z R E(g(X)) = Ω g(X) dP = Z R FX (x) = ϕX (t) = B.2 Z A fX (x) dx x fX (x) dx (x − E(X))2 fX (x) dx = Z Z Z R x2 fX (x) dx − g(x) dPX (x) = Z x −∞ R Z R Z R g(x)fX (x) dx fX (x) dx eitx fX (x) dx Inégalités Inégalité de Cauchy-Schwarz Z E(|XY |) = Ω |XY | dP ≤ sZ Ω X 2 dP sZ Ω Y 2 dP = kXk2 kY k2 Inégalité de Markov P (Y ≥ λ) ≤ E(Y ) λ si λ > 0, Y ≥ 0. 2 x fX (x) dx 2 103 B.3. COUPLES DE VARIABLES ALÉATOIRES Inégalité de Bienaymé-Tchebichev P (|X − E(X)| ≥ t) ≤ V (X) t2 si t > 0, E(X 2 ) < ∞. Majoration Lp , 1 ≤ p ≤ ∞, pour l’espérance conditionnelle si X est dans Lp . kE(X | F )kp ≤ kXkp Inégalité de Jensen conditionnelle ϕ E(X | F ) ≤ E ϕ(X) | F p.s. si ϕ est convexe et X, ϕ(X) intégrables. Inégalité maximale pour les martingales P max |Mi | ≥ λ ≤ 0≤i≤N B.3 E(MN2 ) λ2 si (Mn ) est une martingale. Couples de variables aléatoires Soit X et Y deux variables aléatoires. La loi du couple (X, Y ) est donnée par P(X,Y ) (A) = P ((X, Y ) ∈ A) = P ({ω ∈ Ω | (X(ω), Y (ω)) ∈ A}) Covariance Cov(X, Y ) = E(XY ) − E(X)E(Y ) = Z Ω XY dP − Z Ω X dP Z Ω V (X + Y ) = V (X) + V (Y ) + 2Cov(X, Y ) Formule de transfert E(g(X, Y )) = Z Ω g(X, Y ) dP = Z R2 g(x, y) dP(X,Y ) (x, y) Espérance d’un produit de variables indépendantes E(f (X)g(Y )) = E(f (X)) E(g(Y )) Loi d’un couple de variables indépendantes E(g(X, Y )) = Z R2 g(x, y) dP(X,Y ) (x, y) = Cas discret P(X,Y ) = X Z R2 g(x, y) dPX (x) dPY (y) pxi ,yj δ(xi ,yj ) i,j P(X,Y ) (A) = X i,j tels que (xi ,yj )∈A P (X = xi , Y = yj ) Y dP . 104 ANNEXE B. FORMULAIRE E(g(X, Y )) = Z g(x, y) dP(X,Y ) (x, y) = R2 X g(xi , yj ) P (X = xi , Y = yj ) i,j P (X = xi ) = X P (X = xi , Y = yj ) j Cas continu dP(X,Y ) (x, y) = fX,Y (x, y) dxdy, E(g(X, Y )) = Z R2 g(x, y) dP(X,Y ) (x, y) = fX1 (x1 ) = B.4 P(X,Y ) (A) = Z R Z R2 Z A fX,Y (x, y) dxdy g(x, y) fX,Y (x, y) dxdy fX1 ,X2 (x1 , x2 ) dx2 Convergence de variables aléatoires Convergence presque sûre p.s. Xn −−−−→ X P ({ω ∈ Ω | Xn (ω) −−−−→ X(ω)}) = 1. si n→∞ n→∞ Convergence Lp Lp Xn −−−−→ X kXn − Xkp −−−−→ 0. si n→∞ n→∞ Convergence en probabilité proba Xn −− −−→ X n→∞ si P (|Xn − X| > ε) −− −−→ 0 pour tout ε > 0. n→∞ Convergence en loi loi Xn −−−−→ X n→∞ B.5 si Z f dPXn −−−−→ n→∞ Z f dPX pour toute f continue bornée. Théorèmes limites On pose Sn = n X Xk . Alors E(Sn ) = k=1 V (Sn ) = n X E(Xk ). De plus, k=1 n X V (Xk ) si les Xi sont indépendantes. k=1 Loi faible des grands nombres Si les Xi sont i.i.d. intégrables, Sn proba −−−−→ E(X1 ) n n→∞ 105 B.6. ESPÉRANCE CONDITIONNELLE Loi forte des grands nombres Sn p.s. −−−−→ E(X1 ) n n→∞ Si les Xi sont i.i.d. intégrables, Théorème de la limite centrée S loi √n −−−−→ N (0, σ 2) n→∞ n Si les Xi sont i.i.d. centrées telles que 0 < σ(Xi )2 < ∞, Convergence des martingales bornées dans L2 Si Mn est une martingale et kMn k2 ≤ C, Mn converge p.s. et L2 Convergence de la somme dans le cas de variance bornée X Si les Xi sont indépendantes centrées et Théorème des trois séries V (Xi ) < ∞, Sn converge p.s. et L2 Soit Yi = Xi 1(|Xi |≤1) . Si les Xi sont indépendantes, Sn converge p.s. ⇔ X X P (|Xi | ≥ 1), E(Yi ), Convergence des espérances conditionnelles X V (Yi ) convergent. Si X est de carré intégrable et les Fi sont croissantes et engendrent T , p.s. et L2 E(X | Fn ) −− −−→ X n→∞ B.6 Espérance conditionnelle Caractérisation de l’espérance conditionnelle E(X | F ) est F -mesurable Propriétés E(E(X | F ) Y ) = E(XY ) pour tout Y F -mesurable E(E(X | F )) = E(X) E(Y X | F ) = Y E(X | F ) si Y est F -mesurable E(E(X | F1 ) | F2 ) = E(E(X | F2 ) | F1 ) = E(X | F1 ) Conditionnement relativement à une variable aléatoire Z f (x) E(g(Y ) | X = x) dPX (x) = Cas discret E(g(Y ) | X = x) = Z si F1 ⊂ F2 f (x) g(y) dP(X,Y ) (x, y) si f est bornée Z E(g(Y ) 1(X=x) ) 1 = g(Y ) dP P (X = x) P (X = x) (X=x) Cas continu E(g(Y ) | X = x) = R R g(y)fX,Y (x, y) dy R fX,Y (x, y) dy R 106 B.7 ANNEXE B. FORMULAIRE Martingales Caractérisation Mn est Fn − mesurable, E(Mn+1 | Fn ) = Mn pour tout n. Propriétés E(Mn+k | Fn ) = Mn pour tout k > 0. E(Mn ) = E(M0 ) pour tout n. Annexe C Références Références en français concernant les probabilités Jean Jacod, Philip Protter L’essentiel en théorie des probabilités Cassini. ISBN 978-2842250508 Dominique Foata, Aimé Fuchs Calcul des probabilités Dunod. ISBN 978-2100574247 Références en anglais concernant les probabilités Rick Durrett Probability : theory and examples. Cambridge University Press. ISBN 978-0-521-76539-8 Patrick Billingsley Probability and measure. John Wiley & Sons, Inc. ISBN 0-471-00710-2 Référence en français pour la théorie de l’intégration Marc Briane, Gilles Pagès Théorie de l’intégration, cours et exercices Vuibert. ISBN 978-2311402261 Référence en anglais pour la théorie de l’intégration Richard Mansfield Dudley Real analysis and probability. Cambridge University Press. ISBN 0-521-00754-2 Yves Coudène, Janvier 2015. 107